Korean Composed Noun Phrase Chunking Using CRF

CRF를 이용한 한국어 문장의 복합명사 상당어구 묶음

  • Park, Byul (Department of Computer Science and Engineering, Sogang University) ;
  • Seon, Choong-Nyoung (Department of Computer Science and Engineering, Sogang University) ;
  • Seo, Jung-Yun (Department of Computer Science and Interdisciplinary Program of Integrated Biotechnology, Sogang Univeristy)
  • 박별 (서강대학교 컴퓨터공학과) ;
  • 선충녕 (서강대학교 컴퓨터공학과) ;
  • 서정연 (서강대학교 컴퓨터공학과/바이오융합기술협동과정)
  • Published : 2011.10.06

Abstract

구분분석은 문장을 분석하여 문장의 구문 구조를 밝히는 작업으로, 문장이 길어질수록 문장의 중의성이 높아져 구문분석 복잡도를 증사시키고 성능이 떨어진다. 구문분석의 복잡도를 감소시키기 위한 방법 중 하나로 구묶음을 하는데 본 논문에서는 하나의 명사처럼 쓰일 수 있는 둘 이상의 연속된 명사, 대명사, 수사, 숫자와 이를 수식하는 관형사, 접두사 및 접미사를 묶어서 복합명사 상당어구라고 정의하고 복합명사 상당어구 인식 시스템을 제안한다. 본 논문은 복합명사 상당어구 인식을 기계학습을 이용한 태그 부착 문제로 간주하였다. 문장 내 띄어쓰기, 어절의 어휘 정보, 어절 내 형태소들의 품사 정보와 품사-어휘 정보를 함께 자질로 사용하였다. 실험을 위하여 세종 구문분석 말뭉치 7만여 문장을 학습과 평가에 사용했으며, 실험결과는 95.97%의 정확률과 95.11%의 재현율, 95.54%의 $F_1$-평가치를 보였고, 구문분석의 전처리로써 사용하였을 때 구문분석의 성능과 속도가 향상됨을 보였다.

Keywords