A Hybrid N-best Part-of-Speech Tagger for English-Korean Machine Translation

영한 기계 번역을 위한 혼합형 N-best 품사 태거

  • Lim, Heui-Seok (HCI Lab, Samsung Advanced Institute of Technology) ;
  • Kwon, Cheol-Joong (HCI Lab, Samsung Advanced Institute of Technology) ;
  • Lee, Jae-Won (HCI Lab, Samsung Advanced Institute of Technology) ;
  • Oh, Ki-Eun (HCI Lab, Samsung Advanced Institute of Technology)
  • 임희석 (삼성종합기술원 휴먼인터페이스 Lab.) ;
  • 권철중 (삼성종합기술원 휴먼인터페이스 Lab.) ;
  • 이재원 (삼성종합기술원 휴먼인터페이스 Lab.) ;
  • 오기은 (삼성종합기술원 휴먼인터페이스 Lab.)
  • Published : 1998.10.09

Abstract

기계 번역 시스템에서 품사 태거의 오류는 전체번역 정확률에 결정적인 영향을 미친다. 따라서 어휘 단계의 정보만으로는 중의성 해소가 불가능한 단어에 대해서는 중의성 해소에 충분한 정보를 얻을 수 있는 구문 분석이나 의미 분석 단계까지 완전한 중의성 해소를 유보하는 N-best 품사 태거가 요구된다. 또한 N-best 품사 태거는 단어에 할당되는 평균 품사 개수를 최소화함으로써 상위 단계의 부하를 줄이는 본연의 역할을 수행하여야 한다. 본 논문은 통계 기반 품사 태깅 방법을 이용하여 N-best 후보를 선정하고, 선정된 N-best 후보에 언어 규칙을 적용하여 중의성을 감소시키거나 오류를 보정하는 혼합형 N-best 품사 태깅 방법을 제안한다 제안된 N-best 품사 태거는 6만여 단어의 영어 코퍼스에서 실험한 결과, 단어 당 평균 1.09개의 품사를 할당할 때 0.43%의 오류율을 보인다.

Keywords