A Transformation based Sentence Splitting method for Statistical Machine Translation

통계적 기계번역을 위한 변환 기반 문장 분할 방법

  • Lee, Jongoon (Department of Computer Science and Engineering, Pohang University of Science & Technology) ;
  • Lee, Donghyeon (Department of Computer Science and Engineering, Pohang University of Science & Technology) ;
  • Lee, Gary Geunbae (Department of Computer Science and Engineering, Pohang University of Science & Technology)
  • 이종훈 (포항공과대학교 컴퓨터공학과) ;
  • 이동현 (포항공과대학교 컴퓨터공학과) ;
  • 이근배 (포항공과대학교 컴퓨터공학과)
  • Published : 2007.10.12

Abstract

최근 활발하게 연구 되고 있는 통계 기반의 기계 번역 시스템에서는 입력 문장이 길어지면 번역 성능이 떨어지는 현상이 나타난다. 이를 완화하기 위해 긴 문장을 같은 의미의 짧은 문장들로 분할하여 각각 번역하면 기계 번역 성능을 향상 시킬 수 있다. 본 논문에서는 통계적 기계 번역을 위한 변환 기반의 문장 분할 방법을 제안한다. 변환 기반의 문장 분할 방법은 사람이 직접 분할한 예문으로부터 변환 규칙을 학습하여 기계 번역의 입력 문장에 적용함으로써 구절 기반의 통계적 기계 번역 성능을 최대화 한다.

Keywords