A Study of Automatic Extraction of Domain Specified Dictionary

병렬 말뭉치를 이용한 도메인 특화 사전 자동 추출 연구

  • Park, Eun-Jin (Natural Language Processing Team, Electronics and Telecommunications Research Institute) ;
  • Hwang, Kum-Ha (Natural Language Processing Team, Electronics and Telecommunications Research Institute) ;
  • Kim, Young-Gil (Natural Language Processing Team, Electronics and Telecommunications Research Institute)
  • 박은진 (한국 전자 통신 연구원 자연언어처리연구팀) ;
  • 황금하 (한국 전자 통신 연구원 자연언어처리연구팀) ;
  • 김영길 (한국 전자 통신 연구원 자연언어처리연구팀)
  • Published : 2009.10.09

Abstract

본 논문에서는 도메인별 병렬 말뭉치를 이용하여 해당 도메인에 특화된 한영 대역쌍을 Moses Toolkit을 이용하여 자동 추출하였다. 이렇게 추출된 대역쌍은 도메인 특화 자동 번역 시스템의 번역 사전으로 사용하기에는 많은 오류가 포함되어 있기 때문에, 본 논문에서는 이를 효율적으로 제거할 수 있는 식을 제안하였다. 본 논문에서 제안한 식으로 오류를 제거한 결과, 임계값 0.5를 기준으로 추출된 한영 대역쌍이 1,098개였고, 이는 실험에 사용한 기업 분야 병렬 말뭉치 42,200문장 중에서 29,292문장(69.4%)에 영향을 주었다. 자동으로 추출한 도메인 특화 번역 지식을 기존 자동 번역 시스템의 번역 지식에 적용한 결과 BLEU가 0.0054 향상되었다.

Keywords