Word Sense Disambiguation in Query Translation of CLTR

교차 언어 문서 검색에서 질의어의 중의성 해소 방법

  • Kang, In-Su (Dept. of Computer Science and Engineering, POSTECH) ;
  • Lee, Jong-Hyeok (Dept. of Computer Science and Engineering, POSTECH) ;
  • Lee, Geun-Bae (Dept. of Computer Science and Engineering, POSTECH)
  • 강인수 (포항공과대학교 전자계산학과) ;
  • 이종혁 (포항공과대학교 전자계산학과) ;
  • 이근배 (포항공과대학교 전자계산학과)
  • Published : 1997.10.10

Abstract

정보 검색에서는 질의문과 문서를 동일한 표현으로 변환시켜 관련성을 비교하게 된다. 특히 질의문과 문서의 언어가 서로 다른 교차 언어 문서 검색 (CLTR : Cross-Language Text Retrieval) 에서 이러한 변환 과정은 언어 변환을 수반하게 된다. 교차 언어 문서 검색의 기존 연구에는 사전, 말뭉치, 기계 번역 등을 이용한 방법들이 있다. 일반적으로 언어간 변환에는 필연적으로 의미의 중의성이 발생되며 사전에 기반한 기존 연구에서는 다의어의 중의성 의미해소를 고려치 않고 있다. 본 연구에서는 질의어의 언어 변환시 한-일 대역어 사전 및 카도가와 시소러스 (각천(角川) 시소러스) 에 기반한 질의어 중의성 해소 방법과 공기하는 대역어를 갖는 문서에 가중치를 부여하는 방법을 제안한다. 제안된 방법들은 일본어 특허 문서를 대상으로 실험하였으며 5 %의 정확도 향상을 얻을 수 있었다.

Keywords