한국어정보검색에서 구문적 용어불일치 완화방안

Alleviating Syntactic Term Mismatches in Korean Information Retrieval

  • 윤보현 (고려대학교 컴퓨터학과 자연어처리연구실) ;
  • 김상범 (고려대학교 컴퓨터학과 자연어처리연구실) ;
  • 임해창 (고려대학교 컴퓨터학과 자연어처리연구실)
  • Yun, Bo-Hyun (NLP Lab., Dept. of Computer Science and Engineering, Korea University) ;
  • Kim, Sang-Bum (NLP Lab., Dept. of Computer Science and Engineering, Korea University) ;
  • Rim, Hae-Chang (NLP Lab., Dept. of Computer Science and Engineering, Korea University)
  • 발행 : 1998.10.09

초록

한국어 정보검색에서 복합명사와 명사구로 발생하는 색인어와 질의어간의 구문적 용어 불일치는 많은 문제를 일으켜왔다. 본 논문에서는 복합명사 분해와 명사구 정규화를 함께 수행하여 유사도 측정값을 적당히 유지함으로써 재현율을 저하시키지 않고서 정확률을 향상시킬 수 있는 구문적 용어불일치 완화방안을 제시하고자 한다 색인모듈에서는 통계정보를 이용하여 복합명사를 분해하고, 의존관계를 이용하여 명사구를 정규화한다. 분해되고 정규화된 키워드에 경계정보 '/'가 할당되고, 가중치가 계산된다. 검색모듈에서는 경계정보를 이용하여 부분일치를 고려하는 유사도 계산을 수행한다. KTSET 2.0으로 실험한 결과, 제안한 방법은 구문적 용어불일치를 완화할 수 있으며, 재현율을 저하시키지 않고서 정확률을 향상시킬 수 있음을 보인다.

키워드