어휘 공기 집합과 시소러스를 활용한 한국어 동형이의에 분별

Disambiguation of Korean Homonym Using Lexical Co-occurrencing Set and Thesaurus

  • 이왕우 (울산대학교 컴퓨터정보통신공학부) ;
  • 최호섭 (울산대학교 컴퓨터정보통신공학부) ;
  • 김준수 (울산대학교 컴퓨터정보통신공학부) ;
  • 옥철영 (울산대학교 컴퓨터정보통신공학부)
  • Lee, Wang-Woo (Department of Computer Engineering and Information Technology, University of Ulsan) ;
  • Choe, Ho-Seop (Department of Computer Engineering and Information Technology, University of Ulsan) ;
  • Kim, Jun-Su (Department of Computer Engineering and Information Technology, University of Ulsan) ;
  • Ock, Cheol-Young (Department of Computer Engineering and Information Technology, University of Ulsan)
  • 발행 : 2003.10.10

초록

본 논문은 한국어 정보처리에서 발생하는 어휘 중의성 문제 중에 동형이의어 분별의 중의성을 해결하기 위하여, 유용한 구문 패턴을 바탕으로 사전 뜻풀이와 150만 어절의 말뭉치에서 어휘 공기 집합을 추출하여 동형이의어의 분별에 이용하였다. 특히, 용언류 동형이의어를 분별할 때에는 어휘 공기 집합의 자료 부족문제를 해결하기 위하여 시소러스를 이용한 어휘 공기 집합의 확장 방법을 제시한다. 시소러스 확장을 통한 분석에서 동형이의어의 분별이 실패할 경우 제한된 어절을 대상으로 통계적인 분석을 시도하여 동형이의어를 분별한다. 중의성이 높은 469개 동형이의어에 대하여 2가지 실험을 통해 각각 90.05%와 92.23%의 정확률을 얻을 수 있었다.

키워드