미등록어 처리가 강화된 복합명사 분해

Compound Noun Analysis Strengthened Unknown Noun Processing

  • 김응균 (충북대학교 컴퓨터공학과) ;
  • 서영훈 (충북대학교 컴퓨터공학과)
  • Kim, Eung-Gyun (Department of Computer Engineering, Chungbuk National University) ;
  • Seo, Young-Hoon (Department of Computer Engineering, Chungbuk National University)
  • 발행 : 2003.10.10

초록

본 논문에서는 분해 패턴을 이용한 재사용 분해 알고리즘과 외래어 인식, 이름 명사 인식, 지명 인식에 의한 미등록어 추정을 이용한 복합명사 분해 방법을 제안한다. 재사용 분해 알고리즘은 현재 분해되는 음절보다 짧은 길이의 음절에서 사용된 분해 방법을 재사용하여 분해가 이루어짐을 의미한다. 외래어 인식에서는 한국어 음절에서 비교적 사용 빈도가 낮은 음절들로 외래어가 구성이 됨을 이용한다. 이름 명사는 한국인의 이름 특성에서 한자 독음을 차용하여 작명이 이루어지기 때문에 일정한 수의 음절이 반복적으로 사용되는 점을 이용하여 인식한다. 지명 인식 방법은 지명이 출현하는 패턴을 분석하여 지명 사전의 검색으로 인식한다. 이와 같이 지명 사전에 의한 지명 인식과 알고리즘에 의한 외래어 및 이름 명사 인식 방법을 사용함으로써 미등록어 추정에 정확성을 높이고 분해 정확율 향상에 기여한다. 실험 결과 미등록어가 포함된 약 1,500어절에 대해 약 98%의 정확율이 나타났고, 미등록어가 사전에 모두 등재된 후의 실험에서는 약 99%의 정확율을 보였다.

키워드