A Construction of Josa/Eomi Dictionary using Relative Frequency

상대적 출현 빈도를 이용한 조사/어미 사전의 구성

  • Kang, Seung-Shik (School of Information and Computer Engineering, Hansung University)
  • 강승식 (한성대학교 정보전산학부)
  • Published : 1995.10.07

Abstract

한글 문서에서는 일부 조사와 일부 어미가 자주 출현하며 그 외의 조사/어미는 출현 빈도가 낮을 것으로 추측되고 있다. 본 연구에서는 실험에 통해서 이러한 사실을 확인하고 자주 출현하는 통합형 조사와 어미의 빈도를 구하기 위하여 한국어 말뭉치에서 통합형 조사와 통합형 어미의 상대적 출현 빈도를 조사하였다. 통합형 조사의 상대적 출현 빈도를 조사한 결과 말뭉치의 분야에 따라 약간의 차이가 있으나 평균 상위 9개의 통합형 조사가 전체 조사의 70%를 차지하고 있으며 상위 20개, 32개, 69개의 통합형 조사가 각각 90%, 95%, 99%를 차지하고 있음을 확인하였다. 통합형 어말어미의 경우에는 상위 10개의 통합형 어말어미가 전체 어말어미의 70%를 차지하고 상위 33개, 54개, 117개의 통합형 어미가 각각 90%, 95%, 99%를 차지하고 있다. 본 논문에서는 조사, 어미의 상대적 출현 빈도에 따라 계층적으로 조사/어미 사진을 구성함으로써 형태소 분석 효율을 높이고 형태소 분석기가 다양한 응용 분야에 쉽게 적응할 수 있도록 하는 방법을 제안한다. 또한 통합형 조사, 어미의 상대적 출현 빈도는 미등록어 추정을 용이하게 하거나 형태론적 모호성을 해결할 때에도 유용하게 활용될 수 있음을 보인다.

Keywords