Word and class-based language modeling for Korean

단어와 클래스 기반의 한국어 언어 모델링

  • 김길연 (한국과학기술원 전산학부) ;
  • 최기선 (한국과학기술원 전산학부)
  • Published : 2001.10.12

Abstract

본 논문에서는 대량의 말뭉치를 바탕으로 한국어에 대해 단어 기반의 n-gram 언어 모델과 클래스 기반의 언어 모델을 구축하고, 이를 실험적으로 검증한다. 단어 기반의 n-gram 모델링의 경우 Katz의 백오프와 Kneser-ney의 스무딩(smoothing) 알고리즘에 대해 실험을 수행한다. 클래스 기반의 언어 모델의 경우에는 품사 태그를 단어의 클래스로 사용한 경우와 말뭉치로부터 자동으로 구축된 클래스를 사용한 경우로 나누어 실험한다. 마지막으로 단어 기반 모델과 클래스 기반 모델을 결합하여 각각의 모델과 그 성능을 비교한다. 실험 결과 단어 기반의 언어 모델의 경우 Katz의 백오프에 비해 Knerser-ney의 스무딩이 보다 조은 성능을 나타내었다. 클래스 기반의 모델의 경우 품사 기반의 방범보다 자동 구축된 단어 클래스를 이용하는 방법의 성능이 더 좋았다. 또한, 단어 모델과 클래스 모델을 결합한 모델이 가장 좋은 성능을 나타냈다. 논문의 모든 알고리즘은 직접 구현되었으며 KLM Toolkit이란 이름으로 제공된다.

Keywords