음절 N-Gram과 어절 통계 정보를 이용한 한국어 띄어쓰기 시스템

Korean Word Spacing System Using Syllable N-Gram and Word Statistic Information

  • 최성자 (부산대학교 컴퓨터공학과) ;
  • 강미영 (부산대학교 컴퓨터공학과) ;
  • 허희근 (부산대학교 컴퓨터공학과) ;
  • 권혁철 (부산대학교 컴퓨터공학과)
  • Choi, Sung-Ja (Korean Language Processing Lab, School of Electrical & Computer Engineering, Pusan National University) ;
  • Kang, Mi-Young (Korean Language Processing Lab, School of Electrical & Computer Engineering, Pusan National University) ;
  • Heo, Hee-Keun (Korean Language Processing Lab, School of Electrical & Computer Engineering, Pusan National University) ;
  • Kwon, Hyuk-Chul (Korean Language Processing Lab, School of Electrical & Computer Engineering, Pusan National University)
  • 발행 : 2003.10.10

초록

본 논문은 정제된 대용량 말뭉치로부터 얻은 음절 n-gram과 어절 통계를 이용한 한국어 자동 띄어쓰기 시스템을 제안한다. 한 문장 내에서 최적의 띄어쓰기 위치는 Viterbi 알고리즘에 의해 결정된다. 통계 기반 연구에 고유한 문제인 데이터 부족 문제, 학습 말뭉치 의존 문제를 개선하기 위하여 말뭉치를 확장하고 실험을 통해 얻은 매개변수를 사용하고 최장 일치 Viable Prefix를 찾아 어절 목록에 추가한다. 본 연구에 사용된 학습 말뭉치는 33,641,511어절로 구성되어 있으며 구어와 문어를 두루 포함한다.

키워드