Word Segmentation System Using Extended Syllable bigram

확장된 음절 bigram을 이용한 자동 띄어쓰기 시스템

  • 임동희 (국민대학교 컴퓨터학부) ;
  • 전영진 (국민대학교 컴퓨터학부) ;
  • 김형준 (국민대학교 컴퓨터학부) ;
  • 강승식 (국민대학교 컴퓨터학부)
  • Published : 2005.10.21

Abstract

본 논문은 통계 기반 방법인 음절 bigram을 이용한 자동 띄어쓰기를 기본 방법으로 하고 경우의 수를 세분화한 확장된 음절 bigram을 이용한 공백 확률, 띄어쓰기 통계를 바탕으로 최종 띄어쓰기 임계치 차등 적용, 에러 사전 적용 3가지 방법을 추가로 사용하는 경우 기본적인 방법만을 쓴 경우보다 띄어쓰기 정확도가 향상된다는 것을 확인하였다. 그리고 해당 음절에 대한 bigram이 없는 경우 확장된 음절 unigram을 통해 근사적으로 계산해 데이터부족 문제를 개선하였다. 한국어 말뭉치와 중국어 말뭉치에 대한 실험을 통해 본 논문에서 제안하는 방법이 한국어 자동 띄어쓰기뿐만 아니라 중국어 단어 분리에 적용할 수 있다는 것도 확인하였다.

Keywords