Korean Spelling Corrector Based on Corpus Analysis

말뭉치를 기반으로 한 한국어 철자 교정기의 구현

  • 이병훈 (연세대학교 전산과학과) ;
  • 윤준태 (연세대학교 전산과학과) ;
  • 송만석 (연세대학교 전산과학과)
  • Published : 1993.10.08

Abstract

대량의 말뭉치에서 나타나는 맞춤법 오류의 대부분은 타자수의 입력 실수로 인한 것이다. 맞춤법 오류의 유형은 크게 띄어 쓰기 오류, 철자 오류, 띄어 쓰기와 철자의 복합 오류의 세 가지로 나타난다. 이 중, 철자 오류를 표층 형태만으로 표준어 오류, 조사/어미 오류, 자소 대치 오류로 유형을 분류하였다. 본 논문은 300만 말뭉치에서 형태소 분석이 실패한 맞춤법 오류 어절 중에서 띄어 쓰기와 철자 오류를 분석하여, 각 오류 유형에 따른 교정 방법과 자소 대치 규칙 베이스를 이용한 교정 방법을 구현하였다. 또한 형태소 분석기를 거친 40만 어절 사전을 이용한 분석기로 기존의 형태소 분석기를 대치시켜 교정 어절을 검증하였고, 위의 사전에서 추출한 순위 결정 요소와 Heuristic 정보를 이용하여 각 후보 어절에 대한 가중치를 계산하고 가능성이 높은 교정 어절을 제시하는 시스템을 구현하였다.

Keywords