A method for morphological correction of ambiguous error

한글 문서에서 형태적 중의 오류의 교정

  • Kim, Min-Ju (Dept. of Computer Engineering, Kyungpook National University) ;
  • Jeong, Jun-Ho (Dept. of Computer Engineering, Kyungpook National University) ;
  • Lee, Hyeon-Ju (Dept. of Korean Language & Literature, Kyungpook National University) ;
  • Choe, Jae-Hyeok (Dept. of Computer Education, Silla University) ;
  • Kim, Hang-Jun (Dept. of Computer Engineering, Kyungpook National University) ;
  • Lee, Sang-Jo (Dept. of Computer Engineering, Kyungpook National University)
  • 김민주 (경북대학교 컴퓨터공학과) ;
  • 정준호 (경북대학교 컴퓨터공학과) ;
  • 이현주 (경북대학교 국어국문학과) ;
  • 최재혁 (신라대학교 컴퓨터교육과) ;
  • 김항준 (경북대학교 컴퓨터공학과) ;
  • 이상조 (경북대학교 컴퓨터공학과)
  • Published : 1998.10.09

Abstract

교정 시스템에 나타나는 오류 유형들 중에는 전체적인 교정률에 차지하는 비중은 적지만 출현할 때마다 틀릴 가능성이 아주 높은 오류들이 있다. 기존의 교정 시스템에서는 이러한 오류들에 대한 처리가 미흡한데, 철자 오류와 띄어쓰기 오류 중 형태가 비슷하거나 같은 형태가 다른 기능을 함으로써 발생하는 오류들이다. 이러한 오류는 일반 문서 작성자뿐만 아니라 한글 맞춤법에 대해 어느 정도 지식을 가진 사람의 경우에도 구분이 모호하다. 복합 명사와 미등록어를 제외한 오류 중 약 30%가 여기에 속한다. 따라서 본 논문에서는 이러한 오류 유형들을 분류하고, 이 중에서 빈번하게 출현하는 오류에 대한 교정을 시도하고, 오류 유형들이 문장 내에서 어떤 분포를 가지는지 알아본다. 약 617만 어절의 말뭉치를 이용하여 해당 형태와 다른 성분들과의 관련성을 조사하여 교정 방법을 제시하고, 형태소 분석을 하여 교정을 행한다. 코퍼스 655만 어절 대상으로 실험한 결과 84.6%의 교정률을 보였다. 본 논문에서 제시한 교정 방법은 기존의 교정 시스템에 추가되어 교정 시스템의 전체 교정률을 향상시킬 수 있다. 또한 이와 비슷한 유형의 다른 어휘 교정에 대한 기초 자료로 사용될 수 있을 것이다.

Keywords