Post-processing for Korean OCR Using Cohesive Feature between Syllables and Syntactic Lexical Feature

한국어의 음절 결합 특성 및 통사적 어휘 특성을 이용한 문자인식 후처리 시스템

  • Hwang, Young-Sook (NLP Lab. Dept. of Computer Science & Engineering Korea Univ.) ;
  • Park, Bong-Rae (NLP Lab. Dept. of Computer Science & Engineering Korea Univ.) ;
  • Rim, Hae-Chang (NLP Lab. Dept. of Computer Science & Engineering Korea Univ.)
  • 황영숙 (고려대학교 컴퓨터학과 자연어처리 연구실) ;
  • 박봉래 (고려대학교 컴퓨터학과 자연어처리 연구실) ;
  • 임해창 (고려대학교 컴퓨터학과 자연어처리 연구실)
  • Published : 1997.10.10

Abstract

지금까지의 한글 문자인식 후처리 연구분야에서 미등록어와 비문맥적 오류 문제는 아직까지 잘 해결하지 못하고 있는 문제이다. 본 논문에서는 단어로서 가능한지를 결정하는 기준으로 확률적 음절 결합 정보를 사용하여 형태소 분석 기법만을 사용했을 때 발생할 수 있는 미등록어 문제를 해결하고, 통사적 기능의 어말 어휘를 고려한 문맥 결합 정보를 이용함으로써 다수의 후보 어절 가운데에서 최적의 후보 어절을 선택하는 방법을 제안한다. 제안된 시스템은 인식기에서 내보낸 후보 음절과 학습된 혼동 음절을 조합하여 하나 이상의 후보 어절을 생성하는 모듈과 통계적 언어 정보를 이용하여 최적의 후보 어절을 선정하는 모듈로 구성되었다. 실험은 1000만 원시 코퍼스에서 추출한 음절 결합 정보와 17만 태깅된 코퍼스에서 추출한 어절 결합 정보를 사용하였으며, 실제 인식 결과에 적용한 결과 문자 단위에서는 94.1%의 인식률을 97.4%로, 어절 단위에서는 87.6%를 96.6%로 향상시켰다. 교정률과 오교정률은 각각 문자 단위에서 56%와 0.6%, 어절 단위에서 83.9%와 1.66%를 보였으며, 전체 실험 어절의 3.4%를 차지한 미등록어 중 87.5%를 올바로 인식하는 한편, 전체 오류의 20.3%인 비문맥 오류에 대해서 91.6%를 올바로 교정하는 후처리 성능을 보였다.

Keywords