대용량 오프라인 한글 글씨 데이타베이스의 설계

Design of Large-set Off-line Handwritten Hangul Database Construction

  • 이성환 (고려대학교 전산과학과) ;
  • 송희헌 (한국전자통신연구소) ;
  • 김종수 (충북대학교 컴퓨터과학과) ;
  • 이응재 (충북대학교 컴퓨터과학과) ;
  • 박희선 (충북대학교 컴퓨터과학과)
  • 발행 : 1995.10.07

초록

최근들어 자연스럽게 필기된 한글을 인식함으로써 정보 입력 과정을 자동화하기 위한 오프라인 한글 글씨 인식에 관한 연구가 활발히 진행되고 있다. 오프라인 한글 글씨 인식에 관한 연구에 있어서 반드시 확보되어야 하는 연구 환경으로 대용량 오프라인 한글 글씨 데이타베이스의 구축을 들 수 있는데, 본 논문에서는 시스템공학연구소 국어공학센터의 국어 정보 베이스 개발사업의 일환으로 추진중인 오프라인 한글 글씨 데이타베이스의 구축현황에 대해 간략히 소개하고자 한다. 오프라인 한글 글씨 데이타베이스의 구축은 크게 글씨 데이타베이스 설계, 글씨 데이타 수집, 용지 스캔 및 문자 단위 분할, 데이타베이스 검증의 4 단계로 구성된다. 본 연구에서는 다양한 변형을 갖는 글씨체의 수집을 데이타베이스 구축시 가장 고려해야 할 요소로 삼았으며, 고품질의 일관성 있는 글씨 데이타베이스 구축을 위해 데이타베이스 설계 단계와 검증 단계에 많은 시간을 할애했다. 마지막으로 본 연구에서는 WWW(World Wide Web)의 HTML(Hyper Text Markup Language)을 이용하여 편리 한 사용자 인터페이스를 구현함으로써 사용자들이 쉽게 한글 글씨 영상을 검색 할 수 있음은 물론 인식 알고리즘의 개발에 사용 가능한 형태의 화일을 제공받을 수 있도록 구성하고 있다. 현재는 KS C 완성형 한글 2,350자 중에서 사용 빈도순 상위 520자에 대한 한글 글씨 1,000벌을 수집하여 명도영상 데이타베이스를 구축 중에 있으며, 향후 2년간 나머지 1,830자에 대한 한글 글씨 데이타를 수집하여 데이타베이스를 완성하고자 한다. 구축된 글씨 데이타베이스는 조만간 국내의 오프라인 한글 글씨 인식 연구자들에게 제공되어 우수한 인식 알고리즘의 개발을 위한 중요한 실험 데이타로서 사용될 예정이며, 개발된 인식 시스템에 대한 객관적인 성능 평가에 있어서도 크게 기여하여 국내의 오프라인 한글 글씨 인식에 관한 연구를 활성화시켜주는 계기가 될 것으로 기대된다.

키워드