Robust Part-of-Speech Tagger using Statistical and Rule-based Approach

통계와 규칙을 이용한 강인한 품사 태거

  • Shim, Jun-Hyuk (Natural Language Processing Lab., Dept. of Computer Science & Engineering POSTECH) ;
  • Kim, Jun-Seok (Natural Language Processing Lab., Dept. of Computer Science & Engineering POSTECH) ;
  • Cha, Jong-Won (Natural Language Processing Lab., Dept. of Computer Science & Engineering POSTECH) ;
  • Lee, Geun-Bae (Natural Language Processing Lab., Dept. of Computer Science & Engineering POSTECH)
  • 심준혁 (포항공과대학교 컴퓨터공학과 자연어 처리 연구실) ;
  • 김준석 (포항공과대학교 컴퓨터공학과 자연어 처리 연구실) ;
  • 차정원 (포항공과대학교 컴퓨터공학과 자연어 처리 연구실) ;
  • 이근배 (포항공과대학교 컴퓨터공학과 자연어 처리 연구실)
  • Published : 1999.10.08

Abstract

품사 태깅은 자연 언어 처리의 가장 기본이 되는 부분으로 상위 자연 언어 처리 부분인 구문 분석, 의미 분석의 전처리로 사용되고, 독립된 응용으로 언어의 정보를 추출하거나 정보 검색 등의 응용에 사용되어 진다. 품사 태깅은 크게 통계에 기반한 방법, 규칙에 기반한 방법, 이 둘을 모두 이용하는 혼합형 방법 등으로 나누어 연구되고 있다. 포항공대 자연언어처리 연구실의 자연 언어 처리 엔진(SKOPE)의 품사 태깅 시스템 POSTAG는 미등록어 추정이 강화된 혼합형 품사 태깅 시스템이다 본 시스템은 형태소 분석기, 통계적 품사 태거, 에러 수정 규칙 후처리기로 구성되어 있다. 이들은 각각 단순히 직렬 연결되어 있는 것이 아니라 형태소 접속 테이블을 기준으로 분석 과정에서 형태소 접속 그래프를 생성하고 처리하면서 상호 밀접한 연관을 가진다. 그리고, 미등록어용 패턴사전에 의해 등록어와 동일한 방법으로 미등록어를 처리함으로써 효율적이고 강건한 품사 태깅을 한다. 한편, POSTAG에서 사용되는 태그세트와 한국전자통신연구원(ETRI)의 표준 태그세트 간에 양방향으로 태그세트 매핑을 함으로써, 표준 태그세트로 태깅된 코퍼스로부터 POSTAC를 위한 대용량 학습자료를 얻고 POSTAG에서 두 가지 태그세트로 품사 태깅 결과 출력이 가능하다. 본 시스템은 MATEC '99'에서 제공된 30000어절에 대하여 표준 태그세트로 출력한 결과 95%의 형태소단위 정확률을 보였으며, 태그세트 매핑을 제외한 POSTAG의 품사 태깅 결과 97%의 정확률을 보였다.

Keywords