Korean Named Entity Recognition Based on Supervised Learning Using Named Entily Construction Principles

개체명 구성 원리를 이용한 교사학습 기반의 한국어 개체명 인식

  • 황이규 (한국전자통신연구원 휴먼정보처리연구부) ;
  • 이현숙 (한국전자통신연구원 휴먼정보처리연구부) ;
  • 정의석 (한국전자통신연구원 휴먼정보처리연구부) ;
  • 윤보현 (한국전자통신연구원 휴먼정보처리연구부) ;
  • 박상규 (한국전자통신연구원 휴먼정보처리연구부)
  • Published : 2002.10.11

Abstract

개체명 인식은 질의응답(QA), 정보 주줄(IE), 텍스트 마이닝 시스템의 성능 향상에 중요한 역할을 담당한다. 이 논문에서는 교사학습 기반의 한국어 개체명 인식에 대해 설명한다. 한국어에서 많은 개체명들이 하나 이상의 단어로 구성되어 있으며, 개체명을 구성하는 단어 사이에는 의존 관계가 존재하고, 개체명과 개체명 주위의 단어 사이에도 문맥적 의존관계를 가지고 있다. 본 논문에서는 가변길이의 개체명과 주변 문맥의 학습을 위해 트라이그램을 이용한 HMM을 사용하였으며, 자료 부족 문제를 해소하기 위해 어휘 기반이 아닌 부개체 유형 기반의 학습을 수행하였다. 학습된 개체명 인식 시스템을 이용하여 경제 분야의 신문 기사에 대한 실험 결과, 84.4%의 정확률과 90.9%의 재현률을 보였다.

Keywords