Study on Named Entity Recognition in Korean Text

한국어 문서에서 개체명 인식에 관한 연구

  • Lee, Kyung-Hee (Dept. of Electrical Engineering & Computer Science, KAIST) ;
  • Lee, Ju-Ho (Dept. of Electrical Engineering & Computer Science, KAIST) ;
  • Choi, Myung-Seok (Dept. of Electrical Engineering & Computer Science, KAIST) ;
  • Kim, Gil-Chang (Dept. of Electrical Engineering & Computer Science, KAIST)
  • 이경희 (한국과학기술원 전자전산학과) ;
  • 이주호 (한국과학기술원 전자전산학과) ;
  • 최명석 (한국과학기술원 전자전산학과) ;
  • 김길창 (한국과학기술원 전자전산학과)
  • Published : 2000.10.13

Abstract

본 논문에서는 개체명 사전과 결합 단어 사전, 그리고 용언의 하위범주화 사전을 이용하는 규칙 기반의 한국어 개체명 인식 방법을 제안한다. 각 규칙은 네 단계로 나누어 적용되는데, 첫번째 단계에서는 어절 내의 단어 정보를, 두번째 단계에서는 제한된 주변 문맥 정보를, 그리고 세번째 단계에서는 용언의 하위범주화 정보와 개체명과의 관계를 이응하고, 마지막으로 네번째 단계에서는 개체명 간의 관계 정보를 고려한다. 본 논문에서 제안한 규칙 기반 개체명 인식기의 성능을 평가하기 위해 실험한 결과 90.4%의 정화률과 83.4%의 재현율을 얻었다.

Keywords