Automatic Named Entities Extraction Using the Graph-based Measurement Technique of the Mutual Importance

그래프 기반의 상호 중요도 측정 기법을 이용한 영역별 개체명 자동 추출

  • Published : 2008.10.10

Abstract

본 논문에서는 영역별로 자동으로 개체명을 추출하기 위하여 씨앗단어를 이용하고, 웹페이지와 개체명 후보들 간의 상호 중요도를 측정하여 개체명 후보들의 순위를 정하는 방식을 제안한다. 제안된 방식은 크게 세 단계에 의해서 수행되어 지는데 먼저 씨앗단어 정보를 이용하여 웹페이지를 검색하고, 검색되어진 웹 페이지와 씨앗단어 정보를 이용하여 패턴 규칙을 추출한다. 추출된 패턴 규칙을 웹페이지에 적용하여 개체명 후보들을 추출하고 추출된 후보들과 웹페이지 사이의 상호 중요도를 재귀적으로 계산하여 최종적으로 개체명 후보들의 순위가 정해 진다. 한국어와 영어 개체명 영역에 제안된 기법을 적용하여 실험한 결과 한국어에서는 78.72%의 MAP를 얻을 수 있었고, 영어에서는 96.48%의 MAP를 얻었다. 특히 영어 개체명 인식에서의 성능은 구글에서 제공하고 있는 구글셋의 결과보다도 높은 성능을 보였다.

Keywords