여과 및 분리 기법을 이용한 한국어 기준명사 추출

Base-Noun Extraction with Filtering and Segmentation in Korean

  • 김재훈 (컴퓨터공학과, 한국해양대학교, 첨단정보기술연구센터) ;
  • 김준홍 (컴퓨터공학과, 한국해양대학교, 첨단정보기술연구센터) ;
  • 박호진 (컴퓨터공학과, 한국해양대학교, 첨단정보기술연구센터)
  • Kim, Jae-Hoon (Department of Computer Engineering, Korea Maritime University, Advanced Information Technology Research Center) ;
  • Kim, Jun-Hong (Department of Computer Engineering, Korea Maritime University, Advanced Information Technology Research Center) ;
  • Park, Ho-Jin (Department of Computer Engineering, Korea Maritime University, Advanced Information Technology Research Center)
  • 발행 : 2000.10.13

초록

웹의 등장으로 방대한 양의 문서를 다루는 정보검색, 정보추출, 정보요약 등의 분야에서 명사 추출은 대단히 중요한 역할을 담당하는 한 모듈이다. 본 논문에서는 대량의 문서에서 효과적으로 명사를 추출하기 위해 여과기법과 분리기법을 이용한 한국어 기준명사 추출 시스템을 기술한다. 기준명사는 명사들 중에서 기본이 되는 명사로서 복합명사는 제외된다. 본 논문의 기본적인 개념은 먼저 여과기법을 이용해서 명사를 포함하지 않은 어절을 미리 제거하고, 그리고 분리기법을 이용해서 명사가 포함된 어절에서 명사어구와 조사를 분리하고, 복합명사에 해당할 경우에는 각 명사를 분리하여 기준명사를 추출한다. ETRI 말뭉치를 대상으로 실험한 결과 재현율과 정확률 모두 약 89% 정도의 성능을 보였으며, 제안된 시스템을 한국어 정보시스템에 적용해 보았을 때, 좋은 결과를 얻을 수 있었다.

키워드