The Layered Structural Tagging Program for Seaching

언어자료 검색을 위한 계층구조형 형태소 분석 프로그램

  • 강용희 (동경대학대학원 종합문화연구과 언어정보학과)
  • Published : 2001.10.12

Abstract

1999년 제1회 형태소 분석기 및 품사태거 평가 워크숍 이후 표준안에 대한 새로운 대안이나 문제제기등을 제시한 논문은 전무하다. 본 연구에서는 평가대회 참가 이후 표준안을 수정한 새로운 유형의 형태소 분석 프로그램을 제작하여 그 실용성과 앞으로의 발전 가능성과 문제점을 밝혀, 계층구조형의 형태소분석 시스템을 채택하고 있는 일본의 JUMAN을 참조 새로운 유형의 형태소 분석형식을 제시한다. 본 연구는 일본방송협회 방송기술연구소(이하 NHK기술 연구소)의 의뢰에 인한 것이며 어절단위의 표준안과 다른 형태소 단위를 기본요소로 삼고 있으며 활용형을 갖고 있는 용언에 대해서는 활용형의 전개를 하고 있다. 어절단위로 탈피한 이유는 형태소 분석의 기본요소로써 어절단위 보다는 형태소 단위를 기준으로 삼는 것이 생산성이 높다고 생각된다. 어절정보와 문장정보는 XML(extensible makrup language)등의 별도의 정보를 주는 방법을 채택했다. 음절말음이 자음인지 모음인지의 음운 정보에 따라 활용형을 차별했으며 표준안과 달리 명사의 종류와 개념을 세분화했다. 아울러 조사와 어미등의 검색어와 함께 음절을 형성하고 있는 비검색어 대상은 배제하는 프로그램과 표준안의 어절방식으로 출력하는 3가지 프로그램을 작성했다. 본 연구에서는 계층구조의 형태소분석 프로그램의 가능성과 한국어의 특성을 고려한 출력항목등을 고찰하는 것을 목적으로 한다.

Keywords