Morphological Analyzer of Yonsei Univ., morany: Morphological Analysis based on Large Lexical Database Extracted from Corpus

연세대 형태소 분석기 morany: 말뭉치로부터 추출한 대량의 어휘 데이터베이스에 기반한 형태소 분석

  • Yoon, Jun-Tae (Univ. of Pennsylvania Philladelphia) ;
  • Lee, Chung-Hee (Dept. of Computer Science, College of Engineering Yonsei Univ.) ;
  • Kim, Seon-Ho (Dept. of Computer Science, College of Engineering Yonsei Univ.) ;
  • Song, Man-Suk (Dept. of Computer Science, College of Engineering Yonsei Univ.)
  • 윤준태 ;
  • 이충희 (연세대학교 공과대학 컴퓨터과학과) ;
  • 김선호 (연세대학교 공과대학 컴퓨터과학과) ;
  • 송만석 (연세대학교 공과대학 컴퓨터과학과)
  • Published : 1999.10.08

Abstract

본 논문에서는 연세대학교 컴퓨터과학과에서 연구되어 온 형태소 분석 시스템에 대해 설명한다. 연세대학교 자연 언어 처리 시스템의 기본적인 바탕은 무엇보다도 대량의 말뭉치를 기반으로 하고 있다는 점이다. 예컨대, 형태소 분석 사전은 말뭉치 처리에 의해 재구성 되었으며, 3000만 어절로부터 추출되어 수작업에 의해 다듬어진 어휘 데이터베이스는 형태소 분석 결과의 상당 부분을 제한하여 일차적인 중의성 해결의 역할을 담당한다. 또한 복합어 분석 역시 말뭉치에서 얻어진 사전을 바탕으로 이루어진다. 품사 태깅은 bigram hmm에 기반하고 있으며 어휘 규칙 등에 의한 후처리가 보강되어 있다. 이렇게 구성된 형태소 분석기 및 품사 태거는 구문 분석기와 함께 연결되어 이용되고 있다.

Keywords