Processing of Inflectional forms for the French-Korean Collocational Database

불-한 연어 데이터베이스 구축을 위한 굴절 정보의 처리

  • Yoon, Ae-Sun (Department of French, Pusan National University) ;
  • Jeong, Hwi-Woong (Interdisciplinary Program of Cognitive Science, Pusan National University) ;
  • Kwon, Hyuk-Chul (School of Electrical and Computer Engineering, Pusan National University)
  • 윤애선 (부산대학교 불어불문학과) ;
  • 정휘웅 (부산대학교 인지과학 협동과정) ;
  • 권혁철 (부산대학교 전자전기정보컴퓨터 공학부)
  • Published : 2001.10.12

Abstract

구(phrase) 단위 또는 문장(sentence) 단위의 연어(collocation) 정보는 자연언어 처리를 위한 단일어 또는 이중어 데이터베이스를 구축할 수 있는 중요한 기초 자료가 될 뿐 아니라, 외국어 학습에서도 어휘 단계를 넘어선 학습 자료를 제공할 수 있다. 불어는 굴절 언어(inflectional language)로서 기본형 대 굴절형의 비율이 약 1:9 정도로 비교적 굴절 비율이 높은 언어다. 또한 불어 표제어 중 95% 이상을 차지하는 불어의 동사, 명사, 형용사 중 상당한 비율이 암기해야 할 목록(list)이라는 특성을 갖기 때문에 검색과 학습에 있어 오류가 지속적으로 일어나는 부분이다. 표제어의 검색의 경우 불어 굴절 현상을 지원하는 전자 사전이 개발되어 있지만 아직까지 연어 정보에서 굴절형을 지원할 수 사전 또는 데이터베이스는 개발되어 있지 않다. 본 연구의 목적은 전자 사전과 형태소 분석기를 이용하여 굴절형 처리를 지원할 수 있는 불-한 연어 데이터베이스를 구축하는데 있다. 이를 위해 부산대학교 언어정보 연구실에서 개발한 불어 형태소 분석기 Infection와 불-한 전자 사전 Franco를 사용하였으며, 지금까지 구축된 불-한 연어 정보는 94,965 개이다. 본 고에서는 두 정보를 이용하여 불어 굴절형 정보를 분석 및 생성하는 방식 및 불-한 연어 데이터베이스 구조를 살펴 본다.

Keywords