Korean Polysemy Word-Sense-Disambiguation using MoDu-Corpus

Shin, Joon-Choul;Lee, Ju-Sang;Ock, Cheol-Young;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2020.10a
/
Pages.205-210
/
2020
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Korean Polysemy Word-Sense-Disambiguation using MoDu-Corpus

모두의 말뭉치를 이용한 한국어 다의어 분별

Shin, Joon-Choul (University of Ulsan, Korean Language Processing Lab) ;
Lee, Ju-Sang (University of Ulsan, Korean Language Processing Lab) ;
Ock, Cheol-Young (University of Ulsan, Korean Language Processing Lab)

신준철 (울산대학교, 한국어처리연구실) ;
이주상 (울산대학교, 한국어처리연구실) ;
옥철영 (울산대학교, 한국어처리연구실)

Published : 2020.10.14

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

한국어 자연어처리 분야가 발달하면서 동형이의어 분별을 한 단계 넘어선 다의어 분별의 중요성이 점점 상승하고 있다. 최근에 다의어가 태깅된 "모두의 말뭉치"가 발표되었고, 이 말뭉치는 다의어가 태깅된 최초의 공개 말뭉치로써 다의어 연구가 본격적으로 진행될 수 있음을 의미한다. 본 논문에서는 이 말뭉치를 학습하여 작동하는 다의어 분별의 초기 모델을 제시하며, 이 모델의 실험 결과는 차후 연구를 위한 비교 기준점이 될 수 있다. 이 모델은 딥러닝을 사용하지 않은 통계형으로 개발되었고, 형태소분석과 동형이의어 분별은 기존의 UTagger로 해결하고 말뭉치 자원 외에도 UWordMap을 사용하여 다의어 분별을 보조하였다. 이 모델의 정확률은 약 87%이며, 다의어 분별 전에 형태소분석 또는 동형이의어 분별 단계에서 오류가 난 것을 포함한다. 현재까지 공개된 이 말뭉치는 오직 명사만 다의어 주석이 있기 때문에 명사만 정확률 측정 대상이 되었다. 이 연구를 통하여 다의어 분별의 어려움과, 다의어 분별에는 동형이의어 분별과는 다른 방법이 필요하다는 것을 확인할 수 있었다.

Keywords

UWordMap

Acknowledgement

이 논문은 2017년도 정부(과학기술정보통신부)의 재원으로 한국연구재단-리서치펠로우의 지원(NRF-2017R1A6A3A11034211, 다의어 분별과 사용자 말뭉치 연구)과 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원(No.2013-0-00131, (엑소브레인-총괄/1세부) 휴먼 지식증강 서비스를 위한 지능진화형 WiseQA 플랫폼 기술 개발)의 지원을 받아 수행된 연구임.

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

Korean Polysemy Word-Sense-Disambiguation using MoDu-Corpus

모두의 말뭉치를 이용한 한국어 다의어 분별

Abstract

Keywords

Acknowledgement

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)