Multilingual Named Entity Recognition with Limited Language Resources

Cheon, Min-Ah;Kim, Chang-Hyun;Park, Ho-min;Noh, Kyung-Mok;Kim, Jae-Hoon;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2017.10a
/
Pages.143-146
/
2017
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Multilingual Named Entity Recognition with Limited Language Resources

제한된 언어 자원 환경에서의 다국어 개체명 인식

Cheon, Min-Ah (Korea Maritime and Ocean University) ;
Kim, Chang-Hyun (Electronics and Telecommunications Research Institute) ;
Park, Ho-min (Korea Maritime and Ocean University) ;
Noh, Kyung-Mok (Korea Maritime and Ocean University) ;
Kim, Jae-Hoon (Korea Maritime and Ocean University)

천민아 (한국해양대학교) ;
김창현 (한국전자통신연구원) ;
박호민 (한국해양대학교) ;
노경목 (한국해양대학교) ;
김재훈 (한국해양대학교)

Published : 2017.10.13

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

심층학습 모델 중 LSTM-CRF는 개체명 인식, 품사 태깅과 같은 sequence labeling에서 우수한 성능을 보이고 있다. 한국어 개체명 인식에 대해서도 LSTM-CRF 모델을 기본 골격으로 단어, 형태소, 자모음, 품사, 기구축 사전 정보 등 다양한 정보와 외부 자원을 활용하여 성능을 높이는 연구가 진행되고 있다. 그러나 이런 방법은 언어 자원과 성능이 좋은 자연어 처리 모듈(형태소 세그먼트, 품사 태거 등)이 없으면 사용할 수 없다. 본 논문에서는 LSTM-CRF와 최소한의 언어 자원을 사용하여 다국어에 대한 개체명 인식에 대한 성능을 평가한다. LSTM-CRF의 입력은 문자 기반의 n-gram 표상으로, 성능 평가에는 unigram 표상과 bigram 표상을 사용했다. 한국어, 일본어, 중국어에 대해 개체명 인식 성능 평가를 한 결과 한국어의 경우 bigram을 사용했을 때 78.54%의 성능을, 일본어와 중국어는 unigram을 사용했을 때 각 63.2%, 26.65%의 성능을 보였다.

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

Multilingual Named Entity Recognition with Limited Language Resources

제한된 언어 자원 환경에서의 다국어 개체명 인식

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)