BERT with subword units for Korean Morphological Analysis

Min, Jin-Woo;Na, Seung-Hoon;Sin, Jong-Hun;Kim, Young-Kil;

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
/
Pages.37-40
/
2019
/
2005-3053(pISSN)

한국정보과학회 언어공학연구회 (Human and Language Technology)

BERT에 기반한 Subword 단위 한국어 형태소 분석

BERT with subword units for Korean Morphological Analysis

민진우 (전북대학교) ;
나승훈 (전북대학교) ;
신종훈 ;
김영길

Min, Jin-Woo (Jeonbuk National University) ;
Na, Seung-Hoon (Jeonbuk National University) ;
Sin, Jong-Hun (ETRI) ;
Kim, Young-Kil (ETRI)

발행 : 2019.10.10

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

한국어 형태소 분석은 입력된 문장 내의 어절들을 지니는 최소의 단위인 형태소로 분리하고 품사 부착하는 작업을 의미한다. 기존 한국어 형태소 분석 방법은 음절 기반 연구가 주를 이루고 이를 순차 태깅 문제로 보고 SVM, CRF혹은 Bi-LSTM-CRF 등을 이용하거나 특정 음절에서 형태소의 경계를 결정하는 전이 기반 모델을 통해 분석하는 모델 등이 연구되었다. 최근 자연어 처리 연구에서 대용량 코퍼스로부터 문맥을 고려한 BERT 등의 언어 모델을 활용한 연구가 각광받고 있다. 본 논문에서는 음절 단위가 아닌 BERT를 이용한 Sub-word 기반 형태소 분석 방법을 제안하고 기분석 사전을 통해 분석하는 과정을 거쳐 세종 한국어 형태소 분석 데이터 셋에서 형태소 단위 F1 : 95.22%, 어절 정확도 : 93.90%의 성능을 얻었다.

키워드

형태소 분석

LSTM;
BERT;

과제정보

이 논문은 2019년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임(R7119-16-1001, 지식증강형 실시간 동시통역 원천기술 개발)

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

BERT에 기반한 Subword 단위 한국어 형태소 분석

BERT with subword units for Korean Morphological Analysis

초록

키워드

과제정보

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)