Bi-LSTM-CRF and Syllable Embedding for Automatic Spacing of Korean Sentences

Lee, Hyun-Young;Kang, Seung-Shik;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2018.10a
/
Pages.605-607
/
2018
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Bi-LSTM-CRF and Syllable Embedding for Automatic Spacing of Korean Sentences

음절 임베딩과 양방향 LSTM-CRF를 이용한 한국어 문장 자동 띄어쓰기

Lee, Hyun-Young (Dept. of Computer Science, Kookmin University) ;
Kang, Seung-Shik (Dept. of Computer Science, Kookmin University)

이현영 (국민대학교 컴퓨터공학과) ;
강승식 (국민대학교 컴퓨터공학과)

Published : 2018.10.12

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

본 논문에서는 음절 임베딩과 양방향 LSTM-CRF 모델을 이용한 한국어 문장 자동 띄어쓰기 시스템을 제안한다. 문장에 대한 자질 벡터 표현을 위해 문장을 구성하는 음절을 Unigram 및 Bigram으로 나누어 각 음절을 연속적인 벡터 공간에 표현하고, 양방향 LSTM을 이용하여 현재 자질에 양방향 자질들과 의존성을 부여한 새로운 자질 벡터를 생성한다. 이 새로운 자질 벡터는 전방향 신경망과 선형체인(Linear-Chain) CRF를 이용하여 최적의 띄어쓰기 태그 열을 예측하고, 생성된 띄어쓰기 태그를 기반으로 문장 자동 띄어쓰기를 수행하였다. 문장 13,500개와 277,718개 어절로 이루어진 학습 데이터 집합과 문장 1,500개와 31,107개 어절로 이루어진 테스트 집합의 학습 및 평가 결과는 97.337%의 음절 띄어쓰기 태그 분류 정확도를 보였다.

Keywords

Bi-LSTM

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

Bi-LSTM-CRF and Syllable Embedding for Automatic Spacing of Korean Sentences

음절 임베딩과 양방향 LSTM-CRF를 이용한 한국어 문장 자동 띄어쓰기

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)