A Comparative Study on the Performance of Korean Sentence Embedding

Seok, Juree;Lim, Heuiseok;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2021.10a
/
Pages.444-449
/
2021
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

A Comparative Study on the Performance of Korean Sentence Embedding

Word2Vec, GloVe 및 RoBERTa 등의 모델을 활용한 한국어 문장 임베딩 성능 비교 연구

Seok, Juree (Korea University) ;
Lim, Heuiseok (Korea University)

석주리 (고려대학교 컴퓨터학과) ;
임희석 (고려대학교 컴퓨터학과)

Published : 2021.10.14

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

자연어처리에서 임베딩이란 사람의 언어를 컴퓨터가 이해할 수 있는 벡터로 변환한 것으로 자연어처리의 필수 요소 중 하나이다. 본 논문에서는 단어 기반 임베딩인 Word2Vec, GloVe, fastText와 문장 기반 임베딩 기법인 BERT와 M-USE, RoBERTa를 사용하여 한국어 문장 임베딩을 만들어 NSMC, KorNLI, KorSTS 세 가지 태스크에 대한 성능을 확인해보았다. 그 결과 태스크에 따라서 적합한 한국어 문장 임베딩 기법이 달라지며, 태스크에 따라서는 BERT의 평균 임베딩보다 GloVe의 평균 임베딩과 같은 단어 기반의 임베딩이 좋은 성능을 보일 수 있음을 확인할 수 있었다.

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

A Comparative Study on the Performance of Korean Sentence Embedding

Word2Vec, GloVe 및 RoBERTa 등의 모델을 활용한 한국어 문장 임베딩 성능 비교 연구

Abstract

Keywords

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)