An Empirical Study of Topic Classification for Korean Newspaper Headlines

Park, Jeiyoon;Kim, Mingyu;Oh, Yerim;Lee, Sangwon;Min, Jiung;Oh, Youngdae;

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
/
Pages.287-292
/
2021
/
2005-3053(pISSN)

한국정보과학회 언어공학연구회 (Human and Language Technology)

한국어 뉴스 헤드라인의 토픽 분류에 대한 실증적 연구

An Empirical Study of Topic Classification for Korean Newspaper Headlines

박제윤 (엘솔루) ;
김민규 (동국대학교) ;
오예림 (한국외국어대학교) ;
이상원 (인천대학교) ;
민지웅 (애자일소다) ;
오영대 (엘솔루)

Park, Jeiyoon (LLSOLLU) ;
Kim, Mingyu (Dongguk University) ;
Oh, Yerim (Hankuk University of Foreign Studies) ;
Lee, Sangwon (Incheon University) ;
Min, Jiung (Agilesoda) ;
Oh, Youngdae (LLSOLLU)

발행 : 2021.10.14

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

좋은 자연어 이해 시스템은 인간과 같이 텍스트에서 단순히 단어나 문장의 형태를 인식하는 것 뿐만 아니라 실제로 그 글이 의미하는 바를 정확하게 추론할 수 있어야 한다. 이 논문에서 우리는 뉴스 헤드라인으로 뉴스의 토픽을 분류하는 open benchmark인 KLUE(Korean Language Understanding Evaluation)에 대하여 기존에 비교 실험이 진행되지 않은 시중에 공개된 다양한 한국어 라지스케일 모델들의 성능을 비교하고 결과에 대한 원인을 실증적으로 분석하려고 한다. KoBERT, KoBART, KoELECTRA, 그리고 KcELECTRA 총 네가지 베이스라인 모델들을 주어진 뉴스 헤드라인을 일곱가지 클래스로 분류하는 KLUE-TC benchmark에 대해 실험한 결과 KoBERT가 86.7 accuracy로 가장 좋은 성능을 보여주었다.

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

한국어 뉴스 헤드라인의 토픽 분류에 대한 실증적 연구

An Empirical Study of Topic Classification for Korean Newspaper Headlines

초록

키워드

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)