A study of Corpus Annotation for Aspect Based Sentiment Analysis of Korean financial texts

한국어 경제 도메인 텍스트 속성 기반 감성 분석을 위한 말뭉치 주석 요소 연구

  • Seoyoon Park (Institute of Language and Information Studies, Yonsei University) ;
  • Yeonji Jang (National Institute of Korean Language) ;
  • Yejee Kang (Institute of Language and Information Studies, Yonsei University) ;
  • Hyerin Kang (Institute of Language and Information Studies, Yonsei University) ;
  • Hansaem Kim (Institute of Language and Information Studies, Yonsei University)
  • 박서윤 (연세대학교 언어정보연구원) ;
  • 장연지 (국립국어원) ;
  • 강예지 (연세대학교 언어정보연구원) ;
  • 강혜린 (연세대학교 언어정보연구원) ;
  • 김한샘 (연세대학교 언어정보연구원)
  • Published : 2022.10.18

Abstract

본 논문에서는 미세 조정(fine-tuning) 및 비지도 학습 기법을 사용하여 경제 분야 텍스트인 금융 리포트에 대해 속성 기반 감성 분석(aspect-based sentiment analysis) 데이터셋을 반자동적으로 구축할 수 있는 방법론에 대한 연구를 수행하였다. 구축 시에는 속성기반 감성분석 주석 요소 중 극성, 속성 카테고리 정보를 부착하였으며, 미세조정과 비지도 학습 기법인 BERTopic을 통해 주석 요소를 자동적으로 부착하는 한편 이를 수동으로 검수하여 데이터셋의 완성도를 높이고자 하였다. 데이터셋에 대한 실험 결과, 극성 반자동 주석의 경우 기존에 구축된 데이터셋과 비슷한 수준의 성능을 보였다. 한편 정성적 분석을 통해 자동 구축을 동일하게 수행하였더라도 기술의 원리와 발달 정도에 따라 결과가 상이하게 달라짐을 관찰함으로써 경제 도메인의 ABSA 데이터셋 구축에 여전히 발전 여지가 있음을 확인할 수 있었다.

Keywords