DOI QR코드

DOI QR Code

A Study on Automatic Classification of Newspaper Articles Based on Unsupervised Learning by Departments

비지도학습 기반의 행정부서별 신문기사 자동분류 연구

  • Kim, Hyun-Jong (Smart Governance Research Center, Dong-A University) ;
  • Ryu, Seung-Eui (Smart Governance Research Center, Dong-A University) ;
  • Lee, Chul-Ho (Business and Technology Management, Korea Advanced Institute of Science and Technology) ;
  • Nam, Kwang Woo (Department of Urban Planning & Engineering, Kyungsung University)
  • 김현종 (동아대학교 스마트거버넌스연구센터) ;
  • 유승의 (동아대학교 스마트거버넌스연구센터) ;
  • 이철호 (한국과학기술원 기술경영학부) ;
  • 남광우 (경성대학교 도시공학과)
  • Received : 2020.05.29
  • Accepted : 2020.09.04
  • Published : 2020.09.30

Abstract

Administrative agencies today are paying keen attention to big data analysis to improve their policy responsiveness. Of all the big data, news articles can be used to understand public opinion regarding policy and policy issues. The amount of news output has increased rapidly because of the emergence of new online media outlets, which calls for the use of automated bots or automatic document classification tools. There are, however, limits to the automatic collection of news articles related to specific agencies or departments based on the existing news article categories and keyword search queries. Thus, this paper proposes a method to process articles using classification glossaries that take into account each agency's different work features. To this end, classification glossaries were developed by extracting the work features of different departments using Word2Vec and topic modeling techniques from news articles related to different agencies. As a result, the automatic classification of newspaper articles for each department yielded approximately 71% accuracy. This study is meaningful in making academic and practical contributions because it presents a method of extracting the work features for each department, and it is an unsupervised learning-based automatic classification method for automatically classifying news articles relevant to each agency.

행정기관은 정책 대응성을 제고하기 위해 빅데이터 분석에 관심을 기울이고 있다. 빅데이터 중 뉴스 기사는 정책 이슈와 정책에 대한 여론을 파악하는데 중요한 자료로 활용될 수 있다. 한편으로 새로운 온라인 매체의 등장으로 뉴스 기사의 생산은 급격히 증가하고 있어 문서 자동분류를 통해 기사를 수집할 필요가 있다. 그러나 기존 뉴스 기사의 범주와 키워드 검색방법으로는 특정 행정기관 및 부서별로 업무에 관련된 기사를 자동적으로 수집하는 것에 한계가 있었다. 또한 기존의 지도학습 기반의 분류 기법은 다량의 학습 데이터가 필요한 단점을 가지고 있다. 이에 본 연구에서는 행정부서의 업무특징을 포함한 분류사전을 활용하여 기사의 분류를 효과적으로 처리하기 위한 방법을 제안한다. 이를 위해 행정 기관의 업무와 신문기사를 Word2Vec와 토픽모델링 기법으로 부서별 특징을 추출하여 분류사전을 생성하고, 행정 부서별로 신문기사를 자동분류 한 결과 71%정도의 정확도를 얻었다. 본 연구는 행정부서별 신문기사를 자동분류하기 위해 부서별 업무 특징 추출 방법과 비지도학습 기반의 자동분류 방법을 제시하였다는 학문적·실무적 기여점이 있다.

Keywords

References

  1. T. Kurtoglu, I. Y. Tumer, D. C. Jensen, "A functional failure reasoning methodology for evaluation of conceptual system architecture", Research in Engineering Design, Vol. 21, No. 4, pp. 209-234, Oct. 2010. DOI: http://doi.org/10.1007/s00163-010-0086-1
  2. S. G. Hong, H. J. Kim, N. R. Kim, "Development of a Co-creation Model for the Social Problem Resolution", Information, Vol. 19, NO.8, pp. 3395-3400, Aug. 2016.
  3. J. S. Kim, Y. J. Kim, H. J. Mun, Y. T. Woo, " A Feature Selection Technique for an Efficient Document Automatic Classification", Journal of Information Technology Applications & Management, Vol. 8, No. 1, pp. 117-128, Jul. 2001.
  4. D. Koller, M. Sahami, "Hierarchically Classifying Documents Using Very Few Words", Proceedings of the Fourteenth International Conference on Machine Learning, ICML 97, pp. 170-178, Jul. 1997.
  5. J. Y Jeong, K. H. Mo, S. W. Seo, C. Y. Kim, H. D. Kim, P. S. Kang, "Unsupervised Document Multi-Category Weight Extraction based on Word Embedding and Word Network Analysis : A Case Study on Mobile Phone Reviews", Journal of the Korean Institute of Industrial Engineers, Vol. 44, No. 6, pp. 442-451, Dec. 2018. https://doi.org/10.7232/JKIIE.2018.44.6.442