Incremental Early Text Classification system for Early Risk Detection

조기 위험 검출을 위한 점진적 조기 텍스트 분류 시스템

  • Bae, Sohyeun (Graduate School of Artificial Intelligence, Pohang University of Science and Technology) ;
  • Lee, Geun-Bae (Graduate School of Artificial Intelligence, Pohang University of Science and Technology)
  • 배소현 (포항공과대학교 인공지능대학원) ;
  • 이근배 (포항공과대학교 인공지능대학원)
  • Published : 2021.10.14

Abstract

조기 위험 검출은 실시간으로 들어오는 텍스트를 순차적으로 처리하면서 해당 대화에 위험이 있는지 조기에 분류하는 작업으로, 정확도 저하를 최소화하는 동시에 가능한 한 빨리 대화를 분류하는 것을 목적으로 한다. 이러한, 조기 위험 검출은 온라인 그루밍 검출, 보이스 피싱 검출과 같은 다양한 영역에 활용될 수 있다. 이에, 본 논문에서는 조기 위험 검출 문제를 정의하고, 이를 평가할 수 있는 데이터 셋과 Latency F1 평가 지표를 소개한다. 또한, 점진적 문장 분류 모듈과 위험 검출 결정 모듈로 구성된 점진적 조기 텍스트 분류 시스템을 제안한다. 점진적 문장 분류 모듈은 이전 문장들에 대한 메모리 벡터와 현재 문장 벡터를 통해 현재까지의 대화를 분류한다. 위험 검출 결정 모듈은 softmax 분류 점수와 강화학습을 기반으로 하여 Read 또는 Stop 판단을 내린다. 결정 모듈이 Stop 판단을 내리면, 현재까지의 대화에 대한 분류 결과를 전체 대화의 분류 결과로 간주하고 작업을 종료한다. 해당 시스템은 micro F1과 Latency F1 지표 각각에서 0.9684와 0.8918로 높은 검출 정확성 및 검출 신속성을 달성하였다.

Keywords

Acknowledgement

이 논문은 2021년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임 (No.2021-0-00575, 음성·텍스트 딥러닝 기반 보이스피싱 예방 기술 개발)