Dynamic Sampling Scheduler for Unbalanced Data Classification

불균형 범주 분류를 위한 동적 샘플링 스케줄러

  • Published : 2021.10.14

Abstract

우리는 범주 불균형 분류 문제를 해결하기 위해 학습 과정 중 범주 크기 기반 배치 샘플링 방법 전환을 위한 스케줄링 방법을 제안한다. 범주별 샘플링 확률로 범주 크기의 역수(LWRS-Reciporcal)와 범주 비율의 반수(LWRS-Ratio)를 적용하여 각각 실험을 진행하였고, LWRS-Reciporcal 방법이 F1 성능 개선에 더 효과적인 것을 확인하였다. 더하여 고정된 샘플링 확률값으로 인해 발생할 수 있는 또 다른 편향 문제를 완화하기 위해 학습 과정 중 샘플링 방법을 전환하는 스케줄링 방법을 설계하였다. 결과적으로 검증 성능의 갱신 유무로 샘플링 방법을 전환하였을 때 naver shopping 데이터셋과 KLUE-TC에 대하여 f1 score와 accuracy의 성능 합이 베이스라인보다 각각 0.7%, 0.8% 향상된 가장 이상적인 성능을 보임을 확인하였다.

Keywords

Acknowledgement

이 논문은 2021년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임[No.2018-0-00440, 위험 상황 초기 인지를 위한 ICT 기반의 범죄 위험도 예측 및 대응 기술 개발]