A Study on the Construction of Korean Hate Speech Corpus: Based on the Attributes of Online Toxic Comments

한국어 혐오 표현 코퍼스 구축 방법론 연구: 온라인 악성 댓글에 나타나는 특성을 중심으로

  • Published : 2020.10.14

Abstract

온라인 공간에서 특정인, 혹은 특정 집단의 사람들을 대상으로 한 혐오 표현은 당사자에게 정신적 고통을 미칠 뿐 아니라 이를 보는 이에게도 간접적인 불쾌함을 유발한다. 이에 관한 문제의식은 사회적으로 공감대가 형성된 바 있지만, 아직 한국어에서는 많은 연구들이 혐오 표현 자체의 논의에 집중하고 있으며, 이는 실제로 관찰되는 혐오 표현들의 자동 탐지 및 예방에는 효과적인 정보를 제공하지 못하는 것이 사실이다. 이에 우리는 실제 온라인 댓글들을 탐구하여 혐오, 모욕 및 사회적 편견을 탐지할 수 있는 모델 학습에 필요한 코퍼스 구축 가이드라인을 제작하였다. 구체적인 사례를 동반한 가이드라인과 크라우드소싱을 바탕으로 약 9천 3백 문장 가량의 코퍼스를 구축하였으며, 해당 데이터에 관한 개요와 함께 우리의 접근 방식이 어떤 점에서 기존의 담론과 연관되어 있는지에 대한 분석을 제시한다.

Keywords

Acknowledgement

함께 데이터를 분석한 이준범 님, 그리고 크라우드소싱에 도움을 주신 김현중 님께 감사의 말씀을 전합니다.