원격 지도 학습 데이터 노이즈 제거를 위해 확장된 최단 의존 경로를 이용한 CNN 기반 관계추출

A CNN-based Relation Extraction with Extended Shortest Dependency Path for Noise Reduction of Distant Supervision

  • 남상하 (한국과학기술원, 시맨틱웹첨단연구센터) ;
  • 한기종 (한국과학기술원, 시맨틱웹첨단연구센터) ;
  • 최기선 (한국과학기술원, 시맨틱웹첨단연구센터)
  • 발행 : 2018.10.12

초록

관계 추출을 위한 원격 지도 학습은 사람의 개입 없이 대규모 데이터를 생성할 수 있는 효율적인 방법이다. 그러나 원격 지도 학습은 노이즈 데이터 문제가 있으며, 노이즈 데이터는 두 가지 유형으로 나눌 수 있다. 첫 번째는 관계 표현 자체가 없는 문장이 연결된 경우이고, 두 번째는 관계 표현은 있는 문장이지만 다른 관계 표현도 함께 가지는 경우이다. 주로 문장의 길이가 길고 복잡한 문장에서 두 번째 노이즈 데이터 유형이 자주 발견된다. 본 연구는 두 번째 경우의 노이즈를 줄임으로써 관계 추출 모델의 성능을 향상시키기 위해 확장된 최단 의존 경로를 사용하는 CNN 기반 관계 추출 모델을 제안한다. 본 논문에서 제안한 방법의 우수성을 입증하기 위해, 한국어 위키피디아와 DBpedia 기반의 원격 지도 학습 데이터를 수집하여 평가한 결과, 본 논문에서 제안한 방법이 위 문제를 해결하는데 효과적이라는 것을 확인하였다.

키워드