Pivot Weighting Approach to Extract Korean Paraphrases

피봇 가중치 접근을 통한 한국어 패러프레이즈 추출

  • Park, Esther (Dept. of Computer and Radio Communications Engineering, Korea University) ;
  • Lee, Hyoung-Gyu (Dept. of Computer and Radio Communications Engineering, Korea University) ;
  • Kim, Min-Jeong (Dept. of Computer and Radio Communications Engineering, Korea University) ;
  • Rim, Hae-Chang (Dept. of Computer and Radio Communications Engineering, Korea University)
  • 박에스더 (고려대학교 컴퓨터.전파 통신공학과) ;
  • 이형규 (고려대학교 컴퓨터.전파 통신공학과) ;
  • 김민정 (고려대학교 컴퓨터.전파 통신공학과) ;
  • 임해창 (고려대학교 컴퓨터.전파 통신공학과)
  • Published : 2010.10.08

Abstract

이중 언어 병렬 말뭉치를 이용하는 패러프레이즈 추출 과정에서는 일반적으로 다른 언어를 피봇 언어로 하여 단어 및 구 정렬 과정을 두 번 거친다. 따라서 단어 정렬의 오류 전파 문제가 큰 단점이 된다. 특히 한국어와 영어와 같이 언어의 구조적인 차이가 큰 경우, 단어 정렬 오류가 더 많고 이로 인해 잘못된 피봇 프레이즈가 선정되는 문제가 더욱 심각하다. 이런 문제를 보완하기 위해, 본 논문에서는 패러프레이즈 추출 과정에서 피봇 프레이즈를 차별화하는 방안으로서, 올바른 피봇 프레이즈에 더 높은 가중치를 부여 하는 방법을 제안한다. 실험 결과, 기존의 패러프레이즈 추출 방법에 제안하는 피봇 가중치 부여 방법을 추가적으로 적용했을 때, 패러프레이즈 추출 정확률과 재현율이 모두 향상됨을 확인할 수 있었다.

Keywords