Rated Recall: Evaluation Method for Constructing Bilingual Lexicons

등급 재현율: 이중언어 사전 구축에 대한 평가 방법

  • Seo, Hyeong-Won (Korea Maritime University, Computer Engineering Institute) ;
  • Kwon, Hong-Seok (Korea Maritime University, Computer Engineering Institute) ;
  • Kim, Jae-Hoon (Korea Maritime University, Computer Engineering Institute)
  • 서형원 (한국해양대학교 IT공학부) ;
  • 권홍석 (한국해양대학교 IT공학부) ;
  • 김재훈 (한국해양대학교 IT공학부)
  • Published : 2013.10.06

Abstract

이중언어 사전 구축 방법을 평가하는 방법에는 정확률, 재현율, MRR(Mean Reciprocal Rank) 등이 있다. 이들 방법들은 평가 집합에 있는 대역어를 정확하게 찾는 것에 초점을 맞추고 있다. 그러나 어떤 대역어가 얼마나 많이 사용되는지는 전혀 고려하지 않는다. 즉 자주 사용되는 대역어를 빨리 찾을 수 있는 방법이 좋은 방법이라고 말할 수 있다. 이와 같은 문제를 해결하기 위해서 본 논문에서는 이중언어 사전 구축의 새로운 평가 방법인 등급 재현율을 제안한다. 등급 재현율(rated recall)은 대역어가 학습 말뭉치에 나타난 정도를 반영하는 재현율이며, 자주 사용되는 대역어를 얼마나 정확하게 찾는지를 파악할 수 있는 좋은 측도이다. 본 논문에서는 문맥벡터와 중간언어를 이용한 이중언어 사전 구축 시스템의 성능을 평가하고 기존의 방법과 비교 분석하였다.

Keywords