사회연계망 구축을 위한 인용 매칭에서의 인용 필드 분해 영향 분석

Influence of Citation Field Segmentation on Citation Matching for Social Network Construction

  • 구희관 (과학기술연합대학원대학교 응용정보과학) ;
  • 강인수 (한국과학기술정보연구원 정보기술개발단) ;
  • 정한민 (한국과학기술정보연구원 정보기술개발단) ;
  • 이승우 (한국과학기술정보연구원 정보기술개발단) ;
  • 성원경 (한국과학기술정보연구원 정보기술개발단)
  • 발행 : 2007.10.12

초록

인용 매칭(Citation Matching, CM)은 동일한 논문을 지칭하는 인용레코드(Citation Record)를 군집화하는 것으로 인용 관계를 가진 사회연계망 구축시 필요한 기술의 하나이다. 인용 매칭의 전단계로써, 인용 레코드를 저자, 논문 제목, 게재지명, 발행연도 등의 필드로 구분하는 인용 필드 분해가 고려될 수 있다. 본 논문은 인용 필드 분해(Citation Field Segmentation, CFS)와 인용 매칭의 상관관계를 분석하고자 한다. 즉, 인용 필드 분해가 인용 매칭에 필수적인 단계인지를 밝히고 개별 인용 필드가 인용 매칭에 미치는 영향을 분석한다. 실험을 통해 인용 필드 분해를 한 인용 매칭(CFS-based CM)이 인용 필드 분해를 적용하지 않은 인용 매칭(CFS-free CM)에 비해 1% 내외의 성능의 차이를 보이므로, 인용매칭의 성능에 크게 영향을 미친다고 보기 어려웠다. 이는 인용 레코드의 서로 다른 필드들 사이에서 어휘 중복 비율이 크게 낮기 때문에 따로 필드를 구별하지 않아도 필드가 구별되는 특성때문이었다.

키워드