Contrastive Learning of Sentence Embeddings utilizing Semantic Search through Re-Ranker of Cross-Encoder

문장 임베딩을 위한 Cross-Encoder의 Re-Ranker를 적용한 의미 검색 기반 대조적 학습

  • Dongsuk Oh (Department of Computer Science and Engineering, Korea University) ;
  • Suwan Kim (Department of Computer Science and Engineering, Korea University) ;
  • Kinam Park (Human-inspired AI & Computing Research Center) ;
  • Heuiseok Lim (Department of Computer Science and Engineering, Korea University)
  • 오동석 (고려대학교 컴퓨터학과) ;
  • 김수완 (고려대학교 컴퓨터학과) ;
  • 박기남 (Human-inspired 복합지능연구센터) ;
  • 임희석 (고려대학교 컴퓨터학과)
  • Published : 2022.10.18

Abstract

문장 임베딩은 문장의 의미를 고려하여 모델이 적절하게 의미적인 벡터 공간에 표상하는 것이다. 문장 임베딩을 위해 다양한 방법들이 제안되었지만, 최근 가장 높은 성능을 보이는 방법은 대조적 학습 방법이다. 대조적 학습을 이용한 문장 임베딩은 문장의 의미가 의미적으로 유사하면 가까운 공간에 배치하고, 그렇지 않으면 멀게 배치하도록 학습하는 방법이다. 이러한 대조적 학습은 비지도와 지도 학습 방법이 존재하는데, 본 논문에서는 효과적인 비지도 학습방법을 제안한다. 기존의 비지도 학습 방법은 문장 표현을 학습하는 언어모델이 자체적인 정보를 활용하여 문장의 의미를 구별한다. 그러나, 하나의 모델이 판단하는 정보로만 문장 표현을 학습하는 것은 편향적으로 학습될 수 있기 때문에 한계가 존재한다. 따라서 본 논문에서는 Cross-Encoder의 Re-Ranker를 통한 의미 검색으로부터 추천된 문장 쌍을 학습하여 기존 모델의 성능을 개선한다. 결과적으로, STS 테스크에서 베이스라인보다 2% 정도 더 높은 성능을 보여준다.

Keywords

Acknowledgement

이 논문은 2021년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(NRF-2021R1A6A1A03045425) 이 논문은 2022년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(NRF-2022R1A2C1007616)