특허문서의 한국어 화합물 개체명 인식

Korean Chemical Named Entity Recognition in Patent Documents

  • 신진섭 (한국과학기술정보연구원) ;
  • 김경민 (한국과학기술정보연구원) ;
  • 김성찬 (한국과학기술정보연구원) ;
  • 이문용 (한국과학기술원 )
  • 발행 : 2023.10.12

초록

화합물 관련 한국어 문서는 화합물 정보를 추출하여 그 용도를 발견할 수 있는 중요한 문서임에도 불구하고 자연어 처리를 위한 말뭉치의 구축이 되지 않아서 활용이 어려웠다. 이 연구에서는 최초로 한국 특허 문서에서 한국어 화합물 개체명 인식(Chemical Named Entity Recognition, CNER)을 위한 말뭉치를 구축하였다. 또한 구축된 CNER 말뭉치를 기본 모델인 Bi-LSTM과 KorBERT 사전학습 모델을 미세 조정하여 개체명 인식을 수행하였다. 한국어 CNER F1 성능은 Bi-LSTM 기반 모델이 83.71%, KoCNER 말뭉치를 활용하는 자연어 처리 기술들은 한국어 논문에 대한 화합물 개체명 인식으로 그 외연을 확대하고, 한국어로 작성된 화합물 관련 문서에서 화합물 명칭뿐만 아니라 물성, 반응 등의 개체를 추출하고 관계를 규명하는데 활용 될 수 있을 것이다.

키워드

과제정보

본 연구는 문화체육관광부 및 한국콘텐츠진흥원의 2021년도 저작권보호 및 이용활성화 기술개발(R&D) 사업으로 수행되었음 (과제명: 학술자료 이미지(표, 도표 등)에 대한 저작권 검증 기술 개발, 과제번호: CR202104001, 기여율: 50%)