KorSciQA: A Dataset for Machine Comprehension of Korean Scientific Paper

Hahm, Younggyun;Jeong, Youngbin;Jeong, Heeseok;Hwang, Hyekyong;Choi, Key-Sun;

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
/
Pages.207-212
/
2019
/
2005-3053(pISSN)

한국정보과학회 언어공학연구회 (Human and Language Technology)

KorSciQA: 한국어 논문의 기계독해 데이터셋

KorSciQA: A Dataset for Machine Comprehension of Korean Scientific Paper

함영균 (한국과학기술원) ;
정용빈 (한국과학기술원) ;
정희석 (한국과학기술정보연구원) ;
황혜경 (한국과학기술정보연구원) ;
최기선 (한국과학기술원)

Hahm, Younggyun (KAIST) ;
Jeong, Youngbin (KAIST) ;
Jeong, Heeseok (KISTI) ;
Hwang, Hyekyong (KISTI) ;
Choi, Key-Sun (KAIST)

발행 : 2019.10.10

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

본 논문에서는 한국어로 쓰여진 과학기술 논문에 대한 기계독해 과제(일명 KorSciQA)를 제안하고자 하며, 그와 수반하는 데이터 구축 및 평가를 보고한다. 다양한 제약조건이 부가된 크라우드소싱 디자인을 통하여, 498개의 논문 초록에 대해 일관성 있는 품질의 2,490개의 질의응답으로 구성된 기계독해 데이터셋을 구축하였다. 이 데이터셋은 어느 논문에서나 나타나는 논박 요소들인 논의하는 문제, 푸는 방법, 관련 데이터, 모델 등과 밀접한 질문으로 구성되고, 각 논박 요소의 의미, 목적, 이유 파악 및 다양한 추론을 하여 답을 할 수 있는 것이다. 구축된 KorSciQA 데이터셋은 실험을 통하여 기존의 기계독해 모델의 독해력으로는 풀기 어려운 도전과제로 평가되었다.

키워드

과제정보

본 연구는 2019년도 한국과학기술정보연구원(KISTI) 주요사업 과제로 수행한 것입니다.

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

KorSciQA: 한국어 논문의 기계독해 데이터셋

KorSciQA: A Dataset for Machine Comprehension of Korean Scientific Paper

초록

키워드

과제정보

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)