• 제목/요약/키워드: Universal Dependencies

검색결과 3건 처리시간 0.016초

Universal POS 태그셋의 한국어 적용 (Universal POS Tagset for Korean)

  • 박혜진;오태환;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.417-421
    • /
    • 2018
  • The Universal Dependencies 프로젝트는 현재 71개 언어, 122개 Treebank로 이루어져 있으며, 병렬 언어 처리를 위해 여러 언어에 적용할 수 있는 형태적, 구문론적 특성을 찾는 것을 목표로 한다. 본고는 UD의 형태 태그셋인 Universal POS를 살펴보고, 한국어의 기존 형태 태그셋을 UPOS로 자동 변환하여 적용하는 방안을 제안한다. 영어와 같은 굴절어를 중심으로 구축된 UPOS 체계를 교착어에 속하는 한국어에 적용하기 위해서는 UPOS의 개별 표지와 21세기 세종계획 형태 주석 표지 결합체 간의 일대다 사상을 시도해야 한다.

  • PDF

Penn Korean Universal Dependency Treebank 데이터셋 구축 (Manual Revision of Penn Korean Universal Dependency Treebank)

  • 오태환;한지윤;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.61-65
    • /
    • 2021
  • 본 연구에서는 2018년에 공개된 Penn Korean Universal Dependency Treebank(이하 PKT-UD v2018) 데이터의 오류를 분석하고 이를 개정하여 새롭게 데이터셋(이하 PKT-UD v2020)을 구축하였다. PKT-UD v2018은 구구조 분석 방식으로 구축된 Penn Korean Treebank를 UD(Universal Dependencies)의 체계에 맞추어 자동적으로 변환한 후 보정하여 구축한 데이터이다. 본 연구에서는 이와 같은 자동 변환의 과정에서 발생한 오류를 바로 잡고, UD 체계를 최대한 활용하면서 한국어의 특성을 잘 살린 데이터셋을 구축할 수 있는 방법을 제안하였다.

  • PDF

다국어 범용 의존관계 주석체계(Universal Dependencies) 적용 연구 - 한국어와 일본어의 비교를 중심으로 (A Case Study on Universal Dependency Tagsets)

  • 한지윤;이진;이찬영;김한샘
    • 비교문화연구
    • /
    • 제53권
    • /
    • pp.163-192
    • /
    • 2018
  • 이 논문은 형태통사적 특성이 유사한 한국어와 일본어의 다국어 범용 의존관계 주석체계(Universal Dependencies, 이하 UD) 적용 사례를 살펴보고 비교 분석을 통해서 한국어의 UD 적용 및 개선 방안을 고찰하는 것을 목적으로 한다. 한국어와 일본어는 교착어적 특성으로 인하여 어미와 조사가 매우 발달되어 있다. 그러므로 영어와 같은 굴절어를 중심으로 설계된 UD를 적용하는 데에 많은 어려움이 있다. 이에 본고에서는 UD를 구성하는 범용 품사 주석(Universal POS, 이하 UPOS)과 범용 의존관계 주석(Universal Dependency Relations, 이하 DEPREL)의 적용과 그에 따른 논의들을 검토하였다. UPOS의 경우 AUX(조동사 표지), ADJ(형용사 표지), VERB(동사 표지)처럼 서술어와 관련된 주석 표지의 처리와 조사, 어미와 같은 기능어의 처리 방안을 살펴보았으며 접속사 및 이와 관련된 단위를 어떻게 처리하고 있는지 검토하였다. DEPREL과 관련해서는, 구문 표지를 주석하는 기본 단위의 문제에서 출발하여 통사적 문제를 어떻게 반영하고 있는지 살펴보았다. 지배소 설정 방식과 병렬 구조의 주석 방식, case(격 관계 표지)와 aux(조동사 관계 표지) 주석 방식을 검토하였다. 다양한 관계 주석 표지 중에서 특히 case와 aux에 집중하여 논의한 것은 한국어와의 주석 표지 적용 양상을 비교했을 때 분포 상 가장 두드러지는 차이를 나타내기 때문이다. case는 한국어와 일본어 모두 조사와 관련이 있고, aux는 한국어에서는 보조용언, 일본어에서는 조동사와 관련이 있는 표지이다. 구체적인 주석 양상을 살펴본 결과 일본어의 aux는 서법 조동사뿐만 아니라 동사에 문법적 의미를 더하는 요소, 한국어의 어미에 해당하는 형태에도 aux를 할당하기 때문에 주석이 차지하는 비율이 크게 차이가 나는 것으로 밝혀졌다. iobj(간접목적어 관계 표지)와 관련해서는 일본어에서 간접목적어를 인정하는 데에 반해 한국어에서는 간접목적어를 인정하지 않는 경우가 더 많았다. 일본어의 UD 주석에서 형태 분석 기본 단위인 '단단위'를 기본 구문 주석 단위로 하되 '장단위'와 문절 정보를 이용하는 것처럼, 한국어에서도 형태 분석 단위를 의존관계 주석의 정보로 활용하는 방안에 대해서 고려할 필요가 있다.