• 제목/요약/키워드: Dependency parsing

검색결과 83건 처리시간 0.027초

포인터 네트워크를 이용한 한국어 의존 구문 분석 (Korean Dependency Parsing using Pointer Networks)

  • 박천음;이창기
    • 정보과학회 논문지
    • /
    • 제44권8호
    • /
    • pp.822-831
    • /
    • 2017
  • 본 논문에서는 멀티 태스크 학습 기반 포인터 네트워크를 이용한 한국어 의존 구문 분석 모델을 제안한다. 멀티 태스크 학습은 두 개 이상의 문제를 동시에 학습시켜 성능을 향상시키는 방법으로, 본 논문에서는 이 방법에 기반한 포인터 네트워크를 이용하여 어절 간의 의존 관계와 의존 레이블 정보를 동시에 구하여 의존 구문 분석을 수행한다. 어절 기반의 의존 구문 분석에서 형태소 기반의 멀티 태스크 학습 기반 포인터 네트워크를 수행하기 위하여 입력 기준 5가지를 정의하고, 성능 향상을 위하여 fine-tuning 방법을 적용한다. 실험 결과, 본 논문에서 제안한 모델이 기존 한국어 의존 구문 분석 연구들 보다 좋은 UAS 91.79%, LAS 89.48%의 성능을 보였다.

Proper Noun Embedding Model for the Korean Dependency Parsing

  • Nam, Gyu-Hyeon;Lee, Hyun-Young;Kang, Seung-Shik
    • Journal of Multimedia Information System
    • /
    • 제9권2호
    • /
    • pp.93-102
    • /
    • 2022
  • Dependency parsing is a decision problem of the syntactic relation between words in a sentence. Recently, deep learning models are used for dependency parsing based on the word representations in a continuous vector space. However, it causes a mislabeled tagging problem for the proper nouns that rarely appear in the training corpus because it is difficult to express out-of-vocabulary (OOV) words in a continuous vector space. To solve the OOV problem in dependency parsing, we explored the proper noun embedding method according to the embedding unit. Before representing words in a continuous vector space, we replace the proper nouns with a special token and train them for the contextual features by using the multi-layer bidirectional LSTM. Two models of the syllable-based and morpheme-based unit are proposed for proper noun embedding and the performance of the dependency parsing is more improved in the ensemble model than each syllable and morpheme embedding model. The experimental results showed that our ensemble model improved 1.69%p in UAS and 2.17%p in LAS than the same arc-eager approach-based Malt parser.

Biaffine 한국어 의존파서 (Biaffine Dependency Parser for Korean)

  • ;민태홍;윤준영;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.678-681
    • /
    • 2018
  • Dependency parsing is an important task in natural language processing whose results are used in many downstream tasks such as machine translation, information retrieval, relation extraction, question answering and many others. Most of the dependency parsing literature focuses on using end-to-end and sequence-to-sequence neural architectures as the core of the system. One such system, namely Biaffine dependency parser is explored in the current paper for effective dependency parsing of Korean language.

  • PDF

의존 구문 분석을 이용한 질의 기반 정답 추출 (Query-based Answer Extraction using Korean Dependency Parsing)

  • 이도경;김민태;김우주
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.161-177
    • /
    • 2019
  • 질의응답 시스템은 크게 사용자의 질의를 분석하는 방법인 질의 분석과 문서 내에서 적합한 정답을 추출하는 방법인 정답 추출로 이루어지며, 두 방법에 대한 다양한 연구들이 진행되고 있다. 본 연구에서는 문장의 의존 구문 분석 결과를 이용하여 질의응답 시스템 내 정답 추출의 성능 향상을 위한 연구를 진행한다. 정답 추출의 성능을 높이기 위해서는 문장의 문법적인 정보를 정확하게 반영할 필요가 있다. 한국어의 경우 어순 구조가 자유롭고 문장의 구성 성분 생략이 빈번하기 때문에 의존 문법에 기반한 의존 구문 분석이 적합하다. 기존에 의존 구문 분석을 질의응답 시스템에 반영했던 연구들은 구문 관계 정보나 구문 형식의 유사도를 정의하는 메트릭을 사전에 정의해야 한다는 한계점이 있었다. 또 문장의 의존 구문 분석 결과를 트리 형태로 표현한 후 트리 편집 거리를 계산하여 문장의 유사도를 계산한 연구도 있었는데 이는 알고리즘의 연산량이 크다는 한계점이 존재한다. 본 연구에서는 구문 패턴에 대한 정보를 사전에 정의하지 않고 정답 후보 문장을 그래프로 나타낸 후 그래프 정보를 효과적으로 반영할 수 있는 Graph2Vec을 활용하여 입력 자질을 생성하였고, 이를 정답 추출모델의 입력에 추가하여 정답 추출 성능 개선을 시도하였다. 의존 그래프를 생성하는 단계에서 의존 관계의 방향성 고려 여부와 노드 간 최대 경로의 길이를 다양하게 설정하며 자질을 생성하였고, 각각의 경우에 따른 정답추출 성능을 비교하였다. 본 연구에서는 정답 후보 문장들의 신뢰성을 위하여 웹 검색 소스를 한국어 위키백과, 네이버 지식백과, 네이버 뉴스로 제한하여 해당 문서에서 기존의 정답 추출 모델보다 성능이 향상함을 입증하였다. 본 연구의 실험을 통하여 의존 구문 분석 결과로 생성한 자질이 정답 추출 시스템 성능 향상에 기여한다는 것을 확인하였고 해당 자질을 정답 추출 시스템뿐만 아니라 감성 분석이나 개체명 인식과 같은 다양한 자연어 처리 분야에 활용 될 수 있을 것으로 기대한다.

한국어에서 의존 구문분석을 위한 구묶음의 활용 (Exploiting Chunking for Dependency Parsing in Korean)

  • 남궁영;김재훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권7호
    • /
    • pp.291-298
    • /
    • 2022
  • 본 논문은 한국어에 대해서 구묶음을 수행한 후에 의존구조를 분석하는 방법을 제안한다. 의존구조 분석은 단어의 지배어를 결정하는 과정이다. 지배어를 정할 때, 문법적인 지배어를 정할 것인지 의미적인 지배어를 정할 것인지가 고질적인 문제이다. 일반적으로는 문법적인 지배어를 정하고 있다. 예를 들면 문장 "밥을 먹고 싶다"에서 어절 "먹고"의 지배어로 "싶다"를 정한다. 그러나 "싶다"는 보조용언으로 의미적으로 지배어가 될 수 없다. 이와 같은 방법으로 구문을 분석하면 의미분석을 위해서 또 다른 변환이 있어야 한다. 본 논문에서는 이런 문제를 다소 완화하기 위해서 구묶음을 수행한 후에 구문을 분석하는 방법을 제안한다. 구묶음은 문장을 구성성분 단위로 분할하는 과정이며 구성성분은 내용어 말덩이와 기능어 말덩이로 구성된다. 구묶음을 수행하면 구문 분석의 입력이 되는 문장 성분의 수가 줄어들므로 구문 분석 속도가 개선될 수 있으며, 문장에서 중심어를 중심으로 하나의 말덩이로 묶이므로 말덩이에 대해서만 그 의존 관계를 파악할 수 있어 구문 분석의 효율성을 높일 수 있다. 본 논문은 세종의존말뭉치를 사용해서 성능을 분석했으며 UAS와 LAS가 각각 86.48%와 84.56%였으며 입력의 노드 수도 약 22% 정도 줄일 수 있었다.

Improving spaCy dependency annotation and PoS tagging web service using independent NER services

  • Colic, Nico;Rinaldi, Fabio
    • Genomics & Informatics
    • /
    • 제17권2호
    • /
    • pp.21.1-21.6
    • /
    • 2019
  • Dependency parsing is often used as a component in many text analysis pipelines. However, performance, especially in specialized domains, suffers from the presence of complex terminology. Our hypothesis is that including named entity annotations can improve the speed and quality of dependency parses. As part of BLAH5, we built a web service delivering improved dependency parses by taking into account named entity annotations obtained by third party services. Our evaluation shows improved results and better speed.

투사성과 재탐색을 이용한 결정적 한국어 의존구조 분석의 보정기법 (Correction Method for Korean Dependency Parsing using Projectivity and Re-searching)

  • 박영민;서정연
    • 인지과학
    • /
    • 제22권4호
    • /
    • pp.429-447
    • /
    • 2011
  • 본 논문에서는 투사성의 원칙을 이용해 결정적 한국어 의존 구문분석을 보완하는 방법을 제안한다. 우리는 결정적 의존 구문분석에 투사성의 원칙을 이용하여 의존 구문분석의 오류를 찾아내고 투사성의 원칙을 만족하도록 수정하여 오류를 개선하였다. 제안하는 모델은 기존의 결정적 의존 구문분석에 비해 높은 정확률을 제공하고 결정적 의존 구문분석의 장점을 유지할 수 있다. 또한 우리는 중간 분석결과를 이용한 자질모델을 제안하였다. 우리는 실험을 통하여 제안한 의존 구문분석 모델이 기존의 의존 구문분석 모델들에 비해 성능이 향상됨을 보였다.

  • PDF

Structural Disambiguation of Korean Adverbs Based on Correlative Relation and Morphological Context

  • Seo, Young-Ae;Park, Sang-Kyu;Choi, Key-Sun
    • ETRI Journal
    • /
    • 제28권6호
    • /
    • pp.803-806
    • /
    • 2006
  • This letter addresses a structural disambiguation method for Korean adverbs based on the correlative relation constraints between adverbs and modifiees, and the morphological context information of sentences. Using the proposed method, we improved the dependency parsing accuracy of adverbs from 79.2 to 89%. The experimental result shows that the proposed method is especially expert in parsing adverbs which can modify multiple word classes or have a long distance dependency relation to their modifiees.

  • PDF

지배가능 경로 문맥을 이용한 의존 구문 분석의 수식 거리 모델 (Modification Distance Model using Headible Path Contexts for Korean Dependency Parsing)

  • 우연문;송영인;박소영;임해창
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권2호
    • /
    • pp.140-149
    • /
    • 2007
  • 본 논문에서는 한국어 의존 구문 분석을 위한 새로운 확률 모델을 제안한다. 한국어가 자유 어순 언어라 할지라도 지역적 어순은 존재하기 때문에 의존관계를 결정하기 위해 의존하는 두 어절인 의존소와 지배소 사이의 수식 거리가 유용하다는 것은 이미 많은 연구를 통해 밝혀졌다. 본 연구에서는 수식거리의 정확한 수식 거리의 추정을 위해 지배가능 경로 문맥을 이용한 수식 거리 확률 모델을 제안한다. 수식 거리를 위해 지배가능 경로를 고려함으로써, 긴 표층 문맥을 압축하는 효과를 가져다 준다. 이를 통해 구문 분석 정확률 향상과 원거리 의존 관계 향상을 보임을 설명한다. 실험 및 평가를 통해 제안하는 모델의 구문 분석 성능은 86.9%이며, 기존에 제안된 구문 분석 모델과 비교하여 높은 구문 분석 결과를 보이며, 특히 원거리 의존관계에 대하여 더욱 향상된 성능을 보인다.