• Title/Summary/Keyword: Distant Supervision

Search Result 19, Processing Time 0.024 seconds

Improving The Performance of Triple Generation Based on Distant Supervision By Using Semantic Similarity (의미 유사도를 활용한 Distant Supervision 기반의 트리플 생성 성능 향상)

  • Yoon, Hee-Geun;Choi, Su Jeong;Park, Seong-Bae;Park, Se-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.23-28
    • /
    • 2015
  • 본 논문에서는 한국어 트리플 생성 시스템의 정확도를 향상시키기 위한 distant supervision 기반의 신뢰도 측정 방법을 제안한다. 기존의 많은 패턴 기반의 트리플 생성 시스템에는 distant supervision의 기본 가정으로 인해 다수의 오류 패턴이 발생할 여지가 크다. 기존의 연구에서는 오류 패턴을 제거하기 위하여 발생 빈도, 공기 횟수 등의 통계에 기반하여 간접적으로 신뢰도를 측정하였다. 본 논문에서는 한국어 패턴과 영어 프로퍼티 사이의 의미 유사도를 측정함으로써 통계에 기반한 방법보다 더 정확한 신뢰도 측정 방법을 제안한다. 비지도 학습 방법인 워드임베딩을 활용하여 어휘의 의미를 학습하고, 이들 사이의 유사도를 측정한다. 한국어 패턴과 영어 프로퍼티의 어휘 불일치 문제를 해결하기 위하여 정준상관분석을 활용하였다. 실험 결과에 따르면 본 논문에서 제안한 패턴 신뢰도 측정 방법은 통계 기반의 방법에 비해 정확률이 9%나 더 높은 트리플 집합을 생성함을 보여주어, 의미 유사도를 반영한 신뢰도 측정이 기존의 통계 기반 신뢰도 측정보다 고품질 트리플 생성에 더 적합함을 확인하였다.

  • PDF

Relation Extraction Using Suffix Tree and Distant Supervision (Suffix Tree와 Distant Supervision을 이용한 관계 추출)

  • Lee, HyunGoo;Choi, Maengsik;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.149-152
    • /
    • 2014
  • 자연어처리 분야에서 관계 추출은 중요한 연구 분야이다. 많은 관계 추출 연구는 지도 학습 방법을 사용하지만 정답을 구축하는 비용이 큰 문제가 있다. 본 논문에서는 distant supervision을 이용하여 데이터를 구축하고, suffix tree를 이용한 규칙기반 관계 추출 모델을 제안한다. Suffix tree를 이용한 관계추출의 Macro F1-measure는 84.05%로 관계 추출에서 사용이 가능함을 보였다.

  • PDF

Improving The Performance of Triple Generation Based on Distant Supervision By Using Semantic Similarity (의미 유사도를 활용한 Distant Supervision 기반의 트리플 생성 성능 향상)

  • Yoon, Hee-Geun;Choi, Su Jeong;Park, Seong-Bae
    • Journal of KIISE
    • /
    • v.43 no.6
    • /
    • pp.653-661
    • /
    • 2016
  • The existing pattern-based triple generation systems based on distant supervision could be flawed by assumption of distant supervision. For resolving flaw from an excessive assumption, statistics information has been commonly used for measuring confidence of patterns in previous studies. In this study, we proposed a more accurate confidence measure based on semantic similarity between patterns and properties. Unsupervised learning method, word embedding and WordNet-based similarity measures were adopted for learning meaning of words and measuring semantic similarity. For resolving language discordance between patterns and properties, we adopted CCA for aligning bilingual word embedding models and a translation-based approach for a WordNet-based measure. The results of our experiments indicated that the accuracy of triples that are filtered by the semantic similarity-based confidence measure was 16% higher than that of the statistics-based approach. These results suggested that semantic similarity-based confidence measure is more effective than statistics-based approach for generating high quality triples.

EmoNSMC: Constructing Korean Emotion Tagging Dataset Using Distant Supervision (EmoNSMC: Distant Supervision 을 이용한 한국어 감정 태깅 데이터셋 구축)

  • Lee, Young-Jun;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.519-521
    • /
    • 2019
  • 최근 소셜 메신저를 통해 많은 사람들이 의사소통을 주고받음에 따라, 텍스트에서 감정을 파악하는 것이 중요하다. 따라서, 감정이 태깅된 데이터가 필요하다. 하지만, 기존 연구는 감정이 태깅된 데이터의 양이 많지가 않다. 이는 텍스트에서 감정을 파악하는데 성능 저하를 야기할 수 있다. 이를 해결하기 위해, 본 논문에서는 단어 매칭 방법과 형태소 매칭 방법을 이용하여 많은 양의 한국어 감정 태깅 데이터셋인 EmoNSMC 를 구축하였다. 구축한 데이터셋은 네이버 영화 감상 리뷰 데이터 (NSMC)에 디스턴트 수퍼비전 방법 (distant supervision) 방법을 적용하여 weak labeling을 진행하였고, 이 과정에서 한국어 감정 어휘 사전 (KTEA) 을 이용하였다. 구축된 데이터셋의 감정 분포 결과, 형태소 매칭 방법을 통해 구축한 데이터셋이 좀 더 감정 분포가 균등한 것을 확인할 수 있었다. 해당 데이터셋은 공개되어 있다.

  • PDF

Relation Extraction Model for Noisy Data Handling on Distant Supervision Data based on Reinforcement Learning (원격지도학습데이터의 오류를 처리하는 강화학습기반 관계추출 모델)

  • Yoon, Sooji;Nam, Sangha;Kim, Eun-kyung;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.55-60
    • /
    • 2018
  • 기계학습 기반인 관계추출 모델을 설계할 때 다량의 학습데이터를 빠르게 얻기 위해 원격지도학습 방식으로 데이터를 수집한다. 이러한 데이터는 잘못 분류되어 학습데이터로 사용되기 때문에 모델의 성능에 부정적인 영향을 끼칠 수 있다. 본 논문에서는 이러한 문제를 강화학습 접근법을 사용해 해결하고자 한다. 본 논문에서 제안하는 모델은 오 분류된 데이터로부터 좋은 품질의 데이터를 찾는 문장선택기와 선택된 문장들을 가지고 학습이 되어 관계를 추출하는 관계추출기로 구성된다. 문장선택기는 지도학습데이터 없이 관계추출기로부터 피드백을 받아 학습이 진행된다. 이러한 방식은 기존의 관계추출 모델보다 좋은 성능을 보여주었고 결과적으로 원격지도학습데이터의 단점을 해결한 방법임을 보였다.

  • PDF

CNN-based Distant Supervision Relation Extraction Model with Multi-sense Word Embedding (다중-어의 단어 임베딩을 적용한 CNN 기반 원격 지도 학습 관계 추출 모델)

  • Nam, Sangha;Han, Kijong;Kim, Eun-Kyung;Gwon, Seong-Gu;Jeong, Yu-Seong;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.137-142
    • /
    • 2017
  • 원격 지도 학습은 자동으로 매우 큰 코퍼스와 지식베이스 간의 주석 데이터를 생성하여 기계 학습에 필요한 학습 데이터를 사람의 손을 빌리지 않고 저렴한 비용으로 만들 수 있어, 많은 연구들이 관계 추출 문제를 해결하기 위해 원격 지도 학습 방법을 적용하고 있다. 그러나 기존 연구들에서는 모델 학습의 입력으로 사용되는 단어 임베딩에서 단어의 동형이의어 성질을 반영하지 못한다는 단점이 있다. 때문에 서로 다른 의미를 가진 동형이의어가 하나의 임베딩 값을 가지다 보니, 단어의 의미를 정확히 파악하지 못한채 관계 추출 모델을 학습한다고 볼 수 있다. 본 논문에서는 원격 지도 학습 기반 관계 추출 모델에 다중-어의 단어 임베딩을 적용한 모델을 제안한다. 다중-어의 단어 임베딩 학습을 위해 어의 중의성 해소 모듈을 활용하였으며, 관계 추출 모델은 문장 내 주요 특징을 효율적으로 파악하는 모델인 CNN과 PCNN을 활용하였다. 본 논문에서 제안하는 다중-어의 단어 임베딩 적용 관계추출 모델의 성능을 평가하기 위해 추가적으로 2가지 방식의 단어 임베딩을 학습하여 비교 평가를 수행하였고, 그 결과 어의 중의성 해소 모듈을 활용한 단어 임베딩을 활용하였을 때 관계추출 모델의 성능이 향상된 결과를 보였다.

  • PDF

CNN-based Distant Supervision Relation Extraction Model with Multi-sense Word Embedding (다중-어의 단어 임베딩을 적용한 CNN 기반 원격 지도 학습 관계 추출 모델)

  • Nam, Sangha;Han, Kijong;Kim, Eun-Kyung;Gwon, Seong-Gu;Jeong, Yu-Seong;Choi, Key-Sun
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.137-142
    • /
    • 2017
  • 원격 지도 학습은 자동으로 매우 큰 코퍼스와 지식베이스 간의 주석 데이터를 생성하여 기계 학습에 필요한 학습 데이터를 사람의 손을 빌리지 않고 저렴한 비용으로 만들 수 있어, 많은 연구들이 관계 추출 문제를 해결하기 위해 원격 지도 학습 방법을 적용하고 있다. 그러나 기존 연구들에서는 모델 학습의 입력으로 사용되는 단어 임베딩에서 단어의 동형이의어 성질을 반영하지 못한다는 단점이 있다. 때문에 서로 다른 의미를 가진 동형이의어가 하나의 임베딩 값을 가지다 보니, 단어의 의미를 정확히 파악하지 못한 채 관계 추출 모델을 학습한다고 볼 수 있다. 본 논문에서는 원격 지도 학습 기반 관계 추출 모델에 다중-어의 단어 임베딩을 적용한 모델을 제안한다. 다중-어의 단어 임베딩 학습을 위해 어의 중의성 해소 모듈을 활용하였으며, 관계 추출 모델은 문장 내 주요 특징을 효율적으로 파악하는 모델인 CNN과 PCNN을 활용하였다. 본 논문에서 제안하는 다중-어의 단어 임베딩 적용 관계추출 모델의 성능을 평가하기 위해 추가적으로 2가지 방식의 단어 임베딩을 학습하여 비교 평가를 수행하였고, 그 결과 어의 중의성 해소 모듈을 활용한 단어 임베딩을 활용하였을 때 관계추출 모델의 성능이 향상된 결과를 보였다.

  • PDF

Named Entity Recognition Using Distant Supervision and Active Bagging (원거리 감독과 능동 배깅을 이용한 개체명 인식)

  • Lee, Seong-hee;Song, Yeong-kil;Kim, Hark-soo
    • Journal of KIISE
    • /
    • v.43 no.2
    • /
    • pp.269-274
    • /
    • 2016
  • Named entity recognition is a process which extracts named entities in sentences and determines categories of the named entities. Previous studies on named entity recognition have primarily been used for supervised learning. For supervised learning, a large training corpus manually annotated with named entity categories is needed, and it is a time-consuming and labor-intensive job to manually construct a large training corpus. We propose a semi-supervised learning method to minimize the cost needed for training corpus construction and to rapidly enhance the performance of named entity recognition. The proposed method uses distance supervision for the construction of the initial training corpus. It can then effectively remove noise sentences in the initial training corpus through the use of an active bagging method, an ensemble method of bagging and active learning. In the experiments, the proposed method improved the F1-score of named entity recognition from 67.36% to 76.42% after active bagging for 15 times.

Application and development of the web-based distant learning materials for elementary gifted students in science: Part 2 (초등과학영재를 위한 원격교수 학습 자료 개발 및 적용2 - 보고서 분석)

  • 박종석;오원근;박종욱;정병훈
    • Journal of Gifted/Talented Education
    • /
    • v.13 no.2
    • /
    • pp.113-130
    • /
    • 2003
  • In this study, learning materials that can be applied for web-based distant learning model were developed based on the characteristics of elementary school science in which investigation skills and thinking ability are considered to be important. And the effect of students' activity in a reports on student's investigating and thinking ability was investigated. While designing diverse experimental procedures, the students had. an opportunity to improve their observation attitude and way of scientific thinking. Such improvement was possible, only because the present web-based distant learning model consists of requiring an interaction between the students and a report and evaluation system which can put together such effort. Still, it was acknowledged that, as being in lack of teacher's direct support and supervision, the present web-based distant learning model might be somewhat ineffective in guiding the students in accordance with their own characteristics. For example, the students had a tendency to maintain their basic idea and style even when their reports are individually examined and corrected in terms of the format of the report.

One-Class Classification Model Based on Lexical Information and Syntactic Patterns (어휘 정보와 구문 패턴에 기반한 단일 클래스 분류 모델)

  • Lee, Hyeon-gu;Choi, Maengsik;Kim, Harksoo
    • Journal of KIISE
    • /
    • v.42 no.6
    • /
    • pp.817-822
    • /
    • 2015
  • Relation extraction is an important information extraction technique that can be widely used in areas such as question-answering and knowledge population. Previous studies on relation extraction have been based on supervised machine learning models that need a large amount of training data manually annotated with relation categories. Recently, to reduce the manual annotation efforts for constructing training data, distant supervision methods have been proposed. However, these methods suffer from a drawback: it is difficult to use these methods for collecting negative training data that are necessary for resolving classification problems. To overcome this drawback, we propose a one-class classification model that can be trained without using negative data. The proposed model determines whether an input data item is included in an inner category by using a similarity measure based on lexical information and syntactic patterns in a vector space. In the experiments conducted in this study, the proposed model showed higher performance (an F1-score of 0.6509 and an accuracy of 0.6833) than a representative one-class classification model, one-class SVM(Support Vector Machine).