• 제목/요약/키워드: Entity

검색결과 2,060건 처리시간 0.024초

위키피디아 기반의 효과적인 개체 링킹을 위한 NIL 개체 인식과 개체 연결 중의성 해소 방법 (A Method to Solve the Entity Linking Ambiguity and NIL Entity Recognition for efficient Entity Linking based on Wikipedia)

  • 이호경;안재현;윤정민;배경만;고영중
    • 정보과학회 논문지
    • /
    • 제44권8호
    • /
    • pp.813-821
    • /
    • 2017
  • 개체 링킹은 입력된 질의에 존재하는 개체를 표현한 개체 표현(entity mention)을 지식베이스에 존재하는 개체와 연결하여 의미를 파악하는 연구이다. 개체 링킹에 관한 연구는 지식 베이스 구축 문제, 다중 표현 문제, 개체 연결 중의성 문제, NIL 개체 인식 문제가 존재한다. 본 연구에서는 지식 베이스 구축 문제와 다중 표현 문제를 해결하기 위해 위키피디아를 기반으로 개체 이름 사전을 구축한다, 또한, 문맥 유사도, 의미적 관련성, 단서 단어 점수, 개체 표현의 개체명 타입 유사도, 개체 이름 매칭 점수, 개체인기도 점수 자질들을 기반으로 SVM(support vector machine)을 학습하여, NIL 개체를 인식하는 문제와 개체 연결 중의성을 해소하는 방법을 제안한다. 구축한 지식 베이스를 기반으로 제안한 두 방법을 순차적으로 적용하였을 때 좋은 개체 링킹 성능을 얻었다. 개체 링킹 시스템의 성능은 NIL 개체 인식 성능이 83.66%, 중의성 해소 성능이 90.81%의 F1 점수를 보였다.

A Study on the Performance Analysis of Entity Name Recognition Techniques Using Korean Patent Literature

  • Gim, Jangwon
    • 한국정보기술학회 영문논문지
    • /
    • 제10권2호
    • /
    • pp.139-151
    • /
    • 2020
  • Entity name recognition is a part of information extraction that extracts entity names from documents and classifies the types of extracted entity names. Entity name recognition technologies are widely used in natural language processing, such as information retrieval, machine translation, and query response systems. Various deep learning-based models exist to improve entity name recognition performance, but studies that compared and analyzed these models on Korean data are insufficient. In this paper, we compare and analyze the performance of CRF, LSTM-CRF, BiLSTM-CRF, and BERT, which are actively used to identify entity names using Korean data. Also, we compare and evaluate whether embedding models, which are variously used in recent natural language processing tasks, can affect the entity name recognition model's performance improvement. As a result of experiments on patent data and Korean corpus, it was confirmed that the BiLSTM-CRF using FastText method showed the highest performance.

개체중의성해소에서 의미관련도 활용 효과 분석: 한국어 위키피디아를 사용하여 (An Effect of Semantic Relatedness on Entity Disambiguation: Using Korean Wikipedia)

  • 강인수
    • 한국지능시스템학회논문지
    • /
    • 제25권2호
    • /
    • pp.111-118
    • /
    • 2015
  • 개체 링킹은 텍스트에 출현하는 개체 표현을 위키피디아 등의 지식베이스 항목으로 연결하는 작업이다. 동일한 개체 표현을 공유하는 서로 다른 개체들의 존재로 인해 개체 링킹에서는 개체 표현의 중의성을 해소할 필요가 있다. 개체 중의성 해소를 위한 최근 연구에서는 공기 개체 의미관련도를 중심으로 개체 출현 선험 확률와 공기 용어 정보 등을 결합하는 시도들이 주류를 형성하고 있다. 그러나 의미관련도의 왕성한 활용에도 불구하고 의미관련도 기반 방법이 개체중의성해소에 미치는 순수 효과를 분석 제시한 연구는 찾기 힘들다. 이 연구는 NGD, PMI, Jaccard, Dice, Simpson 등 서로 다른 의미관련도 지표의 차이, 공기개체집합 내 중의성 정도의 차이, 개별적/집단적 중의성해소 방식의 차이의 세 가지 관점에서 의미관련도 기반 개체중의성해소 방법들을 한국어 위키피디아 데이터를 사용하여 실험적으로 평가한 결과를 제시한다.

Classifying Articles in Chinese Wikipedia with Fine-Grained Named Entity Types

  • Zhou, Jie;Li, Bicheng;Tang, Yongwang
    • Journal of Computing Science and Engineering
    • /
    • 제8권3호
    • /
    • pp.137-148
    • /
    • 2014
  • Named entity classification of Wikipedia articles is a fundamental research area that can be used to automatically build large-scale corpora of named entity recognition or to support other entity processing, such as entity linking, as auxiliary tasks. This paper describes a method of classifying named entities in Chinese Wikipedia with fine-grained types. We considered multi-faceted information in Chinese Wikipedia to construct four feature sets, designed different feature selection methods for each feature, and fused different features with a vector space using different strategies. Experimental results show that the explored feature sets and their combination can effectively improve the performance of named entity classification.

개체형 통합설계모델의 객체지향 프로그래밍 (Object-Oriented Programming of Entity-Based Integrated Design Model)

  • 이창호;김진근
    • 한국전산구조공학회:학술대회논문집
    • /
    • 한국전산구조공학회 2002년도 가을 학술발표회 논문집
    • /
    • pp.211-218
    • /
    • 2002
  • An entity-based integrated design product and process model uses product and process entities to describe design information and design activities, respectively. The concepts and notation for product and process entities in the entity-based integrated design model are similar to the concepts of object-oriented programming languages such as C++ and Smalltalk. This paper uses C++ to program an entity-based integrated design model for building frames structures. The design information and activities involved in the three dimensional building space, the locations of frames, and the grouping of frames represented as entities in the entity-based integrated design model are transformed to C++ codes. Each product or process entity can be basically transformed to an class. The attributes of an entity can be defined as variables and member functions of a class.

  • PDF

통계(統計)/과학(科學) 데이타 베이스를 위한 개체(個體)-측면(側面) 모형(模型) (An Entity-Aspect Model for Statistical and Scientific Databases)

  • 유철중
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1987년도 전기.전자공학 학술대회 논문집(II)
    • /
    • pp.1148-1152
    • /
    • 1987
  • This paper analyzes the statistical and scientific entity-aspect model for statistical and scientific databases(SSDB's). The statistical and scientific entity-aspect model(SEAM) is defined an example of the application of the statistical and scientific entity-aspect model is represented. Finally, the statistical and scientific entity-aspect model as a design tool for SSDB is evaluated and the further research areas are suggested.

  • PDF

ERX : 개체 관계 모델로부터 XML 스키마 생성 도구 (ERX : A Generation Tool of XML Schema based on Entity-Relationship Model)

  • 김영웅
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권2호
    • /
    • pp.149-155
    • /
    • 2013
  • 오늘날 대표적인 데이터베이스 설계 도구로 개체 관계 모델을 사용하고 있으며, 데이터를 표현하고 교환하는 표준 언어로 XML을 사용하고 있다. 그러나 많은 개체 관계 모델 제품들은 각각 서로 다른 표현형식을 사용하기 때문에 이들 제품들 사이에 호환성에 어려운 점이 있으며, XML은 언어가 갖는 복잡성으로 인해 XML을 이용하여 현실세계를 직접 설계하기에는 어려운 점이 있다. 본 논문은 이질적인 제품들 사이의 호환성을 제공하기 위해 개체 관계 모델을 XML 스키마로 변환하는 도구인 ERX(Entity-Relationship model to Xml)를 제안한다. ERX는 입력으로 개체 관계 다이어그램을 받아 이를 변환 규칙을 통해 XML 스키마를 출력한다. 변환 규칙에는 개체집합, 관계집합, 매핑 대응수(mapping cardinality), 일반화(generalization) 개념 등을 포함한다.

개체 중의성 해소를 위한 사용자 유사도 기반의 트윗 개체 링킹 기법 (Tweet Entity Linking Method based on User Similarity for Entity Disambiguation)

  • 김서현;서영덕;백두권
    • 정보과학회 논문지
    • /
    • 제43권9호
    • /
    • pp.1043-1051
    • /
    • 2016
  • 트위터 문서는 웹 문서에 비해 길이가 짧기 때문에 웹 기반의 개체 링킹 기법을 그대로 적용시킬 수 없어 사용자 정보나 집단의 정보를 활용하는 방법들이 시도되고 있다. 하지만, 트윗의 개수가 충분하지 않은 사용자의 경우 데이터 희소성 문제가 여전히 발생하고 관련이 없는 집단의 정보를 사용할 경우 링킹의 결과에 악영향을 미칠 수 있다. 본 논문에서는 기존 연구의 문제를 해결하기 위해 단일 트윗 내의 의미 관련도 뿐만 아니라 사용자의 트윗 집합과 다른 사용자들의 트윗 집합까지 고려하여 데이터 희소성을 해결하고, 관련성이 높은 사용자들의 트윗 정보에 가중치를 주어 트윗 개체 링킹의 성능을 높이고자 한다. 실제 트위터 데이터를 활용한 실험을 통해 제안하는 트윗 개체 링킹 기법이 기존의 기법에 비해 높은 성능을 가지며, 유사도가 높은 사용자의 정보를 사용하는 것이 트윗 개체 링킹에서 데이터 희소성 해결과 링킹 정확도 향상에 연관성이 있음을 보였다.

개체 링킹을 위한 RDF 지식그래프 기반의 포괄적 상호의존성 짝 연결 접근법 (A Global-Interdependence Pairwise Approach to Entity Linking Using RDF Knowledge Graph)

  • 심용선;양성권;김홍기
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권3호
    • /
    • pp.129-136
    • /
    • 2019
  • 자연어 표현에는 인물, 조직, 장소, 제품 등의 다양한 개체들이 존재한다. 이러한 개체는 다양한 의미를 가질 수 있다. 이러한 개체가 갖는 중의성 문제는 자연어 처리 분야에 있어 매우 도전적인 과제이다. 개체 링킹(Entity Linking)이란 텍스트에 등장한 개체명을 지식베이스 내의 적절한 개체로 연결해주는 작업이다. 개체 링킹을 위한 대표적인 방법론인 짝 연결 접근법(Pairwise based method)은 한 문장에서 등장한 개체가 두 개 이상일 경우 서로의 연관성을 이용해 개체 링킹을 하는 방법이다. 이 방법은 동일 문장에서 등장하는 개체들 간의 상호의존성(interdependence)만을 고려하고 있어 포괄적인 상호의존성(Global interdependence)이 부족하다는 한계를 갖고 있다. 본 논문에서는 개체 링킹을 위해 RDF 형태의 지식베이스 정보를 바탕으로 Word2vec을 활용한 Entity2vec 모델을 생성하였다. 그리고 생성된 모델을 사용하여 각 개체에 대한 랭킹을 하였다. 본 논문에서는 짝 연결 접근법의 한계점을 보완하기 위해 포괄적인 상호의존성을 바탕으로 짝 연결 접근법을 고안하고 구현 및 실험을 통해 기존의 짝 연결 접근법과 비교하였다.

데이터 모델을 위한 엔터티 도출 절차에 관한 연구 (A Study on Elicitation Procedures of the Entity for Data Model)

  • 김도유;여정모
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권7호
    • /
    • pp.479-486
    • /
    • 2013
  • 정보 시스템의 골격이라고도 할 수 있는 데이터 모델은 프로세스 모델과 함께 정보 시스템에 있어서 중요한 두개의 축을 이룬다. 데이터 모델의 핵심요소로는 엔터티, 속성, 관계가 있으며, 이 중에서도 엔터티는 데이터 모델에서 가장 근본적인 요소로서, 엔터티를 명확하게 도출하지 못한다면 데이터 모델 전체가 모호해지게 된다. 본 연구에서는 엔터티 도출에 대해서만 다루었다. 기존의 엔터티를 도출하는 방법은 설계자의 경험과 업무지식에 많이 의존되고 명확한 절차가 제시되지 않아, 초보자나 미숙련자가 접근하기에는 많은 어려움이 있다. 이를 해결하는데 도움이 될 수 있도록 본 연구에서는 선행연구의 제안 절차를 통해 미리 도출된 대상업무에서 체계적인 절차로 엔터티를 도출할 수 있는 업무기반 엔터티 도출 절차를 제안한다. 그리고 데이터 모델링에 경험이 없는 학부생들을 대상으로 가상업무에 대하여 제안 절차를 적용하도록 하였고, 기존 방법과 제안 절차의 비교가 불가능하다는 점을 감안하여 학생들이 도출한 엔터티와 모범 답안 간의 유사도 검사로 제안 절차를 검증하였다. 그 결과, 모범 답안에 상당히 근접하게 엔터티를 도출한 것을 확인하였다. 따라서 본 연구에서 제안한 절차가 데이터 모델링에 경험이 없는 초보자가 익숙하지 않은 업무에 적용하더라도 모범 답안에 근접하게 엔터티를 도출할 수 있음이 확인되었다. 엔터티를 제외한 데이터 모델의 핵심요소인 속성과 관계의 도출에 대한 연구는 차후로 미룬다.