• 제목/요약/키워드: Multi-label classification

검색결과 59건 처리시간 0.033초

A Novel Posterior Probability Estimation Method for Multi-label Naive Bayes Classification

  • Kim, Hae-Cheon;Lee, Jaesung
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권6호
    • /
    • pp.1-7
    • /
    • 2018
  • A multi-label classification is to find multiple labels associated with the input pattern. Multi-label classification can be achieved by extending conventional single-label classification. Common extension techniques are known as Binary relevance, Label powerset, and Classifier chains. However, most of the extended multi-label naive bayes classifier has not been able to accurately estimate posterior probabilities because it does not reflect the label dependency. And the remaining extended multi-label naive bayes classifier has a problem that it is unstable to estimate posterior probability according to the label selection order. To estimate posterior probability well, we propose a new posterior probability estimation method that reflects the probability between all labels and labels efficiently. The proposed method reflects the correlation between labels. And we have confirmed through experiments that the extended multi-label naive bayes classifier using the proposed method has higher accuracy then the existing multi-label naive bayes classifiers.

Multi-Label Classification Approach to Location Prediction

  • Lee, Min Sung
    • 한국컴퓨터정보학회논문지
    • /
    • 제22권10호
    • /
    • pp.121-128
    • /
    • 2017
  • In this paper, we propose a multi-label classification method in which multi-label classification estimation techniques are applied to resolving location prediction problem. Most of previous studies related to location prediction have focused on the use of single-label classification by using contextual information such as user's movement paths, demographic information, etc. However, in this paper, we focused on the case where users are free to visit multiple locations, forcing decision-makers to use multi-labeled dataset. By using 2373 contextual dataset which was compiled from college students, we have obtained the best results with classifiers such as bagging, random subspace, and decision tree with the multi-label classification estimation methods like binary relevance(BR), binary pairwise classification (PW).

다중 레이블 분류의 정확도 향상을 위한 스킵 연결 오토인코더 기반 레이블 임베딩 방법론 (Label Embedding for Improving Classification Accuracy UsingAutoEncoderwithSkip-Connections)

  • 김무성;김남규
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.175-197
    • /
    • 2021
  • 최근 딥 러닝 기술의 발전으로 뉴스, 블로그 등 다양한 문서에 포함된 텍스트 분석에 딥 러닝 기술을 활용하는 연구가 활발하게 수행되고 있다. 다양한 텍스트 분석 응용 가운데, 텍스트 분류는 학계와 업계에서 가장 많이 활용되는 대표적인 기술이다. 텍스트 분류의 활용 예로는 정답 레이블이 하나만 존재하는 이진 클래스 분류와 다중 클래스 분류, 그리고 정답 레이블이 여러 개 존재하는 다중 레이블 분류 등이 있다. 특히, 다중 레이블 분류는 여러 개의 정답 레이블이 존재한다는 특성 때문에 일반적인 분류와는 상이한 학습 방법이 요구된다. 또한, 다중 레이블 분류 문제는 레이블과 클래스의 개수가 증가할수록 예측의 난이도가 상승한다는 측면에서 데이터 과학 분야의 난제로 여겨지고 있다. 따라서 이를 해결하기 위해 다수의 레이블을 압축한 후 압축된 레이블을 예측하고, 예측된 압축 레이블을 원래 레이블로 복원하는 레이블 임베딩이 많이 활용되고 있다. 대표적으로 딥 러닝 모델인 오토인코더 기반 레이블 임베딩이 이러한 목적으로 사용되고 있지만, 이러한 기법은 클래스의 수가 무수히 많은 고차원 레이블 공간을 저차원 잠재 레이블 공간으로 압축할 때 많은 정보 손실을 야기한다는 한계가 있다. 이에 본 연구에서는 오토인코더의 인코더와 디코더 각각에 스킵 연결을 추가하여, 고차원 레이블 공간의 압축 과정에서 정보 손실을 최소화할 수 있는 레이블 임베딩 방법을 제안한다. 또한 학술연구정보서비스인 'RISS'에서 수집한 학술논문 4,675건에 대해 각 논문의 초록으로부터 해당 논문의 다중 키워드를 예측하는 실험을 수행한 결과, 제안 방법론이 기존의 일반 오토인코더 기반 레이블 임베딩 기법에 비해 정확도, 정밀도, 재현율, 그리고 F1 점수 등 모든 측면에서 우수한 성능을 나타냄을 확인하였다.

다중레이블 조합을 사용한 단백질 세포내 위치 예측 (Multi-Label Combination for Prediction of Protein Subcellular Localization)

  • 지상문
    • 한국정보통신학회논문지
    • /
    • 제18권7호
    • /
    • pp.1749-1756
    • /
    • 2014
  • 단백질이 존재하는 세포내 위치에 대한 지식은 단백질의 기능과 관련된 중요한 정보이다. 본 논문은 개선된 레이블 멱집합 다중레이블 분류방법을 제안하여 단백질이 존재하는 세포내의 다중 위치를 예측한다. 다중레이블 분류 방법 중에서 레이블 멱집합 방법은 특정 생물학적 기능을 수행하는 단백질의 세포내 위치간의 연관 관계를 효과적으로 모델링할 수 있다. 본 논문은 다중레이블을 다른 다중레이블들의 선형조합으로 나타낼 때의 조합가중치를 제약조건이 있는 최적화를 통하여 구하고, 이를 사용하여 여러 다중레이블의 예측 확률들을 조합하여 최종적인 예측을 수행한다. 인간 단백질 자료에 대한 실험에서 제안한 방법이 다른 단백질 세포내 위치 예측 방법에 비하여 높은 성능을 보였다. 이는 제안한 방법이 레이블 멱집합 방법에서 사용되는 다중레이블들내에 존재하는 중복 정보를 이용하여 다중 레이블의 예측확률을 성공적으로 강화할 수 있기 때문이다.

Effective Multi-label Feature Selection based on Large Offspring Set created by Enhanced Evolutionary Search Process

  • Lim, Hyunki;Seo, Wangduk;Lee, Jaesung
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권9호
    • /
    • pp.7-13
    • /
    • 2018
  • Recent advancement in data gathering technique improves the capability of information collecting, thus allowing the learning process between gathered data patterns and application sub-tasks. A pattern can be associated with multiple labels, demanding multi-label learning capability, resulting in significant attention to multi-label feature selection since it can improve multi-label learning accuracy. However, existing evolutionary multi-label feature selection methods suffer from ineffective search process. In this study, we propose a evolutionary search process for the task of multi-label feature selection problem. The proposed method creates large set of offspring or new feature subsets and then retains the most promising feature subset. Experimental results demonstrate that the proposed method can identify feature subsets giving good multi-label classification accuracy much faster than conventional methods.

레이블 매핑을 이용한 다중 이미지 분류 (Multiple image classification using label mapping)

  • 전승제;이동준;이동휘
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.367-369
    • /
    • 2022
  • 본 논문에서는 훈련된 모델이 분류에 실패한 이미지들에 대한 정확한 결과를 확인하기 위해 다중 클래스의 이미지 분류를 구현하면서 각각의 클래스에 맞게 레이블 매핑을 하여 예측 결과를 확인했다. Kaggle의 Intel Image Classification 데이터셋을 사용하여 CNN 모델을 구축하고 훈련을 진행하였으며, 테스트 데이터셋의 이미지들을 레이블 매핑을 통해 다중 클래스의 이미지들이 매핑된 레이블 값과 모델이 분류한 값을 비교하였다.

  • PDF

다중 레이블 콘볼루션 신경회로망을 이용한 능동펄스 식별 알고리즘 연구 (A Study of Active Pulse Classification Algorithm using Multi-label Convolutional Neural Networks)

  • 김근환;이석진;이균경;이동화
    • 한국산업정보학회논문지
    • /
    • 제25권4호
    • /
    • pp.29-38
    • /
    • 2020
  • 본 논문에서는 다중 레이블 콘볼루션 신경회로망(Multi-label Convolution Neural Networks)을 이용하는 능동펄스 식별 알고리즘을 제안한다. 제안하는 기법은 기존의 단일 레이블 기반 알고리즘이 여러 개의 신경회로망 구조로 되어 있던 것과 달리 하나의 신경회로망 구조로 능동펄스의 정보를 한번에 획득할 수 있으며, 학습과정 역시 간편해지는 장점이 있다. 제안한 능동펄스 식별 알고리즘을 검증하기 위해서 해상실험 데이터를 이용하여 신경회로망을 학습시키고 성능을 분석하였다. 분석결과 제안한 능동펄스 식별 알고리즘이 수렴하는 것을 확인하였으며, 오차행렬(Confusion Matrix) 분석을 통하여 우수한 능동펄스 식별성능을 가지는 것을 확인하였다.

기계학습에 기초한 국내 학술지 논문의 자동분류에 관한 연구 (An Analytical Study on Automatic Classification of Domestic Journal articles Based on Machine Learning)

  • 김판준
    • 정보관리학회지
    • /
    • 제35권2호
    • /
    • pp.37-62
    • /
    • 2018
  • 문헌정보학 분야의 국내 학술지 논문으로 구성된 문헌집합을 대상으로 기계학습에 기초한 자동분류의 성능에 영향을 미치는 요소들을 검토하였다. 특히, "정보관리학회지"에 수록된 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 용어 가중치부여 기법, 학습집합 크기, 분류 알고리즘, 범주 할당 방법 등 주요 요소들의 특성을 다각적인 실험을 통해 살펴보았다. 결과적으로 분류 환경 및 문헌집합의 특성에 따라 각 요소를 적절하게 적용하는 것이 효과적이며, 보다 단순한 모델의 사용으로 상당히 좋은 수준의 성능을 도출할 수 있었다. 또한, 국내 학술지 논문의 분류는 특정 논문에 하나 이상의 범주를 할당하는 복수-범주 분류(multi-label classification)가 실제 환경에 부합한다고 할 수 있다. 따라서 이러한 환경을 고려하여 단순하고 빠른 분류 알고리즘과 소규모의 학습집합을 사용하는 최적의 분류 모델을 제안하였다.

단백질의 세포내 위치 예측을 위한 다중레이블 분류 방법의 성능 비교 (A Performance Comparison of Multi-Label Classification Methods for Protein Subcellular Localization Prediction)

  • 지상문
    • 한국정보통신학회논문지
    • /
    • 제18권4호
    • /
    • pp.992-999
    • /
    • 2014
  • 단백질이 존재하는 세포내의 다중 위치를 정확하게 예측하기 위하여 다중레이블 학습 방법을 광범위하게 비교한다. 이를 위하여 다중레이블 분류의 접근 방법인 알고리즘 적응, 문제 변환, 메타 학습의 여러 방법을 비교 평가한다. 다양한 관점에서 다중레이블 분류 방법의 특성을 평가하기 위하여 12가지 평가 척도를 사용하였고, 최적의 성능을 보이는 방법을 찾기 위하여 새로운 요약 척도를 사용하였다. 비교 실험 결과, 흔하지 않은 다중레이블 집합을 가지치기 하는 멱집합 방법과, 관련 레이블들을 추가된 특징으로 나타내는 분류기-체인 방법의 성능이 높았다. 또한, 이들 방법들로 구성된 여러 개의 분류기를 조합하면 더욱 성능이 향상되었다. 즉, 세포내 위치간의 연관관계를 사용하는 것이 예측에 효과적인데, 특정 생물학적 기능을 수행하는 단백질의 세포내 위치들의 관계는 독립적이지 않고 서로 관련되어 있기 때문이라 판단된다.

기계학습에 기초한 자동분류의 성능 요소에 관한 연구 (An Analytical Study on Performance Factors of Automatic Classification based on Machine Learning)

  • 김판준
    • 정보관리학회지
    • /
    • 제33권2호
    • /
    • pp.33-59
    • /
    • 2016
  • 국내 학술회의 논문으로 구성된 문헌집합을 대상으로 기계학습에 기초한 자동분류의 성능에 영향을 미치는 요소들을 검토하였다. 특히 구현이 쉽고 컴퓨터 처리 속도가 빠른 로치오 알고리즘을 사용하여 "한국정보관리학회 학술대회 논문집"의 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 분류기 생성 방법, 학습집합 규모, 가중치부여 기법, 범주 할당 방법 등 주요 요소들의 특성을 다각적인 실험을 통해 살펴보았다. 결과적으로 분류 환경 및 문헌집합의 특성에 따라 파라미터(${\beta}$, ${\lambda}$)와 학습집합의 크기(5년 이상)를 적절하게 적용하는 것이 효과적이며, 동등한 성능 수준이라면 보다 단순한 단일 가중치부여 기법을 사용하여 분류의 효율성을 높일 수 있음을 발견하였다. 또한 국내 학술회의 논문의 분류는 특정 논문에 하나 이상의 범주가 부여되는 복수-범주 분류(multi-label classification)가 실제 환경에 부합한다고 할 수 있으므로, 이러한 환경을 고려하여 주요 성능 요소들의 특성에 기초한 최적의 분류 모델을 개발할 필요가 있다.