• 제목/요약/키워드: Document classification

검색결과 444건 처리시간 0.028초

문서분류의 이론과 변천에 관한 연구 - 조선조이후 현행 '정부공문서분류'까지 - (A Study on the Theory and Historical Development of Official Document Classification Scheme in Korea - Since Chosun Dynasty to Current Korea Government -)

  • 최정태;이주연
    • 한국기록관리학회지
    • /
    • 제3권2호
    • /
    • pp.1-33
    • /
    • 2003
  • 이 논문은 문서분류에 대한 이론적 근거를 찾아보고, 조선조 이후 구한말을 걸쳐 대한민국 정부수립 이후 지금까지 시행해오고 있는 한국공문서분류의 변천과정을 살펴, 새로 제정 공포될 '기록물분류기준표'와 비교하여, 시행상의 문제점을 검토함으로써 더 나은 분류표로 발전시키는데 목적을 둔다.

Modified ECCD 및 문서별 범주 가중치를 이용한 문서 분류 시스템 (A Document Classification System Using Modified ECCD and Category Weight for each Document)

  • 한정석;박상용;이수원
    • 정보처리학회논문지B
    • /
    • 제19B권4호
    • /
    • pp.237-242
    • /
    • 2012
  • 웹 문서 정보 서비스는 관리자의 효율적 문서관리와 사용자의 문서검색 편의성을 위해 문서 분류 시스템을 필요로 한다. 기존의 문서 분류 시스템은 분류하고자 하는 문서 내 선택된 자질어의 개수가 적거나, 특정 범주의 문서 비율이 높아 그 범주에서 대부분의 자질어가 선택되어 모델이 생성된 경우 분류 정확도가 저하되는 문제점을 가진다. 이러한 문제점을 해결하기 위해 본 논문에서는 'Modified ECCD' 기법 및 '문서별 범주 가중치' 특징 변수를 사용한 문서 분류 시스템을 제안한다. 실험 결과, 제안 방법인 'Modified ECCD' 기법이 ${\chi}^2$ 및 ECCD 기법에 비해 높은 분류 성능을 보였으며, '문서별 범주 가중치' 특징 변수를 'Modified ECCD' 기법으로 선택된 자질어 변수에 추가하여 학습하였을 경우에 더 높은 분류 성능을 보였다.

Korean Document Classification using Characteristics of Word Information

  • Kim, Seok-Ki;Han, Kyung-Soo;Ahn, Jeong-Yong
    • Journal of the Korean Data and Information Science Society
    • /
    • 제14권2호
    • /
    • pp.167-175
    • /
    • 2003
  • In document classification, target of analysis is not document itself but words appeared in the document. Word information, therefore, is a significant factor in document classification. In this study, we are dealing with the classification of Korean document based on words and feature vectors. First, we present the performance of document classification using nouns and keywords. Second, we compare to the results for the size of feature vectors.

  • PDF

Document Classification Model Using Web Documents for Balancing Training Corpus Size per Category

  • Park, So-Young;Chang, Juno;Kihl, Taesuk
    • Journal of information and communication convergence engineering
    • /
    • 제11권4호
    • /
    • pp.268-273
    • /
    • 2013
  • In this paper, we propose a document classification model using Web documents as a part of the training corpus in order to resolve the imbalance of the training corpus size per category. For the purpose of retrieving the Web documents closely related to each category, the proposed document classification model calculates the matching score between word features and each category, and generates a Web search query by combining the higher-ranked word features and the category title. Then, the proposed document classification model sends each combined query to the open application programming interface of the Web search engine, and receives the snippet results retrieved from the Web search engine. Finally, the proposed document classification model adds these snippet results as Web documents to the training corpus. Experimental results show that the method that considers the balance of the training corpus size per category exhibits better performance in some categories with small training sets.

텍스쳐 특징과 구조적인 정보를 이용한 문서 영상의 분할 및 분류 (Document Image Segmentation and Classification using Texture Features and Structural Information)

  • 박근혜;김보람;김욱현
    • 융합신호처리학회논문지
    • /
    • 제11권3호
    • /
    • pp.215-220
    • /
    • 2010
  • 본 논문은 문서 영상을 대상으로 표, 그림, 글자 등의 각 구성요소들을 자동으로 분류하기 위한 새로운 텍스쳐 기반의 영상 분할 및 분류 방법을 제안한다. 제안한 방법은 문서 영상 분할 단계와 문서 영상 내 구성요소 분류 단계로 이루어진다. 먼저 영상 분할을 수행한 후, 분할된 영역을 대상으로 문서 영상의 구성 요소들을 분류하는데, 이때 각 구성 요소는 서로 다른 텍스쳐를 가지고 있는 영역이라는 특징을 이용한다. 분할된 영역들을 분류하기 위한 텍스쳐 특징을 추출하기 위해 다양한 텍스쳐 분석에 광범위하게 사용되는 2차원 가보필터를 이용한다. 제안한 방법은 구성 요소와 사용 언어에 대한 사전 지식을 이용하지 않으면서 문서 영상의 분할 및 구성요소 분류에서 좋은 성능을 보인다. 제안한 방법은 멀티미디어 데이터 검색, 실시간 영상 처리 등과 같은 다양한 분야에 적용 될 수 있다.

이메일 추천 시스템의 분류 향상을 위한 3단계 전처리 알고리즘 (A Three-Step Preprocessing Algorithm for Enhanced Classification of E-Mail Recommendation System)

  • 조동섭;정옥란
    • 대한전기학회논문지:시스템및제어부문D
    • /
    • 제54권4호
    • /
    • pp.251-258
    • /
    • 2005
  • Automatic document classification may differ significantly according to the characteristics of documents that are subject to classification, as well as classifier's performance. This research identifies e-mail document's characteristics to apply a three-step preprocessing algorithm that can minimize e-mail document's atypical characteristics. In the first 5go, uncertain based sampling algorithm that used Mean Absolute Deviation(MAD), is used to address the question of selection learning document for the rule generation at the time of classification. In the subsequent stage, Weighted vlaue assigning method by attribute is applied to increase the discriminating capability of the terms that appear on the title on the e-mail document characteristic level. in the third and last stage, accuracy level during classification by each category is increased by using Naive Bayesian Presumptive Algorithm's Dynamic Threshold. And, we implemented an E-Mail Recommendtion System using a three-step preprocessing algorithm the enable users for direct and optimal classification with the recommendation of the applicable category when a mail arrives.

사례기반 추론을 이용한 한글 문서분류 시스템 (A Hangul Document Classification System using Case-based Reasoning)

  • 이재식;이종운
    • Asia pacific journal of information systems
    • /
    • 제12권2호
    • /
    • pp.179-195
    • /
    • 2002
  • In this research, we developed an efficient Hangul document classification system for text mining. We mean 'efficient' by maintaining an acceptable classification performance while taking shorter computing time. In our system, given a query document, k documents are first retrieved from the document case base using the k-nearest neighbor technique, which is the main algorithm of case-based reasoning. Then, TFIDF method, which is the traditional vector model in information retrieval technique, is applied to the query document and the k retrieved documents to classify the query document. We call this procedure 'CB_TFIDF' method. The result of our research showed that the classification accuracy of CB_TFIDF was similar to that of traditional TFIDF method. However, the average time for classifying one document decreased remarkably.

문서의 주제어별 가중치 부여와 단어 군집을 이용한 한국어 문서 자동 분류 시스템 (An Automatic Classification System of Korean Documents Using Weight for Keywords of Document and Word Cluster)

  • 허준희;최준혁;이정현;김중배;임기욱
    • 정보처리학회논문지B
    • /
    • 제8B권5호
    • /
    • pp.447-454
    • /
    • 2001
  • 새로운 문서를 기존에 존재하는 클래스들에 할당하는 방법을 문서의 자동 분류라고 한다. 문서의 자동 분류는 뉴스 그룹의 기사분류, 웹 문서의 범주화, 전자 메일의 순서화, 사용자의 관심을 학습하여 보다 정확한 정보 검색을 제시하는데 사용될수 있다. 본 논문에서는 한국어 문서분류의 정확도를 높이기 위하여 문서내의 모든 단어들에 대한 확률값을 사용하여, 문서를 분류하는 기존의 방법과 달리 문서의 주제어를 선정하여 주제어로 선정된 단어들에 가중치를 부여하고 그렇지 않은 단어들에 대해서는 제거하너가 낮은 가중치를 부여하는 베이지안 분류자를 사용한다. 문서에는 특징으로 추출된 단어가 적어 문서를 분류하기 위한 만족할 만한 정보를 제공하지 못할 경우에 부족한 문서의 특징을 보충하기 위하여 말뭉치로부터 자동 단어 군집화를 통해 형성된 연관 단어 군집을 사용한다. 이러한 방법을 한국어 문서에 적용한 결과 기존의 베이지안 확률을 사용한 분류법보다 향상된 분류 정확도를 얻을 수 있었다.

  • PDF

1980~90년대 국가기록관리체제의 개편과 제도적 특징 (The Reorganization and Institutional Characteristics of National Records Management System during the 1980s to the 1990s)

  • 이승일
    • 한국기록관리학회지
    • /
    • 제8권2호
    • /
    • pp.5-38
    • /
    • 2008
  • 1999년 기록물관리법의 제정 이전 한국의 국가기록관리체제는 행정체계의 변화와 사무자동화라는 기록물 생산방식의 변화에 영향을 받으면서 수립 개편되었다. 1984년과 1992년에 개편된 국가기록관리체제는 1980년 초반의 한국의 국가적 위기 상황을 행정효율화를 통하여 극복하고 사무자동화 기기의 보급을 추진하려는 한국정부의 의지를 반영하고 있다. 이에 따라서 "정부공문서규정"과 "공문서보관보존규정"이 "정부공문서규정"으로 통합되었고 "정부공문서분류표"와 "문서의보존기간종별책정기준표"도 일원화하는 쪽으로 개편되었다.

텍스트 마이닝을 이용한 XML 문서 분류 기술 (Classification Techniques for XML Document Using Text Mining)

  • 김천식;홍유식
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권2호
    • /
    • pp.15-23
    • /
    • 2006
  • 인터넷에는 많은 문서가 있고 지금도 새로운 문서가 만들어지고 있다. 따라서 인터넷에 존재하는 문서를 의미 있게 분류하는 것은 향후 문서의 관리 및 질의처리에서 중요한 문제이다. 하지만 지금까지 대부분은 키워드에 기초한 문서 분류방법을 사용하고 있다. 이 방법은 문서를 효율적으로 분류하지 못했다. 또한 의미를 포함한 문서의 분류를 하지 못한다. 사람이 문서를 꼼꼼하게 읽어서 문서를 분류하는 방법이 최선이지만, 시간적인 면이나 효율성에 문제가 있다. 따라서 본 논문에서는 신경망 알고리즘과 C4.5 알고리즘을 이용하여 문서를 분류하고자 한다. 실험 데이터로 XML로 만들어진 이력서 데이터를 사용하여 실험하였다. 실험결과 문서 분류에 가능성을 보였다. 또한, 다양한 문서 분류 응용에 적용하여 좋은 결과를 얻을 것으로 기대한다.

  • PDF