A Study on the Intelligent Document Processing Platform for Document Data Informatization

Hee-Do Heo;Dong-Koo Kang;Young-Soo Kim;Sam-Hyun Chun;

doi:10.7236/JIIBC.2024.24.1.89

The Journal of the Institute of Internet, Broadcasting and Communication (한국인터넷방송통신학회논문지)

Volume 24 Issue 1
/
Pages.89-95
/
2024
/
2289-0238(pISSN)
/
2289-0246(eISSN)

The Institute of Internet, Broadcasting and Communication (한국인터넷방송통신학회)

DOI QR Code

A Study on the Intelligent Document Processing Platform for Document Data Informatization

문서 데이터 정보화를 위한 지능형 문서처리 플랫폼에 관한 연구

Hee-Do Heo ;
Dong-Koo Kang ;
Young-Soo Kim ;
Sam-Hyun Chun (Dept: IT Policy and Management)

허희도 (숭실대학교 IT정책경영학과) ;
강동구 (숭실대학교 IT정책경영학과) ;
김영수 (숭실대학교 IT정책경영학과) ;
전삼현 (숭실대학교 IT정책경영학과)

Received : 2023.11.30
Accepted : 2024.02.09
Published : 2024.02.29

https://doi.org/10.7236/JIIBC.2024.24.1.89 Citation PDF HTML

Download PDF

⟨ Previous Next ⟩

Abstract

Nowadays, the competitiveness of a company depends on the ability of all organizational members to share and utilize the organizational knowledge accumulated by the organization. As if to prove this, the world is now focusing on ChetGPT service using generative AI technology based on LLM (Large Language Model). However, it is still difficult to apply the ChetGPT service to work because there are many hallucinogenic problems. To solve this problem, sLLM (Lightweight Large Language Model) technology is being proposed as an alternative. In order to construct sLLM, corporate data is essential. Corporate data is the organization's ERP data and the company's office document knowledge data preserved by the organization. ERP Data can be used by directly connecting to sLLM, but office documents are stored in file format and must be converted to data format to be used by connecting to sLLM. In addition, there are too many technical limitations to utilize office documents stored in file format as organizational knowledge information. This study proposes a method of storing office documents in DB format rather than file format, allowing companies to utilize already accumulated office documents as an organizational knowledge system, and providing office documents in data form to the company's SLLM. We aim to contribute to improving corporate competitiveness by combining AI technology.

요즘 기업의 경쟁력은 조직이 축적한 조직의 지식들을 모든 조직원들이 잘 공유하고 활용하는 능력에 달려있다. 이것을 증명이라도 하듯이 지금 세상은 LLM(거대언어모델)의 기반의 생성형 AI 기술을 이용한 쳇GPT서비스에 대해 집중하고 있다. 하지만, 쳇GPT 서비스를 업무에 적용하기에는 아직 환각성 문제가 많아 어려운 상태이다. 이 문제를 해결하기 위해 sLLM(경량거대언어모델) 기술이 대안으로 제시되고 있다. sLLM을 구성하기 위해서는 기업데이터가 필수적으로 필요하다. 기업데이터는 조직의 ERP Data와 조직이 보존하고 있는 기업의 오피스 문서 지식 데이터이다. ERP Data는 sLLM과 직접 연결하여 활용할 수 있으나 오피스 문서는 파일 형태로 저장되어 있어서 데이터 형태로 변환하여야 sLLM과 연결하여 활용할 수 있다. 뿐만 아니라 파일 형태로 저장되어져 있는 오피스 문서들을 조직을 지식 정보로 활용하기에는 기술적 제약 사항이 너무 많다. 본 연구는 오피스 문서를 파일 형태가 아닌 DB 형태로 저장하는 방법을 제시함으로서 기업이 기 축적 된 오피스 문서를 조직의 지식 시스템으로 잘 활용할 수 있게 하고, 기업의 sLLM에 오피스 문서를 데이터 형태로 제공하여 AI 기술과 접목하여 기업 경쟁력을 향상 시키는데 기여하고자 한다.

Keywords

챗GPT;

Ⅰ. 서론

최근 파일 기반의 문서중앙화 솔루션을 AI와 접목하려는 시도가 있지만, 검색 효율성 향상 및 문서 분류 등의 제한적인 기능만 제공하여 문서 데이터를 활용하지 못하는 문제는 여전히 존재한다.^[1] 또한 PC 기반의 개인별 파일 저장∙관리로 자료의 유실 가능성 및 기존 생성자료에 대한 재사용 제한으로 업무 효율성 저하와 같은 문서 중앙화의 한계점이 존재한다.^[2] 기업 콘텐츠 관리 시장(ECM, Enterprise Content Management)을 주도하고 있는 글로벌 기업의 고도화 방향은 데이터 분석 및 콘텐츠 관리의 프로세스 자동화를 통해 문서의 활용과 협업의 가치를 제공하고 있다.^[4] 데이터의 활용 방안에 대한 문제를 해결하기 위해 문서 파일의 중앙화 필요성 대두되었으나, 파일 문서의 내부 데이터 활용 제약으로 문서 재사용이 제한되어 업무 효율성과 향상을 기대하기에는 어려움이 존재한다.^[4] 문서의 저장 형태를 파일에서 DB로 변경하여 저장하고 콘텐츠의 주제별 자동 분류, 효과적인 검색 기능을 연구함으로써,^[2] 온택트 시대에 부합하기 위한 스마트 오피스 환경을 지향하고, 문서 콘텐츠의 세부적 관리를 통해 생산된 자료의 재활용성을 대폭 향상시키고, 클라우드 기반의 파일 및 DB를 클라우드 시스템에 저장할 수 있도록 하는 기술을 연구하여.^[3]저장소內 부서 공용/개인 자료로 구분된 저장 및 관리, 활용을 통해 디지털 전환(Digital Transformation), 경영혁신 新조직문화 구축의 참고 자료로 활용될 수 있을 것으로 기대한다.

Ⅱ. 관련연구

본 연구에서는 오피스 기술을 활용하여 클라우드 환경에서 다중 사용자의 동시 편집을 지원하고 다양한 포맷의 문서를 호환하며 임베딩(Embedidng)을 통해 타 어플리케이션으로 확장성을 제공하고, AI기술을 활용하여 문서로부터 메타데이터를 자동 생성하고, 문서 전체의 메타데이터와 외부 데이터 기반 지식 그래프를 구축하여 검색 및 추천 가능하도록 설계하고, 문서 표준을 국제 기준에 맞추어 ODF, OOXML 기반으로 표준 개선사항을 도출하고, 상용 문서 포맷과 연동/호환되는 기술을 적용하고, AST(Abstract Syntax Tree)기술을 활용하여 프로그램 분석 컴파일을 하고 엘리먼트 트리(Element Tree)문서의 데이터를 DB로 저장할 수 있도록 하는 연구 내용을 기술하였다. 이에 필요한 관련 연구 기술을 표1과 같이 정의해 보았다.

표 1. 주요연구 부문

Table 1. Major Research Areas

OTNBBE_2024_v24n1_89_t0001.png 이미지

1. 메타데이터 추출 기술 연구

가. 메타데이터 업로드/다운로드 기술 연구

(1) 상용 파일 포맷과 연동하여 문서 및 문서에 대한 메타데이터 업로드/다운로드 할수 있도록 개발한다.

(2) 기존 웹 오피스 프로그램의 불러오기 기능을 모듈화하여 상용 문서 포맷의 메타데이터를 변환 할 수 있는 기능을 제공한다.

(3) 웹 오피스 프로그램의 저장 기능을 모듈화하여 메타데이터를 문서 포맷, 혹은 RFD 형태로 Export할 수 있는 기술을 적용한다.

나. 메타데이터 포맷 변환 기술 연구

(1) 메타데이터를 다양한 포맷으로 변환하는 기술 및 타 시스템으로 전송하거나 보관할 수 있도록 개발한다.

(2) 문서의 연관된 메타데이터를 어떤 포맷으로도 유연하게 변환하여 타 시스템으로 전송하거나 보관할 수 있는 기술을 적용한다.

(3) IC(Intermediate Class container) Layer를 거쳐 어떤 포맷으로도 변환이 자유롭게 하기 위해서 IC Layer는 아래와 같은 기술들을 적용한다.

- 문서 포맷에 따라 별도로 IC Layer와 통신하고, 문서 포맷에 맞게 각 Loader /Writer를 구현하여 IC Layer에 통일된 형식의 데이터를 생성할 수 있도록 하는 기술

- IC Layer와 데이터베이스 간의 통신을 통해, 문서 포맷에 상관없이 메타데이터 스키마에 맞게 문서 데이터 변환할 수 있도록 하는 기술

- IC Layer를 통해, 문서 포맷에 따라 메타데이터 스키마에 맞춘 데이터 변환 작업이 필요하지 않고, IC Layer와 통신할 수 있는 Loader/ Writer 구현을 통해 문서 포맷별 유지보수가 용이하도록 하는 기술

2. 문서 데이터의 관계 형성 기술 관련 연구

가. 문서 데이터 간의 논리적 관계 정의

(1) 효율적인 논리적 관계 정의를 위한 메타데이터 전처리 기술 연구와 메타데이터에 대한 논리적 관계 정의 상태 변환 기술을 적용한다.

(2) 의미 기반 데이터 저장소 기술 관련 연구로 의미기반 데이터를 저장하기 위한 DB(데이터베이스)를 구축하고, 고가용성을 위한 클러스터링 연구와 의미기반 데이터 저장소의 성능 최적화를 위해 TmaxData사의 Tibero7(RDBMS)의 TAC로 구축한다.

나. 메타데이터의 의미기반 연계 검색 및 분석 기술

(1) 문서 요소 간 연관성 파악 기반 추천기술 기반으로 논리적 관계 정의 형태의 데이터 해석 기술 연구와 문서 요소 간 연관성을 사용한 추천 기술을 적용한다.

(2) 데이터 검색 및 표준 인터페이스 기술 기반의 논리적 관계 정의 기술 기반의 질문 분석 기술을 적용한다.

(3) 의미기반 문서 요소 관계 분석 시각화 기술을 활용하여 논리적 관계 정의 데이터를 활용한 요소 간 시각화 기술을 적용하여 사용 효율성과 편의성을 제공한다.

OTNBBE_2024_v24n1_89_f0001.png 이미지

그림 1. 문서 요소 메타데이터 시각화 구조도

Fig. 1. Document Element Metadata Visualization Structure Diagram

3. 웹어플리케이션에서 기능 모듈화 연구

웹 편집기에서 사용되는 View, 표, 차트 등을 모듈화하여 현재 웹어플리케이션에 종속적인 컴포넌트가 아닌 JS(자바스크립트)가 수행될 수 있는 환경이라면 어디서든 동작할 수 있는 독립적 모듈로 설계했다. 웹 어플리케이션의 모듈화를 통해 웹오피스 뿐만 아니라 다른 어플리케이션에서도 정보공유 및 편집을 할 수 있도록 컴포넌트의 기능을 제공할 수 있도록 설계했다. 활용성이 높은 표, 차트 등의 기능부터 모듈화하여 이후 문서 편집기 전체를 다른 사이트에 임베딩(Embedding) 될 수 있도록 설계했다. 모듈에서 변경 사항이 원본 문서의 내용을 수정할 수 있도록 Client buffer 및 전송 로직 모듈화가 이루어지도록 설계했다.

4. 문서 데이터 간 논리적 관계 정의에 관한 연구

가. 문서 메타데이터 자동생성 관련 연구

(1) 구축된 새로운 도메인에서의 메타데이터 자동 생성 기술 연구를 통해 새로운 도메인의 스키마에서 메타데이터 자동 생성을 위해 학습 데이터 수집을 할 수 있도록 하고 기존 메타데이터 자동 생성 모델을 Tuning하여 각각 도메인의 메타데이터 자동 생성 모델이 될 수 있도록 한다.

(2) 1차 생성된 메타데이터 자동 생성 모델의 성능 고도화를 고려해야 하므로 학습 데이터를 추가 구축하여 기존 메타데이터 자동 생성 모델 학습을 계속적으로 고도화 시킴으로 Parameter Tuning을 통해 기 생성 된 모델의 성능을 개선 할 수 있도록 한다.

(3) 메타 데이터 자동 생성 모델의 실시간 서비스를 위해 모델 경량화 기술이 필수적이다. 이에 Knowledge, Distillation, Pruning, Quantization 등을 활용하여 기존에 개발한 대규모 모델을 경량화하고 연속적인 Tuning을 통해 실시간 서비스를 제공하며 성능 저하를 최소화 할수 있도록 한다.

나. 지식 그래프를 활용한 실시간 추천 연구

(1) 문서 데이터 간의 논리적 관계 정의를 효율적으로 구성하기 위해서 Graph DB Connector 설계는 매우 중요하다. 이에 Graph DB Connector의 예상 구성도를 그림 2와 같이 제시한다.

OTNBBE_2024_v24n1_89_f0002.png 이미지

그림 2. Graph DB Connector 예상 구성도

Fig. 2. Graph DB Connector Expected Configuration

(2) 의미 기반의 데이터 저장을 효율적으로 하기 위해서는 DB 구조 개선이 필요하고 고가용성을 보장하기 위한 클러스터링 기술 연구와 이미 기반 데이터 저장소의 성능 최적화를 위한 기술 연구가 필수적이다. 이에 의미기반 데이터 저장소의 예상 구조도를 그림 3과 같이 제시한다.

OTNBBE_2024_v24n1_89_f0003.png 이미지

그림 3. 의미기반 데이터 저장소 예상 구성도

Fig. 3. Semantic data stores Expected Configuration

(3) 지식 그래프를 활용하여 문서간의 실시간 추천 서비스가 가능하도록 하기 위해서 사용자가 작성한 문서에서 메타데이터를 자동 생성하고 지식 그래프에서 관련 데이터를 찾아 작성 보조를 위해 추천 가능하도록 구성하고 기존에 생성된 메타데이터 자동 생성 기술, Entity, Relation, Linking 등의 기술을 활용하여 실시간 추천 기능이 가능하도록 한다.

(4) 특정 도메인에서의 스키마 구축은 지식 그래프를 구성하는데 중요한 요소가 되며 문서 간의 의미 정보를 잘 추출할 수 있도록 설계 되어져야 한다. 학술 자원 도메인을 샘플로 문서 의미 정보를 추출하는 설계 예시는 그림 4와 같다.

OTNBBE_2024_v24n1_89_f0004.png 이미지

그림 4. 학술자원 도메인에서의 스키마 구축 예시

Fig. 4. Example of schema building in the Academic Resources domain

5. 오피스 문서 데이터 정보화 시스템

가. 오피스 문서 데이터 정보화 시스템 정의

(1) 텍스트 추출 기술을 이용하여 오피스 문서의 내용을 추출하고 RDBMS 테이블 컬럼에 저장하여 문서의 내용을 쉽게 검색하고 텍스트 기반 쿼리를 수행하는 기술이다.

(2) 문장 단위로 RDBMS 셀에 저장하여 텍스트 단위로 저장을 하거나 셀 간의 유사 관계를 정의 할 수 있으며 문장과 문장의 연결과 해석, 텍스트와 문장과의 연결 및 텍스트와 텍스트 간의 연결 및 관계를 정의 할 수 있도록 저장 및 메타 정보를 처리하는 시스템이다.

나. 오피스 문서 분석하여 그래프 생성과정

(1) 문서이해는 주어진 문서를 이해하기 위해 자연어 처리(Natural Language Processing, NLP) 기술을 사용하여 문장 분리, 형태소 분석, 구문 분석 등의 과정을 거쳐 문서의 구조와 의미를 파악한다.

(2) 개체추출은 문서에서 개체를 추출하기 위해 개체명 인식(Named Entity Recognition, NER) 기술을 활용하여 사람, 장소, 기관, 날짜 등과 같은 중요한 개체를 식별하고 분류한다.

(3) 관계추출은 문서에서 개체 간의 관계를 추출하기 위해 관계 추출(Relation Extraction) 기술을 사용하여 문장 내에서 개체 간의 상호작용, 소유, 관련성 등을 파악하고 관계를 추출한다.

다. 지식 그래프로 생성된 데이터의 표현과 활용

(1) 지식 그래프는 복잡한 관계와 패턴을 포착하고 표현할 수 있는 강력한 방법이며, 그래프 쿼리 언어를 사용하여 지식을 검색하고 분석할 수 있다.

(2) 지식 그래프는 AI 기술과의 통합을 통해 추론, 질의응답, 추천 시스템 등 다양한 지능적인 기능을 개발하는 데 활용될 수 있다.

6. AI기술 활용 연구

(1) 여러 형태로 저장 된 문서 데이터의 정보를 잘 활용하기 위해서는 AI의 기술 접목이 필수적이다. 하지만 이미지(파일) 형태와 일반적 DB 형태로 저장 된 내용을 컴퓨터가 스스로 이해하여 서비스를 제공하기는 불가능하다. 따라서 문서 데이터를 효율적으로 활용하기 위해서는 AI가 이해 할 수 있는 형태로 다시 재정의 되는 것이 중요하다.

(2) 저장 된 문서 데이터와 외부의 지식 데이터가 하나의 지식으로 통합되어 최종 사용자들에게 서비스될 수 있다면 새로운 지식 서비스의 혁신적인 연구가 될 것이다. 이에 문서 데이터와 외부의 지식 데이터 효율적으로 서비스 되기 위한 필요한 예상 구성도를 그림 5와 같이 제시한다.

OTNBBE_2024_v24n1_89_f0005.png 이미지

그림 5. 지식 그래프생성 아키텍쳐

Fig. 5. Knowledge Graph Generation Architecture

OTNBBE_2024_v24n1_89_f0006.png 이미지

그림 6. AI 기술 융합 서비스 예상 구성도

Fig. 6. AI Technology Convergence Service Expected Configuration

Ⅲ. 결론

과거의 오피스 문서는 의사 소통과 지식을 기록하기 위해 사용 되었다. 또한 오피스 문서의 생산은 각자 개인의 PC에서 혼자 생산하는 것이 대부분이였다. 하지만 이제는 많은 사람들이 한꺼번에 문서를 동시 생산 및 편집할 수 있는 기능 요구가 많아지고 있고, 대량의 문서에서 필요한 주제와 내용 등을 손쉽게 검색하여 지식 또는 2차 생산 문서로 재활용할 수 있는 기술적 기능 요구가 많아지고 있다.

이에 본 연구는 클라우드 오피스 기반의 데이터 정보화 환경을 구축할 수 있도록 도움을 주고, 데이터 기반의 의사결정을 할 수 있는 환경을 제공하고, 지능형 문서 데이터 통합 관리체계 마련하고 문서를 데이터 정보로 활용하고, AI 기술을 적용하여 여러 문서들의 중요한 정보와 지식들을 통합된 형태로 서비스 받을 수 있도록 할 것이다.

또한 사용자의 축적 데이터를 기반으로 한 분석 및 추천 과정에서 클라우드 오피스, AI 모델링 및 빅데이터, 의미 연계 기반의 시각화 등을 통해 유사 기술의 동반 성장을 기대할 수 있다.

데이터의 생성‧수집 단계에서부터 표준화된 메타데이터 기반의 문서 작성 및 DB화는 문서의 의미나 관계를 자동으로 기계가 해석 가능한 문서의 범위를 확대하고 표준화함으로써 범용 문서 제작까지 적용 가능할 것으로 예상된다.

본 연구를 더욱 발전시켜, AI 기반 예측 분석 및 추천 기술을 적용하여 지능형 문서처리 플랫폼 기반의 클라우드 오피스 시장을 활성화 한다면 경제적, 산업적 측면에서는 사무 프로세스 비용 절감 및 업무 생산성을 100배 이상 증대하는 효과가 예상된다.

차세대 클라우드 오피스 기반 규격 표준화(ODF, OOXML) 진행으로 이종 문서 처리 및 관리를 위한 문서 작성 도구와 데이터 관리 솔루션 도입 비용의 절감과 기대 효과도 예상할 수 있다.

그리고 문서 규격의 고도화를 지향하는 최초의 연구로 기술 및 시장 선점 글로벌 기업인 마이크로소프트, Google 등의 기술격차 해소를 통한 글로벌 시장 진출 기반을 마련하고 해외 종속적인 문서 관리 및 언어 처리 시장을 극복하고 자체 기술 기반 산업 영역을 확대함으로써 기존 글로벌 선두업체와의 기술격차를 해소하고, 기술 의존도를 탈피한 자체 기술을 확보하는데 기여 할 것이라고 예상된다.

사회적 측면은 비대면 협업 활성화로 인한 일자리 및 업무 환경 제약의 탈피, 온라인 비대면 협업을 위한 시스템 및 인프라 구축 기반으로 업무 및 협업 환경에서의 물리적 제약 탈피에 따른 공정한 업무 환경의 제공을 기대할 수 있을 것이다.

또한, 본 연구는 제4차 산업혁명 기술 요소인 AI, 빅데이터, 클라우드와 Office 기술의 동반 성장에 기여할 것이다. 하지만 문서의 내용을 더욱 잘 이해하고 이후 처리가 쉽도록 지원하기 위해서는 문서중앙화 솔루션과 AI 기술을 융합하는 것이 중요하다. 향후 문서 중앙화 솔루션과 기존 작성된 문서를 파일과 DB로 동시에 저장할 수 있는 기술과 AI가 문서를 바로 이해 할 수 있는 연구가 더욱 필요하다.

References

Lee Jun-Hee, 2005, DBPIA : Design of an ECM System for Ubiquitous Knowledge Management DOI:https://www-dbpia-co-kr-ssl.openlink.ssu.ac.kr/pdf/pdfView.do?nodeId=NODE00685139
Kim Myong-Ok, 2000, DBPIA : Metadata-based Document Management Model DOI:https://www-dbpia-co-kr-ssl.openlink.ssu.ac.kr/pdf/pdfView.do?nodeId=NODE10491192
Yoo Kee-dong, 2012, Cloud storage-based intelligent archiving system applying automatic document summarization. DOI:https://koreascience.kr/article/JAKO201223659810823.pdf
Lee Yong-Bae, 2011, DBPIA : Design and Implementation of a Preprocessing Tool lite-DOM for the Information Analysis of Digital Documents. DOI:https://www-dbpia-co-kr-ssl.openlink.ssu.ac.kr/pdf/pdfView.do?nodeId=NODE01746498

The Journal of the Institute of Internet, Broadcasting and Communication (한국인터넷방송통신학회논문지)

A Study on the Intelligent Document Processing Platform for Document Data Informatization

문서 데이터 정보화를 위한 지능형 문서처리 플랫폼에 관한 연구

Abstract

Keywords

Ⅰ. 서론

Ⅱ. 관련연구

1. 메타데이터 추출 기술 연구

가. 메타데이터 업로드/다운로드 기술 연구

나. 메타데이터 포맷 변환 기술 연구

2. 문서 데이터의 관계 형성 기술 관련 연구

가. 문서 데이터 간의 논리적 관계 정의

나. 메타데이터의 의미기반 연계 검색 및 분석 기술

3. 웹어플리케이션에서 기능 모듈화 연구

4. 문서 데이터 간 논리적 관계 정의에 관한 연구

가. 문서 메타데이터 자동생성 관련 연구

나. 지식 그래프를 활용한 실시간 추천 연구

5. 오피스 문서 데이터 정보화 시스템

가. 오피스 문서 데이터 정보화 시스템 정의

나. 오피스 문서 분석하여 그래프 생성과정

다. 지식 그래프로 생성된 데이터의 표현과 활용

6. AI기술 활용 연구

Ⅲ. 결론

References

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)