An Improved Bit Vector Compression Method for a Document Retrieval System

문서 검색 시스템을 위한 도치 색인 파일의 압축 저장 기법 개선

  • Lee, Jun-Young (Dept. Of Computer Science, Pusan National University) ;
  • Kim, Min-Jung (Dept. Of Computer Science, Pusan National University) ;
  • Kwon, Hyuk-Chul (Dept. Of Computer Science, Pusan National University)
  • 이준영 (부산대학교 전자계산학과) ;
  • 김민정 (부산대학교 전자계산학과) ;
  • 권혁철 (부산대학교 전자계산학과)
  • Published : 1995.10.07

Abstract

문서 검색 시스템의 도치 색인 파일은 저장 공간과 검색 시간을 줄이기 위해 색인어 사전과 문서번호를 위한 이진 도치 파일 또는 비트벡터로 구성할 수 있다. 비트벡터는 1의 값을 가지는 비트만 저장함으로써 압축이 가능하나, Bit tree 압축 방법은 block의 크기가 어떻게 결정되느냐에 따라 압축률이 달라진다. 본 논문에서는 비트벡터에 나타나는 1의 값을 가지는 비트의 개수에 의해 bit tree 압축에 대한 최적의 block 크기를 결정하는 방법을 했다. 최적의 block의 크기는 (전체 비트벡터의 크기 / 1의 개수)보다 작거나 같은 최대의 2의 승수이다. 또한 block내의 1의 값을 가지는 비트의 위치에 의해 상대 위치값을 계산해서 block의 오른쪽 반에 나타나는 비트를 더 압축할 수 있는 기법을 구현한다. 본 논문에서 구현한 압축 기법은 Run Length를 이용한 방법에 비해서 13.65%, 기존의 Bit Tree 방법에 비해서 1.88%의 압축률을 개선했다.

Keywords