DOI QR코드

DOI QR Code

Cross Compressed Replication Scheme for Large-Volume Column Storages

대용량 컬럼 저장소를 위한 교차 압축 이중화 기법

  • Byun, Siwoo (Division of Digital Media, Anyang University)
  • 변시우 (안양대학교 디지털미디어학과)
  • Received : 2013.03.13
  • Accepted : 2013.05.09
  • Published : 2013.05.31

Abstract

The column-oriented database storage is a very advanced model for large-volume data analysis systems because of its superior I/O performance. Traditional data storages exploit row-oriented storage where the attributes of a record are placed contiguously in hard disk for fast write operations. However, for search-mostly datawarehouse systems, column-oriented storage has become a more proper model because of its superior read performance. Recently, solid state drive using MLC flash memory is largely recognized as the preferred storage media for high-speed data analysis systems. In this paper, we introduce fast column-oriented data storage model and then propose a new storage management scheme using a cross compressed replication for the high-speed column-oriented datawarehouse system. Our storage management scheme which is based on two MLC SSD achieves superior performance and reliability by the cross replication of the uncompressed segment and the compressed segment under high workloads of CPU and I/O. Based on the results of the performance evaluation, we conclude that our storage management scheme outperforms the traditional scheme in the respect of update throughput and response time of the column segments.

컬럼-기반 데이터베이스 저장소는 우수한 입출력 성능으로 대용량 데이터 분석 시스템을 위한 매우 진보적인 모델이다. 전통적인 데이터 저장소는 빠른 쓰기 연산을 위하여 한 레코드의 속성들을 하드 디스크에 연속적으로 배치되어 있는 가로-지향 저장 모델을 활용하였다. 하지만 검색이 대부분인 데이터웨어하우스 시스템을 위해서는 월등한 판독 성능 때문에 컬럼-지향 저장소가 더 적합한 모델이 되고 있다. 또한 최근에는 MLC 플래시 메모리를 사용한 SSD가 고속 데이터 분석 시스템을 위한 적합한 저장 매체로 인식되고 있다. 본 논문에서는 고속 컬럼-지향 데이터 저장소 모델을 도입하고, 고속 컬럼-지향 데이터웨어하우스 시스템을 위한 교차 압축 이중화를 활용하는 새로운 저장소 관리 기법을 제안한다. 본 저장소 관리 기법은 두 개의 MLC SSD에 기반하며, 압축과 비압축된 세그먼트의 교차 이중화를 통하여 높은 CPU 및 입출력 부하에서도 우수한 저장 성능과 안정성을 얻는다. 성능 평가 결과를 통하여 본 저장소 관리 기법이 기존 기법보다 컬럼 세그먼트 갱신 처리치 및 그 응답시간 측면에서 더 우수함을 확인하였다.

Keywords

References

  1. D. Abadi, S. Madden, and M. Ferreira. "Integrating compression and execution in column-oriented database systems", Proc. of SIGMOD, pp. 671-682, 2006. DOI: http://dx.doi.org/10.1145/1142473.1142548
  2. S. Byun. "Column-aware Polarization Scheme for High-Speed Database Systems", Journal of Korean Socieity Internet Information, Vol. 13, No.3, pp. 83-91, 2012. DOI: http://dx.doi.org/10.7472/jksii.2012.13.3.83
  3. D. Abadi, A. Boncz, and S. Harizopoulos, "Columnoriented Database Systems", Proc. of the VLDB, Lyon, France, August 24-28 2009.
  4. S. Harizopoulos, V. Liang, D. J. Abadi, and S. Madden, "Performance tradeoffs in read-optimized databases", Proc. of VLDB, pp. 487-498, 2006.
  5. S. Byun. "Search Performance Improvement of Columnoriented Flash Storages using Segmented Compression Index", Journal of the Korea Academia-Industrial, Vol. 14, No.1, pp. 393-401, 2013. DOI: http://dx.doi.org/10.5762/KAIS.2013.14.1.393
  6. Solid Data Systems, "Comparison of Drives Technologies for High-Transaction Databases", Solid Data Systems, Inc. White paper, 2007
  7. A. Halverson, J. Beckmann, and J. Naughton. "A comparison of c-store and row-store in a common framework", Technical Report, UW Madison Department of CS, TR1566, 2006.
  8. Lucas Mearian, "Analysis: SSD performance -- is a slowdown inevitable?", Available From: http://www.computerworld.com/s/article/9132668/Analysis_SSD_performance_is_a_slowdown_inevitable_?taxonomyId=19&pageNumber=3, (accessed 16 Mar. 2013)
  9. Samsung, Samsung, what is NAND Flash based SSD?,Available From: http://www.samsung.com/global/business/semiconductorproducts/flash/Products_FlashSSD.html, (accessed 16 Mar. 2013)
  10. D. Abadi, D. Myers, D. DeWitt, and S. Madden. "Materialization strategies in a column-oriented dbms", MIT CSAIL Technical Report. MIT-CSAIL-TR-2006-078, 2006 DOI: http://dx.doi.org/10.1109/ICDE.2007.367892
  11. S. Byun, M. Hur, and H. Hwang, "An index rewriting scheme using compression for flash memory database systems" Journal of Information Science, Vol. 33, No.4, pp. 398-415, 2007. DOI: http://dx.doi.org/10.1177/0165551506076331
  12. Oberhumer, LZO-- a real-time data compression library, Available From: http://www.oberhumer.com/opensource/lzo/lzodoc.php, (accessed 16 Mar. 2013)
  13. Mesquite, CSIM2.0 Development Toolkit for Simulation and Modeling, Available From: http:/ /www.Mesquite.com/documentation/documents/CSIM20_User_Guide-C.pdf, (accessed 16 Mar. 2013)