DOI QR코드

DOI QR Code

Analysis of Job Scheduling and the Efficiency for Multi-core Mobile GPU

멀티코어형 모바일 GPU의 작업 분배 및 효율성 분석

  • Lim, Hyojeong (Department of Computer Science and Engineering, Chungnam National University) ;
  • Han, Donggeon (Department of Computer Science and Engineering, Chungnam National University) ;
  • Kim, Hyungshin (Department of Computer Science and Engineering, Chungnam National University)
  • 임효정 (충남대학교 컴퓨터공학과) ;
  • 한동건 (충남대학교 컴퓨터공학과) ;
  • 김형신 (충남대학교 컴퓨터공학과)
  • Received : 2014.03.21
  • Accepted : 2014.07.10
  • Published : 2014.07.31

Abstract

Mobile GPU has led to the rapid development of smart phone graphic technology. Most recent smart phones are equipped with high-performance multi-core GPU. How a multi-core mobile GPU can be utilized efficiently will be a critical issue for improving the smart phone performance. On the other hand, most current research has focused on a single-core mobile GPU; studies of multi-core mobile GPU are rare. In this paper, the job scheduling patterns and the efficiency of multi-core mobile GPU are analyzed. In the profiling result, despite the higher number of GPU cores, the total processing time required for certain graphics applications were increased. In addition, when GPU is processing for 3D games, a substantial amount of overhead is caused by communication between not only the CPU and GPU, but also within the GPUs. These results confirmed that more active research for multi-core mobile GPU should be performed to optimize the present mobile GPUs.

모바일 GPU가 발전함에 따라 멀티코어 GPU를 효과적으로 최적화하는 것은 스마트폰의 성능을 높이는데 있어 중요한 문제가 되고 있다. 하지만 대부분의 모바일 GPU에 관한 연구는 싱글코어 모바일 GPU에 대해 다루고 있거나, GPU 공급자에 의한 제한적인 연구만을 다루고 있다. 따라서 본 논문에서는 멀티코어 GPU의 작업 분배 패턴과 효율성 분석을 통해 성능향상의 가능성에 대한 분석을 수행하였다. 실험은 DS-5 Streamline을 사용하여 시스템 사용자 인터페이스를 조작하였을 때, GPU의 코어 수의 변화에 따른 그래픽 처리 소요 시간을 측정한 실험과 GPU의 코어 수에 따른 작업 분배 패턴에 대한 실험을 수행하였다. 프로파일링 결과, GPU의 코어수가 더 증가했음에도 불구하고 그래픽 애플리케이션을 실행하는데 요구되는 전체 소요시간이 증가하는 경우를 발견하였다. 또한 GPU가 그래픽을 처리할 때, 약 4ms의 오버헤드가 CPU와 GPU 사이의 통신에서 발생하고, GPU 내부 드라이버의 활동으로 인한 지연이 발생했음을 확인하였다. 따라서 본 논문에서 GPU 동작의 비효율성에 대한 분석결과는 앞으로의 모바일 멀티코어 GPU의 연구에 있어 참고가 될 수 있을 것이라 예상한다.

Keywords

References

  1. Sunpyo Hong, Hyesoon Kim, "An Integrated GPU Power and Performance Model.", In ACM SIGARCH Computer Architecture News, 2010. DOI: http://dx.doi.org/10.1145/1816038.1815998
  2. NVIDIA, "NVIDIA CUDA Programming Guide", 1, 2.2, 7, 2011.
  3. J.-H. Kim, J.-S. Kim "Implementation of Efficient Power Method on CUDA GPU." Journal of The Korea Society of Computer and Information, Vol. 16, No. 2, pp. 9-16, February 2011. DOI: http://dx.doi.org/10.9708/jksci.2011.16.2.009
  4. KATO, S., LAKSHMANAN, K., KUMAR, A., KELKAR, M., ISHIKAWA, Y., AND RAJKUMAR, R., "RGEM: A responsive GPGPU execution model for runtime engines.", In Proc. of IEEE Real-Time Systems Symposium, pp. 57-66, 2011. DOI: http://dx.doi.org/10.1109/RTSS.2011.13
  5. KATO, S., LAKSHMANAN, K., RAJKUMAR, R., ISHIKAWA, Y., "TimeGraph:GPU scheduling for real-time multi-tasking environments.", In Proc. of USENIX Annual Technical Conference, 2011.
  6. M. Kim, W. Choi, "Range Query Method of R-tree for Efficient Parallel Processing on GPU", Journal of KIISE : Computing Practices and Letters, vol.18, no.5, 409-413, May. 2012.
  7. H. choi, H. Jeon, C. Kim, "Quantitative Analysys of the Negative Factors on the GPU Performance", Journal of KIISE : Computing Practices and Letters, vol.18, no.4, pp.257-350, Apr. 2012.
  8. Khronos Group, "The OpenCL Specification", Version 1.0, 7, 2009.
  9. Mian Dong, Lin Zhong, and Zhigang Deng, "Performance and Power Consumption Characterization of 3D Mobile Games", In IEEE Computer Society, 2011. DOI: http://dx.doi.org/10.1109/MC.2012.190
  10. NVIDIA, CUDA Toolkit, Available:https://developer.nvidia.com/cuda-downloads
  11. TechPowerUp, GPU-Z, http://www.techpowerup.com/gpuz
  12. Aurora Softworks, Quadrant Benchmark, http://www.aurorasoftworks.com/
  13. GFXBench, GLBenchmark, http://www.glbenchmark.com/
  14. Akenine-Moller, T. and Strom, J., "Graphics processing units for handhelds", Proceedings of the IEEE 96(5), 779-789, 2008 DOI: http://dx.doi.org/10.1109/JPROC.2008.917719
  15. ARM, DS-5 Streamline, www.arm.com