DOI QR코드

DOI QR Code

Research on Data Preprocessing Techniques for Efficient Decision-Making in Food Import Procedures

식품 수입 절차에서의 효율적 의사결정을 위한 데이터 전처리 기술에 관한 연구

  • 박재형 (아주대학교 비즈니스 애널리틱스학과) ;
  • 송용욱 (연세대학교 미래캠퍼스 경영학부) ;
  • 강주영 (아주대학교 경영대학)
  • Received : 2023.05.30
  • Accepted : 2023.06.16
  • Published : 2023.06.30

Abstract

With the development of data-driven decision-making and sophisticated big data processing technique, there is a growing demand for information on how to process data. However, recent studies with data preprocessing mentioned only as a means to achieve a result. Therefore, in this study, we aimed to write in detail about the data processing pipeline, include preprocessing data. In particular, we shares the context and domain knowledge to aid fluent understand of the research.

데이터 기반 의사결정 방법론, 고도화된 빅데이터 처리 기법의 발달로 데이터를 처리하는 방법에 대한 정보의 수요가 늘어나고 있다. 데이터를 활용하는 거의 모든 작업과 연구에서 데이터 전처리 과정이 포함되나, 이러한 과정은 주장하고자 하는 내용이나 결과물을 도출하기 위한 수단으로써 언급될 뿐 실질적인 과정에 대해서 자세하게 설명하고 있는 연구는 부족하였다. 실질적인 분석 기법을 활용하기 이전의 단계로 간단하게 언급되는 경우가 많아 데이터 처리에 대한 인사이트를 획득하기 어려운 경우가 많았다. 따라서 이 연구에서는, raw data에서부터 데이터를 처리하는 과정, 즉 데이터 처리 파이프라인에 대해서 자세하게 작성하고자 하였다. 특히 수입식품 수입 절차에 대한 설명을 구체화함으로써 해당 상황에서 데이터의 필드들이 어떻게 해석될 수 있고 어떠한 필드들을 왜 활용하게 되었는지에 대한 상황과 관련 도메인 지식을 공유하면서 흐름을 기술하고자 하였다.

Keywords

Acknowledgement

본 연구는 2022년도 식품의약품안전처의 연구개발비(21163MFDS516-4)로 수행되었으며 이에 감사드립니다.

References

  1. 이경수, 박예린, 신윤종, 손권상, 권오병, "효율적 수입식품 검사를 위한 머신러닝 기반 부적합 건강기능식품 탐지 방법", 지능정보연구, 제28권, 제2호, pp. 139-159, 2022.  https://doi.org/10.13088/JIIS.2022.28.3.139
  2. 조상구, 조승용, "기계학습을 이용한 식품위생 점검 체계의 효율성 개선 연구", 한국빅데이터학회지, 제5권, 제2호, pp. 53-67, 2020. 
  3. Nganje, W.E., Quality Assurance for Imports and Trade: Risk-Based Surveillance, in US Programs Affecting Food and Agricultural Marketing, Available at Springer, 2012. 
  4. N. V. Chawla, K. W. Bowyer, L. O. Hall, W. P. Kegelmeyer, "SMOTE: synthetic minority over-sampling technique", J. of Artificial Intelligence Research, 16: pp. 321-357, 2002.  https://doi.org/10.1613/jair.953
  5. Han, H., W.-Y. Wang, and B.-H. Mao., "Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning", Advances in Intelligent Computing: International Conference on Intelligent Computing, ICIC 2005, Proceedings, Part I 1. 2005. 
  6. He, H., E.A. Garcia, "Learning from imbalanced data", IEEE Transactions on Knowledge and Data Engineering, 21(9): pp. 1263-1284, 2009.  https://doi.org/10.1109/TKDE.2008.239
  7. Zhang, T., Chen, J., Li, F., Zhang, K., Lv, H., He, S., E, Xu., "Intelligent fault diagnosis of machines with small & imbalanced data: A state-of-the-art review and possible extensions", ISA Transactions, 119: pp. 152-171, 2022.  https://doi.org/10.1016/j.isatra.2021.02.042
  8. Li, C., "Preprocessing methods and pipelines of data mining: An overview", arXiv preprint arXiv: 1906.08510, 2019. 
  9. Garcia, S., Ramirez-Gallego, S., Luengo, J., Benitez, J., Herrera, F., "Big data preprocessing: methods and prospects", Big Data Analysis, Vol. 1, No. 9, 2016. 
  10. Lin, W.-C. and C.-F. Tsai, Missing value imputation: a review and analysis of the literature (2006-2017). Artificial Intelligence Review, 53: pp. 1487-1509, 2020.  https://doi.org/10.1007/s10462-019-09709-4
  11. Rousseeuw, P.J., M. Hubert, "Robust statistics for outlier detection. Wiley interdisciplinary reviews: Data mining and knowledge discovery", 1(1): pp. 73-79, 2011.  https://doi.org/10.1002/widm.2
  12. Patro, S., K.K. Sahu, "Normalization: A preprocessing stage", arXiv preprint arXiv: 1503.06462, 2015. 
  13. Xiao, Z., Gang, W., Yuan, J., Chen, Z., Li, J., Wang, X., Feng, X., "Impacts of data preprocessing and selection on energy consumption prediction model of HVAC systems based on deep learning", Energy and Buildings, 258: p. 111832, 2022. 
  14. Talavera, L., "Feature selection as a preprocessing step for hierarchical clustering", in International Conference on Machine Learning (ICML), 1999. 
  15. Li, J., Cheng, K., Wang, S., Morstatter, F., P. Trevino, R., Tang, J., Liu, H., "Feature selection: A data perspective", ACM Computing Surveys (CSUR), 50(6): pp. 1-45, 2017.  https://doi.org/10.1145/3136625
  16. Van der Maaten, L., G. Hinton, "Visualizing data using t-SNE", J. of Machine Learning Research, 9(11), 2008. 
  17. Tsai, C.-F., Y.-C. Chen, "The optimal combination of feature selection and data discretization: An empirical study", Information Sciences, 505: pp. 282-293, 2019.  https://doi.org/10.1016/j.ins.2019.07.091
  18. Li, C., "Preprocessing methods and pipelines of data mining: An overview", arXiv preprint arXiv: 1906.08510, 2019. 
  19. 박혜진, 조상구, 수입식품 현지실사 업체 선정을 위한 예측모형 개발. 학술대회 및 심포지엄, 2022. 
  20. Ndraha, N., H.-I. Hsiao, and W.C.C. Wang, "Comparative study of imported food control systems of Taiwan, Japan, the United States, and the European Union", Food Control, 78: pp. 331-341, 2017.  https://doi.org/10.1016/j.foodcont.2017.02.051
  21. Kwak, N.-S., "Comparative analysis of the imported food control systems of the Republic of Korea, Japan, the United States, and the European Union", Food Reviews International, 30(3): pp. 225-243, 2014.  https://doi.org/10.1080/87559129.2014.913293
  22. Akoglu, H., "User's guide to correlation coefficients", Turkish J. of Emergency Medicine, 18(3): pp. 91-93, 2018. https://doi.org/10.1016/j.tjem.2018.08.001