1. 서론
객체 인식 기술은 주어진 이미지나 영상에서 특정 객체의 존재 여부를 판단하고, 해당 객체의 위치를 바운딩 박스(Bounding Box)로 표시하는 것을 목표로 한다. 최근 딥러닝 기술의 발전과 함께 객체 인식 모델의 성능이 크게 향상되었으며, 특히 합성곱 신경망(Convolutional Neural Network, CNN), 순환 신경망(Recurrent Neural Network, RNN), 트랜스포머(Transformer) 기반 아키텍처가 도입되면서 높은 정확도를 달성하고 있다[1][2].
객체 인식 기술은 과거부터 지속적으로 발전해 왔다. 초기에는 기하학적 특징과 수작업으로 설계된 특성 추출 기법(SIFT, HOG 등)을 활용하였으나, 최근에는 대규모 데이터셋과 강력한 신경망 모델을 활용한 방법이 주를 이루고 있다[3]. 본 연구에서는 객체 인식의 최신 기술 동향을 분석하고, 성능 향상을 위한 새로운 접근 방안을 제안하고자 한다.
인공지능(AI)은 다양한 산업 분야에서 혁신을 촉진하고 있으며, 특히 시뮬레이션과의 결합을 통해 더욱 정교한 예측과 최적화가 가능해지고 있다. 시뮬레이션은 실제 환경을 모델링하여 다양한 변수에 대한 실험을 수행할 수 있도록 하는 강력한 도구이며, 특히, 물리 기반 시뮬레이션, 산업 공정 최적화, 의료 데이터 분석, 자율 주행 시뮬레이션 등 다양한 응용 분야에서 AI 기반 접근 방식이 활용되고 있다.
AI를 시뮬레이션에 활용하는 대표적인 방법으로는 강화 학습(Reinforcement Learning, RL), 생성모델(Generative Models), 물리 기반 AI(Physics-informed AI), 디지털 트윈(Digital Twin) 등이 있다. 강화 학습은 환경과의 상호 작용을 통해 최적의 정책을 학습하는 방식으로, 자율 주행 및 로봇제어와 같은 분야에서 활발히 연구되고 있다. 생성모델은 시뮬레이션 데이터의 보강 및 새로운 샘플생성을 가능하게 하며, GAN(Generative Adversarial Networks)과 같은 기법이 대표적이다. 본 연구에서는 이러한 AI 기법들이 시뮬레이션과 어떻게 결합될 수 있는지를 분석하고, 성능 향상을 위한 최적의 전략을 제안하고자 한다.
본 논문에서는 이미지내 존재하는 객체 인식의 성능을 높이기 위해 입력 이미지에 대한 전처리를 수행하고 각 객체별 인식을 순차적으로 진행하게 된다. 객체별 인식에 오류를 최소화하기 위해 인식을 병렬 처리하지 않으며, 인식된 결과를 다양한 DT에 활용할 수 있도록 표준 포맷의 형태를 저장하도록 한다.
본 연구에서는 기존 객체 인식 기법의 한계를 분석하고, 최신 기술을 기반으로 성능을 향상시킬 수 있는 방법을 제안한다. 또한, 다양한 데이터셋에서의 실험을 통해 제안하는 방법론의 효과를 검증하고, 실용적인 응용 가능성을 탐색하고자 한다.
본 논문의 구성은 다음과 같다. 2장에서는 인공지능을 이용한 다양한 객체 인식 방법에 대하여 살펴보고 3장에서는 본 논문에서 제안한 지도 학습을 이용한 객체 인식 최적화 기법에 관해 기술하였다. 4장에서는 제안한 기법의 성능 평가를 위해 실험하고 마지막으로 5장에서 결론을 맺는다.
2. 관련 연구
2.1 인공지능을 이용한 객체 인식 방법
전통적인 객체 인식 방법은 기하학적 특징과 머신러닝 기반 접근 방식을 활용하였다. Scale-Invariant Feature Transform (SIFT)과 Histogram of Oriented Gradients (HOG) 등의 기법은 이미지에서 특징점을 추출하고, 이를 바탕으로 객체를 분류하는 방식이었다. 이와 함께 Support Vector Machine (SVM)과 같은 분류모델이 결합되어 비교적 높은 성능을 보였지만, 계산량이 많고 복잡한 배경에서의 일반화 성능이 낮다는 단점이 있다[4].
딥러닝 기반 객체 인식 방법은 딥러닝이 도입되면서 객체 인식 기술은 비약적으로 발전하였다. 특히, CNN 기반 모델은 이미지의 공간적 특성을 효과적으로 학습할 수 있어 기존 방법보다 우수한 성능을 보였다. 대표적인 객체 인식 모델로는 Region-based CNN (R-CNN), Fast R-CNN, Faster R-CNN 등이 있으며, 이러한 모델들은 점진적으로 성능과 속도를 개선해 왔다. 이후 You Only Look Once (YOLO)와 Single Shot MultiBox Detector (SSD)와 같은 단일 단계(single-stage) 탐지 기법이 개발되면서 실시간 객체 탐지가 가능해졌다[5].
(그림 1) YOLO의 바운딩 박스 예측
트랜스포머(Transformer) 기반 모델이 객체 인식에도 적용되고 있다. 대표적으로 Vision Transformer (ViT)와 Detection Transformer (DETR)는 기존 CNN 기반 모델과는 다른 접근 방식을 사용하여 글로벌한 문맥 정보를 보다 효과적으로 활용할 수 있도록 설계되었다[6]. 또한, Swin Transformer와 같은 모델은 CNN과 트랜스포머의 장점을 결합하여 높은 성능을 기록하고 있다.
2.2 인공지능 기반 시뮬레이션 기법
강화 학습 기반 시뮬레이션 기법은 시뮬레이션 환경에서의 학습 및 검증을 통해 복잡한 의사결정 문제를 해결하는 데 유용하게 활용된다. 대표적인 예로, AlphaGo 및 AlphaZero와 같은 AI 시스템이 시뮬레이션을 통해 전략을 최적화한 사례를 들 수 있다. 또한, 자율 주행 및 로봇 공학에서는 시뮬레이션을 활용하여 안전한 환경에서 AI 모델을 학습시키는 연구가 활발히 이루어지고 있다.
생성 모델과 시뮬레이션의 결합은 시뮬레이션 데이터의 부족 문제를 해결하는 데 중요한 역할을 한다. GAN(Generative Adversarial Networks) 및 변분 오토인코더(VAE) 같은 기법은 현실적인 시뮬레이션 데이터를 생성하거나, 기존 데이터를 증강하는 데 활용된다. 특히, 의료 영상 분석에서는 GAN을 이용하여 부족한 데이터셋을 보완하는 연구가 진행되고 있다[7].
물리 기반 AI 및 디지털 트윈은 물리적 법칙을 AI 모델에 통합하여 보다 신뢰성 높은 예측을 수행하는 접근 방식이다. 이는 기상 예측, 재료 과학, 유체 역학 등의 분야에서 활용된다. 또한, 디지털 트윈(Digital Twin)은 실제 시스템의 가상 복제 모델을 활용하여 시뮬레이션을 수행하는 방식으로, 스마트 팩토리, 항공기 유지보수, 에너지 관리 등에서 활용되고 있다[8].
3. 객체 인식 최적화 기법
본 장에서는 지도 학습을 이용한 최적화된 객체인식을 위해 본 논문에서 제안한 기법에 대하여 설명하였다. 제안한 기법은 객체 인식의 성능을 향상시키기 위하여 객체 종류별 특성을 고려하고 그 절차를 최적화하였다.
3.1 객체 인식을 위한 과정
본 논문에서는 입력 이미지 내의 객체를 지도 학습 기반으로 인식한 후 그 결과를 다양한 분야의 DT에 활용하기 위해 표준 형태의 결과물로 저장하는 것을 목표로 한다. 먼저 이미지가 입력되면 인식 성능을 향상하기 위해 입력 이미지에 대한 전처리 과정을 수행한다. 전처리 과정으로서는 잡음을 제거한 후 인식 영역에 대한 설정을 진행한다. 설정된 인식 영역에 대하여 지도 학습 기반의 인식모델을 이용하여 객체에 대한 인식을 수행한다. 객체 인식을 문자나 심볼들의 인식 성능을 향상하기 위해 순차적으로 수행되며, 각 객체별 인식이 수행한 후 인식이 완료되면 그 대상은 이미지에서 삭제하게 된다. 이렇게 함으로써 다른 객체를 인식할 때 오류를 최소화할 수 있게 된다. 인식이 완료되면 인식 결과는 표준 형태의 파일로 저장하여 다양한 응용에 활용될 수 있도록 하였다. <그림 2>는 본 논문에서 제안한 기법의 인식 과정을 보여주고 있다.
(그림 2) 객체 인식 절차
3.2 객체 인식 최적화
이미지내에 객체 인식 과정은 글자 인식, 심볼 인식, 선 인식 과정으로 이루어졌다. 세 가지 인식 대상 중 지도 학습 기반 인식은 글자와 심볼을 대상으로 수행하였으며, 선 인식 기법은 지도 학습 기반의 모델을 적용하였을 때 그 성능이 좋지 않았다. 문자 인식과 심볼 인식에서는 인식률 향상을 위해서 인식 영역이 설정된 이미지를 입력 크기와 비슷하면서 원본 이미지 가로와 세로 비율과 비슷한 크기로 분할 하였다.
이미지내 글자와 심볼 인식을 위한 학습 모델을 구축한 후 이를 기반으로 인식을 수행하였다. 인식과정은 첫 번째 글자 인식, 두 번째로 심볼 인식을 수행하였다. 이러한 이유는 심볼 내부에 글자가 포함된 경우가 있기 때문이다. 즉, 학습 모델 구축시에도 글자를 제외한 심볼들을 이용한 모델을 구축하였고 글자를 인식한 후에 도면에서 글자를 제거하면 심볼의 인식률을 향상시킬 수 있게 하였다. 문자 인식 과정은 다음과 같다. YOLO를 이용하여 문자를 인식한 후 인식 문자들에 대한 각 좌표를 추출하여 원본 도면에서 좌표를 계산한다. 도면을 분할할 때 경계 부분에서 잘린 글자를 인식하기 위하여 x와 y 좌표값에 일정 크기만큼 더한 후 재분할하여 다시 인식을 실행한다. 인식된 글자들에 대해 원본 도면에서 좌표를 계산한 후 여러 번 겹쳐서 인식된 글자는 하나만 남기고 모두 삭제한다. 문자 인식 결과 정보를 저장한다. 문자 인식 후 한 문자씩 인식된 문자들을 단어 단위로 묶어서 저장할 수 있도록 하며, 단어 단위로 보정된 인식 문자를 수평 방향으로 가지런하게 배치될 수 있도록 한다.
심볼 인식 과정은 문자 인식에서 사용했던 YOLO를 사용해서 분할된 이미지에서 심볼을 인식한 후 인식된 심볼들에 대한 좌표를 계산한다. 이미지 분할할 시 경계 부분에서 잘린 심볼을 인식하기 위하여 x와 y 좌표 값에 각각 심볼 중 가장 긴 길이만큼 더한 후 분할하여 재인식을 실행한다. 인식된 심볼들에 대해 원본 도면에서 좌표를 계산 후 여러 번 겹쳐서 인식된 심볼은 하나만 남기고 모두 삭제한다. 심볼 인식 결과 정보를 저장한다.
선 인식 과정은 인식 영역 설정 및 잡음 제거가 이루어진 이미지의 좌측 상단 좌표(0, 0)를 시작으로 좌측에서 우측 방향으로 모든 픽셀을 검사하여 수평선을 검출한다. 수평선을 찾는 방식과 비슷한 방식으로 좌측 상단을 시작으로 위에서 아래 방향으로 이미지 마지막까지 모든 픽셀을 검사하여 수직선을 검출한다. 인식된 수평선과 수직선의 교차하는 위치를 수집한 후 선 정보에서 시작, 끝점의 좌표, 길이, 교차점의 위치와 교차되는 수직선 또는 수평선의 인덱스를 저장한다. 인식된 심볼 영역 내에서 인식된 선들은 삭제 처리한다.
4. 실험 및 결과
4.1 실험 환경
본 논문에서는 제안한 최적화 기법의 성능을 평가하기 위하여 다음과 같은 환경을 이용하였다. 먼저 인식 대상인 글자와 심볼들에 대해서 라벨링을 수행하였다. 그리고 학습 모델을 구축하기 위하여 CPU i9, 메모리 128G, GPU Geforce RTX 4070을 이용하였다. 학습은 10만 번을 수행하였으며, 객체별 서로 다른 가중치를 두어 인식을 수행하였다.
4.2 실험 결과 분석
이미지내 글자, 심볼 인식에 대한 성능 평가 기준은 precision, recall, accuracy를 사용하였다.
Precision은 학습 모델이 true라고 분류한 것 중에서 실제 true인 것의 비율을 의미한다.
\(\begin{align}(\text {Precision}) = \frac{T P }{T P + F P}\end{align}\)
Recall은 실제 true인 것 중에서 true라고 예측한 비율이다.
\(\begin{align}(\text {Recall}) = \frac{T P}{T P + F N}\end{align}\)
Accuracy는 가장 직관적으로 모델의 성능을 나타내는 지표로서 다음과 같다.
\(\begin{align}(\text {Accuracy}) = \frac{T P + T N}{T P + FN + F P + T N}\end{align}\)
글자 인식은 한 문자씩 학습 모델을 구축하였고, 글자별 서로 다른 가중치를 적용하였으며, 글자별 가중치 설정은 인식 실험의 반복을 통해 얻은 값을 적용하였다. <그림 3>은 tesseract와 YOLO를 이용한 글자 인식 결과를 보여주고 있다.
(그림 3) 글자 인식 결과
심볼 인식은 모델이 복잡하고 시간이 오래 걸리는 단점을 갖는 R-CNN보다는 후보군 추천이 존재하지 않고 네트워크가 상대적으로 단순한 YOLO를 적용하였다. 실험 결과 매우 높은 인식률을 보였으며, 미탐지 방지를 위해 confidence score 조절이나 추가 학습을 함으로써 인식률을 더욱 향상시킬 수 있다.
(그림 4) 심볼 인식 결과
선 인식에서 허프 변환 기법은 인식 결과가 입력 이미지의 상태에 따라 크게 달랐으며, 허프 변환을 적용 후 후처리 작업을 해야하는 문제가 있다. 따라서 선 인식은 본 논문에서 제안한 수평선, 수직선, 교차점 인식 과정으로 수행하게 된다. 선 인식 결과는 <그림 5>에 제시하였으며, 제안한 기법이 우수한 인식 결과를 보임을 확인할 수 있었다.
(그림 4) 선 인식 결과
<표 1>에서는 본 논문에서 실험한 인식 실험의 평균 결과를 보여주고 있다. 실험 결과를 통해서 본 논문에서 제안한 기법이 객체 인식에 우수한 성능을 보여주는 것을 확인할 수 있다.
<표 1> 평균 인식 결과
5. 결론
본 논문에서는 지도 학습을 기반으로 한 이미지 내 객체 인식 기법을 분석하고, 성능 향상을 위한 최적화 방법을 제안하였다. 전통적인 객체 인식 기법과 비교하여, CNN 및 트랜스포머 기반 모델이 객체 탐지에서 높은 성능을 보임을 확인하였다. 또한, 다양한 지도 학습 기법을 적용하여 최적의 접근 방식을 선택하고, 인식된 결과를 표준화된 JSON 형식으로 저장하여 응용 가능성을 높였다. 실험을 통해 제안한 기법이 다양한 환경에서 높은 인식 성능을 보임을 확인하였다.
AI 기반 시뮬레이션 기법은 다양한 산업 및 연구 분야에서 점점 더 중요한 역할을 하고 있다. 강화 학습, 생성 모델, 물리 기반 AI, 디지털 트윈 등 다양한 접근 방식이 결합됨으로써 기존 시뮬레이션의 한계를 극복하고, 더욱 정교한 분석과 예측이 가능해지고 있다. 본 연구에서는 AI를 활용한 시뮬레이션 기법의 발전 동향을 분석하고, 다양한 응용 사례를 통해 그 가능성을 탐색하였다. 향후 연구에서는 데이터 증강(Augmentation) 기법과 준지도 학습(Semi-supervised Learning) 기법을 결합하여 더욱 향상된 객체 인식 성능을 달성할 수 있을 것으로 기대된다. AI 모델의 해석 가능성(Interpretability)과 신뢰성(Reliability)을 높이는 방향으로의 발전이 필요하며, 실시간 시뮬레이션 환경에서의 최적화를 위한 추가 연구가 요구된다.
References
- MANAKITSA, Nikoleta, et al. A review of machine learning and deep learning for object detection, semantic segmentation, and human action recognition in machine and robotic vision. Technologies, 2024, 12.2: 15.
- Sarkar, T., Rakhra, M., Sharma, V., Takkar, S., & Jairath, K. (2024, May). Comparative Study of Object Recognition Utilizing Machine Learning Techniques. In 2024 International Conference on Communication, Computer Sciences and Engineering (IC3SE) (pp. 726-731). IEEE.
- GHASEMI, Yalda, et al. Deep learning-based object detection in augmented reality: A systematic review. Computers in Industry, 2022, 139: 103661.
- Diwan, Tausif, G. Anirudh, and Jitendra V. Tembhurne. "Object detection using YOLO: Cha llenges, architectural successors, datasets and applications." multimedia Tools and Applications 82.6 (2023): 9243-9275. https://doi.org/10.1007/s11042-022-13644-y
- Yadav, Satya Prakash, et al. "An improved deep learning-based optimal object detection systemfrom images." Multimedia Tools and Applications 83.10 (2024): 30045-30072. https://doi.org/10.1007/s11042-023-16736-5
- Zhang, Tianyang, et al. "Multistage enhancement network for tiny object detection in remote sen sing images." IEEE Transactions on Geoscience and Remote Sensing 62 (2024): 1-12.
- Ariza-Sentís, Mar, et al. "Object detection and tracking in Precision Farming: A systematic re view." Computers and Electronics in Agriculture 219 (2024): 108757.
- Vijayakumar, Ajantha, and Subramaniyaswamy Vairavasundaram. "Yolo-based object detection models: A review and its applications." Multimedia Tools and Applications 83.35 (2024): 83535-83574.