1. 서론
최근 인공지능(AI) 기술의 발전은 다양한 산업과 사회 전반에 혁신적인 변화를 가져왔다.
특히, 딥러닝과 자연어 처리(NLP) 기술의 진보는 AI의 응용 가능성을 확장 시키며, 인간의 작업을 보조하거나 대체하는 데 중요한 역할을 하고 있다[1,2]. 이 중 생성형 AI(Generative AI)는 텍스트, 이미지, 음악, 영상 등 창의적 콘텐츠를 자동으로 생성할 수 있는 기술로 주목받고 있으며, GPT 시리즈, BERT, T5 등 대규모 언어 모델이 대표적 사례로 꼽힌다. 이러한 기술은 텍스트 생성, 번역, 요약, 질문 응답 등에서 뛰어난 성능을 보이며 콘텐츠 생산의 자동화를 가능하게 하였다[1,2,3].
그림 1을 보면, 글로벌 리서치 그룹인 가트너(Gartner)는 생성형 AI를 2024년 주목해야 할 기술 중 선정하였다[4].
(그림 1) 가트너가 발표한 2024 생성형 AI 하이프 사이클
그러나, 생성형 AI의 발전에도 불구하고, 여러 한계와 단점이 존재한다.
첫째, 학습데이터의 오류로 인해 생성된 콘텐츠의 정확성이 부족할 가능성이 있다[1].
둘째, 훈련 데이터에 거르지 못한 편향성을 그대로 학습함으로써 윤리적 문제를 초래하거나 특정 집단에 대한 차별적 시각을 반영할 위험이 있다[2].
셋째, AI는 사실과 허구를 구별하는 능력이 부족하여 잘못된 정보나 가짜 뉴스를 생성할 수 있다[1].
넷째, 기존 데이터를 기반으로 학습하기 때문에 인간의 창의적 사고를 완전히 대체하기에는 한계가 있다[2]. 이러한 문제들을 해결하기 위해서는 AI 성능의 근간이 되는 데이터의 정확성, 다양성, 신뢰성, 업데이트 보장과 함께 대량의 최적화된 데이터가 필수적이다. 데이터의 품질은 AI 모델의 성능에 직접적인 영향을 미치기 때문에, 잘못된 데이터, 부족한 데이터, 노이즈, 불균형 문제 등은 모델 성능을 저하할 수 있다. 따라서 AI 성능의 개선을 위해서는 대규모 데이터의 확보와 함께 데이터 전처리, 데이터 증강, 노이즈 제거, 결측값 보정 등 효율적인 데이터 최적화 기법이 요구된다.
이에 본 연구에서는 AI 성능향상을 위한 데이터 최적화 기술을 통합한 도구를 개발하여 모델의 성능을 개선하는 것을 목표로 한다. 제안된 도구는 데이터 전처리 및 검증 과정을 자동화함으로써 모델 학습에 적합한 데이터를 제공하고, 이를 실제 데이터셋에 적용해 성능향상 효과를 검증한다. 데이터 최적화 도구는 학습데이터의 품질을 체계적으로 관리하여 AI 모델의 성능을 향상하고, 데이터 처리 시간과 비용을 절감하며, 오류를 최소화하는 데 이바지할 것으로 기대된다.
본 논문은 1장에서 인공지능의 데이터 최적화 필요성과 데이터의 중요성을 논하고, 2장에서는 구현된 데이터 최적화 기술의 주요 기능들을 설명하며, 마지막으로 3장에서 본 연구의 결론을 제시한다.
2. 관련 연구
본 절에서는 AI 모델 성능향상을 위한 데이터 최적화 기술의 핵심 개념과 검증 기법에 관련된 연구에 대해 다루고자 한다.
2.1. 인공지능 기반 데이터 최적화 기술
AI 모델의 성능을 높이기 위해 데이터 최적화 기술은 크게 데이터 전처리, 증강, 정제, 그리고 균형 조정으로 나눌 수 있으며, 이들은 데이터 준비 단계에서 각각 중요한 역할을 담당한다[5,6].
● 데이터 전처리: 데이터 전처리는 모델 학습 전에 데이터의 품질을 높이는 과정으로, 결측치 처리, 이상치 제거, 불균형 데이터 처리, 데이터 스케일링, 정규화 등이 포함된다. 이 과정은 모델이 노이즈 영향을 최소화하고 핵심 정보에 집중하도록 돕는다.
● 데이터 증강: 데이터 증강은 학습데이터의 양을 늘리고 다양성을 증가시켜 모델의 일반화 능력을 향상하는 기법이다. 특히 이미지 및 텍스트 데이터에서 많이 사용된다.
● 데이터 균형화: 불균형 데이터셋은 AI 모델이 특정 클래스에 편향될 수 있으므로, 오버샘플링 또는 언더샘플링 기법을 통해 클래스 간 균형을 맞추는 것이 중요하다.
이처럼, 데이터 최적화 기술은 데이터의 성능을 높이고 AI 모델이 정확하게 학습할 수 있도록 돕는 주요 과정으로, AI 성능을 극대화하고, 모델 성능을 안정화하는 데 중요한 역할을 한다.
2.2. 데이터 최적화 도구 기술의 필요성
인공지능(AI) 기반 최적화 모델의 성능은 데이터 품질과 신뢰성에 크게 의존하며, 이는 결과의 정확성과 신뢰성을 결정짓는 핵심 요소로 작용한다. 데이터 검증은 학습 전 단계에서 필수적으로 수행되어야 하며, 이를 통해 오류, 편향, 중복 데이터를 사전에 식별하고 해결함으로써 모델의 공정성과 신뢰성을 확보할 수 있다. 이는 AI 모델이 다양한 환경에서도 안정적으로 작동할 수 있도록 지원한다. 따라서 데이터 검증은 법적·윤리적 문제를 예방하고, 안정적이고 신뢰할 수 있는 AI 모델을 구현하는 데 중요한 역할을 한다.
AI 기술을 이용한 데이터 최적화 도구는 사전 라벨링 된 이미지, 동영상, 오디오, 텍스트 데이터 등 다양한 유형의 데이터 형식으로부터 학습하는 AI 검증 기술이다. 그러나 복잡한 데이터 구조, 중복성 문제, 메타 데이터 관리의 어려움 등은 데이터 검증과 최적화 과정에서 해결해야 할 주요 과제이다. 이를 해결하는 방안으로 자동화된 데이터 최적화 검증 도구를 개발하게 되었다. 이는 데이터 전처리 자동화뿐만 아니라 모델에 최적화된 데이터를 제공하는 기능을 수행한다. 이러한 도구는 데이터 품질에 맞는 최적화 기법을 적용함으로써 학습 과정의 효율성을 높이고, 불필요한 재학습을 방지하여 자원의 낭비를 최소화한다. 예를 들어, Auto ML은 하이퍼파라미터 튜닝을 자동화하는 데 초점을 맞추고 있지만, 데이터 최적화 분야에 관한 연구는 상대적으로 부족하다.
따라서 데이터 성능검증 최적화 도구는 AI 모델의 AI 모델의 학습 성능을 증대시키는 데 있어 핵심적인 역할을 할 수 있을 것으로 기대된다.[5,6].
3. 데이터 최적화 기술 구현 내용
3.1. 도구 구현 및 개발 환경
본 연구에서 개발한 성능검증 도구는 데이터의 정확성과 일치 여부를 자동으로 검증하고, 사용자 친화적인 인터페이스를 통해 데이터 관리 및 성능 검사 과정을 지원한다. 데이터 최적화 기술 구현에 대한 주요 내용은 다음과 같다.
● 자동화된 데이터 전처리: 도구는 데이터를 자동으로 분석하여 데이터의 특성에 맞는 최적화 기법을 적용한다. 이를 통해 전처리 과정의 효율성을 극대화하고, 학습에 적합한 데이터 구조로 변환한다.
● 다양한 데이터 품질 문제 해결: 결측치, 이상치, 불균형 데이터 등 데이터 품질 문제를 자동으로 탐지하고 해결하여, AI 모델 학습에 적합한 데이터를 생성한다.
● AI 모델에 최적화된 데이터 제공: 최적화된 데이터를 바탕으로 AI 모델을 학습시켜 성능을 극대화한다. 데이터의 품질을 개선함으로써, 모델 학습의 효율성을 높이고, 예측 정확도를 향상한다.
● 개발 환경: 본 도구는 효율성과 확장성을 고려한 설계로 개발되었으며, 주요 개발 환경은 <표 1>에 정리되어 있다. 사용자가 높은 수준의 데이터 최적화 작업을 간단히 수행할 수 있도록 지원하며, AI 모델의 성능을 극대화할 수 있는 데이터 처리 환경을 제공한다.
<표 5> 데이터 최적화 도구 개발 환경
3.2. 성능검증 도구 주요 기능
본 논문에서는 데이터 정확성 검사, 다양한 데이터 라벨링 지원, 데이터 전처리 및 증강, 실시간 성능 분석과 같은 통합 기능을 자동화할 수 있는 검증 도구를 제안한다. 주요 기능은 다음 (그림 2)와 (그림 3)과 같다.
(그림 2) AI 데이터 성능검증 도구 기능
(그림 3) AI 데이터 성능검증 메뉴 화면 구성
1) 데이터 정확성 검사
기존 수동 검토 방식을 대체하여 업무 효율성을 극대화한다. JSON 디렉토리를 연결하고, 몇 번의 클릭만으로 전체 데이터의 유형별 정확성을 3번의 클릭만으로 전수검사 가능하다. 성능 검사 진단 규칙을 기반으로 한 설정 기능은 데이터 오류와 중복성을 빠르게 식별하고 데이터 정확성을 높인다.
2) 일치/불일치(다양한 데이터 라벨링 지원)
라벨링 데이터의 일치성 검증을 위해 바운딩박스, 폴리곤, 폴리라인, 키포인트 등 다양한 라벨링 형식을 지원하며, LabelMe와 COCO 같은 표준 규칙을 준수한다. 시각화 도구와 간단한 인터페이스를 통해 사용자는 데이터 일치 여부를 효과적으로 검사할 수 있다.
3) 데이터 전처리 및 증강 기능
결측값 처리, 이상치 탐지, 정규화, 스케일링 및 카테고리형 데이터 인코딩 등을 자동 수행한다. 또한, 데이터 다양성 확장을 위해 이미지 회전, 크기 변경, 색상 조정 등의 증강 기법을 적용하며, 불균형 데이터셋에 대해 오버샘플링 및 언더샘플링을 기법을 적용하여 학습 모델의 성능을 향상한다.
4) 성능 분석 및 피드백 기능
AI 모델 성능을 실시간으로 분석하고 평가하며, 최적화 과정에 필요한 피드백을 제공한다. 이를 통해 데이터 최적화와 모델 성능 개선을 동시에 달성할 수 있다.
5) 사용자 맞춤 설정 및 부가 기능
사용자는 계정 및 개인화된 환경 설정(데이터명, 도메인, 로고 등)을 통해 시스템을 맞춤화할 수 있다. 또한, 검사의 실시간 진행 상황을 추적하여 사용자 편의를 제공한다. 이러한 기능들은 데이터 검증 및 관리 과정에서 작업 투명성과 추적 가능성을 보장한다.
본 도구는 데이터의 정확성을 검증하는 데 필요한 기능을 자동화함으로써 사용자 인터페이스를 제공하여 사용자가 해당 데이터 관리를 통해 성능 검사를 수행할 수 있도록 지원할 수 있다.
3.3. 데이터 검증 및 성능 최적화
AI 데이터 성능검증 도구를 이용한 검증 기법은 사용자가 원하는 결과를 얻을 때까지 이미지, 오디오, 텍스트 등을 반복하여 검증할 수 있도록 설계되었다. 도구의 기능별 모드에서 사용자가 데이터를 선택하고 성능검증을 수행한다. 이때 기존 라벨링 된 데이터와 자동 라벨링 된 데이터를 비교하여 데이터의 정확성, 완전성, 일관성을 검토하고, 불완전한 데이터를 불합격 처리하여 오류를 최소화한다. 이러한 검증 과정을 통해 데이터 오류를 수정하고 최적화된 데이터를 확보함으로써 AI 모델 성능을 향상할 수 있다.
3.4. 유형별 데이터 처리
사용자는 사용 목적에 따라 데이터 유형별로 분류하여 사전 학습된 라벨링 데이터를 검증한다. (그림 4)와 같이 사전학습 모델과 이미지 모델을 조합하여, AI 성능검증 도구를 설명한다.
(그림 4) 여러 유형 결합형 데이터(이미지, 동영상, 텍스트 데이터) 검증 예시
4. 데이터 최적화 도구의 성능 평가 및 검증 결과
4.1. 검증 실험 방법
본 연구에서는 개발한 데이터 최적화 도구의 성능을 평가하기 위해 AI-Hub 공개 데이터셋을 사용하였다. 실험 대상 유형은 이미지, 오디오, 동영상 및 텍스트 데이터를 포함하며, 각 데이터에 대해 최적화 전후의 성능을 비교함으로써 도구의 유효성을 검증하였다.
검증 실험을 위해, 구현한 데이터 최적화 도구를 활용하여 대규모 이미지 및 오디오 데이터의 라벨링 불일치 및 불완전성을 보완하였다. 검증 대상은 100개의 이미지 및 오디오 샘플을 포함한 총 1만 개 데이터 중 일부를 무작위로 선별하여 수행하였다.
1) 이미지 객체 최적화 과정
● 축구 경기 이미지를 활용하여 제안된 도구를 실행하고, 메인 화면의 [정확성 검사] 메뉴에서 [동영상] 항목을 선택하였다.
● 라벨 데이터 규격으로 [COCO JSON]을 설정하고, JSON 파일을 불러와 데이터의 정확성을 확인하였다.
● 데이터가 요구사항에 부합하지 않을 경우 수정 및 저장을 통해 결과를 기록하였다.
(그림 5)는 라벨링 된 이미지의 특징 추출, 오디오 음성 파일 동기화 검증 방식이다.
(그림 5) 이미지 객체 최적화 검증 과정
2) 오디오 객체 최적화 과정
● 라벨링된 객체를 불러와 반복적으로 데이터의 적합성을 검토하였다.
● 오디오 동기화 및 검증 도구를 활용하여 음성과 관련된 데이터의 정확성을 평가하였으며, 필요시 태그를 수정한 뒤 저장하였다.
● 동영상에서 크롭된 이미지와 1:1로 매핑된 오디오 데이터를 검사하며, 불일치와 노이즈 문제를 해결 하기위해 디노이징 과정을 수행하였다.
3) 추가 기능
● 텍스트 받아쓰기 기능을 통해 텍스트, 음성, 영상 데이터를 한 화면에서 통합적으로 확인하며 데이터 최적화를 진행하였다.
(그림 6)은 이미지 객체와 연동되는 음성 동기화 파일로 영상에서의 이미지를 크롭하여 발생한 이미지와 1:1 맵핑이 되는 오디오를 표현한 것이다.
(그림 6) 오디오 객체 최적화 검증 과정
4) 유사 도구 비교 난해함
개발 시점에서 동일 기능에 비교 분석을 위한 도구나 내용이 존재하지 않아서 성능 자체를 비교 분석하기는 매우 난해함이 존재하였다.
특정 업체들의 데이터 최적화를 위한 도구들이 많이 존재하지만, 멀티 검증이라는 내용의 항목은 다양한 데이터를 개인적 관점에서 다양하게 분석이 가능하다고 제시한 형태이고, 본 논문이 제시한 멀티스레드와 멀티모달을 위한 직관적 데이터 검증 방식은 분리하여 수행함을 확인하였다.
따라서, 멀티모달의 음성과 영상, 이미지를 동시에 다양한 라벨링 기능을 불러오기하여 확인하는 과정의 작업 프로세스는 지속저인 개발이 이루어질 것으로 판단된다.
4.2. 검증 실험 결과
앞서 서술한 실험 방법을 통해, 도출된 결과를 간략하게 정리하고 요약하였다.
1) AI 모델 성능 향상
제안된 데이터 최적화 도구를 적용한 결과, AI 모델의 성능이 최소 10% 이상 향상된 것으로 나타났다. 특히, 불균형 데이터와 결측치가 포함된 데이터셋에서 성능 개선 효과가 두드러졌다.
2) 데이터 전처리 및 증강 효과
데이터 전처리 및 증강 기술을 적용한 결과, 모델의 정확도가 평균적으로 10% 이상 증가하였으며, 학습 시간은 약 20% 단축되었다.
최적화된 데이터 기반으로 학습한 AI 모델은 기존 최적화되지 않은 데이터를 학습한 모델 대비 유의미한 성능향상을 보였다.
본 연구에서 제안된 데이터 최적화 도구는 이미지와 오디오 간의 동기화 불일치 문제와 데이터 질적 저하 문제를 효과적으로 해결하여 AI 모델 성능을 크게 향상시켰다. 이를 통해, AI 모델의 학습 성능과 효율성을 증대시켰으며, 특정 데이터 유형에 국한되지 않고 다양한 데이터 피처링 검증과 객체의 결합 맵핑 작업에서 유연성과 효율성을 제공하는 대안임을 입증하였다.
5. 결론
본 논문에서는 시각 정보 외에 오디오, 텍스트와 기타 복잡한 유형 데이터 등과 결합 된 학습데이터를 최적화하고 보완할 수 있는 검증 도구를 개발하였다. 그리고, 라벨링 데이터의 오류 개선 기능과 데이터 검사 결과에 대한 수정 보완이 가능한 검증 도구를 구현하여 데이터 최적화 기술에 대한 필요성을 입증하였다. 제안된 기술과 기능은 다양한 영상과 소리, 이미지등을 동시에 검증하고 시간대별로 재검즈잉 가능함을 제시하였다.
제안된 최적화 구현 기술은 데이터의 다양성 및 대용량 데이터 검증을 손쉽고 빠르게 개선하고, 오류에 대한 검토와 분석을 효과적으로 수행이 가능함을 증명하였고, 인공지능 학습 능력을 향상할 수 있을 것으로 기대된다.
References
- AI Index - AI Index Report 2024–Artificial Intelligence Index
- State of AI Report Highlights 2024, s-Major Trends "2024 AI trends research paper"
- McKinsey & Company-The state of AI in early 2024, McKinsey
- 2024 AI-Trend 분석 feat가트너 2023. and Break throughs
- 유성근, 조성만, 송민정, 전소연, 임송원, 정서경, 박상일, 박구만, 김희태, 이대성, 서울과학기술대학교, "딥러닝을 활용한 향상된 라벨인식 방법에 관한 연구", 주식회사테크윙, 춘계학술발표대회논문집, 2018.
- 한국지능정보사회진흥원(NIA), 인공지능 학습용 데이터 구축 사업관리 매뉴얼, 2021 재구성.
- 김승희,류동주, "비정형데이터의 AI학습을 위한 영상/이미지 데이터 품질 향상 방법", 융합보안논문지, 제23권 2호, 2023
- 과학기술정보통신부, 한국지능정보사회진흥원, 한국정보통신기술협회, 인공지능 학습용 데이터 품질관리 가이드라인 v3.0, 2023.
- 과학기술정보통신부, 한국지능정보사회진흥원 한국정보통신기술협회, 인공지능 학습용데이터품질관리 안내서 v1.0 제1권 품질관리구축 안내서, 2021.
- 과학기술정보통신부, 한국지능정보사회진흥원, 한국정보통신기술협회, 인공지능학습용 데이터 품질관리 가이드라인 v2.0 제2권 데이터구축 안내서 P13, 2022.
- 과학기술정보통신부, 한국지능정보사회진흥원, 2022년 인공지능 학습용 데이터 구축 지원사업공고문, 2022.
- 과학기술정보통신부, 한국지능정보사회진흥원 Ai-Hub(www.aihub.or.kr)
- "2022년 국내 영상보안 시장 및 이슈 결산", 보안 뉴스, 2022.12
- 한국인터넷진흥원(www.ksecurity.or.kr) 지능형 CCTV 인증 현황
- 과학기술정보통신부, 한국지능정보사회진흥원 AI-Hub, AI·DATA INSIGHT Vol. 09.