• 제목/요약/키워드: 종단간 신경망

검색결과 18건 처리시간 0.023초

약지도 음향 이벤트 검출을 위한 파형 기반의 종단간 심층 콘볼루션 신경망에 대한 연구 (A study on the waveform-based end-to-end deep convolutional neural network for weakly supervised sound event detection)

  • 이석진;김민한;정영호
    • 한국음향학회지
    • /
    • 제39권1호
    • /
    • pp.24-31
    • /
    • 2020
  • 본 논문에서는 음향 이벤트 검출을 위한 심층 신경망에 대한 연구를 진행하였다. 특히 약하게 표기된 데이터 및 표기되지 않은 훈련 데이터를 포함하는 약지도 문제에 대하여, 입력 오디오 파형으로부터 이벤트 검출 결과를 얻어내는 종단간 신경망을 구축하는 연구를 진행하였다. 본 연구에서 제안하는 시스템은 1차원 콘볼루션 신경망을 깊게 적층하는 구조를 기반으로 하였으며, 도약 연결 및 게이팅 메커니즘 등의 추가적인 구조를 통해 성능을 개선하였다. 또한 음향 구간 검출 및 후처리를 통하여 성능을 향상시켰으며, 약지도 데이터를 다루기 위하여 평균-교사 모델을 적용하여 학습하는 과정을 도입하였다. 본 연구에서 고안된 시스템을 Detection and Classification of Acoustic Scenes and Events(DCASE) 2019 Task 4 데이터를 이용하여 평가하였으며, 그 결과 약 54 %의 구간-기반 F1-score 및 32%의 이벤트-기반 F1-score를 얻을 수 있었다.

적대적 생성 신경망을 활용한 과다 노출 영상 복원 방법 (Overexposure Image Restoration Using a Generative Adversarial Network)

  • 김태하;양성엽;강병근;이의진
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 하계학술대회
    • /
    • pp.10-13
    • /
    • 2021
  • 본 논문에서는 과다 노출된 영상을 영상 간 변환(Image-to-Image Translation)을 위해 설계된 적대적 생성 신경망(Generative Adversarial Network)을 활용하여 복원하는 연구를 수행한다. 과다 노출 복원을 위한 기존의 연구에서 과다 노출 영역 판별, 밝기 회복, 색상 보정 과정을 거치는데, 영상 내 과다 노출 영역을 판별하는 과정에서 임의로 결정하는 파라미터에 의해 복원된 영상 결과가 달라지는 한계점을 극복하기 위해 종단간(End-to-End) 신경망을 학습시켜 과다 노출 영역을 별도의 파라미터 선택과 분할된 과정 없이 한 번에 복원하는 방법을 제안한다. 영상 간 변환 신경망 학습에 필요한 과다 노출 여부로 도메인이 분할된 데이터셋은 게임 소프트웨어를 활용하여 만들어 사용하였다. 본 연구에서는 신경망이 생성한 영상이 실제로 과다 노출 영역을 탐지하여 복원하는 것을 확인하였다. 그리고 과다 노출 영역을 탐지하여 복원하는 과정을 학습 단계별로 확인함으로써 신경망이 실제로 과다 노출 복원 과정을 학습함을 보였다.

  • PDF

다중 스케일 특징 융합 모듈을 통한 종단 간 학습기반 공간적 스케일러블 영상 압축 (End-to-End Learning-based Spatial Scalable Image Compression with Multi-scale Feature Fusion Module)

  • 신주연;강제원
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 추계학술대회
    • /
    • pp.1-3
    • /
    • 2022
  • 최근 기존의 영상 압축 파이프라인 대신 신경망의 종단 간 학습을 통해 압축을 수행하는 알고리즘의 연구가 활발히 진행되고 있다. 본 논문은 종단 간 학습 기반 공간적 스케일러블 압축 기술을 제안한다. 보다 구체적으로 본 논문은 신경망의 각 계층에서 하위 계층의 학습된 특징 (feature)을 융합하여 상위 계층으로 전달하는 다중 스케일 특징 융합 (multi-scale feature fusion) 모듈을 도입해 상위 계층이 더욱 풍부한 특징 정보를 학습하고 계층 사이의 특징 중복성을 더욱 잘 제거할 수 있도록 한다. 기존 방법 대비 향상 계층(enhancement layer)에서 1.37%의 BD-rate가 향상된 결과를 볼 수 있다.

  • PDF

엔트로피 모델을 활용한 심층 신경망 기반 오디오 압축 모델 최적화 (DNN-based Audio Compression Model Optimization Utilizing Entropy Model)

  • 임형섭;강홍구;장인선
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 하계학술대회
    • /
    • pp.54-57
    • /
    • 2022
  • 본 논문에서는 심층 신경망 기반 점진적 다계층 오디오 코덱의 비트 전송률 효율 향상을 위한 엔트로피 모델 기반 양자화 방식을 제안한다. 최근 심층 신경망을 이용하여 전통적인 신호 처리 이론 기반의 상용 오디오 코덱들을 대체하기 위한 오디오 압축 및 복원 시스템에 관한 연구가 활발하게 이루어지고 있다. 그러나 아직은 기존 상용 코덱의 성능에 도달하지 못하고 있으며 특히 종단 간 오디오 압축 모델의 경우, 적은 정보량으로 높은 품질을 얻기 위해서는 부호화기의 양자화 구조를 개선하는 것이 필수적이다. 본 연구에서는 기존에 제안된 종단 간 오디오 압축 모델 중 하나인 점진적 다계층 오디오 코덱의 벡터 양자화기를 엔트로피 모델 기반 양자화기로 대체하고 전송률-왜곡 트레이드오프 관계를 활용하여 전송률을 다양한 형태로 조절할 수 있음을 보임으로써 엔트로피 모델 기반 양자화기 도입의 타당성을 검증한다.

  • PDF

종단 간 심층 신경망을 이용한 한국어 문장 자동 띄어쓰기 (Automatic Word Spacing of the Korean Sentences by Using End-to-End Deep Neural Network)

  • 이현영;강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권11호
    • /
    • pp.441-448
    • /
    • 2019
  • 기존의 자동 띄어쓰기 연구는 n-gram 기반의 통계적인 기법을 이용하거나 형태소 분석기를 이용하여 어절 경계면에 공백을 삽입하는 방법으로 띄어쓰기 오류를 수정한다. 본 논문에서는 심층 신경망을 이용한 종단 간(end-to-end) 한국어 문장 자동 띄어쓰기 시스템을 제안한다. 자동 띄어쓰기 문제를 어절 단위가 아닌 음절 단위 태그 분류 문제로 정의하고 음절 unigram 임베딩과 양방향 LSTM Encoder로 문장 음절간의 양방향 의존 관계 정보를 고정된 길이의 문맥 자질 벡터로 연속적인 벡터 공간에 표현한다. 그리고 새로이 표현한 문맥 자질 벡터를 자동 띄어쓰기 태그(B 또는 I)로 분류한 후 B 태그 앞에 공백을 삽입하는 방법으로 한국어 문장의 자동 띄어쓰기를 수행하였다. 자동 띄어쓰기 태그 분류를 위해 전방향 신경망, 신경망 언어 모델, 그리고 선형 체인 CRF의 세 가지 방법의 분류 망에 따라 세 가지 심층 신경망 모델을 구성하고 종단 간 한국어 자동 띄어쓰기 시스템의 성능을 비교하였다. 세 가지 심층 신경망 모델에서 분류 망으로 선형체인 CRF를 이용한 심층 신경망 모델이 더 우수함을 보였다. 학습 및 테스트 말뭉치로는 최근에 구축된 대용량 한국어 원시 말뭉치로 KCC150을 사용하였다.

어텐션 기반 엔드투엔드 음성인식 시각화 분석 (Visual analysis of attention-based end-to-end speech recognition)

  • 임성민;구자현;김회린
    • 말소리와 음성과학
    • /
    • 제11권1호
    • /
    • pp.41-49
    • /
    • 2019
  • 전통적인 음성인식 모델은 주로 음향 모델과 언어 모델을 사용하여 구현된다. 이때 음향 모델을 학습시키기 위해서는 음성 데이터에 대한 정답 텍스트뿐만 아니라 음성인식에 사용되는 단어의 발음사전과 프레임 단위의 음소 정답 데이터가 필요하다. 이 때문에 모델을 훈련하기 위해서는 먼저 프레임 단위의 정답을 생성하는 등의 여러 과정이 필요하다. 그리고 음향 모델과 별도의 텍스트 데이터로 훈련한 언어 모델을 적용하여야 한다. 이러한 불편함을 해결하기 위하여 최근에는 하나의 통합 신경망 모델로 이루어진 종단간(end-to-end) 음성인식 모델이 연구되고 있다. 이 모델은 훈련에 여러 과정이 필요없고 모델의 구조를 이해하기 쉽다는 장점이 있다. 하지만 인식이 내부적으로 어떤 과정을 거쳐 이루어지는지 알기 어렵다는 문제가 있다. 본 논문에서는 어텐션 기반 종단간 모델을 시각화 분석하여 내부적인 작동 원리를 이해하고자 하였다. 이를 위하여 BLSTM-HMM 하이브리드 음성인식 모델의 음향 모델과 종단간 음성인식 모델의 인코더를 비교하고, 신경망 레이어 별로 어떠한 차이가 있는지 분석하기 위해 t-SNE를 사용하여 시각화하였다. 그 결과로 음향모델과 종단간 모델 인코더의 차이점을 알 수 있었다. 또한 종단간 음성인식 모델의 디코더의 역할을 언어모델 관점에서 분석하고, 종단간 모델 디코더의 개선이 성능 향상을 위해 필수적임을 알 수 있었다.

종단간 인공신경망 기반 이미지 압축 기술의 피쳐 공간 상관관계 분석 (Correlation Analysis of Feature Space Data in End-to-end Image Compression Network)

  • 이주영;정세윤;최진수
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 추계학술대회
    • /
    • pp.151-154
    • /
    • 2020
  • 뉴럴넷 기술이 발전과 힘께 다양한 분야에서 획기적인 성능 향상이 이루어지고 있다. 이미지 압축 분야에서도 기존의 전통적인 툴 제인 구조의 압축 방식에서 벗어나 종단간(end-to-end) 뉴렬넷 기반의 이미지 압축 기술에 대한 연구가 활발히 이루어지고 있다. 특히 최근 네트워크를 통해 변환된 피쳐 데이터의 엔트로피를 최소화하는 방식에 대한 연구가 활발히 이루어지고 있으며, 이에 기반한 최근의 연구는 VVC 화면 내 코딩 기술보다 우수한 코딩 효율성을 제공하고 있다. 그러나 변환된 피쳐 데이터에 대한 특성 분석은 부족한 실정이며, 이에 본 논문에서는 엔트로피 최소화 기반 종단간 이미지 압축 네트워크의 피쳐 공간 데이터에 대한 공간적 (spatial) 상관관계와 채널간(inter-channel) 상관관계(correlation)를 분석하고, 나아가 최근 제안된 종단간 이미지 압축 네트워크의 문맥 기반 예측 기능을 통해 잔존하는 데이터 중복성이 효과적으로 제거됨을 보인다.

  • PDF

딥러닝 모형을 사용한 한국어 음성인식 (Korean speech recognition using deep learning)

  • 이수지;한석진;박세원;이경원;이재용
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.213-227
    • /
    • 2019
  • 본 논문에서는 베이즈 신경망을 결합한 종단 간 딥러닝 모형을 한국어 음성인식에 적용하였다. 논문에서는 종단 간 학습 모형으로 연결성 시계열 분류기(connectionist temporal classification), 주의 기제, 그리고 주의 기제에 연결성 시계열 분류기를 결합한 모형을 사용하였으며. 각 모형은 순환신경망(recurrent neural network) 혹은 합성곱신경망(convolutional neural network)을 기반으로 하였다. 추가적으로 디코딩 과정에서 빔 탐색과 유한 상태 오토마타를 활용하여 자모음 순서를 조정한 최적의 문자열을 도출하였다. 또한 베이즈 신경망을 각 종단 간 모형에 적용하여 일반적인 점 추정치와 몬테카를로 추정치를 구하였으며 이를 기존 종단 간 모형의 결괏값과 비교하였다. 최종적으로 본 논문에 제안된 모형 중에 가장 성능이 우수한 모형을 선택하여 현재 상용되고 있는 Application Programming Interface (API)들과 성능을 비교하였다. 우리말샘 온라인 사전 훈련 데이터에 한하여 비교한 결과, 제안된 모형의 word error rate (WER)와 label error rate (LER)는 각각 26.4%와 4.58%로서 76%의 WER와 29.88%의 LER 값을 보인 Google API보다 월등히 개선된 성능을 보였다.

합성곱 신경망을 이용하는 수퍼픽셀 기반 사과잎 병충해의 분류 (Superpixel-based Apple Leaf Disease Classification using Convolutional Neural Network)

  • 김만배;최창열
    • 방송공학회논문지
    • /
    • 제25권2호
    • /
    • pp.208-217
    • /
    • 2020
  • 원예작물을 카메라로 촬영하여 병해충의 종류를 판단하려는 연구가 오랫동안 있어왔다. 일반적으로 영역분할로 병해충 영역을 추출하고, 통계적 특징을 추출한 후 다양한 기계학습 기법으로 병해충 종류를 판단한다. 최근에는 딥러닝의 종단간 학습으로 병해충을 판별하는 연구가 많이 진행되고 있다. 영역분할은 조명 등의 주변 환경 변화에 따라 만족스러운 성능이 어렵고, 전체 잎 영상을 사용하는 종단간 신경망은 학습 영상과 실제 영상과의 차이 때문에 실제 적용이 어려운 문제가 있다. 이를 해결하기 위해서 본 논문에서는 수퍼픽셀 및 합성곱신경망을 이용하는 병해충 분류 방법을 제안한다. 실험에서는 PlantVilllage의 사과 병충해 영상들을 이용하여 실험한 결과, 분류정확도는 전체영상과 수퍼픽셀이 각각 (98.29, 92.43)%이고, 다변량 F1-score는 각각 (0.98. 0.93)이다. 제안하는 수퍼픽셀 기법은 성능 측면에서 약간 저하되지만, 현실적으로 실제 환경에서 적용 가능함을 확인하였다.

라벨이 없는 데이터를 사용한 종단간 음성인식기의 준교사 방식 도메인 적응 (Semi-supervised domain adaptation using unlabeled data for end-to-end speech recognition)

  • 정현재;구자현;김회린
    • 말소리와 음성과학
    • /
    • 제12권2호
    • /
    • pp.29-37
    • /
    • 2020
  • 최근 신경망 기반 심층학습 알고리즘의 적용으로 고전적인 Gaussian mixture model based hidden Markov model (GMM-HMM) 음성인식기에 비해 성능이 비약적으로 향상되었다. 또한 심층학습 기법의 장점을 더욱 잘 활용하는 방법으로 언어모델링 및 디코딩 과정을 통합처리 하는 종단간 음성인식 시스템에 대한 연구가 매우 활발히 진행되고 있다. 일반적으로 종단간 음성인식 시스템은 어텐션을 사용한 여러 층의 인코더-디코더 구조로 이루어져 있다. 때문에 종단간 음성인식 시스템이 충분히 좋은 성능을 내기 위해서는 많은 양의 음성과 문자열이 함께 있는 데이터가 필요하다. 음성-문자열 짝 데이터를 구하기 위해서는 사람의 노동력과 시간이 많이 필요하여 종단간 음성인식기를 구축하는 데 있어서 높은 장벽이 되고 있다. 그렇기에 비교적 적은 양의 음성-문자열 짝 데이터를 이용하여 종단간 음성인식기의 성능을 향상하는 선행연구들이 있으나, 음성 단일 데이터나 문자열 단일 데이터 한쪽만을 활용하여 진행된 연구가 대부분이다. 본 연구에서는 음성 또는 문자열 단일 데이터를 함께 이용하여 종단간 음성인식기가 다른 도메인의 말뭉치에서도 좋은 성능을 낼 수 있도록 하는 준교사 학습 방식을 제안했으며, 성격이 다른 도메인에 적응하여 제안된 방식이 효과적으로 동작하는지 확인하였다. 그 결과로 제안된 방식이 타깃 도메인에서 좋은 성능을 보임과 동시에 소스 도메인에서도 크게 열화되지 않는 성능을 보임을 알 수 있었다.