• 제목/요약/키워드: Korean Machine Translation Data

검색결과 51건 처리시간 0.026초

공공 한영 병렬 말뭉치를 이용한 기계번역 성능 향상 연구 (A Study on the Performance Improvement of Machine Translation Using Public Korean-English Parallel Corpus)

  • 박찬준;임희석
    • 디지털융복합연구
    • /
    • 제18권6호
    • /
    • pp.271-277
    • /
    • 2020
  • 기계번역이란 소스언어를 목적언어로 컴퓨터가 번역하는 소프트웨어를 의미하며 규칙기반, 통계기반 기계번역을 거쳐 최근에는 인공신경망 기반 기계번역에 대한 연구가 활발히 이루어지고 있다. 인공신경망 기계번역에서 중요한 요소 중 하나로 고품질의 병렬 말뭉치를 뽑을 수 있는데 이제까지 한국어 관련 언어쌍의 고품질 병렬 코퍼스를 구하기 쉽지 않은 실정이었다. 최근 한국정보화진흥원의 AI HUB에서 고품질의 160만 문장의 한-영 기계번역 병렬 말뭉치를 공개하였다. 이에 본 논문은 AI HUB에서 공개한 데이터 및 현재까지 가장 많이 쓰인 한-영 병렬 데이터인 OpenSubtitles와 성능 비교를 통해 각각의 데이터의 품질을 검증하고자 한다. 테스트 데이터로 한-영 기계번역 관련 공식 테스트셋인 IWSLT에서 공개한 테스트셋을 이용하여 보다 객관성을 확보하였다. 실험결과 동일한 테스트셋으로 실험한 기존의 한-영 기계번역 관련 논문들보다 좋은 성능을 보임을 알 수 있었으며 이를 통해 고품질 데이터의 중요성을 알 수 있었다.

언어적 특성과 서비스를 고려한 딥러닝 기반 한국어 방언 기계번역 연구 (Deep Learning-based Korean Dialect Machine Translation Research Considering Linguistics Features and Service)

  • 임상범;박찬준;양영욱
    • 한국융합학회논문지
    • /
    • 제13권2호
    • /
    • pp.21-29
    • /
    • 2022
  • 본 논문은 방언 연구, 보존, 의사소통의 중요성을 바탕으로 소외될 수 있는 방언 사용자들을 위한 한국어 방언 기계번역 연구를 진행하였다. 사용한 방언 데이터는 최상위 행정구역을 기반으로 배포된 AIHUB 방언 데이터를 사용하였다. 방언 데이터를 바탕으로 Transformer 기반의 copy mechanism을 적용하여 방언 기계번역기의 성능 향상을 도모하는 모델링 연구와 모델 배포의 효율성을 도모하는 Many-to-one 기반의 방언 기계 번역기를 제안한다. 본 논문은 one-to-one 모델과 many-to-one 모델의 성능을 비교 분석하고 이를 다양한 언어학적 시각으로 분석하였다. 실험 결과 BLEU점수를 기준으로 본 논문이 제안하는 방법론을 적용한 one-to-one 기계번역기의 성능 향상과 many-to-one 기계번역기의 유의미한 성능을 도출하였다.

에서로-웹/$EK^{TM}$: 영한 웹 문서 번역 시스템 (FromTo-$Web/EK^{TM}$: English-to-Korean Machine Translation System for HTML Documents)

  • 심철민;여상화;정한민;김태완;박동인;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.277-282
    • /
    • 1997
  • 최근 들어 웹 상의 문서를 번역해 주는 번역 시스템이 상용화되고 있다. 일반 문서와 달리 웹 문서는 HTML 태그를 포함하고 있어 번역 시스템에서 문장 단위로 분리하는데 어려움이 있다. 또한 그 대상 영역이 제한되지 않으므로 미등록어 및 구문 분석 실패에 대한 대처 기능이 필요하다. 따라서 웹 문서의 번역 품질이 일반 문서 번역에 비해 현저히 떨어지게 된다. 이 논문에서는 HTML 태그를 보유한 영어 웹 문서를 대상으로 하는 번역 시스템인 "에서로-웹/EK"에 대해 기술한다. 에서로-웹/EK는 HTML 문서의 특성을 고려하여 태그를 분리, 복원하는 태그 관리자를 별도로 가진다. 또한 태그를 유지하면서 영어에서 한국어로 변환되는 과정에서 발생하는 어휘 분리, 어휘 통합, 어순 변환 둥의 다양한 변환 현상을 처리한다. 이 시스템은 변환 방식에 기반한 번역 시스템으로서 영어 해석, 영한 변환, 한국어 생성의 단계를 거친다. 구현된 시스템은 Netscape와 DDE(Dynamic Data Exchange) 방식으로 연동하여 HTML 문서를 번역한다.

  • PDF

의미패턴에 기반한 대화체 한영 기계 번역 (Machine Translation of Korean-to-English spoken language Based on Semantic Patterns)

  • 정천영;서영훈
    • 한국정보처리학회논문지
    • /
    • 제5권9호
    • /
    • pp.2361-2368
    • /
    • 1998
  • 본 논문에서는 한국어대화체를 분석하고 의미패턴에 기반한 대화체 한영 기계번역 시스템에 대하여 기술한다. 한영 기계번역에서 구문정보를 이용한 한국어 모호성은 의미패턴을 이용하여 해결할 수 있다. 따라서 대화체 번역을 위하여 한국어 스케쥴링 도메인으로부터 추출된 의미패턴에 기반한 시스템을 구성한다. 번역의 강건함을 위하여 한국어 문장 분석시 음절을 건너뛰어 분석할 수 있도록 하였으며, 패턴수를 줄이기 위하여 의미패턴에 옵션을 부가하였다. 실험을 위하여 사용된 데이터는 스케쥴링 도메인으로 실험결과 88%의 번역율을 보인다.

  • PDF

다양한 지식을 사용한 영한 기계번역에서의 대역어 선택 (Target Word Selection for English-Korean Machine Translation System using Multiple Knowledge)

  • 이기영;김한우
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권5호
    • /
    • pp.75-86
    • /
    • 2006
  • 일반적으로 영어를 한국어로 번역할 때, 대부분의 영어 명사 어휘들은 해당 어휘가 사용되는 문맥에 따라 다양한 한국어 명사로 번역될 수 있다. 따라서 영어 원문이 갖는 의미를 손실 없이 번역문으로 전달하기 위해서는 문맥에 맞는 올바른 한국어 대역어를 선택할 수 있어야 한다. 본 논문에서는 동사구패턴, 공기 정보에 기반한 의미벡터, 공기 품사 정보 및 한국어 문맥 통계 정보 등의 다양한 지식을 사용하여 영어 명사 어휘의 대역어를 올바로 선택하는 방안을 제공한다. 동사구 패턴은 사전과 코퍼스를 사용하여 구축되었으며, 의미 벡터는 영어 어휘가 특정 한국어 어휘로 번역될 때 공기하는 정보들의 조건부 확률을 나타낸다. 한국어 문맥 통계 정보는 한국어 코퍼스로부터 추출된 N-그램 정보를 나타내며, 품사 공기 정보는 대역어 선택 모호성을 지니는 영어 어휘와 통계적으로 깊은 관련성을 지니는 품사를 나타낸다. 마지막으로 본 논문에서 제안한 대역어 선택 모호성 해소 방안을 평가하기 위한 실험을 수행하였으며, 실험 결과, 제안하는 방법이 기존의 방법보다 성능이 좋다는 것을 확인할 수 있었다.

  • PDF

영한 번역의 언어학적 평가 모델 연구 - 기계번역을 중심으로 - (A Linguistic Evaluation of English-to-Korean Translation - Centered on Machine Translation -)

  • 김덕봉;조병은;김명철;권용현
    • 인지과학
    • /
    • 제12권4호
    • /
    • pp.11-27
    • /
    • 2001
  • 기계번역 품질 평가는 중대한 문제이다. 기계번역의 품질이 사용자 요구와 거리가 상당히 있는 현재의 상황에서 기계번역 시스템의 객관적 평가는 기계번역 소프트웨어 사용자와 판매자 간의 신뢰를 구축하고 개발자들 간에 생산적인 경쟁관계를 조성하게 하여 결과적으로 기계번역 품질의 고급화를 지속적으로 유도하는 역할을 할 것이다. 이를 위해서는 특히 언어학적 측면과 자료처리 측면에서 개선이 계속되고 있는지를 확인할 수 있도록 기계번역 시스템의 품질을 평가할 수 있는 연구가 있어야 한다. 본 논문에서는 이런 정들을 고려해 넣은 영한 기계번역의 언어학적 평가 방법을 제시하고 이를 몇 개의 상용 기계번역 시스템을 대상으로 실험하여 실험결과를 보고한다. 이 방법은 기본적으로 언어현상과 학습수준으로 분류된 3.373 영어 문장으로 구성된 평가자료에 기반하고 있다.

  • PDF

단어 정렬을 이용한 한국어-영어 비자기회귀 신경망 기계 번역 (Korean-English Non-Autoregressive Neural Machine Translation using Word Alignment)

  • 정영준;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.629-632
    • /
    • 2021
  • 기계 번역(machine translation)은 자연 언어로 된 텍스트를 다른 언어로 자동 번역 하는 기술로, 최근에는 주로 신경망 기계 번역(Neural Machine Translation) 모델에 대한 연구가 진행되었다. 신경망 기계 번역은 일반적으로 자기회귀(autoregressive) 모델을 이용하며 기계 번역에서 좋은 성능을 보이지만, 병렬화할 수 없어 디코딩 속도가 느린 문제가 있다. 비자기회귀(non-autoregressive) 모델은 단어를 독립적으로 생성하며 병렬 계산이 가능해 자기회귀 모델에 비해 디코딩 속도가 상당히 빠른 장점이 있지만, 멀티모달리티(multimodality) 문제가 발생할 수 있다. 본 논문에서는 단어 정렬(word alignment)을 이용한 비자기회귀 신경망 기계 번역 모델을 제안하고, 제안한 모델을 한국어-영어 기계 번역에 적용하여 단어 정렬 정보가 어순이 다른 언어 간의 번역 성능 개선과 멀티모달리티 문제를 완화하는 데 도움이 됨을 보인다.

  • PDF

An Alignment based technique for Text Translation between Traditional Chinese and Simplified Chinese

  • Sue J. Ker;Lin, Chun-Hsien
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2002년도 Language, Information, and Computation Proceedings of The 16th Pacific Asia Conference
    • /
    • pp.147-156
    • /
    • 2002
  • Aligned parallel corpora have proved very useful in many natural language processing tasks, including statistical machine translation and word sense disambiguation. In this paper, we describe an alignment technique for extracting transfer mapping from the parallel corpus. During building our system and data collection, we observe that there are three types of translation approaches can be used. We especially focuses on Traditional Chinese and Simplified Chinese text lexical translation and a method for extracting transfer mappings for machine translation.

  • PDF

한-영 기계번역 결과물의 오류 유형 및 원인 분석: 형태적·구문적 오류를 중심으로 (Analyzing the Types and Causes of Korean-to-English Machine Translation Errors: Focused on Morphological and Syntactical Errors)

  • 백지연;구혜경
    • 문화기술의 융합
    • /
    • 제8권4호
    • /
    • pp.199-204
    • /
    • 2022
  • 본 연구의 목적은 기계번역을 활용한 대학교 영어쓰기 수업에서 한-영 기계번역 결과물에 나타난 형태적 및 구문적 오류 유형과 그에 대한 원인을 분석하기 위한 것이다. 한국의 EFL 대학생 7명이 연구에 참여하였으며, 그들은 한 학기동안 총 3회의 영어쓰기 과제를 수행하였다. 본 연구에서는 학생들이 제출한 영어쓰기 결과물 중 기계번역 결과물에 나타난 형태적 및 구문적 오류의 유형을 분석하였으며, 우리말 초고와 비교 분석을 통하여 그 원인을 찾아보고자 하였다. 분석결과, 기계번역 결과물에서 가장 많이 발생한 오류는 문장구조와 표기법 관련 오류였으며, 기계번역 결과물에서 발생한 대부분의 오류는 한국어 원문의 오류로 인하여 발생한 것으로 파악되었다.

Korean Text to Gloss: Self-Supervised Learning approach

  • Thanh-Vu Dang;Gwang-hyun Yu;Ji-yong Kim;Young-hwan Park;Chil-woo Lee;Jin-Young Kim
    • 스마트미디어저널
    • /
    • 제12권1호
    • /
    • pp.32-46
    • /
    • 2023
  • Natural Language Processing (NLP) has grown tremendously in recent years. Typically, bilingual, and multilingual translation models have been deployed widely in machine translation and gained vast attention from the research community. On the contrary, few studies have focused on translating between spoken and sign languages, especially non-English languages. Prior works on Sign Language Translation (SLT) have shown that a mid-level sign gloss representation enhances translation performance. Therefore, this study presents a new large-scale Korean sign language dataset, the Museum-Commentary Korean Sign Gloss (MCKSG) dataset, including 3828 pairs of Korean sentences and their corresponding sign glosses used in Museum-Commentary contexts. In addition, we propose a translation framework based on self-supervised learning, where the pretext task is a text-to-text from a Korean sentence to its back-translation versions, then the pre-trained network will be fine-tuned on the MCKSG dataset. Using self-supervised learning help to overcome the drawback of a shortage of sign language data. Through experimental results, our proposed model outperforms a baseline BERT model by 6.22%.