Korean Word Spacing System Using Syllable N-Gram and Word Statistic Information

Choi, Sung-Ja;Kang, Mi-Young;Heo, Hee-Keun;Kwon, Hyuk-Chul;

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
/
Pages.47-53
/
2003
/
2005-3053(pISSN)

한국정보과학회 언어공학연구회 (Human and Language Technology)

음절 N-Gram과 어절 통계 정보를 이용한 한국어 띄어쓰기 시스템

Korean Word Spacing System Using Syllable N-Gram and Word Statistic Information

최성자 (부산대학교 컴퓨터공학과) ;
강미영 (부산대학교 컴퓨터공학과) ;
허희근 (부산대학교 컴퓨터공학과) ;
권혁철 (부산대학교 컴퓨터공학과)

Choi, Sung-Ja (Korean Language Processing Lab, School of Electrical & Computer Engineering, Pusan National University) ;
Kang, Mi-Young (Korean Language Processing Lab, School of Electrical & Computer Engineering, Pusan National University) ;
Heo, Hee-Keun (Korean Language Processing Lab, School of Electrical & Computer Engineering, Pusan National University) ;
Kwon, Hyuk-Chul (Korean Language Processing Lab, School of Electrical & Computer Engineering, Pusan National University)

발행 : 2003.10.10

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

본 논문은 정제된 대용량 말뭉치로부터 얻은 음절 n-gram과 어절 통계를 이용한 한국어 자동 띄어쓰기 시스템을 제안한다. 한 문장 내에서 최적의 띄어쓰기 위치는 Viterbi 알고리즘에 의해 결정된다. 통계 기반 연구에 고유한 문제인 데이터 부족 문제, 학습 말뭉치 의존 문제를 개선하기 위하여 말뭉치를 확장하고 실험을 통해 얻은 매개변수를 사용하고 최장 일치 Viable Prefix를 찾아 어절 목록에 추가한다. 본 연구에 사용된 학습 말뭉치는 33,641,511어절로 구성되어 있으며 구어와 문어를 두루 포함한다.

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

음절 N-Gram과 어절 통계 정보를 이용한 한국어 띄어쓰기 시스템

Korean Word Spacing System Using Syllable N-Gram and Word Statistic Information

초록

키워드

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)