SVM 모델을 이용한 중국어 장문 분할

Segmentation of Chinese Long Sentence Using Support Vector Machine

  • 김미훈 (포항공대 정보통신대학원 전자컴퓨터공학부) ;
  • 김미영 (포항공대 정보통신대학원 첨단기술연구 정보센터) ;
  • 김동일 (포항공대 정보통신대학원 첨단기술연구 정보센터) ;
  • 이종혁 (포항공대 정보통신대학원 첨단기술연구 정보센터)
  • Jin, Mei-Xun (Dept. of Graduate School for Information and Technology, POSTECH) ;
  • Kim, Mi-Young (Div. of Electrical and Computer Engineering, POSTECH, Advanced Information Technology Research Center(AITrc)) ;
  • Kim, Dong-Il (Div. of Electrical and Computer Engineering, POSTECH, Advanced Information Technology Research Center(AITrc)) ;
  • Lee, Jong-Hyeok (Div. of Electrical and Computer Engineering, POSTECH, Advanced Information Technology Research Center(AITrc))
  • 발행 : 2003.10.10

초록

문장이 길면 구문분석의 정확률이 크게 낮아진다. 따라서 장문을 분할하여 분석하면 구문분석의 복잡도를 크게 줄일 수 있어 정확률 향상에 크게 기여할 수 있다. 특히, 중국어는 고립어로서, 교착어나 융합어와 비교할 때 자연어처리에 도움을 줄 수 있는 굴절이나 어미정보가 없어 구문분석에 어려움이 더욱 많다. 반면, 중국어 문자에서는 쉼표를 비교적 많이 사용하고 있고 또한 쉼표의 쓰임이 정확하므로 구문 분석에 도움을 줄 수 있다. 본 논문에서는 쉼표가 많이 쓰이고 있는 중국어 문장에서 해당 쉼표위치 문장 분할가능여부를 Support Vector Machine을 이용 판단하여 정확률 88.61%의 높은 분할 성능을 보였다.

키워드