• 제목/요약/키워드: Syntactic

검색결과 717건 처리시간 0.028초

분리성 통사원자의 유형별 검토 (A Study on Some Types of Separable Syntactic Atoms in Korean)

  • 이호승
    • 비교문화연구
    • /
    • 제38권
    • /
    • pp.433-459
    • /
    • 2015
  • This paper aims at a better understanding of the concept of korean separable syntactic atom, of which inner parts is separable in syntax, and at examining whether or not this concept can apply to derivatives, functional complex constructions, idiomatic expressions in korean. I defined a syntactic atom as a minimum unit which is drawn directly from lexicon and then is applied to syntactic rules. And I insist that so-called 'lexical island constraint' has some problems and that the syntactic rules can be applied to inner parts of syntactic atom, if the syntactic rules is irrelevant to new syntactic atom formation. The greater part of derivatives is non-separable syntactic atoms. But the likes of '반짝거리다', '죄송스럽다', '칭얼대다' are the separable syntactic atoms. The degree of separability of them is different in the insertion of korean particles or negative adverbs and the omission of root of sytactic atom. The derivatives of 'X-적', of which roots is regular nominal roots, permit the syntactic link between roots and the syntactic combination of the root and its argument. These kinds of derivatives is separable syntactic atoms. Also the derivatives of 'bracket paradox' and 'X-답-' derivatives is separable syntactic atoms. All functional complex constructions are not separable syntactic atoms. According to the degree of grammaticalization, inner parts of some are separable, some is non-separable. Separable functional complex constructions only permit the switching of endings or Josas but not application of other syntactic rules. All idiomatic expressions which are composed of two or more syntactic atoms are separable syntactic atoms. Some of them have so strong separability to allow the insertion of syntactic atom, adverb or adnominal modification and the noun in idiomatic expression to become the head of the relative clause. And some idiomatic expressions which have weak separability only permit interrogative's substitution or form change in fraction of idiomatic expressions.

구문요소의 전치에 기반한 문서 워터마킹 (Text Watermarking Based on Syntactic Constituent Movement)

  • 김미영
    • 정보처리학회논문지B
    • /
    • 제16B권1호
    • /
    • pp.79-84
    • /
    • 2009
  • 이 논문은 한국어 문장을 대상으로 구문요소의 전치를 기반으로 한 문서 워터마킹 방법을 제안한다. 한국어와 같은 교착어는 구문요소의 순서가 자유롭기 때문에 구문 트리 기반의 자연어 워터마킹을 위한 좋은 환경을 제공한다. 본 논문에서 제안하는 자연어 워터마킹 방법은 7단계로 구성되어 있다. 첫째, 문장의 구문분석을 수행한다. 다음으로, 구문요소가 해당 절의 범위 안에서만 전치되도록 범위를 한정하기 위하여 구문 트리로부터 각 절을 분할한다. 세 번째로, 전치를 위한 목표 구문요소를 선택한다. 네 번째, 목표 구문요소의 전치 후에도 문장의 의미나 문체의 변화가 최소화되도록 가장 자연스러운 전이위치를 결정한다. 그 후, 목표 구문요소에 대한 워터마크 비트를 삽입한다. 여섯 번째 단계로, 워터마크 비트가 목표 구문요소의 전치 방향과 상응하지 않으면 구문 트리에서 목표 구문요소를 전치한다. 마지막으로 변환된 구문 트리에서 워터마킹된 문서를 얻는다. 실험 결과를 통해 본 논문에서 제안한 방법의 적용률은 91.53%이고, 최종 워터마킹된 문장들 중 부자연스러운 문장의 비율은 23.16%로서 기존 시스템들보다 좋은 결과를 보여준다. 또한 워터마킹된 문장이 원시 문장과 같은 문체를 유지하고, 의미적인 왜곡없이 같은 정보를 나타내고 있다.

구간 분할과 논항정보를 이용한 구문분석시스템 구현에 관한 연구 (A Study of Parsing System Implementation Using Segmentation and Argument Information)

  • 박용욱;권혁철
    • 한국멀티미디어학회논문지
    • /
    • 제16권3호
    • /
    • pp.366-374
    • /
    • 2013
  • 본 논문에서는 한국어 구문분석에서 발생하는 중의성을 해결하기 위하여 구간분할 방법과 논항정보를 사용하여 개선한 구문분석시스템을 소개한다. 본 논문에서 제안하는 구문분석 시스템은 어절대신 형태소를 입력으로 사용하고, 또한 주어진 형태소에 대하여 가능한 모든 구문 분석 구조를 생성하는 알고리즘을 사용한다. 따라서 많은 중의성을 포함한 구문 분석 결과를 생성한다. 이러한 중의성 구조 결과를 해결하기 위하여 세 가지 방법을 사용했다. 첫째 방법은 형태소분석 결과에서 중의성을 제거하는 방법이고 두 번째는 구문 분석시 구간 분할하는 방법, 세 번째 방법은 논항정보를 이용하는 것이다. 이러한 방법을 사용하여 많은 중의성을 제거할 수 있었다. 실험을 통하여 약 53%의 중의성을 제거할 수 있었음을 보여준다.

The Parallel Corpus Approach to Building the Syntactic Tree Transfer Set in the English-to- Vietnamese Machine Translation

  • Dien Dinh;Ngan Thuy;Quang Xuan;Nam Chi
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 ICEIC The International Conference on Electronics Informations and Communications
    • /
    • pp.382-386
    • /
    • 2004
  • Recently, with the machine learning trend, most of the machine translation systems on over the world use two syntax tree sets of two relevant languages to learn syntactic tree transfer rules. However, for the English-Vietnamese language pair, this approach is impossible because until now we have not had a Vietnamese syntactic tree set which is correspondent to English one. Building of a very large correspondent Vietnamese syntactic tree set (thousands of trees) requires so much work and take the investment of specialists in linguistics. To take advantage from our available English-Vietnamese Corpus (EVC) which was tagged in word alignment, we choose the SITG (Stochastic Inversion Transduction Grammar) model to construct English- Vietnamese syntactic tree sets automatically. This model is used to parse two languages at the same time and then carry out the syntactic tree transfer. This English-Vietnamese bilingual syntactic tree set is the basic training data to carry out transferring automatically from English syntactic trees to Vietnamese ones by machine learning models. We tested the syntax analysis by comparing over 10,000 sentences in the amount of 500,000 sentences of our English-Vietnamese bilingual corpus and first stage got encouraging result $(analyzed\;about\;80\%)[5].$ We have made use the TBL algorithm (Transformation Based Learning) to carry out automatic transformations from English syntactic trees to Vietnamese ones based on that parallel syntactic tree transfer set[6].

  • PDF

일본어 유악센트 방언과 무악센트 방언의 통사적 애매성의 해소와 운율적 특징 (Syntactic Ambiguities and their Resolution in Prosody in Japanese)

  • 최영숙
    • 음성과학
    • /
    • 제9권3호
    • /
    • pp.211-221
    • /
    • 2002
  • The prosody can play a crucial role in differentiating ambiguous sentences to correctly reflect their intended syntactic structures. In what way do the speakers in Tokyo and Sendai dialects of Japanese use prosodic elements to differentiate syntactic ambiguities? Acoustic measurement was made of utterances of ambiguous sentences in Japanese to observe prosodic strategies for disambiguation. Materials were sentences of the type ADV-VP1-NP-VP2, ADV-NP1-NP2-VP2, where the ambiguity lies in locative adverbial modification, ADV modifying either VP1 or VP2. For this construction the Japanese create the same ambiguities. After defining the depth of a syntactic boundary, F0 of the phrase before and after the boundary, and duration of the syllable and pause before the boundary were measured. The results show that Tokyo dialects speakers use F0 after syntactic boundary, and Sendai dialects speakers use of the syllable and/or pause before the boundary.

  • PDF

한국어의 리듬 단위에 관한 연구 - 문법 구조와 관련하여 (A Study on Rhythmic Units in Korean -with Respect to Syntactic Structure-)

  • Kim, Sun-Mi
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1996년도 10월 학술대회지
    • /
    • pp.224-228
    • /
    • 1996
  • This paper is intended as a study on how an utterance is divided into rhythmic units in Standard Korean with respect to its syntactic structure. With respect to the data in this study I used 150 sentences which contained similar number of words and various syntactic structures. Those sentences were read by 7 speakers of Seoul dialect in a conversation style. Each sentence was read twice in a normal speed and twice in a fast speed. As a total, 4200 sentences were recorded. Then listening to them, the author marked the sentences with two kinds of boundaries i.e. strong and weak. To explore the relationship between rhythmic units and syntactic structure I devised a framework of grammatical symbols. Each symbol is designed to have both syntactic and morphological information at the same time. So I assigned those grammatical symbols to the sentences. Having sentences marked with grammatical symbols on the one hand, and with the rhythmic boundaries on the other hand, 1 could show the relationship between rhythmic units and syntactic structure; which syntactic structures are likely to be pronounced as one rhythmic unit, and which are on the rhythmic boundaries.

  • PDF

구문 제약으로 문형을 사용하는 CFG기반의 한국어 파싱 (CFG based Korean Parsing Using Sentence Patterns as Syntactic Constraint)

  • 박인철
    • 한국산학기술학회논문지
    • /
    • 제9권4호
    • /
    • pp.958-963
    • /
    • 2008
  • 한국어는 용언이 의미적 제약을 통해 문장을 지배하며 대부분의 한국어 문장은 주절과 내포문을 가지는 복문으로 구성되어 있다. 따라서 한국어에 맞는 구문 문법이나 구문 제약을 기술하는 것은 매우 어렵고 한국어를 파싱 하면 다양한 구문 모호성이 발생한다. 본 논문에서는 구문 제약으로 문형(sentence patterns)을 사용하는 CFG기반의 문법을 기술하여 구문 모호성을 해결하는 방법을 제안한다. 이를 위해 내포문을 포함하는 복문도 문형으로 분류하였으며 44개의 문형을 사용한다. 그러나 한국어 특성상 문형 정보만으로는 모든 구문 모호성을 해결할 수가 없기 때문에 문형에 의미 제약(semantic constraint)을 가한 의미 지표(semantic marker)를 사용하여 파싱을 수행한다. 의미 지표는 보조사의 처리나 공동격 조사에 의해 발생되는 구문 모호성을 해결하는데 이용될 수 있다.

형태소 및 구문 모호성 축소를 위한 구문단위 형태소의 이용 (Using Syntactic Unit of Morpheme for Reducing Morphological and Syntactic Ambiguity)

  • 황이규;이현영;이용석
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권7호
    • /
    • pp.784-793
    • /
    • 2000
  • 기존의 한국어 형태소 해석은 한국어의 교착어 특성상 다양한 형태론적 모호성을 가진다. 이러한 형태론적 모호성은 많은 구문 모호성을 만들어 내어 올바른 의미를 가지는 파스트리의 선택을 어렵게 한다. 한국어에서 이런 형태론적 모호성의 대부분이 보조용언이나 의존 명사와 관련이 있다. 보조용언이나 의존명사는 주위의 형태소들과 강한 결합 관계를 가지고 있으며, 대부분 자립성이 없는 기능형태소이다. 결합된 형태소들은 문장 내에서 하나의 기능적 역할이나 구문적 역할을 수행한다. 우리는 품사 태깅된 20 만 어절 크기의 말뭉치로부터 이 형태소열을 찾아 이를 3가지 유형으로 분류하였다. 그리고, 이를 구문 형태소로 정의하고 구문 형태소를 구문 분석의 기본 입력 단위로 간주하였다. 본 논문에서는 구문 형태소가 아래와 같은 문제의 해결에 있어서 효율적인 방법임을 제안한다: 1) 형태소 해석의 축소, 2) 구문 해석 도중 불필요한 부분 파스트리의 배제, 3) 구문 모호성의 축소. 마지막으로, 실험 결과를 통해 구문단위 형태소가 형태소 및 구문 모호성을 축소하기 위해 반드시 필요함을 보인다.

  • PDF

형태소 사전 기반 구문 형태소 생성 (syntactic morpheme generation using morpheme dictionary)

  • 박인철
    • 한국컴퓨터산업학회논문지
    • /
    • 제6권5호
    • /
    • pp.725-734
    • /
    • 2005
  • 구문 형태소는 형태소 분석 과정에서 생성된 노드들을 최소한으로 줄이기 위해 제안되었다. 구문 형태소는 불필요한 노드를 제거해 줌으로 구문 분석기의 부담을 매우 크게 줄이는 효과가 있다. 그러나 기존의 시스템에서 구문 형태소 생성은 형태소 분석 단계와 분리되어 별도의 분석 시간을 요구하며, 띄어쓰기 오류에 대한 고려를 하지 않았다. 본 논문에서는 이러한 문제점을 해결하기 위해 형태소 사전을 기반으로 한 구문 형태소 생성 방법을 제안한다. 실험 결과 기존의 방법에 비해 제안된 방법은 100배 이상의 생성 속도 향상을 보였다.

  • PDF

구문 분석의 결과로 나타나는 구조의 모호성을 해결하기 위한 방법 연구 (A Study of Disambiguation Method To Improve The Syntactic Analysis System)

  • 박용욱
    • 한국산학기술학회논문지
    • /
    • 제16권4호
    • /
    • pp.2764-2769
    • /
    • 2015
  • 본 논문에서는 형태소 단위의 입력요소에 대해 의존규칙을 적용하여 가능한 모든 구분분석 구조를 생성할 수 있는 알고리즘을 적용한 구문분석기를 구현하였다. 따라서 형태소의 수가 증가함에 따라 생성되는 구문분석 트리의 개수가 기하급수적으로 증가할 수 있다. 이를 해결하기 위하여 본 논문에서는 주어진 문장에 대해 문장의 기본 구성요소들에 대하여 구간을 나누고, 나누어진 구간에서 최대연결단위를 구성하였다. 최대연결단위는 한 구간에 존재하는 모든 형태소가 결합된 것을 의미한다. 입력되는 문장에 따라서 한 구간에 하나 이상의 최대연결단위가 구성될 수 있다. 중학교 교과서에서 임의로 추출한 10어절 이내의 516문장에 대하여 실험한 결과 제안한 방법을 사용하지 않은 방법에 비해 약 28%의 개선효과가 있었다.