• 제목/요약/키워드: unicode chinese character

검색결과 13건 처리시간 0.025초

정보 시스템의 유니코드 기반 한자 검색 지원 (Support on Ideograph Characters Search of Unicode Based Information System)

  • 윤소영
    • 정보관리학회지
    • /
    • 제24권4호
    • /
    • pp.375-391
    • /
    • 2007
  • 현재 유니코드 CJK 한자코드는 부수 기준 배열방식을 따르고 있어 한자의 한글음가를 기준으로 하는 우리의 문자생활 방식과 차이가 있으며, 우리나라 고유한자나 동형이음어, 이두문자, 그리고 이체자 관계 등을 모두 수록하고 있지 않아 정보시스템에 그대로 적용하기에는 무리가 있다. 따라서 유니코드 기반 정보시스템의 정확한 한자표현 및 한자검색을 위해서는 한자를 포함하는 자료에 대한 정확한 이해를 바탕으로 여러 가지 지원방안을 마련해야 한다. 이러한 측면에서 역사분야 정보검색시스템에서는 한글음가 및 한국에서만 사용되는 동형이음어 처리를 위한 한자-한글음가 사전, 본래 한자의 음가와 다르게 읽히는 한자를 위한 특수용어사전, 이형자와이체자를 위한 이체자사전, 그리고 유니코드 CJK 통합한자에 등록되어 있지 않은 한자를 위한 신출 한자목록을 지원하고 있다.

처방명 연계를 위한 유니코드 한자 기반의 한글-한자 매핑정보 구축에 관한 연구 (A study on Mapping the Unicode based Hangul-Hanja for prescription names in Korean Medicine)

  • 전병욱;김안나;김지영;오용택;김철;송미영;장현철
    • 한국한의학연구원논문집
    • /
    • 제18권3호
    • /
    • pp.133-139
    • /
    • 2012
  • Objective : UMLS is 'Ontology' which establishes the database for medical terminology by gathering various medical vocabularies representing same fundamental concepts. Method : Although Chinese character are represented in the Chinese part of Korean Unicode system in a computer, writing of Chinese characters is vary depending on Chinese input systems and Chinese writers' levels of knowledge. As the result of this, representation of Chinese writing in a computer will be considerably different from an old Chinese document. Therefore, a meaningful relationship between digital Chinese terminology and translated Korean is necessary in order to build Ontology for Chinese medical terms from Oriental medical prescription in a computer system. Result : This research will present 1:1 mapping information among the Chinese characters used in the Oriental medical prescription with analysis of 'same character different sound' and 'same meaning different shape' in Chinese part of Unicode systems. Conclusions : Furthermore, the research will provide top-down menu of relationship between Chinese term and Korean term in medical prescription with assumption of that the Oriental medical prescription has its own unique meaning.

한국과 중국의 MeSH 호환성 연구 (A study of MeSH Compatibility between Korea and Chinese)

  • 권영규;이병욱
    • 대한한의정보학회지
    • /
    • 제11권2호
    • /
    • pp.65-82
    • /
    • 2005
  • The findings from this study are summarized as follows: 1. Hangul 2004 has 16,023 Chinese Character codes. Among them, 15,231 Chinese Character codes are searched by DB, the others are unsearchable codes. 2. Among 15,231 Chinese Character codes of Hangul 2004, 2,471 Chinese Character codes are converted into 2,232 Simplified Chinese Character codes by Traditional and Simplified Chinese Character Converting program in Hangul 2004. 3. The 5th edition TCM-MeSH has 6,385 thesauruses and 2,142 kinds of Chinese Characters. 4. If we use Simplified Chinese Character of Hangul 2004 to search for TCM-MeSH, we will find 94.3% of TCM-MeSH. But If we use Traditional Chinese Character of Hangul 2004 to search for TCM-MeSH, we will find only 34.2% of TCM-MeSH.

  • PDF

AMI/HDB-3 회선부호화와 한·중·일 한자 유니코드 체계 고찰 (Consideration of CJK Joint Hanja Unicode when is used in AMI/HDB-3 Line Coding)

  • 태동진;홍완표
    • 한국전자통신학회논문지
    • /
    • 제8권7호
    • /
    • pp.1011-1015
    • /
    • 2013
  • 본 논문은 한중일통합 한자 유니코드 부호 집합체계가 원천부호화규칙에 위배되는 정도를 분석하였다. 본 연구에서는 한중일통합 한자의 유니코드 중에서 사용빈도 수가 높은 문자 150개를 대상으로 하여 연구하였다. 이 한중일통합 한자 150개 문자의 사용 빈도율은 한중일통합 한자 유니코드 전체 사용빈도율의 약 50%에 해당된다. 본 연구에서는 한중일통합 한자 유니코드를 AMI회선부호화 방식과 HDB-3 스크램블링 방식을 사용할 경우를 대상으로 하였다. 분석결과 150개의 문자중 원천부호화 규칙에 위배되는 문자는 총 77개 였다. 이들 문자들의 사용 빈도율에 의한 원천부호화 규칙 위배율은 약28%였다. 결과적으로 이 원천부호화 규칙에 위배되는 문자들을 사용빈도가 낮고 원천부호화 규칙에 부합되는 문자부호로 대체 할 때, 회선부호기에서의 회선부호 처리율을 약37%만큼 개선시킬 수 있음을 나타냈다.

침구학 교재에서의 한자사용 분석연구 (Study on the Chinese Character Use in Acupuncture & Moxibustion Textbook)

  • 채한;황상문;이병욱;양기영;이병렬;김재규
    • Journal of Acupuncture Research
    • /
    • 제27권4호
    • /
    • pp.187-194
    • /
    • 2010
  • Objectives : There has been a need for establishing operational curriculum for chinese characters and chinese writing used by traditional Korean medicine(TKM), but it was not thoroughly recognized so far. Methods : We analysed the usage of unicode chinese characters of acupuncture & moxibustion textbook to recognize the prerequisite chinese characters for TKM studies as clinical perspectives. Results : It was found that 穴, 經, 鍼, 法, 寸, 部, 分, 刺, 下, 上, 中, 位, 氣, 陽, 灸, 脈, 陰, 治, 足, 主 are the most frequently used 20 chinese characters. We also showed that adequate prerequisite chinese character should be designated for the more efficient education of TKM. Conclusions : This study was the first systematic approach to get essential and prerequisite chinese characters for the education of TKM especially for the acupuncture & moxibustion. The prerequisite characters by this study will be used for the development of KEET (Korean Medicine Education Eligibility Test), entrance exam to the Colleges of Oriental Medicine and textbooks, and educational curriculum of premed students.

고문헌 벽자(僻字) 입력을 위한 한자 자형 부호화 방법 (A Character Shape Encoding Method to Input Chinese Characters in Old Documents)

  • 김기왕
    • 대한한의학원전학회지
    • /
    • 제32권1호
    • /
    • pp.105-116
    • /
    • 2019
  • Objectives : There are many secluded Chinese characters - so called Byeokja (僻字) in ancient classic literature, and Chinese characters that are not registered in Unicode and Variant characters (heterogeneous characters) that cannot be found in the current font sets often appear. In order to register all possible Chinese characters including such characters as units of information exchange, this study attempts to propose a method to encode the morphological information of Chinese characters according to certain rules. Methods : This study suggests the methods to encode the connection between the nodules constituting the Chinese character and the coordinates of the nodules. In addition to that, rules for expressing information about curves, expressions of aspect ratios of characters, rules for minimizing coordinate lines, and rules for expressing aggregation status of character components are added. Results : Through the proposed method, it is possible to generate codes of a certain length by extracting only information expressing the morphological configuration of characters. Conclusions : The method of character encoding proposed in this study can be used to distinguish variant characters with small variations in Byeokja, new Chinese characters and character strokes and to store and search them.

한의학 입문을 위한 필수한자 추출 및 분석연구 (Study on the Prerequisite Chinese Characters for Education of Traditional Korean Medicine)

  • 채한;황상문;권영규;백유상;신상우;양기영;이병렬;김재규;이병욱
    • 동의생리병리학회지
    • /
    • 제24권3호
    • /
    • pp.373-379
    • /
    • 2010
  • There has been a need for establishing operational curriculum for chinese characters and chinese writing used by traditional korean medicine (TKM), but it was not carefully recognized so far. We analysed the frequency of unicode chinese characters from five medical textbooks and showed prerequisite chinese characters for TKM beginners. It was found that 之, 者, 不, 也, 而, 氣, 陽, 陰, 下, 其, 病, 爲, 人, 以, 中, 則, 於, 脈, 上, 故 are the most frequently used 20 chinese characters. We also showed that adequate prerequisite chinese character should be designated for the more efficient education of TKM. This study was the first systematic approach to get essential and prerequisite chinese characters for the education of TKM. The prerequisite characters by this study will be used for the development of KEET (Korean Medicine Education Eligibility Test), entrance exam to the Colleges of Oriental Medicine and textbooks, and educational curriculum of premed students.

송본(宋本) "상한론(傷寒論)"의 한중(韓中) Code 비교(比較) 비교대어송본(比較對於宋本)"상한론(傷寒論)"적한국화중국지(的韓國和中國之)Code

  • 이병욱;신상우;김은하
    • 대한한의학원전학회지
    • /
    • 제18권4호통권31호
    • /
    • pp.83-92
    • /
    • 2005
  • 도금일(到今日), 동양의학재한중일삼국수저자기적특색이연구발전이래(東洋醫學在韓中日三國隨著自己的特色而硏究發展而來). 이차저한중일삼국위료동양의학적세계화(而且這韓中日三國爲了東洋醫學的世界化), 과학화부단지재진행협조화노력(科學化不斷地在進行協助和努力). 유우동양의학이경주상료세계화(由于東洋醫學已經走上了世界化), 저삼국재소용적의학술어화기유적나사문헌자료적교류수요취월래월고료(這三國在所用的醫學述語和旣有的那些文獻資料的交流需要就越來越高了). 가시재문헌교류화의학용어적표준화과정중발현료일개흔대적장애, 저개장애취시(這個障碍就是)unicode. 당연(當然)unicode시위료재국가지간사적저사정보령활교류이제정작성적(是爲了在國家之間使的這些情報靈活交流而制定作成的). 가시(可是)unicode제정지전(制定之前), 각국이경위료각각적수구이연발료적합자기적한자계통(各國已經爲了各各的需求而硏發了適合自己的漢子系統). 현재적(現在的)unicode취시용나사기유적한자(就是用那些旣有的漢子)code제정적(制定的). 유우(由于)unicode피저양제정종이산생불소계통상적모순문제(被這樣制定終而産生不少系統上的矛盾問題). 저사문제불근영향도료계통지외(這些問題不僅影響到了系統之外), 이차우조애료한의학정보적령활교류(而且又阻碍了韓醫學情報的靈活交流). 위료해결저사문제(爲了解決這些問題). 본인이상한론위연구대상래비교료일하한국화중국적한자(本人以傷寒論爲硏究對象來比較了一下韓國和中國的漢子)code차이(差異).

  • PDF

CAI 응용프로그램 작성시 자료공유를 위한 한자 코드 체계 정의에 관한 연구 (A Study on Data Sharing Codes Definition of Chinese in CAI Application Programs)

  • 고대곤
    • 정보교육학회논문지
    • /
    • 제2권2호
    • /
    • pp.162-173
    • /
    • 1998
  • CAI 프로그램 작성시 자료 공유를 위한 한자 공통코드 정의를 위하여 주요 한자문화권 국가의 한자 코드에 대한 고찰 결과, 한자코드 정의시 발음순과 부수순을 혼용 및 동일 한자에 대한 간체자(중국 GB)와 이체자(일본 Shift JIS)의 개발, 사용이 많아 정체자(KSC 한국)간의 자료 호환시 적절한 변환 장치가 요한다. 발음순 원칙은 동차 이음어가 다른 코드로 인식되어 코드 영역의 낭비가 있고, 부수순 원칙은 자국의 두음법칙에 맞지 않으나 중복 코드를 방지할 수 있어 자료의 복원시 유리하다. KSC 제1수준과 제2수준 한자 영역은 학계 및 업계의 요구를 수용할 수준으로 확대시킬 필요가 있다. 유니코드는 시스템의 호환, 확장에 유리하고, 다양한 문자 표현이 가능하여 교육목적 코드의 일시적인 대안이 될 수 있다.

  • PDF

대용량 온라인 한자 인식을 위한 클러스터링 거리계산 척도 (Distance Measures in HMM Clustering for Large-scale On-line Chinese Character Recognition)

  • 김광섭;하진영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권9호
    • /
    • pp.683-690
    • /
    • 2009
  • 은닉 마코프 모델(Hidden Markov Model: HMM)에 기반을 둔 온라인 한자 인식에서 클래스의 수가 대용량일 경우에는 인식에 걸리는 시간 증가가 좋은 인식 시스템을 구현하는데 있어서의 걸림돌이 된다. 본 논문에서는 이러한 인식 속도 문제를 해결하고자 HMM을 클러스터링하여 인식 속도를 개선하는 방법과 이에 적합한 효율적인 HMM 간의 거리계산법을 제안한다. 유니코드 한 중 일 통합한자로 정의된 총 20,902개의 한자에 대한 온라인 한자 인식 시스템을 구축하는 실험에서 약 2배 정도로 인식속도가 향상됨을 확인할 수 있었고 클러스터링을 하지 않았을 때보다 0.9%의 인식률만 하락한 95.37%의 10순위 인식률을 달성했다.