What is KS X 1001 (KSC5601)? / KSC5601이란?

2015. 3. 9. 21:40Mobile/Phone book

[English]

  KS X 1001 (Korean Graphic Character Set for Information Interchange[citation needed]) is a South Korean coded character set standard to represent hangul and hanja characters on a computer. It is arranged as 94×94 table (similarly to 2-byte code words in ISO 2022 and EUC), therefore its code points are pairs of integers 1–94. KS X 1001 contains ASCII, Korean, typography, Greek, Cyrillic, Japanese (Hiragana and Katakana) and some other characters.

  This standard was previously known as KS C 5601. There have been several revisions of this standard. For example, there were revisions in 1987, 1992, 1998 and 2002. Several computer operating systems encode various versions of this standard several ways. Not all of them encode the standard the same way, like replacing the typical backslash at byte 0x5C with the won currency sign (₩).[citation needed] Some operating systems extend this standard in other non-uniform ways. Possible encoding schemes of KS X 1001 are: EUC-KR, windows-949 (superset of EUC-KR)[clarification needed], ISO-2022-KR and JOHAB. However, the latter two encodings are rarely used.


Microsoft has developed Unified Hangul Code (UHC) also known as "Extended Wansung" for its Windows 95 operating system. It is an optional character set of Win95K. Microsoft calls this Code Page 949.

UHC provides full compatibility with KSC5601-1992 EUC encoding, but adds additional encoding ranges to hold additional precombined Hangul characters (more precisely, the 8,822 that are needed to fully support the Johab character set). 


The following table provides the encoding ranges for UHC encoding:

Two-Byte Standard Characters

Encoding Ranges

First byte range

0x81-0xFE

Second byte ranges

0x41-0x5A, 0x61-0x7A
and 0x81-0xFE


One-Byte Characters

Encoding Range

ASCII

0x21-0x7E


Note that the encoding ranges 0xA1A1 through 0xFEFE are identical in terms of character-to-code allocation with KSC5601-1992 in EUC Encoding.


[한글]

  KSC  5601은 94x94의 각 위치(행열)에 한글 문자를 일정한 순서에 따라 배열해 놓은 문자세트를 의미한다. 한글 코드의 KS  제정에서 완성형이 채택된 것은 내부 적으로 한글의 출력이 모아쓰기 형태로 이루어지면서 한자를 섞어서 쓸 수 있어야 한다는 사회적 요구로 조합형을 수용하기가 어려웠기 때문이다. 또 다른 배경은 국 가 간의 정보교환을 위한 코드 표준화 과정에서 ISO  2022에서 제정한 코드 체계에 따라 세계 각국의 문자를 처리하는데 기인한다. 이는 1바이트 코드로 한 문자 표현 이 불가능한 CJK(Chinese,  Japanese,  Korean)  문자를 2바이트 코드 영역의 첫 번째 영역에 넣을 수 있도록 영역을 확보해야 했기 때문이다. 이와 같은 배경에 의해 KSC  5601-1982에 의한 2바이트 조합형 코드가, 1987년에 2바이트 완성형 코드인 정보교환용 부호에 관한 한글 공업 규격으로 새로 바뀌게 된 것이다. 

  KSC  5601은 완성형 한글 2,350자,한자 4,888자 기술/학술기호 등 특수문자 432 자,숫자 30자,한글 낱자 94자,로마문자 52자,그리스 문자 48자,패션 조각 68자,라틴 문자 27자,일본 문자 169자,러시아 문자 66자 등 총 8.224자와 기타 사용자 정의 영역으로 한글 96자,한자 95자 정도를 사용하도록 배정하고 있다.