WikiDer > Бірыңғай хангүл коды

Unified Hangul Code
Бірыңғай хангүл коды
Бірыңғай Hangul Code.svg
Бірыңғай хангүл кодының орналасуы
Бүркеншік аттар (лар)Windows Code Page 949, IBM Code Page 1363
Тіл (дер)Корей
СтандарттыWHATWG кодтау стандарты («EUC-KR» ретінде)[1]
ЖіктелуіҰзартылған ISO 646,[a] ені айнымалы, CJK кодтау
ҰзартыладыEUC-KR
Басқа қатысты кодтау (лар)KPS 9566-2003, KPS 9566-2011
  1. ^ Терминнің қатаң мағынасында емес, өйткені ASCII байттары із байттары ретінде көрінуі мүмкін, бірақ бұл тек әріптік байттармен шектеледі.

Бірыңғай хангүл коды (UHC),[2][a] немесе Кеңейтілген Wansung,[4][b] астында да белгілі Microsoft Windows сияқты Код 949 (Windows-949, MS949 немесе анық емес CP949), бұл Microsoft Windows код беті үшін Корей тілі. Бұл Wansung кодының кеңейтілген нұсқасы (KS C 5601: 1987 ж. Кодталған EUC-KR) барлығын қосуға 11172 Хангуль бар буындар Джохаб (KS C 5601: 1992 3-қосымша).[4][2] Бұл сәйкес келеді алдын-ала құрылған буындар қол жетімді Юникод 2.0 және одан кейінгі нұсқалар.

Wansung кодында кемшіліктер бар, олар тек 2350-ге дейінгі, өздеріне тән, хангулдың 2350 буынына код береді. KS X 1001 (KS C 5601) кодоинкттер (барлығы 11172-ден, ескірген жамағатты пайдаланатындарды есептемегенде), ал басқаларынан стандарттың кейбір ішінара орындалуы қолдамайтын сегіз байтты композициялар тізбегін қолдануды талап етеді.[5] UHC мұны KS X 1001 үшін пайдаланылатын кодтау кеңістігінен тыс тапсырмалар беру арқылы заманауи жаманы қолдану арқылы жасалған барлық мүмкін буындарға бірыңғай кодтар беру арқылы шешеді.

Жетекші байт диапазоны кеңейтілген 0x81-FE, ал байт диапазоны 0x41-5A, 0x61-77 және 0x81-FE дейін кеңейтіледі (EUC-KR-де екі диапазон да 0xA1-FE). Қосымша hangul үшін EUC-KR ауқымынан тыс кодтар қолданылады.[6]

Терминология

Бірыңғай Hangul Code тіркелмеген ЯНА Интернет арқылы ақпарат алмасудың стандарты ретінде.[7] Балама нұсқаларға жатады UTF-8. Алайда, W3C/WHATWG Кодтау стандарты қолданылады HTML5 Бірыңғай Хангуль кодексінің кеңейтімдерін «EUC-KR» анықтамасына қосады.[1]

Microsoft Windows-949-ге «ks_c_5601-1987» белгісін тағайындайды,[8][9] тиісті түрде қолданылады KS X 1001 өзі (KS C 5601 KS X 1001 түпнұсқа атауы).[10] WHATWG «ks_c_5601-1987» жапсырмасын «орналастырылған мазмұнмен үйлесімді» болу мақсатында «EUC-KR» -мен алмастырады.[11] The Юникод консорциумыАлынған «OBSOLETE / EASTASIA» топтамасында «KSC5601.TXT» деп бірыңғай хангул коды үшін кескіндер енгізілді, ал 7 биттік KS X 1001 үшін автоматты түрде алынған кескіндер «KSX1001.TXT» болып енгізілді.[12]

IBM кодының беті 949 бұл EUC-KR-нің басқа, басқаша байланысты емес кеңеюі. Юникодтың халықаралық компоненттері (ICU) IBM код парағына сілтеме жасау үшін «cp949», «949» немесе «ibm-949» қолданады,[13] және «ms949» немесе «windows-949» (немесе «ks_c_5601-1987» нұсқаларының бірнеше нұсқасы) UHC-дің Windows картасын қарау үшін.[14] Python, керісінше, «cp949», «949», «ms949» және «uhc» UHC белгілері ретінде таниды және IBM-949 кодегін қамтымайды.[15] Код бетінің нөмірін қамтитын жапсырмалардың ішінен WHATWG тек «windows-949» -ты таниды.[11]

IBM-дің Unified Hangul Code үшін код парағы деп аталады Код парағы 1363 (IBM-1363) немесе «Корей MS-Win». Бұл SBCS Код парағы 1126 және DBCS Код 1362 бет.[16][17][18][19][20] Ол 0х5С мәнін бір байтпен салыстыру арқылы ерекшеленеді Жеңді қол (U + 20A9);[21][22][23] Windows 0x5C-тен U + 005C-ге дейін салыстырады (үшін Unicode код нүктесі кері сызық) ASCII сияқты,[14] дегенмен, қаріптер оны Won белгісі ретінде жиі береді.[24] Толқын сызығының юникодты кескіні (0xA1AD) IBM картасымен U + 301C-ті қолдана отырып ерекшеленеді,[25] ал Microsoft картасын жасау U + 223C (Tilde Operator) қолдайды.[26] UHC үшін IBM картасын жасау ICU-де «ibm-1363» түрінде қол жетімді,[21] ал ICU «windows-949» кодекі кейбір интерактивті интерактивті интервал интерфейсінің бастапқы кодының түсініктемелерінде IBM-1261 деп аталады.[27]

Сілтемелер

  1. ^ Корей: 통합형 한글 코드[3], романизацияланғанTonghabhyeong Hangeul Kodeu
  2. ^ Корей: 확장 완성형, романизацияланғанХвагджанг Вансонхён

Әдебиеттер тізімі

  1. ^ а б ван Кестерен, Анна, «5. Индекстер (§ индексі EUC-KR)», Кодтау стандарты, WHATWG
  2. ^ а б «INFO: Hangul (корей) кейіпкерлер жиынтығы», Microsoft қолдау қызметі, Microsoft
  3. ^ «한글 코드 에 대하여» (корей тілінде). W3C.
  4. ^ а б Цсигри, Дюла (2002-06-18). «KSC және UHC».
  5. ^ Шин, Юнгшик. «KS X 1001 (KS C 5601) және басқа хангул кодтары қандай?». Hangul & Internet in Korea. Жиі қойылатын сұрақтар.
  6. ^ Лунде, Кен. «Қосымша F: Сатушының кодтау әдістері» (PDF). CJKV ақпаратты өңдеу (2-ші басылым). O'Reilly Media. ISBN 978-0-596-51447-1.
  7. ^ «Кейіпкерлер жиынтығы». Iana.org. Алынған 2017-01-11.
  8. ^ «Encoding.WindowsCodePage қасиеті - .NET Framework (қазіргі нұсқасы)». MSDN. Microsoft.
  9. ^ «Код парағының идентификаторлары», Windows Dev орталығы, Microsoft
  10. ^ IBM; Юникод консорциумы. «convrtrs.txt». Юникодтың халықаралық компоненттері. 59180.0.1 т. [...] EUC-KR немесе windows-949 деп белгілеу үшін KS C 5601 немесе соған байланысты атауларды қолдану өте адастырады [...] Бұл жай 94 х 94 корей кодының аты ғана таңбалар жиынтығының стандарты, оны GL-ге (MSB қалпына келтірумен) немесе GR-ге (MSB жиынтығымен) шақыруға болады.
  11. ^ а б ван Кестерен, Анна. «4.2. Атаулар мен белгілер». Кодтау стандарты. WHATWG.
  12. ^ Джунгшик Шин. «KSX1001.TXT: KS X 1001 Unicode кестесіне». Unicode, Inc.
  13. ^ «ibm-949_P110-1999 (бүркеншік ат cp949)», Конвертер Explorer, Юникодтың халықаралық компоненттері
  14. ^ а б «windows-949-2000», Конвертер Explorer, Юникодтың халықаралық компоненттері
  15. ^ «кодектер - кодек регистрі және базалық кластар § стандартты кодтау». Python 3.7.2 құжаттамасы. Python бағдарламалық қамтамасыздандыру қоры.
  16. ^ «Кодталған таңбалар жиынтығының идентификаторлары - CCSID 1363», IBM Globalization, IBM, мұрағатталған түпнұсқа 2014-11-29
  17. ^ «Код парағы 1126 ақпараттық құжат». Архивтелген түпнұсқа 2017-01-16.
  18. ^ «CCSID 1126 ақпараттық құжаты». Архивтелген түпнұсқа 2016-03-27.
  19. ^ «Код парағы 1362 ақпараттық құжат». Архивтелген түпнұсқа 2017-03-17.
  20. ^ «CCSID 1362 ақпараттық құжаты». Архивтелген түпнұсқа 2016-03-27.
  21. ^ а б «ibm-1363», Конвертер Explorer, Юникодтың халықаралық компоненттері
  22. ^ CPGID 01126 код парағы (pdf) (PDF), IBM
  23. ^ CPGID 01126 код парағы (txt), IBM
  24. ^ Каплан, Майкл С. (2005-09-17), «Қашан кері сызық кері сызық емес?», Барлығын сұрыптау
  25. ^ «ibm-1363_P110-1997 (жетекші байт A1)». ICU демонстрациясы - Converter Explorer. Юникодтың халықаралық компоненттері.
  26. ^ «windows-949-2000 (жетекші байт A1)». ICU демонстрациясы - Converter Explorer. Юникодтың халықаралық компоненттері.
  27. ^ Анықтама үшін қараңыз, ucnv_lmb.cpp (Брендан Мюррей, Джим Снайдер-Грант), мұндағы жетекші байт 0х11 анықтамасынан кейін «корей: ibm-1261» сілтемесі ретінде түсіндіріледі ULMBCS_GRP_KO, бірақ ол кескінмен кескінделеді «windows-949» ICU кодекі OptGroupByteToCPName массив кейінірек.

Сыртқы сілтемелер