ข้ามไปเนื้อหา

ยูนิโคด

จากวิกิพีเดีย สารานุกรมเสรี
The Unicode Standard, Version 5.0
อักขระยูนิโคดทั้งหมดเมื่อพิมพ์ลงกระดาษ (รวมทั้งสองแผ่น)

ยูนิโคด (อังกฤษ: Unicode) คือมาตรฐานอุตสาหกรรมที่ช่วยให้คอมพิวเตอร์แสดงผลและจัดการข้อความธรรมดาที่ใช้ในระบบการเขียนของภาษาส่วนใหญ่ในโลกได้อย่างสอดคล้องกัน ยูนิโคดประกอบด้วยรายการอักขระที่แสดงผลได้มากกว่า 100,000 ตัว พัฒนาต่อยอดมาจากมาตรฐานชุดอักขระสากล (Universal Character Set: UCS) และมีการตีพิมพ์ลงในหนังสือ The Unicode Standard เป็นแผนผังรหัสเพื่อใช้เป็นรายการอ้างอิง นอกจากนั้นยังมีการอธิบายวิธีการที่ใช้เข้ารหัสและการนำเสนอมาตรฐานของการเข้ารหัสอักขระอีกจำนวนหนึ่ง การเรียงลำดับอักษร กฎเกณฑ์ของการรวมและการแยกอักขระ รวมไปถึงลำดับการแสดงผลของอักขระสองทิศทาง (เช่น อักษรอาหรับ หรือ อักษรฮีบรู ที่เขียนจากขวาไปซ้าย) [1]

ความสำเร็จของยูนิโคดคือการรวมรหัสอักขระหลายชนิดให้เป็นหนึ่งเดียว นำไปสู่การใช้งานอย่างกว้างขวางและมีอิทธิพลต่อการแปลภาษาของซอฟต์แวร์คอมพิวเตอร์ นั่นคือโปรแกรมจะสามารถใช้ได้หลายภาษา มาตรฐานนี้มีการนำไปใช้เป็นเทคโนโลยีหลักหลายอย่าง เช่น เอกซ์เอ็มแอล ภาษาจาวา ดอตเน็ตเฟรมเวิร์ก และระบบปฏิบัติการสมัยใหม่

ยูนิโคดสามารถนำไปใช้งานได้ด้วยชุดอักขระแบบต่าง ๆ ชุดอักขระที่เป็นที่รู้จักมากที่สุดคือ UTF-8 (ใช้ 1 ไบต์สำหรับอักขระทุกตัวในรหัสแอสกีและมีค่ารหัสเหมือนกับมาตรฐานแอสกี หรือมากกว่านั้นจนถึง 4 ไบต์สำหรับอักขระแบบอื่น) UCS-2 ซึ่งปัจจุบันเลิกใช้แล้ว (ใช้ 2 ไบต์สำหรับอักขระทุกตัว แต่ไม่ครอบคลุมอักขระทั้งหมดในยูนิโคด) และ UTF-16 (เป็นส่วนขยายจาก UCS-2 โดยใช้ 4 ไบต์ สำหรับแทนรหัสอักขระที่ขาดไปของ UCS-2)

สมาคม Unicode

[แก้]

สมาคม Unicode เป็นองค์กรไม่แสวงหากำไรที่ประสานงานการพัฒนา Unicode สมาชิกเต็มรูปแบบประกอบด้วยบริษัทซอฟต์แวร์และฮาร์ดแวร์คอมพิวเตอร์หลักส่วนใหญ่ที่มีความสนใจในมาตรฐานการประมวลผลข้อความ รวมถึง Adobe, Apple, Facebook, Google, IBM, Microsoft, Netflix และ SAP SE.[2]

สมาคมมีเป้าหมายที่ทะเยอทะยานในการแทนที่โครงร่างการเข้ารหัสอักขระที่มีอยู่ด้วย Unicode และโครงร่าง Unicode Transformation Format (UTF) มาตรฐาน เนื่องจากโครงร่างที่มีอยู่จำนวนมากมีขนาดและขอบเขตที่จำกัดและไม่เข้ากันกับ multilingual สภาพแวดล้อม

อักขระ Unicode ใช้กันอย่างแพร่หลายในการตกแต่งข้อความบนเครือข่ายสังคม สำหรับสิ่งนี้มีแอปพลิเคชั่นพิเศษที่แปลงตัวอักษรธรรมดาเป็นอักขระพิเศษ [3]

การเข้ารหัส

[แก้]

UTF-8 เข้ารหัสตัวอักษรเป็นข้อมูลหนึ่งถึงสี่ไบต์ตามลำดับของจุดรหัส ตารางต่อไปนี้แสดงโครงสร้างของการเข้ารหัส ตัว x แทนบิตของจุดรหัส

จุดรหัส <-> UTF-8
จุดรหัสแรก จุดรหัสท้าย ไบต์ที่ 1 ไบต์ที่ 2 ไบต์ที่ 3 ไบต์ที่ 4
U+0000 U+007F 0xxxxxxx
U+0080 U+07FF 110xxxxx 10xxxxxx
U+0800 U+FFFF 1110xxxx 10xxxxxx 10xxxxxx
U+10000 U+10FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
ตัวอย่างการเข้ารหัส
ตัวอักษร จุดรหัสฐานสอง UTF-8 ฐานสอง UTF-8 ฐานสิบหก
$ U+0024 010 0100 00100100 24
¢ U+00A2 000 1010 0010 11000010 10100010 C2 A2
U+0939 0000 1001 0011 1001 11100000 10100100 10111001 E0 A4 B9
U+20AC 0010 0000 1010 1100 11100010 10000010 10101100 E2 82 AC
U+D55C 1101 0101 0101 1100 11101101 10010101 10011100 ED 95 9C
𐍈 U+10348 0 0001 0000 0011 0100 1000 11110000 10010000 10001101 10001000 F0 90 8D 88

รุ่นยูนิโคด

[แก้]
รุ่น วันที่ หนังสือ ความสอดคล้องกับ
ชุดอักขระสากล
(ISO/IEC 10646)
ชุดอักษร อักขระ
จำนวน การเพิ่มเติมที่สำคัญ
1.0.0 ตุลาคม พ.ศ. 2534 ISBN 0-201-56788-1 (Vol.1) 24 7,161 เริ่มต้นด้วยอักษรเหล่านี้: อาหรับ, อาร์มีเนีย, เบงกอล, ปอพอมอฟอ, ซีริลลิก, เทวนาครี, จอร์เจีย, กรีกและคอปติก, คุชราต, คุรมุขี, ฮันกึล, ฮีบรู, ฮิระงะนะ, กันนาดา, คะตะคะนะ, ลาว, ละติน, มลยาฬัม, โอริยา, ทมิฬ, เตลูกู, ไทย และทิเบต [4]
1.0.1 มิถุนายน พ.ศ. 2535 ISBN 0-201-60845-6 (Vol.2) 25 28,359 เริ่มมีอักษรภาพรวมจีนญี่ปุ่นเกาหลี (CJK Unified Ideographs) 20,902 ตัว [5]
1.1 มิถุนายน พ.ศ. 2536 ISO/IEC 10646-1:1993 24 34,233 เพิ่มพยางค์ฮันกึลลงไปอีก 4,306 ตัว จากชุดเดิม 2,350 ตัว และอักษรทิเบตถูกเอาออก [6]
2.0 กรกฎาคม พ.ศ. 2539 ISBN 0-201-48345-9 ISO/IEC 10646-1:1993 เพิ่มข้อแก้ไขที่ 5, 6, 7 25 38,950 พยางค์ฮันกึลชุดเดิมถูกเอาออก แล้วเพิ่มพยางค์ฮันกึลชุดใหม่ 11,619 ตัวในตำแหน่งใหม่ อักษรทิเบตเพิ่มกลับเข้ามาที่ตำแหน่งใหม่พร้อมกับเปลี่ยนแปลงอักขระบางตัว กลไกอักขระทดแทน (surrogate) ได้ถูกนิยามขึ้น และมีการกำหนดให้เพลน 15 และเพลน 16 เป็นพื้นที่ใช้งานส่วนตัว (Private Use Areas) [7]
2.1 พฤษภาคม พ.ศ. 2541 ISO/IEC 10646-1:1993 เพิ่มข้อแก้ไขที่ 5, 6, 7 และอักขระสองตัวจากข้อแก้ไขที่ 18 25 38,952 เครื่องหมายยูโรถูกเพิ่มเข้ามา [8]
3.0 กันยายน พ.ศ. 2542 ISBN 0-201-61633-5 ISO/IEC 10646-1:2000 38 49,259 เชอโรกี, เอธิโอเปีย, เขมร, มองโกเลีย, พม่า, โอคัม, รูนส์, สิงหล, ซีเรียค, ทานา, Unified Canadian Aboriginal Syllabics และอี้ เพิ่มเข้ามา เช่นเดียวกับรูปแบบอักษรเบรลล์ [9]
3.1 มีนาคม พ.ศ. 2544 ISO/IEC 10646-1:2000

ISO/IEC 10646-2:2001

41 94,205 เดเซเรท, โกธิก และอิตาลีโบราณ เพิ่มเข้ามา พร้อมกับสัญลักษณ์ทางดนตรีสมัยใหม่และดนตรีไบแซนไทน์ และเพิ่มอักษรภาพรวมจีนญี่ปุ่นเกาหลีอีก 42,711 ตัว [10]
3.2 มีนาคม พ.ศ. 2545 ISO/IEC 10646-1:2000 เพิ่มข้อแก้ไขที่ 1

ISO/IEC 10646-2:2001

45 95,221 เพิ่มอักษรที่ใช้ในฟิลิปปินส์: บูฮิด, ฮานูโนโอ, บายบายิน และตักบันวา [11]
4.0 เมษายน พ.ศ. 2546 ISBN 0-321-18578-1 ISO/IEC 10646:2003 52 96,447 ไซปรัส, ลิมบู, ไลเนียร์บี, ออสมันยา, ชาเวียน, ไทใต้คง และยูการิติก เพิ่มเข้ามาพร้อมกับแผนภูมิหกชั้นของอี้จิง [12]
4.1 มีนาคม พ.ศ. 2548 ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1 59 97,720 ลนตารา, กลาโกลิติก, ขโรษฐี, ไทลื้อใหม่, Old Persian, สิเลฏินาครี และทิฟินาค เพิ่มเข้ามา และคอปติกในรูปแบบที่ต่างจากอักษรกรีก เลขกรีกโบราณและสัญลักษณ์ทางดนตรีเพิ่มเข้ามาด้วย [13]
5.0 กรกฎาคม พ.ศ. 2549 ISBN 0-321-48091-0 ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2 และอักขระสี่ตัวจากข้อแก้ไขที่ 3 64 99,089 บาหลี, คูนิฟอร์ม, อึนโก, พักส์-ปา และฟินิเชีย เพิ่มเข้ามา [14]
5.1 เมษายน พ.ศ. 2551 ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2, 3, 4 75 100,713 คาเรีย, จาม, กะยา, เลปชา, ไลเซีย, ไลเดีย, Ol Chiki, เรชัง, ศารทา, ซุนดา และไว เพิ่มเข้ามา เช่นเดียวกับกลุ่มสัญลักษณ์ Phaistos Disc, หน้าไพ่นกกระจอก และหน้าโดมิโน เพิ่มเติมอักษรที่สำคัญสำหรับอักษรพม่า, additions of letters and Scribal abbreviations used in medieval manuscripts, and the addition of capital ß.[15]
5.2 ตุลาคม พ.ศ. 2552 ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2, 3, 4, 5, 6 90 107,361 อเวสตะ, บามุม, ไฮโรกลิฟฟิก (the Gardiner Set, comprising 1,071 characters), Imperial Aramaic, Inscriptional Pahlavi, Inscriptional Parthian, ชวา, ไกถิ, ลีสู่, ไมไตมาเยก, Old South Arabian, Old Turkic, Samaritan, ไทธรรม และ ไทเวียด. เพิ่มอักษรภาพรวมจีนญี่ปุ่นเกาหลีอีก 4,149 ตัว (CJK-C), เช่นเดียวกับจาโมส่วนขยายของอักษรฮันกึลโบราณ และอักขระสำหรับอักษรพระเวท [16]
6.0 ตุลาคม พ.ศ. 2553 ISO/IEC 10646:2010 เพิ่มเครื่องหมายสกุลเงินรูปีอินเดีย 93 109,449 บาตัก, พราหมี, มันดาอิก, สัญลักษณ์หน้าไพ่ป๊อก, สัญลักษณ์จราจรและแผนที่, สัญลักษณ์การเล่นแร่แปรธาตุ, อีโมติคอน และอีโมจิ[17]
7.0 มิถุนายน 2557 ISBN 978-1-936213-09-2 ISO/IEC 10646:2012 เพิ่มข้อแก้ไขที่ 1 และ 2 และเครื่องหมายรูเบิล 123 112,956

(2,834 added)

Bassa Vah, Caucasian Albanian, Duployan, Elbasan, Grantha, Khojki, Khudawadi, Linear A, Mahajani, Manichaean, Mende Kikakui, Modi, Mro, Nabataean, Old North Arabian, Old Permic, Pahawh Hmong, Palmyrene, Pau Cin Hau, Psalter Pahlavi, Siddham, Tirhuta, Warang Citi, and Dingbats.
8.0 มิถุนายน 2558 ISBN 978-1-936213-10-8 ISO/IEC 10646:2014 pเพิ่มข้อแก้ไขที่ 1 และเครื่องหมายสกุลเงินลารี อักษรภาพรวมจีนญี่ปุ่นเกาหลี9 ตัว และอีโมจิ 41 ตัว 129 120,672

(7,716 added)

Ahom, Anatolian hieroglyphs, Hatran, Multani, Old Hungarian, SignWriting, 5,771 CJK unified ideographs, a set of lowercase letters for Cherokee, and five emoji skin tone modifiers.
9.0 มิถุนายน 2559 ISBN 978-1-936213-13-9 ISO/IEC 10646:2014เพิ่มข้อแก้ไขที่ 1 และ 2 และอัดลัม เนวา สัญลักษณ์โทรทัศน์ญี่ปุ่น และอีโมจิกับสัญลักษณ์อีก 74 ตัว 135 128,172

(7,500 added)

Adlam, Bhaiksuki, Marchen, Newa, Osage, Tangut, and 72 emoji.
10.0 มิถุนายน 2560 ISBN 978-1-936213-16-0 ISO/IEC 10646:2017 plus 56 emoji characters, 285 hentaigana characters, and 3 Zanabazar Square characters 139 136,690

(8,518 added)

Zanabazar Square, Soyombo, Masaram Gondi, Nüshu, hentaigana (non-standard hiragana), 7,494 CJK unified ideographs, 56 emoji, and bitcoin symbol.
11.0 มิถุนายน 2561 ISBN 978-1-936213-19-1 ISO/IEC 10646:2017 plus Amendment 1, as well as 46 Mtavruli Georgian capital letters, 5 CJK unified ideographs, and 66 emoji characters. 146 137,374

(684 added)

Dogra, Georgian Mtavruli capital letters, Gunjala Gondi, Hanifi Rohingya, Indic Siyaq numbers, Makasar, Medefaidrin, Old Sogdian and Sogdian, Mayan numerals, 5 urgently needed CJK unified ideographs, symbols for xiangqi (Chinese chess) and star ratings, and 145 emoji.
12.0 มีนาคม 2562 ISBN 978-1-936213-22-1 ISO/IEC 10646:2017 plus Amendments 1 and 2, as well as 62 additional characters. 150 137,928

(554 added)

Elymaic, Nandinagari, Nyiakeng Puachue Hmong, Wancho, Miao script additions for several Miao and Yi dialects in China, hiragana and katakana small letters for writing archaic Japanese, Tamil historic fractions and symbols, Lao letters for Pali, Latin letters for Egyptological and Ugaritic transliteration, hieroglyph format controls, and 61 emoji.
12.1 พฤษภาคม 2562 ISBN 978-1-936213-25-2 150 137,929

(1 added)

เพิ่มอักษรหนึ่งตัวที่ U+32FF ชื่อยุคเรวะแบบมัดเป็นสี่เหลี่ยมจัตุรัส
13.0 มีนาคม 2563 ISBN 978-1-936213-26-9 ISO/IEC 10646:2020 154 143,859

(5,930 added)

Chorasmian, Dives Akuru, Khitan small script, Yezidi, 4,969 CJK unified ideographs added (including 4,939 in Ext. G), Arabic script additions used to write Hausa, Wolof, and other languages in Africa and other additions used to write Hindko and Punjabi in Pakistan, Bopomofo additions used for Cantonese, Creative Commons license symbols, graphic characters for compatibility with teletext and home computer systems from the 1970s and 1980s, and 55 emoji.
14.0 กันยายน 2564 ISBN 978-1-936213-29-0 159 144,697

(838 added)

Toto, Cypro-Minoan, Vithkuqi, Old Uyghur, Tangsa, Latin script additions at SMP blocks (Ext-F, Ext-G) for use in extended IPA, Arabic script additions for use in languages across Africa and in Iran, Pakistan, Malaysia, Indonesia, Java, and Bosnia, and to write honorifics, additions for Quranic use, other additions to support languages in North America, the Phillipines, India, and Mongolia, addition of the Kyrgyzstani som currency symbol, support for Znamenny musical notation, and 37 emoji.
แผนผังBasic Multilingual Plane หนึ่งกล่องแทน 256 ช่อง

บล็อกต่าง ๆ

[แก้]
แผ่น ระยะ ชื่อ จำนวนช่อง กำหนดแล้ว ชุดอักษร
0 BMP U+0000..U+007F Basic Latin 128 128 ละติน (52 ตัว), ทั่วไป (76 ตัว)
0 BMP U+0080..U+00FF Latin-1 Supplement 128 128 ละติน (64 ตัว), ทั่วไป (64 ตัว)
0 BMP U+0100..U+017F Latin Extended-A 128 128 ละติน
0 BMP U+0180..U+024F Latin Extended-B 208 208 ละติน
0 BMP U+0250..U+02AF IPA Extensions 96 96 ละติน
0 BMP U+02B0..U+02FF Spacing Modifier Letters 80 80 ปอพอมอฟอ (2 ตัว), ละติน (14 ตัว), ทั่วไป (64 ตัว)
0 BMP U+0300..U+036F Combining Diacritical Marks 112 112 ใช้กับตัวอื่น
0 BMP U+0370..U+03FF Greek and Coptic 144 135 คอปติก (14 ตัว), กรีก (117 ตัว), ทั่วไป (4 ตัว)
0 BMP U+0400..U+04FF Cyrillic 256 256 ซีริลลิก (254 characters), ใช้กับตัวอื่น (2 ตัว)
0 BMP U+0500..U+052F Cyrillic Supplement 48 48 ซีริลลิก
0 BMP U+0530..U+058F Armenian 96 91 อาร์เมเนียน
0 BMP U+0590..U+05FF Hebrew 112 88 ฮีบรู
0 BMP U+0600..U+06FF Arabic 256 256 อาหรับ (238 ตัว), ทั่วไป (6 ตัว), ใช้กับตัวอื่น (12 ตัว)
0 BMP U+0700..U+074F Syriac 80 77 ซีเรีย
0 BMP U+0750..U+077F Arabic Supplement 48 48 อาหรับ
0 BMP U+0780..U+07BF Thaana 64 50 อักษรทานะ
0 BMP U+07C0..U+07FF NKo 64 62 อักษรอึนโก
0 BMP U+0800..U+083F Samaritan 64 61 Samaritan
0 BMP U+0840..U+085F Mandaic 32 29 Mandaic
0 BMP U+0860..U+086F Syriac Supplement 16 11 ซีเรีย
0 BMP U+0870..U+089F Arabic Extended-B 48 41 อาหรับ
0 BMP U+08A0..U+08FF Arabic Extended-A 96 96 อาหรับ (95 ตัว), ทั่วไป (1 ตัว)
0 BMP U+0900..U+097F Devanagari 128 128 เทวนาครี (122 ตัว), ทั่วไป (2 ตัว), Inherited (4 ตัว)
0 BMP U+0980..U+09FF Bengali 128 96 เบงกอล
0 BMP U+0A00..U+0A7F Gurmukhi 128 80 อักษรคุรมุขี
0 BMP U+0A80..U+0AFF Gujarati 128 91 คุชราต
0 BMP U+0B00..U+0B7F Oriya 128 91 โอริยา
0 BMP U+0B80..U+0BFF Tamil 128 72 ทมิฬ
0 BMP U+0C00..U+0C7F Telugu 128 100 เตลูกู
0 BMP U+0C80..U+0CFF Kannada 128 90 กันนาดา
0 BMP U+0D00..U+0D7F Malayalam 128 118 มลยาฬัม
0 BMP U+0D80..U+0DFF Sinhala 128 91 สิงหล
0 BMP U+0E00..U+0E7F Thai 128 87 ไทย(86 ตัว), ทั่วไป (1 ตัว)
0 BMP U+0E80..U+0EFF Lao 128 82 ลาว
0 BMP U+0F00..U+0FFF Tibetan 256 211 ทิเบต (207 ตัว), ทั่วไป (4 ตัว)
0 BMP U+1000..U+109F Myanmar 160 160 พม่า
0 BMP U+10A0..U+10FF Georgian 96 88 จอร์เจีย (87 ตัว), ทั่วไป (1 ตัว)
0 BMP U+1100..U+11FF Hangul Jamo 256 256 ฮันกึล
0 BMP U+1200..U+137F Ethiopic 384 358 เอธิโอเปีย
0 BMP U+1380..U+139F Ethiopic Supplement 32 26 เอธิโอเปีย
0 BMP U+13A0..U+13FF Cherokee 96 92 เชโรกี
0 BMP U+1400..U+167F Unified Canadian Aboriginal Syllabics 640 640 แคนาดาพื้นเมือง
0 BMP U+1680..U+169F Ogham 32 29 Ogham
0 BMP U+16A0..U+16FF Runic 96 89 รูน (86 ตัว), ทั่วไป (3 ตัว)
0 BMP U+1700..U+171F Tagalog 32 23 ตากาล็อก
0 BMP U+1720..U+173F Hanunoo 32 23 Hanunoo (21 characters), Common (2 characters)
0 BMP U+1740..U+175F Buhid 32 20 Buhid
0 BMP U+1760..U+177F Tagbanwa 32 18 Tagbanwa
0 BMP U+1780..U+17FF Khmer 128 114 เขมร
0 BMP U+1800..U+18AF Mongolian 176 158 มองโกเลีย (155 ตัว), ทั่วไป (3 ตัว)
0 BMP U+18B0..U+18FF Unified Canadian Aboriginal Syllabics Extended 80 70 แคนาดาพื้นเมือง
0 BMP U+1900..U+194F Limbu 80 68 Limbu
0 BMP U+1950..U+197F Tai Le 48 35 อักษรไทใต้คง
0 BMP U+1980..U+19DF New Tai Lue 96 83 อักษรไทลื้อ
0 BMP U+19E0..U+19FF Khmer Symbols 32 32 เขมร
0 BMP U+1A00..U+1A1F Buginese 32 30 Buginese
0 BMP U+1A20..U+1AAF Tai Tham 144 127 อักษรล้านนา
0 BMP U+1AB0..U+1AFF Combining Diacritical Marks Extended 80 31 ผสม
0 BMP U+1B00..U+1B7F Balinese 128 124 Balinese
0 BMP U+1B80..U+1BBF Sundanese 64 64 Sundanese
0 BMP U+1BC0..U+1BFF Batak 64 56 Batak
0 BMP U+1C00..U+1C4F Lepcha 80 74 Lepcha
0 BMP U+1C50..U+1C7F Ol Chiki 48 48 Ol Chiki
0 BMP U+1C80..U+1C8F Cyrillic Extended-C 16 9 ซีริลลิก
0 BMP U+1C90..U+1CBF Georgian Extended 48 46 จอร์เจีย
0 BMP U+1CC0..U+1CCF Sundanese Supplement 16 8 Sundanese
0 BMP U+1CD0..U+1CFF Vedic Extensions 48 43 ทั่วไป (16 ตัว), ผสม(27 ตัว)
0 BMP U+1D00..U+1D7F Phonetic Extensions 128 128 ซีริลลิก (2 ตัว), กรีก(15 ตัว), ละติน (111 ตัว)
0 BMP U+1D80..U+1DBF Phonetic Extensions Supplement 64 64 กรีก (1 ตัว), ละติน (63 ตัว)
0 BMP U+1DC0..U+1DFF Combining Diacritical Marks Supplement 64 64 ผสม
0 BMP U+1E00..U+1EFF Latin Extended Additional 256 256 ละติน
0 BMP U+1F00..U+1FFF Greek Extended 256 233 กรีก
0 BMP U+2000..U+206F General Punctuation 112 111 ทั่วไป (109 ตัว), ผสม (2 ตัว)
0 BMP U+2070..U+209F Superscripts and Subscripts 48 42 ละติน (15 ตัว), ทั่วไป (27 ตัว)
0 BMP U+20A0..U+20CF Currency Symbols 48 33 ทั่วไป
0 BMP U+20D0..U+20FF Combining Diacritical Marks for Symbols 48 33 ใช้กับตัวอื่น
0 BMP U+2100..U+214F Letterlike Symbols 80 80 กรีก (1 ตัว), ละติน (4 ตัว), ทั่วไป (75 ตัว)
0 BMP U+2150..U+218F Number Forms 64 60 ละติน (41 ตัว), ทั่วไป (19 ตัว)
0 BMP U+2190..U+21FF Arrows 112 112 ทั่วไป
0 BMP U+2200..U+22FF Mathematical Operators 256 256 ทั่วไป
0 BMP U+2300..U+23FF Miscellaneous Technical 256 256 ทั่วไป
0 BMP U+2400..U+243F Control Pictures 64 39 ทั่วไป
0 BMP U+2440..U+245F Optical Character Recognition 32 11 ทั่วไป
0 BMP U+2460..U+24FF Enclosed Alphanumerics 160 160 ทั่วไป
0 BMP U+2500..U+257F Box Drawing 128 128 ทั่วไป
0 BMP U+2580..U+259F Block Elements 32 32 ทั่วไป
0 BMP U+25A0..U+25FF Geometric Shapes 96 96 ทั่วไป
0 BMP U+2600..U+26FF Miscellaneous Symbols 256 256 ทั่วไป
0 BMP U+2700..U+27BF Dingbats 192 192 ทั่วไป
0 BMP U+27C0..U+27EF Miscellaneous Mathematical Symbols-A 48 48 ทั่วไป
0 BMP U+27F0..U+27FF Supplemental Arrows-A 16 16 ทั่วไป
0 BMP U+2800..U+28FF Braille Patterns 256 256 อักษรเบรลล์
0 BMP U+2900..U+297F Supplemental Arrows-B 128 128 ทั่วไป
0 BMP U+2980..U+29FF Miscellaneous Mathematical Symbols-B 128 128 ทั่วไป
0 BMP U+2A00..U+2AFF Supplemental Mathematical Operators 256 256 ทั่วไป
0 BMP U+2B00..U+2BFF Miscellaneous Symbols and Arrows 256 253 ทั่วไป
0 BMP U+2C00..U+2C5F Glagolitic 96 96 Glagolitic
0 BMP U+2C60..U+2C7F Latin Extended-C 32 32 ละติน
0 BMP U+2C80..U+2CFF Coptic 128 123 คอปติก
0 BMP U+2D00..U+2D2F Georgian Supplement 48 40 จอร์เจีย
0 BMP U+2D30..U+2D7F Tifinagh 80 59 ทิฟินาค
0 BMP U+2D80..U+2DDF Ethiopic Extended 96 79 เอธิโอเปีย
0 BMP U+2DE0..U+2DFF Cyrillic Extended-A 32 32 ซีริลลิก
0 BMP U+2E00..U+2E7F Supplemental Punctuation 128 94 ทั่วไป
0 BMP U+2E80..U+2EFF CJK Radicals Supplement 128 115 อักษรจีน
0 BMP U+2F00..U+2FDF Kangxi Radicals 224 214 อักษรจีน
0 BMP U+2FF0..U+2FFF Ideographic Description Characters 16 12 ทั่วไป
0 BMP U+3000..U+303F CJK Symbols and Punctuation 64 64 จีน (15 ตัว), ฮันกึล (2 ตัว), ทั่วไป (43 ตัว), ใช้กับตัวอื่น (4 ตัว)
0 BMP U+3040..U+309F Hiragana 96 93 ฮิรางานะ (89 ตัว), ทั่วไป (2 ตัว), ใช้กับตัวอื่น (2 ตัว)
0 BMP U+30A0..U+30FF Katakana 96 96 คาตากานะ (93 ตัว), ทั่วไป (3 ตัว)
0 BMP U+3100..U+312F Bopomofo 48 43 ปอพอมอฟอ
0 BMP U+3130..U+318F Hangul Compatibility Jamo 96 94 ฮันกึล
0 BMP U+3190..U+319F Kanbun 16 16 ทั่วไป
0 BMP U+31A0..U+31BF Bopomofo Extended 32 32 ปอพอมอฟอ
0 BMP U+31C0..U+31EF CJK Strokes 48 36 ทั่วไป
0 BMP U+31F0..U+31FF Katakana Phonetic Extensions 16 16 คาตากานะ
0 BMP U+3200..U+32FF Enclosed CJK Letters and Months 256 255 ฮันกึล (62 ตัว), คาตากานะ (47 ตัว), ทั่วไป (146 ตัว)
0 BMP U+3300..U+33FF CJK Compatibility 256 256 คาตากานะ (88 ตัว), ทั่วไป (168 ตัว)
0 BMP U+3400..U+4DBF CJK Unified Ideographs Extension A 6,592 6,592 จีน
0 BMP U+4DC0..U+4DFF Yijing Hexagram Symbols 64 64 ทั่วไป
0 BMP U+4E00..U+9FFF CJK Unified Ideographs 20,992 20,992 อักษรจีน
0 BMP U+A000..U+A48F Yi Syllables 1,168 1,165 Yi
0 BMP U+A490..U+A4CF Yi Radicals 64 55 Yi
0 BMP U+A4D0..U+A4FF Lisu 48 48 Lisu
0 BMP U+A500..U+A63F Vai 320 300 Vai
0 BMP U+A640..U+A69F Cyrillic Extended-B 96 96 ซีริลลิก
0 BMP U+A6A0..U+A6FF Bamum 96 88 Bamum
0 BMP U+A700..U+A71F Modifier Tone Letters 32 32 ทั่วไป
0 BMP U+A720..U+A7FF Latin Extended-D 224 193 Latin (188 characters), Common (5 characters)
0 BMP U+A800..U+A82F Syloti Nagri 48 45 Syloti Nagri
0 BMP U+A830..U+A83F Common Indic Number Forms 16 10 ทั่วไป
0 BMP U+A840..U+A87F Phags-pa 64 56 อักษรพักส์-ปา
0 BMP U+A880..U+A8DF Saurashtra 96 82 Saurashtra
0 BMP U+A8E0..U+A8FF Devanagari Extended 32 32 เทวนาครี
0 BMP U+A900..U+A92F Kayah Li 48 48 Kayah Li (47 characters), Common (1 character)
0 BMP U+A930..U+A95F Rejang 48 37 Rejang
0 BMP U+A960..U+A97F Hangul Jamo Extended-A 32 29 ฮันกึล
0 BMP U+A980..U+A9DF Javanese 96 91 ชวา (90 ตัว), ทั่วไป (1 ตัว)
0 BMP U+A9E0..U+A9FF Myanmar Extended-B 32 31 พม่า
0 BMP U+AA00..U+AA5F Cham 96 83 จาม
0 BMP U+AA60..U+AA7F Myanmar Extended-A 32 32 พม่า
0 BMP U+AA80..U+AADF Tai Viet 96 72 ไทเวียด
0 BMP U+AAE0..U+AAFF Meetei Mayek Extensions 32 23 Meetei Mayek
0 BMP U+AB00..U+AB2F Ethiopic Extended-A 48 32 Ethiopic
0 BMP U+AB30..U+AB6F Latin Extended-E 64 60 Latin (56 characters), Greek (1 character), Common (3 characters)
0 BMP U+AB70..U+ABBF Cherokee Supplement 80 80 Cherokee
0 BMP U+ABC0..U+ABFF Meetei Mayek 64 56 Meetei Mayek
0 BMP U+AC00..U+D7AF Hangul Syllables 11,184 11,172 Hangul
0 BMP U+D7B0..U+D7FF Hangul Jamo Extended-B 80 72 Hangul
0 BMP U+D800..U+DB7F High Surrogates 896 0 Unknown
0 BMP U+DB80..U+DBFF High Private Use Surrogates 128 0 Unknown
0 BMP U+DC00..U+DFFF Low Surrogates 1,024 0 Unknown
0 BMP U+E000..U+F8FF Private Use Area 6,400 6,400 Unknown
0 BMP U+F900..U+FAFF CJK Compatibility Ideographs 512 472 Han
0 BMP U+FB00..U+FB4F Alphabetic Presentation Forms 80 58 Armenian (5 characters), Hebrew (46 characters), Latin (7 characters)
0 BMP U+FB50..U+FDFF Arabic Presentation Forms-A 688 631 อาหรับ (629 ตัว), ทั่วไป (2 ตัว)
0 BMP U+FE00..U+FE0F Variation Selectors 16 16 ผสม
0 BMP U+FE10..U+FE1F Vertical Forms 16 10 ทั่วไป
0 BMP U+FE20..U+FE2F Combining Half Marks 16 16 ซีริลลิก (2 ตัว), ผสม (14 ตัว)
0 BMP U+FE30..U+FE4F CJK Compatibility Forms 32 32 ทั่วไป
0 BMP U+FE50..U+FE6F Small Form Variants 32 26 ทั่วไป
0 BMP U+FE70..U+FEFF Arabic Presentation Forms-B 144 141 Arabic (140 characters), Common (1 character)
0 BMP U+FF00..U+FFEF Halfwidth and Fullwidth Forms 240 225 ฮันกึล (52 ตัว), คาตากานะ (55 ตัว), ละติน(52 ตัว), ทั่วไป (66 ตัว)
0 BMP U+FFF0..U+FFFF Specials 16 5 ทั่วไป

ข้อจำกัดและปัญหา

[แก้]

มีการวิจารณ์ยูนิโคดเกี่ยวกับปัญหาทางเทคนิค และข้อจำกัดต่าง ๆ อย่างไรก็ดี ยูนิโคดได้กลายเป็นวิธีการเข้ารหัสที่ใช้กันมากที่สุดในการทำให้ซอฟต์แวร์และระบบปฏิบัติการใช้ได้หลายภาษาพร้อม ๆ กัน

ระบบปฏิบัติการตระกูลวินโดวส์ ได้แก่ วินโดวส์เอ็นที, วินโดวส์ 2000 และ วินโดวส์เอกซ์พี ใช้รหัสยูนิโคดแบบ UTF-16 ในการเข้ารหัสข้อความ ระบบปฏิบัติการที่คล้ายกับยูนิกซ์ เช่น GNU/Linux BSD และ Mac OS X ก็ได้นำยูนิโคดแบบ UTF-8 มาใช้ เป็นพื้นฐานของการแทนข้อความที่มีหลายภาษา

การรองรับภาษาไทยในยูนิโคด ได้รับการวิพากษ์วิจารณ์เนื่องจากว่าลำดับเรียงตัวอักษรนั้นไม่ถูกต้องตามที่ควรจะเป็น ซึ่งเป็นเพราะว่ายูนิโคดในส่วนภาษาไทยได้อ้างอิงรูปแบบเดิมจาก Thai Industry Standard 620 (TIS-620) ที่มีปัญหานี้เช่นกัน จึงทำให้การเทียบเรียงลำดับยูนิโคดยุ่งยากขึ้น

อ้างอิง

[แก้]
  1. http://www.unicode.org/standard/principles.html#What_Characters
  2. "The Unicode Consortium Members". สืบค้นเมื่อ 4 January 2019.
  3. "อักษรพิเศษ". สืบค้นเมื่อ 2 April 2023.
  4. http://www.unicode.org/Public/reconstructed/1.0.0/UnicodeData.txt
  5. http://www.unicode.org/Public/reconstructed/1.0.1/UnicodeData.txt
  6. http://www.unicode.org/Public/1.1-Update/UnicodeData-1.1.5.txt
  7. http://www.unicode.org/Public/2.0-Update/UnicodeData-2.0.14.txt
  8. http://www.unicode.org/Public/2.1-Update/UnicodeData-2.1.2.txt
  9. http://www.unicode.org/Public/3.0-Update/UnicodeData-3.0.0.txt
  10. http://www.unicode.org/Public/3.1-Update/UnicodeData-3.1.0.txt
  11. http://www.unicode.org/Public/3.2-Update/UnicodeData-3.2.0.txt
  12. http://www.unicode.org/Public/4.0-Update/UnicodeData-4.0.0.txt
  13. http://www.unicode.org/Public/4.1.0/ucd/UnicodeData.txt
  14. http://www.unicode.org/Public/5.0.0/ucd/UnicodeData.txt
  15. http://www.unicode.org/Public/5.1.0/ucd/UnicodeData.txt
  16. http://www.unicode.org/Public/5.2.0/ucd/UnicodeData.txt
  17. "Unicode Data 6.0.0". สืบค้นเมื่อ 2010-10-11.

แหล่งข้อมูลอื่น

[แก้]