ยูนิโคด
บทความนี้อาจต้องการตรวจสอบต้นฉบับ ในด้านไวยากรณ์ รูปแบบการเขียน การเรียบเรียง คุณภาพ หรือการสะกด คุณสามารถช่วยพัฒนาบทความได้ |
ยูนิโคด (อังกฤษ: Unicode) คือมาตรฐานอุตสาหกรรมที่ช่วยให้คอมพิวเตอร์แสดงผลและจัดการข้อความธรรมดาที่ใช้ในระบบการเขียนของภาษาส่วนใหญ่ในโลกได้อย่างสอดคล้องกัน ยูนิโคดประกอบด้วยรายการอักขระที่แสดงผลได้มากกว่า 100,000 ตัว พัฒนาต่อยอดมาจากมาตรฐานชุดอักขระสากล (Universal Character Set: UCS) และมีการตีพิมพ์ลงในหนังสือ The Unicode Standard เป็นแผนผังรหัสเพื่อใช้เป็นรายการอ้างอิง นอกจากนั้นยังมีการอธิบายวิธีการที่ใช้เข้ารหัสและการนำเสนอมาตรฐานของการเข้ารหัสอักขระอีกจำนวนหนึ่ง การเรียงลำดับอักษร กฎเกณฑ์ของการรวมและการแยกอักขระ รวมไปถึงลำดับการแสดงผลของอักขระสองทิศทาง (เช่น อักษรอาหรับ หรือ อักษรฮีบรู ที่เขียนจากขวาไปซ้าย) [1]
ความสำเร็จของยูนิโคดคือการรวมรหัสอักขระหลายชนิดให้เป็นหนึ่งเดียว นำไปสู่การใช้งานอย่างกว้างขวางและมีอิทธิพลต่อการแปลภาษาของซอฟต์แวร์คอมพิวเตอร์ นั่นคือโปรแกรมจะสามารถใช้ได้หลายภาษา มาตรฐานนี้มีการนำไปใช้เป็นเทคโนโลยีหลักหลายอย่าง เช่น เอกซ์เอ็มแอล ภาษาจาวา ดอตเน็ตเฟรมเวิร์ก และระบบปฏิบัติการสมัยใหม่
ยูนิโคดสามารถนำไปใช้งานได้ด้วยชุดอักขระแบบต่าง ๆ ชุดอักขระที่เป็นที่รู้จักมากที่สุดคือ UTF-8 (ใช้ 1 ไบต์สำหรับอักขระทุกตัวในรหัสแอสกีและมีค่ารหัสเหมือนกับมาตรฐานแอสกี หรือมากกว่านั้นจนถึง 4 ไบต์สำหรับอักขระแบบอื่น) UCS-2 ซึ่งปัจจุบันเลิกใช้แล้ว (ใช้ 2 ไบต์สำหรับอักขระทุกตัว แต่ไม่ครอบคลุมอักขระทั้งหมดในยูนิโคด) และ UTF-16 (เป็นส่วนขยายจาก UCS-2 โดยใช้ 4 ไบต์ สำหรับแทนรหัสอักขระที่ขาดไปของ UCS-2)
สมาคม Unicode
[แก้]สมาคม Unicode เป็นองค์กรไม่แสวงหากำไรที่ประสานงานการพัฒนา Unicode สมาชิกเต็มรูปแบบประกอบด้วยบริษัทซอฟต์แวร์และฮาร์ดแวร์คอมพิวเตอร์หลักส่วนใหญ่ที่มีความสนใจในมาตรฐานการประมวลผลข้อความ รวมถึง Adobe, Apple, Facebook, Google, IBM, Microsoft, Netflix และ SAP SE.[2]
สมาคมมีเป้าหมายที่ทะเยอทะยานในการแทนที่โครงร่างการเข้ารหัสอักขระที่มีอยู่ด้วย Unicode และโครงร่าง Unicode Transformation Format (UTF) มาตรฐาน เนื่องจากโครงร่างที่มีอยู่จำนวนมากมีขนาดและขอบเขตที่จำกัดและไม่เข้ากันกับ multilingual สภาพแวดล้อม
อักขระ Unicode ใช้กันอย่างแพร่หลายในการตกแต่งข้อความบนเครือข่ายสังคม สำหรับสิ่งนี้มีแอปพลิเคชั่นพิเศษที่แปลงตัวอักษรธรรมดาเป็นอักขระพิเศษ [3]
การเข้ารหัส
[แก้]UTF-8 เข้ารหัสตัวอักษรเป็นข้อมูลหนึ่งถึงสี่ไบต์ตามลำดับของจุดรหัส ตารางต่อไปนี้แสดงโครงสร้างของการเข้ารหัส ตัว x แทนบิตของจุดรหัส
จุดรหัสแรก | จุดรหัสท้าย | ไบต์ที่ 1 | ไบต์ที่ 2 | ไบต์ที่ 3 | ไบต์ที่ 4 |
---|---|---|---|---|---|
U+0000 | U+007F | 0xxxxxxx | |||
U+0080 | U+07FF | 110xxxxx | 10xxxxxx | ||
U+0800 | U+FFFF | 1110xxxx | 10xxxxxx | 10xxxxxx | |
U+10000 | U+10FFFF | 11110xxx | 10xxxxxx | 10xxxxxx | 10xxxxxx |
ตัวอักษร | จุดรหัสฐานสอง | UTF-8 ฐานสอง | UTF-8 ฐานสิบหก | |
---|---|---|---|---|
$ | U+0024 | 010 0100 | 00100100 | 24 |
¢ | U+00A2 | 000 1010 0010 | 11000010 10100010 | C2 A2 |
ह | U+0939 | 0000 1001 0011 1001 | 11100000 10100100 10111001 | E0 A4 B9 |
€ | U+20AC | 0010 0000 1010 1100 | 11100010 10000010 10101100 | E2 82 AC |
한 | U+D55C | 1101 0101 0101 1100 | 11101101 10010101 10011100 | ED 95 9C |
𐍈 | U+10348 | 0 0001 0000 0011 0100 1000 | 11110000 10010000 10001101 10001000 | F0 90 8D 88 |
รุ่นยูนิโคด
[แก้]รุ่น | วันที่ | หนังสือ | ความสอดคล้องกับ ชุดอักขระสากล (ISO/IEC 10646) |
ชุดอักษร | อักขระ | |
---|---|---|---|---|---|---|
จำนวน | การเพิ่มเติมที่สำคัญ | |||||
1.0.0 | ตุลาคม พ.ศ. 2534 | ISBN 0-201-56788-1 (Vol.1) | 24 | 7,161 | เริ่มต้นด้วยอักษรเหล่านี้: อาหรับ, อาร์มีเนีย, เบงกอล, ปอพอมอฟอ, ซีริลลิก, เทวนาครี, จอร์เจีย, กรีกและคอปติก, คุชราต, คุรมุขี, ฮันกึล, ฮีบรู, ฮิระงะนะ, กันนาดา, คะตะคะนะ, ลาว, ละติน, มลยาฬัม, โอริยา, ทมิฬ, เตลูกู, ไทย และทิเบต [4] | |
1.0.1 | มิถุนายน พ.ศ. 2535 | ISBN 0-201-60845-6 (Vol.2) | 25 | 28,359 | เริ่มมีอักษรภาพรวมจีนญี่ปุ่นเกาหลี (CJK Unified Ideographs) 20,902 ตัว [5] | |
1.1 | มิถุนายน พ.ศ. 2536 | ISO/IEC 10646-1:1993 | 24 | 34,233 | เพิ่มพยางค์ฮันกึลลงไปอีก 4,306 ตัว จากชุดเดิม 2,350 ตัว และอักษรทิเบตถูกเอาออก [6] | |
2.0 | กรกฎาคม พ.ศ. 2539 | ISBN 0-201-48345-9 | ISO/IEC 10646-1:1993 เพิ่มข้อแก้ไขที่ 5, 6, 7 | 25 | 38,950 | พยางค์ฮันกึลชุดเดิมถูกเอาออก แล้วเพิ่มพยางค์ฮันกึลชุดใหม่ 11,619 ตัวในตำแหน่งใหม่ อักษรทิเบตเพิ่มกลับเข้ามาที่ตำแหน่งใหม่พร้อมกับเปลี่ยนแปลงอักขระบางตัว กลไกอักขระทดแทน (surrogate) ได้ถูกนิยามขึ้น และมีการกำหนดให้เพลน 15 และเพลน 16 เป็นพื้นที่ใช้งานส่วนตัว (Private Use Areas) [7] |
2.1 | พฤษภาคม พ.ศ. 2541 | ISO/IEC 10646-1:1993 เพิ่มข้อแก้ไขที่ 5, 6, 7 และอักขระสองตัวจากข้อแก้ไขที่ 18 | 25 | 38,952 | เครื่องหมายยูโรถูกเพิ่มเข้ามา [8] | |
3.0 | กันยายน พ.ศ. 2542 | ISBN 0-201-61633-5 | ISO/IEC 10646-1:2000 | 38 | 49,259 | เชอโรกี, เอธิโอเปีย, เขมร, มองโกเลีย, พม่า, โอคัม, รูนส์, สิงหล, ซีเรียค, ทานา, Unified Canadian Aboriginal Syllabics และอี้ เพิ่มเข้ามา เช่นเดียวกับรูปแบบอักษรเบรลล์ [9] |
3.1 | มีนาคม พ.ศ. 2544 | ISO/IEC 10646-1:2000
ISO/IEC 10646-2:2001 |
41 | 94,205 | เดเซเรท, โกธิก และอิตาลีโบราณ เพิ่มเข้ามา พร้อมกับสัญลักษณ์ทางดนตรีสมัยใหม่และดนตรีไบแซนไทน์ และเพิ่มอักษรภาพรวมจีนญี่ปุ่นเกาหลีอีก 42,711 ตัว [10] | |
3.2 | มีนาคม พ.ศ. 2545 | ISO/IEC 10646-1:2000 เพิ่มข้อแก้ไขที่ 1
ISO/IEC 10646-2:2001 |
45 | 95,221 | เพิ่มอักษรที่ใช้ในฟิลิปปินส์: บูฮิด, ฮานูโนโอ, บายบายิน และตักบันวา [11] | |
4.0 | เมษายน พ.ศ. 2546 | ISBN 0-321-18578-1 | ISO/IEC 10646:2003 | 52 | 96,447 | ไซปรัส, ลิมบู, ไลเนียร์บี, ออสมันยา, ชาเวียน, ไทใต้คง และยูการิติก เพิ่มเข้ามาพร้อมกับแผนภูมิหกชั้นของอี้จิง [12] |
4.1 | มีนาคม พ.ศ. 2548 | ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1 | 59 | 97,720 | ลนตารา, กลาโกลิติก, ขโรษฐี, ไทลื้อใหม่, Old Persian, สิเลฏินาครี และทิฟินาค เพิ่มเข้ามา และคอปติกในรูปแบบที่ต่างจากอักษรกรีก เลขกรีกโบราณและสัญลักษณ์ทางดนตรีเพิ่มเข้ามาด้วย [13] | |
5.0 | กรกฎาคม พ.ศ. 2549 | ISBN 0-321-48091-0 | ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2 และอักขระสี่ตัวจากข้อแก้ไขที่ 3 | 64 | 99,089 | บาหลี, คูนิฟอร์ม, อึนโก, พักส์-ปา และฟินิเชีย เพิ่มเข้ามา [14] |
5.1 | เมษายน พ.ศ. 2551 | ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2, 3, 4 | 75 | 100,713 | คาเรีย, จาม, กะยา, เลปชา, ไลเซีย, ไลเดีย, Ol Chiki, เรชัง, ศารทา, ซุนดา และไว เพิ่มเข้ามา เช่นเดียวกับกลุ่มสัญลักษณ์ Phaistos Disc, หน้าไพ่นกกระจอก และหน้าโดมิโน เพิ่มเติมอักษรที่สำคัญสำหรับอักษรพม่า, additions of letters and Scribal abbreviations used in medieval manuscripts, and the addition of capital ß.[15] | |
5.2 | ตุลาคม พ.ศ. 2552 | ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2, 3, 4, 5, 6 | 90 | 107,361 | อเวสตะ, บามุม, ไฮโรกลิฟฟิก (the Gardiner Set, comprising 1,071 characters), Imperial Aramaic, Inscriptional Pahlavi, Inscriptional Parthian, ชวา, ไกถิ, ลีสู่, ไมไตมาเยก, Old South Arabian, Old Turkic, Samaritan, ไทธรรม และ ไทเวียด. เพิ่มอักษรภาพรวมจีนญี่ปุ่นเกาหลีอีก 4,149 ตัว (CJK-C), เช่นเดียวกับจาโมส่วนขยายของอักษรฮันกึลโบราณ และอักขระสำหรับอักษรพระเวท [16] | |
6.0 | ตุลาคม พ.ศ. 2553 | ISO/IEC 10646:2010 เพิ่มเครื่องหมายสกุลเงินรูปีอินเดีย | 93 | 109,449 | บาตัก, พราหมี, มันดาอิก, สัญลักษณ์หน้าไพ่ป๊อก, สัญลักษณ์จราจรและแผนที่, สัญลักษณ์การเล่นแร่แปรธาตุ, อีโมติคอน และอีโมจิ[17] | |
7.0 | มิถุนายน 2557 | ISBN 978-1-936213-09-2 | ISO/IEC 10646:2012 เพิ่มข้อแก้ไขที่ 1 และ 2 และเครื่องหมายรูเบิล | 123 | 112,956
(2,834 added) |
Bassa Vah, Caucasian Albanian, Duployan, Elbasan, Grantha, Khojki, Khudawadi, Linear A, Mahajani, Manichaean, Mende Kikakui, Modi, Mro, Nabataean, Old North Arabian, Old Permic, Pahawh Hmong, Palmyrene, Pau Cin Hau, Psalter Pahlavi, Siddham, Tirhuta, Warang Citi, and Dingbats. |
8.0 | มิถุนายน 2558 | ISBN 978-1-936213-10-8 | ISO/IEC 10646:2014 pเพิ่มข้อแก้ไขที่ 1 และเครื่องหมายสกุลเงินลารี อักษรภาพรวมจีนญี่ปุ่นเกาหลี9 ตัว และอีโมจิ 41 ตัว | 129 | 120,672
(7,716 added) |
Ahom, Anatolian hieroglyphs, Hatran, Multani, Old Hungarian, SignWriting, 5,771 CJK unified ideographs, a set of lowercase letters for Cherokee, and five emoji skin tone modifiers. |
9.0 | มิถุนายน 2559 | ISBN 978-1-936213-13-9 | ISO/IEC 10646:2014เพิ่มข้อแก้ไขที่ 1 และ 2 และอัดลัม เนวา สัญลักษณ์โทรทัศน์ญี่ปุ่น และอีโมจิกับสัญลักษณ์อีก 74 ตัว | 135 | 128,172
(7,500 added) |
Adlam, Bhaiksuki, Marchen, Newa, Osage, Tangut, and 72 emoji. |
10.0 | มิถุนายน 2560 | ISBN 978-1-936213-16-0 | ISO/IEC 10646:2017 plus 56 emoji characters, 285 hentaigana characters, and 3 Zanabazar Square characters | 139 | 136,690
(8,518 added) |
Zanabazar Square, Soyombo, Masaram Gondi, Nüshu, hentaigana (non-standard hiragana), 7,494 CJK unified ideographs, 56 emoji, and bitcoin symbol. |
11.0 | มิถุนายน 2561 | ISBN 978-1-936213-19-1 | ISO/IEC 10646:2017 plus Amendment 1, as well as 46 Mtavruli Georgian capital letters, 5 CJK unified ideographs, and 66 emoji characters. | 146 | 137,374
(684 added) |
Dogra, Georgian Mtavruli capital letters, Gunjala Gondi, Hanifi Rohingya, Indic Siyaq numbers, Makasar, Medefaidrin, Old Sogdian and Sogdian, Mayan numerals, 5 urgently needed CJK unified ideographs, symbols for xiangqi (Chinese chess) and star ratings, and 145 emoji. |
12.0 | มีนาคม 2562 | ISBN 978-1-936213-22-1 | ISO/IEC 10646:2017 plus Amendments 1 and 2, as well as 62 additional characters. | 150 | 137,928
(554 added) |
Elymaic, Nandinagari, Nyiakeng Puachue Hmong, Wancho, Miao script additions for several Miao and Yi dialects in China, hiragana and katakana small letters for writing archaic Japanese, Tamil historic fractions and symbols, Lao letters for Pali, Latin letters for Egyptological and Ugaritic transliteration, hieroglyph format controls, and 61 emoji. |
12.1 | พฤษภาคม 2562 | ISBN 978-1-936213-25-2 | 150 | 137,929
(1 added) |
เพิ่มอักษรหนึ่งตัวที่ U+32FF ชื่อยุคเรวะแบบมัดเป็นสี่เหลี่ยมจัตุรัส | |
13.0 | มีนาคม 2563 | ISBN 978-1-936213-26-9 | ISO/IEC 10646:2020 | 154 | 143,859
(5,930 added) |
Chorasmian, Dives Akuru, Khitan small script, Yezidi, 4,969 CJK unified ideographs added (including 4,939 in Ext. G), Arabic script additions used to write Hausa, Wolof, and other languages in Africa and other additions used to write Hindko and Punjabi in Pakistan, Bopomofo additions used for Cantonese, Creative Commons license symbols, graphic characters for compatibility with teletext and home computer systems from the 1970s and 1980s, and 55 emoji. |
14.0 | กันยายน 2564 | ISBN 978-1-936213-29-0 | 159 | 144,697
(838 added) |
Toto, Cypro-Minoan, Vithkuqi, Old Uyghur, Tangsa, Latin script additions at SMP blocks (Ext-F, Ext-G) for use in extended IPA, Arabic script additions for use in languages across Africa and in Iran, Pakistan, Malaysia, Indonesia, Java, and Bosnia, and to write honorifics, additions for Quranic use, other additions to support languages in North America, the Phillipines, India, and Mongolia, addition of the Kyrgyzstani som currency symbol, support for Znamenny musical notation, and 37 emoji. |
บล็อกต่าง ๆ
[แก้]แผ่น | ระยะ | ชื่อ | จำนวนช่อง | กำหนดแล้ว | ชุดอักษร |
---|---|---|---|---|---|
0 BMP | U+0000..U+007F | Basic Latin | 128 | 128 | ละติน (52 ตัว), ทั่วไป (76 ตัว) |
0 BMP | U+0080..U+00FF | Latin-1 Supplement | 128 | 128 | ละติน (64 ตัว), ทั่วไป (64 ตัว) |
0 BMP | U+0100..U+017F | Latin Extended-A | 128 | 128 | ละติน |
0 BMP | U+0180..U+024F | Latin Extended-B | 208 | 208 | ละติน |
0 BMP | U+0250..U+02AF | IPA Extensions | 96 | 96 | ละติน |
0 BMP | U+02B0..U+02FF | Spacing Modifier Letters | 80 | 80 | ปอพอมอฟอ (2 ตัว), ละติน (14 ตัว), ทั่วไป (64 ตัว) |
0 BMP | U+0300..U+036F | Combining Diacritical Marks | 112 | 112 | ใช้กับตัวอื่น |
0 BMP | U+0370..U+03FF | Greek and Coptic | 144 | 135 | คอปติก (14 ตัว), กรีก (117 ตัว), ทั่วไป (4 ตัว) |
0 BMP | U+0400..U+04FF | Cyrillic | 256 | 256 | ซีริลลิก (254 characters), ใช้กับตัวอื่น (2 ตัว) |
0 BMP | U+0500..U+052F | Cyrillic Supplement | 48 | 48 | ซีริลลิก |
0 BMP | U+0530..U+058F | Armenian | 96 | 91 | อาร์เมเนียน |
0 BMP | U+0590..U+05FF | Hebrew | 112 | 88 | ฮีบรู |
0 BMP | U+0600..U+06FF | Arabic | 256 | 256 | อาหรับ (238 ตัว), ทั่วไป (6 ตัว), ใช้กับตัวอื่น (12 ตัว) |
0 BMP | U+0700..U+074F | Syriac | 80 | 77 | ซีเรีย |
0 BMP | U+0750..U+077F | Arabic Supplement | 48 | 48 | อาหรับ |
0 BMP | U+0780..U+07BF | Thaana | 64 | 50 | อักษรทานะ |
0 BMP | U+07C0..U+07FF | NKo | 64 | 62 | อักษรอึนโก |
0 BMP | U+0800..U+083F | Samaritan | 64 | 61 | Samaritan |
0 BMP | U+0840..U+085F | Mandaic | 32 | 29 | Mandaic |
0 BMP | U+0860..U+086F | Syriac Supplement | 16 | 11 | ซีเรีย |
0 BMP | U+0870..U+089F | Arabic Extended-B | 48 | 41 | อาหรับ |
0 BMP | U+08A0..U+08FF | Arabic Extended-A | 96 | 96 | อาหรับ (95 ตัว), ทั่วไป (1 ตัว) |
0 BMP | U+0900..U+097F | Devanagari | 128 | 128 | เทวนาครี (122 ตัว), ทั่วไป (2 ตัว), Inherited (4 ตัว) |
0 BMP | U+0980..U+09FF | Bengali | 128 | 96 | เบงกอล |
0 BMP | U+0A00..U+0A7F | Gurmukhi | 128 | 80 | อักษรคุรมุขี |
0 BMP | U+0A80..U+0AFF | Gujarati | 128 | 91 | คุชราต |
0 BMP | U+0B00..U+0B7F | Oriya | 128 | 91 | โอริยา |
0 BMP | U+0B80..U+0BFF | Tamil | 128 | 72 | ทมิฬ |
0 BMP | U+0C00..U+0C7F | Telugu | 128 | 100 | เตลูกู |
0 BMP | U+0C80..U+0CFF | Kannada | 128 | 90 | กันนาดา |
0 BMP | U+0D00..U+0D7F | Malayalam | 128 | 118 | มลยาฬัม |
0 BMP | U+0D80..U+0DFF | Sinhala | 128 | 91 | สิงหล |
0 BMP | U+0E00..U+0E7F | Thai | 128 | 87 | ไทย(86 ตัว), ทั่วไป (1 ตัว) |
0 BMP | U+0E80..U+0EFF | Lao | 128 | 82 | ลาว |
0 BMP | U+0F00..U+0FFF | Tibetan | 256 | 211 | ทิเบต (207 ตัว), ทั่วไป (4 ตัว) |
0 BMP | U+1000..U+109F | Myanmar | 160 | 160 | พม่า |
0 BMP | U+10A0..U+10FF | Georgian | 96 | 88 | จอร์เจีย (87 ตัว), ทั่วไป (1 ตัว) |
0 BMP | U+1100..U+11FF | Hangul Jamo | 256 | 256 | ฮันกึล |
0 BMP | U+1200..U+137F | Ethiopic | 384 | 358 | เอธิโอเปีย |
0 BMP | U+1380..U+139F | Ethiopic Supplement | 32 | 26 | เอธิโอเปีย |
0 BMP | U+13A0..U+13FF | Cherokee | 96 | 92 | เชโรกี |
0 BMP | U+1400..U+167F | Unified Canadian Aboriginal Syllabics | 640 | 640 | แคนาดาพื้นเมือง |
0 BMP | U+1680..U+169F | Ogham | 32 | 29 | Ogham |
0 BMP | U+16A0..U+16FF | Runic | 96 | 89 | รูน (86 ตัว), ทั่วไป (3 ตัว) |
0 BMP | U+1700..U+171F | Tagalog | 32 | 23 | ตากาล็อก |
0 BMP | U+1720..U+173F | Hanunoo | 32 | 23 | Hanunoo (21 characters), Common (2 characters) |
0 BMP | U+1740..U+175F | Buhid | 32 | 20 | Buhid |
0 BMP | U+1760..U+177F | Tagbanwa | 32 | 18 | Tagbanwa |
0 BMP | U+1780..U+17FF | Khmer | 128 | 114 | เขมร |
0 BMP | U+1800..U+18AF | Mongolian | 176 | 158 | มองโกเลีย (155 ตัว), ทั่วไป (3 ตัว) |
0 BMP | U+18B0..U+18FF | Unified Canadian Aboriginal Syllabics Extended | 80 | 70 | แคนาดาพื้นเมือง |
0 BMP | U+1900..U+194F | Limbu | 80 | 68 | Limbu |
0 BMP | U+1950..U+197F | Tai Le | 48 | 35 | อักษรไทใต้คง |
0 BMP | U+1980..U+19DF | New Tai Lue | 96 | 83 | อักษรไทลื้อ |
0 BMP | U+19E0..U+19FF | Khmer Symbols | 32 | 32 | เขมร |
0 BMP | U+1A00..U+1A1F | Buginese | 32 | 30 | Buginese |
0 BMP | U+1A20..U+1AAF | Tai Tham | 144 | 127 | อักษรล้านนา |
0 BMP | U+1AB0..U+1AFF | Combining Diacritical Marks Extended | 80 | 31 | ผสม |
0 BMP | U+1B00..U+1B7F | Balinese | 128 | 124 | Balinese |
0 BMP | U+1B80..U+1BBF | Sundanese | 64 | 64 | Sundanese |
0 BMP | U+1BC0..U+1BFF | Batak | 64 | 56 | Batak |
0 BMP | U+1C00..U+1C4F | Lepcha | 80 | 74 | Lepcha |
0 BMP | U+1C50..U+1C7F | Ol Chiki | 48 | 48 | Ol Chiki |
0 BMP | U+1C80..U+1C8F | Cyrillic Extended-C | 16 | 9 | ซีริลลิก |
0 BMP | U+1C90..U+1CBF | Georgian Extended | 48 | 46 | จอร์เจีย |
0 BMP | U+1CC0..U+1CCF | Sundanese Supplement | 16 | 8 | Sundanese |
0 BMP | U+1CD0..U+1CFF | Vedic Extensions | 48 | 43 | ทั่วไป (16 ตัว), ผสม(27 ตัว) |
0 BMP | U+1D00..U+1D7F | Phonetic Extensions | 128 | 128 | ซีริลลิก (2 ตัว), กรีก(15 ตัว), ละติน (111 ตัว) |
0 BMP | U+1D80..U+1DBF | Phonetic Extensions Supplement | 64 | 64 | กรีก (1 ตัว), ละติน (63 ตัว) |
0 BMP | U+1DC0..U+1DFF | Combining Diacritical Marks Supplement | 64 | 64 | ผสม |
0 BMP | U+1E00..U+1EFF | Latin Extended Additional | 256 | 256 | ละติน |
0 BMP | U+1F00..U+1FFF | Greek Extended | 256 | 233 | กรีก |
0 BMP | U+2000..U+206F | General Punctuation | 112 | 111 | ทั่วไป (109 ตัว), ผสม (2 ตัว) |
0 BMP | U+2070..U+209F | Superscripts and Subscripts | 48 | 42 | ละติน (15 ตัว), ทั่วไป (27 ตัว) |
0 BMP | U+20A0..U+20CF | Currency Symbols | 48 | 33 | ทั่วไป |
0 BMP | U+20D0..U+20FF | Combining Diacritical Marks for Symbols | 48 | 33 | ใช้กับตัวอื่น |
0 BMP | U+2100..U+214F | Letterlike Symbols | 80 | 80 | กรีก (1 ตัว), ละติน (4 ตัว), ทั่วไป (75 ตัว) |
0 BMP | U+2150..U+218F | Number Forms | 64 | 60 | ละติน (41 ตัว), ทั่วไป (19 ตัว) |
0 BMP | U+2190..U+21FF | Arrows | 112 | 112 | ทั่วไป |
0 BMP | U+2200..U+22FF | Mathematical Operators | 256 | 256 | ทั่วไป |
0 BMP | U+2300..U+23FF | Miscellaneous Technical | 256 | 256 | ทั่วไป |
0 BMP | U+2400..U+243F | Control Pictures | 64 | 39 | ทั่วไป |
0 BMP | U+2440..U+245F | Optical Character Recognition | 32 | 11 | ทั่วไป |
0 BMP | U+2460..U+24FF | Enclosed Alphanumerics | 160 | 160 | ทั่วไป |
0 BMP | U+2500..U+257F | Box Drawing | 128 | 128 | ทั่วไป |
0 BMP | U+2580..U+259F | Block Elements | 32 | 32 | ทั่วไป |
0 BMP | U+25A0..U+25FF | Geometric Shapes | 96 | 96 | ทั่วไป |
0 BMP | U+2600..U+26FF | Miscellaneous Symbols | 256 | 256 | ทั่วไป |
0 BMP | U+2700..U+27BF | Dingbats | 192 | 192 | ทั่วไป |
0 BMP | U+27C0..U+27EF | Miscellaneous Mathematical Symbols-A | 48 | 48 | ทั่วไป |
0 BMP | U+27F0..U+27FF | Supplemental Arrows-A | 16 | 16 | ทั่วไป |
0 BMP | U+2800..U+28FF | Braille Patterns | 256 | 256 | อักษรเบรลล์ |
0 BMP | U+2900..U+297F | Supplemental Arrows-B | 128 | 128 | ทั่วไป |
0 BMP | U+2980..U+29FF | Miscellaneous Mathematical Symbols-B | 128 | 128 | ทั่วไป |
0 BMP | U+2A00..U+2AFF | Supplemental Mathematical Operators | 256 | 256 | ทั่วไป |
0 BMP | U+2B00..U+2BFF | Miscellaneous Symbols and Arrows | 256 | 253 | ทั่วไป |
0 BMP | U+2C00..U+2C5F | Glagolitic | 96 | 96 | Glagolitic |
0 BMP | U+2C60..U+2C7F | Latin Extended-C | 32 | 32 | ละติน |
0 BMP | U+2C80..U+2CFF | Coptic | 128 | 123 | คอปติก |
0 BMP | U+2D00..U+2D2F | Georgian Supplement | 48 | 40 | จอร์เจีย |
0 BMP | U+2D30..U+2D7F | Tifinagh | 80 | 59 | ทิฟินาค |
0 BMP | U+2D80..U+2DDF | Ethiopic Extended | 96 | 79 | เอธิโอเปีย |
0 BMP | U+2DE0..U+2DFF | Cyrillic Extended-A | 32 | 32 | ซีริลลิก |
0 BMP | U+2E00..U+2E7F | Supplemental Punctuation | 128 | 94 | ทั่วไป |
0 BMP | U+2E80..U+2EFF | CJK Radicals Supplement | 128 | 115 | อักษรจีน |
0 BMP | U+2F00..U+2FDF | Kangxi Radicals | 224 | 214 | อักษรจีน |
0 BMP | U+2FF0..U+2FFF | Ideographic Description Characters | 16 | 12 | ทั่วไป |
0 BMP | U+3000..U+303F | CJK Symbols and Punctuation | 64 | 64 | จีน (15 ตัว), ฮันกึล (2 ตัว), ทั่วไป (43 ตัว), ใช้กับตัวอื่น (4 ตัว) |
0 BMP | U+3040..U+309F | Hiragana | 96 | 93 | ฮิรางานะ (89 ตัว), ทั่วไป (2 ตัว), ใช้กับตัวอื่น (2 ตัว) |
0 BMP | U+30A0..U+30FF | Katakana | 96 | 96 | คาตากานะ (93 ตัว), ทั่วไป (3 ตัว) |
0 BMP | U+3100..U+312F | Bopomofo | 48 | 43 | ปอพอมอฟอ |
0 BMP | U+3130..U+318F | Hangul Compatibility Jamo | 96 | 94 | ฮันกึล |
0 BMP | U+3190..U+319F | Kanbun | 16 | 16 | ทั่วไป |
0 BMP | U+31A0..U+31BF | Bopomofo Extended | 32 | 32 | ปอพอมอฟอ |
0 BMP | U+31C0..U+31EF | CJK Strokes | 48 | 36 | ทั่วไป |
0 BMP | U+31F0..U+31FF | Katakana Phonetic Extensions | 16 | 16 | คาตากานะ |
0 BMP | U+3200..U+32FF | Enclosed CJK Letters and Months | 256 | 255 | ฮันกึล (62 ตัว), คาตากานะ (47 ตัว), ทั่วไป (146 ตัว) |
0 BMP | U+3300..U+33FF | CJK Compatibility | 256 | 256 | คาตากานะ (88 ตัว), ทั่วไป (168 ตัว) |
0 BMP | U+3400..U+4DBF | CJK Unified Ideographs Extension A | 6,592 | 6,592 | จีน |
0 BMP | U+4DC0..U+4DFF | Yijing Hexagram Symbols | 64 | 64 | ทั่วไป |
0 BMP | U+4E00..U+9FFF | CJK Unified Ideographs | 20,992 | 20,992 | อักษรจีน |
0 BMP | U+A000..U+A48F | Yi Syllables | 1,168 | 1,165 | Yi |
0 BMP | U+A490..U+A4CF | Yi Radicals | 64 | 55 | Yi |
0 BMP | U+A4D0..U+A4FF | Lisu | 48 | 48 | Lisu |
0 BMP | U+A500..U+A63F | Vai | 320 | 300 | Vai |
0 BMP | U+A640..U+A69F | Cyrillic Extended-B | 96 | 96 | ซีริลลิก |
0 BMP | U+A6A0..U+A6FF | Bamum | 96 | 88 | Bamum |
0 BMP | U+A700..U+A71F | Modifier Tone Letters | 32 | 32 | ทั่วไป |
0 BMP | U+A720..U+A7FF | Latin Extended-D | 224 | 193 | Latin (188 characters), Common (5 characters) |
0 BMP | U+A800..U+A82F | Syloti Nagri | 48 | 45 | Syloti Nagri |
0 BMP | U+A830..U+A83F | Common Indic Number Forms | 16 | 10 | ทั่วไป |
0 BMP | U+A840..U+A87F | Phags-pa | 64 | 56 | อักษรพักส์-ปา |
0 BMP | U+A880..U+A8DF | Saurashtra | 96 | 82 | Saurashtra |
0 BMP | U+A8E0..U+A8FF | Devanagari Extended | 32 | 32 | เทวนาครี |
0 BMP | U+A900..U+A92F | Kayah Li | 48 | 48 | Kayah Li (47 characters), Common (1 character) |
0 BMP | U+A930..U+A95F | Rejang | 48 | 37 | Rejang |
0 BMP | U+A960..U+A97F | Hangul Jamo Extended-A | 32 | 29 | ฮันกึล |
0 BMP | U+A980..U+A9DF | Javanese | 96 | 91 | ชวา (90 ตัว), ทั่วไป (1 ตัว) |
0 BMP | U+A9E0..U+A9FF | Myanmar Extended-B | 32 | 31 | พม่า |
0 BMP | U+AA00..U+AA5F | Cham | 96 | 83 | จาม |
0 BMP | U+AA60..U+AA7F | Myanmar Extended-A | 32 | 32 | พม่า |
0 BMP | U+AA80..U+AADF | Tai Viet | 96 | 72 | ไทเวียด |
0 BMP | U+AAE0..U+AAFF | Meetei Mayek Extensions | 32 | 23 | Meetei Mayek |
0 BMP | U+AB00..U+AB2F | Ethiopic Extended-A | 48 | 32 | Ethiopic |
0 BMP | U+AB30..U+AB6F | Latin Extended-E | 64 | 60 | Latin (56 characters), Greek (1 character), Common (3 characters) |
0 BMP | U+AB70..U+ABBF | Cherokee Supplement | 80 | 80 | Cherokee |
0 BMP | U+ABC0..U+ABFF | Meetei Mayek | 64 | 56 | Meetei Mayek |
0 BMP | U+AC00..U+D7AF | Hangul Syllables | 11,184 | 11,172 | Hangul |
0 BMP | U+D7B0..U+D7FF | Hangul Jamo Extended-B | 80 | 72 | Hangul |
0 BMP | U+D800..U+DB7F | High Surrogates | 896 | 0 | Unknown |
0 BMP | U+DB80..U+DBFF | High Private Use Surrogates | 128 | 0 | Unknown |
0 BMP | U+DC00..U+DFFF | Low Surrogates | 1,024 | 0 | Unknown |
0 BMP | U+E000..U+F8FF | Private Use Area | 6,400 | 6,400 | Unknown |
0 BMP | U+F900..U+FAFF | CJK Compatibility Ideographs | 512 | 472 | Han |
0 BMP | U+FB00..U+FB4F | Alphabetic Presentation Forms | 80 | 58 | Armenian (5 characters), Hebrew (46 characters), Latin (7 characters) |
0 BMP | U+FB50..U+FDFF | Arabic Presentation Forms-A | 688 | 631 | อาหรับ (629 ตัว), ทั่วไป (2 ตัว) |
0 BMP | U+FE00..U+FE0F | Variation Selectors | 16 | 16 | ผสม |
0 BMP | U+FE10..U+FE1F | Vertical Forms | 16 | 10 | ทั่วไป |
0 BMP | U+FE20..U+FE2F | Combining Half Marks | 16 | 16 | ซีริลลิก (2 ตัว), ผสม (14 ตัว) |
0 BMP | U+FE30..U+FE4F | CJK Compatibility Forms | 32 | 32 | ทั่วไป |
0 BMP | U+FE50..U+FE6F | Small Form Variants | 32 | 26 | ทั่วไป |
0 BMP | U+FE70..U+FEFF | Arabic Presentation Forms-B | 144 | 141 | Arabic (140 characters), Common (1 character) |
0 BMP | U+FF00..U+FFEF | Halfwidth and Fullwidth Forms | 240 | 225 | ฮันกึล (52 ตัว), คาตากานะ (55 ตัว), ละติน(52 ตัว), ทั่วไป (66 ตัว) |
0 BMP | U+FFF0..U+FFFF | Specials | 16 | 5 | ทั่วไป |
ข้อจำกัดและปัญหา
[แก้]มีการวิจารณ์ยูนิโคดเกี่ยวกับปัญหาทางเทคนิค และข้อจำกัดต่าง ๆ อย่างไรก็ดี ยูนิโคดได้กลายเป็นวิธีการเข้ารหัสที่ใช้กันมากที่สุดในการทำให้ซอฟต์แวร์และระบบปฏิบัติการใช้ได้หลายภาษาพร้อม ๆ กัน
ระบบปฏิบัติการตระกูลวินโดวส์ ได้แก่ วินโดวส์เอ็นที, วินโดวส์ 2000 และ วินโดวส์เอกซ์พี ใช้รหัสยูนิโคดแบบ UTF-16 ในการเข้ารหัสข้อความ ระบบปฏิบัติการที่คล้ายกับยูนิกซ์ เช่น GNU/Linux BSD และ Mac OS X ก็ได้นำยูนิโคดแบบ UTF-8 มาใช้ เป็นพื้นฐานของการแทนข้อความที่มีหลายภาษา
การรองรับภาษาไทยในยูนิโคด ได้รับการวิพากษ์วิจารณ์เนื่องจากว่าลำดับเรียงตัวอักษรนั้นไม่ถูกต้องตามที่ควรจะเป็น ซึ่งเป็นเพราะว่ายูนิโคดในส่วนภาษาไทยได้อ้างอิงรูปแบบเดิมจาก Thai Industry Standard 620 (TIS-620) ที่มีปัญหานี้เช่นกัน จึงทำให้การเทียบเรียงลำดับยูนิโคดยุ่งยากขึ้น
อ้างอิง
[แก้]- ↑ http://www.unicode.org/standard/principles.html#What_Characters
- ↑ "The Unicode Consortium Members". สืบค้นเมื่อ 4 January 2019.
- ↑ "อักษรพิเศษ". สืบค้นเมื่อ 2 April 2023.
- ↑ http://www.unicode.org/Public/reconstructed/1.0.0/UnicodeData.txt
- ↑ http://www.unicode.org/Public/reconstructed/1.0.1/UnicodeData.txt
- ↑ http://www.unicode.org/Public/1.1-Update/UnicodeData-1.1.5.txt
- ↑ http://www.unicode.org/Public/2.0-Update/UnicodeData-2.0.14.txt
- ↑ http://www.unicode.org/Public/2.1-Update/UnicodeData-2.1.2.txt
- ↑ http://www.unicode.org/Public/3.0-Update/UnicodeData-3.0.0.txt
- ↑ http://www.unicode.org/Public/3.1-Update/UnicodeData-3.1.0.txt
- ↑ http://www.unicode.org/Public/3.2-Update/UnicodeData-3.2.0.txt
- ↑ http://www.unicode.org/Public/4.0-Update/UnicodeData-4.0.0.txt
- ↑ http://www.unicode.org/Public/4.1.0/ucd/UnicodeData.txt
- ↑ http://www.unicode.org/Public/5.0.0/ucd/UnicodeData.txt
- ↑ http://www.unicode.org/Public/5.1.0/ucd/UnicodeData.txt
- ↑ http://www.unicode.org/Public/5.2.0/ucd/UnicodeData.txt
- ↑ "Unicode Data 6.0.0". สืบค้นเมื่อ 2010-10-11.
แหล่งข้อมูลอื่น
[แก้]- DecodeUnicode - Unicode WIKI, 50.000 gifs