ยูนิโคด
จากวิกิพีเดีย สารานุกรมเสรี
ยูนิโคด (อังกฤษ: Unicode) คือมาตรฐานอุตสาหกรรมที่ช่วยให้คอมพิวเตอร์แสดงผลและจัดการข้อความตัวอักษรที่ใช้ในระบบการเขียนของภาษาส่วนใหญ่ในโลกได้อย่างสอดคล้องกัน ยูนิโคดประกอบด้วยรายการอักขระที่แสดงผลได้มากกว่า 100,000 ตัว พัฒนาต่อยอดมาจากมาตรฐานชุดอักขระสากล (Universal Character Set: UCS) และมีการตีพิมพ์ลงในหนังสือ The Unicode Standard เป็นแผนผังรหัสเพื่อใช้เป็นรายการอ้างอิง นอกจากนั้นยังมีการอธิบายวิธีการที่ใช้เข้ารหัสและการนำเสนอมาตรฐานของการเข้ารหัสอักขระอีกจำนวนหนึ่ง การเรียงลำดับอักษร กฎเกณฑ์ของการรวมและการแยกอักขระ รวมไปถึงลำดับการแสดงผลของอักขระสองทิศทาง (เช่นอักษรอาหรับหรืออักษรฮีบรูที่เขียนจากขวาไปซ้าย) [1]
ยูนิโคดคอนซอร์เทียม (Unicode Consortium) ซึ่งเป็นองค์กรไม่แสวงหาผลกำไร เป็นผู้รับผิดชอบในการพัฒนายูนิโคด องค์กรนี้มีจุดมุ่งหมายเกี่ยวกับการแทนที่การเข้ารหัสอักขระที่มีอยู่ด้วยยูนิโคดและมาตรฐานรูปแบบการแปลงยูนิโคด (Unicode Transformation Format: UTF) แต่ก็เป็นที่ยุ่งยากเนื่องจากแผนการที่มีอยู่ถูกจำกัดไว้ด้วยขนาดและขอบเขต ซึ่งอาจไม่รองรับกับสภาพแวดล้อมหลายภาษาในคอมพิวเตอร์
ความสำเร็จของยูนิโคดคือการรวมรหัสอักขระหลายชนิดให้เป็นหนึ่งเดียว นำไปสู่การใช้งานอย่างกว้างขวางและมีอิทธิพลต่อการแปลภาษาของซอฟต์แวร์คอมพิวเตอร์ นั่นคือโปรแกรมจะสามารถใช้ได้หลายภาษา มาตรฐานนี้มีการนำไปใช้เป็นเทคโนโลยีหลักหลายอย่าง อาทิ เอกซ์เอ็มแอล ภาษาจาวา ดอตเน็ตเฟรมเวิร์ก และระบบปฏิบัติการสมัยใหม่
ยูนิโคดสามารถนำไปใช้งานได้ด้วยชุดอักขระแบบต่าง ๆ ชุดอักขระที่เป็นที่รู้จักมากที่สุดคือ UTF-8 (ใช้ 1 ไบต์สำหรับอักขระทุกตัวในรหัสแอสกีและมีค่ารหัสเหมือนกับมาตรฐานแอสกี หรือมากกว่านั้นจนถึง 4 ไบต์สำหรับอักขระแบบอื่น) UCS-2 ซึ่งปัจจุบันเลิกใช้แล้ว (ใช้ 2 ไบต์สำหรับอักขระทุกตัว แต่ไม่ครอบคลุมอักขระทั้งหมดในยูนิโคด) และ UTF-16 (เป็นส่วนขยายจาก UCS-2 โดยใช้ 4 ไบต์สำหรับแทนรหัสอักขระที่ขาดไปของ UCS-2)
เนื้อหา |
[แก้] รุ่นยูนิโคด
รุ่น | วันที่ | หนังสือ | ความสอดคล้องกับ ชุดอักขระสากล (ISO/IEC 10646) |
ชุดอักษร | อักขระ | |
---|---|---|---|---|---|---|
จำนวน | การเพิ่มเติมที่สำคัญ | |||||
1.0.0 | ตุลาคม พ.ศ. 2534 | ISBN 0-201-56788-1 (Vol.1) | 24 | 7,161 | เริ่มต้นด้วยอักษรเหล่านี้: อาหรับ, อาร์เมเนีย, เบงกาลี, ปอพอมอฟอ, ซีริลลิก, เทวนาครี, จอร์เจีย, กรีกและคอปติก, คุชราต, คุรมุขี, ฮันกึล, ฮีบรู, ฮิระงะนะ, กันนาดา, คะตะคะนะ, ลาว, ละติน, มาลายาลัม, โอริยา, ทมิฬ, เตลูกู, ไทย, และทิเบต [2] | |
1.0.1 | มิถุนายน พ.ศ. 2535 | ISBN 0-201-60845-6 (Vol.2) | 25 | 28,359 | เริ่มมีอักษรภาพรวมจีนญี่ปุ่นเกาหลี (CJK Unified Ideographs) 20,902 ตัว [3] | |
1.1 | มิถุนายน พ.ศ. 2536 | ISO/IEC 10646-1:1993 | 24 | 34,233 | เพิ่มพยางค์ฮันกึลลงไปอีก 4,306 ตัว จากชุดเดิม 2,350 ตัว และอักษรทิเบตถูกเอาออก [4] | |
2.0 | กรกฎาคม พ.ศ. 2539 | ISBN 0-201-48345-9 | ISO/IEC 10646-1:1993 เพิ่มข้อแก้ไขที่ 5, 6, 7 | 25 | 38,950 | พยางค์ฮันกึลชุดเดิมถูกเอาออก แล้วเพิ่มพยางค์ฮันกึลชุดใหม่ 11,619 ตัวในตำแหน่งใหม่ อักษรทิเบตเพิ่มกลับเข้ามาที่ตำแหน่งใหม่พร้อมกับเปลี่ยนแปลงอักขระบางตัว กลไกอักขระทดแทน (surrogate) ได้ถูกนิยามขึ้น และมีการกำหนดให้เพลน 15 และเพลน 16 เป็นพื้นที่ใช้งานส่วนตัว (Private Use Areas) [5] |
2.1 | พฤษภาคม พ.ศ. 2541 | ISO/IEC 10646-1:1993 เพิ่มข้อแก้ไขที่ 5, 6, 7 และอักขระสองตัวจากข้อแก้ไขที่ 18 | 25 | 38,952 | เครื่องหมายยูโรถูกเพิ่มเข้ามา [6] | |
3.0 | กันยายน พ.ศ. 2542 | ISBN 0-201-61633-5 | ISO/IEC 10646-1:2000 | 38 | 49,259 | เชอโรกี, เอธิโอเปีย, เขมร, มองโกเลีย, พม่า, โอคัม, รูนส์, สิงหล, ซีเรียค, ทานา, Unified Canadian Aboriginal Syllabics, และอี้ เพิ่มเข้ามา เช่นเดียวกับรูปแบบอักษรเบรลล์ [7] |
3.1 | มีนาคม พ.ศ. 2544 | ISO/IEC 10646-1:2000
ISO/IEC 10646-2:2001 |
41 | 94,205 | เดเซเรท, โกธิก, และอิตาลีโบราณ เพิ่มเข้ามา พร้อมกับสัญลักษณ์ทางดนตรีสมัยใหม่และดนตรีไบแซนไทน์ และเพิ่มอักษรภาพรวมจีนญี่ปุ่นเกาหลีอีก 42,711 ตัว [8] | |
3.2 | มีนาคม พ.ศ. 2545 | ISO/IEC 10646-1:2000 เพิ่มข้อแก้ไขที่ 1
ISO/IEC 10646-2:2001 |
45 | 95,221 | เพิ่มอักษรที่ใช้ในฟิลิปปินส์: บูฮิด, ฮานูโนโอ, บายบายิน, และตักบันวา [9] | |
4.0 | เมษายน พ.ศ. 2546 | ISBN 0-321-18578-1 | ISO/IEC 10646:2003 | 52 | 96,447 | ไซเปรียท, ลิมบู, ไลเนียร์บี, ออสมันยา, ชาเวียน, ไทไต้คง, และยูการิติก เพิ่มเข้ามาพร้อมกับแผนภูมิหกชั้นของอี้จิง [10] |
4.1 | มีนาคม พ.ศ. 2548 | ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1 | 59 | 97,720 | ลนตารา, กลาโกลิติก, ขโรษฐี, ไทลื้อใหม่, Old Persian, สิเลฏินาครี, และทิฟินาค เพิ่มเข้ามา, และคอปติกในรูปแบบที่ต่างจากอักษรกรีก. Ancient Greek numbers and musical symbols were also added.[11] | |
5.0 | กรกฎาคม พ.ศ. 2549 | ISBN 0-321-48091-0 | ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2, และอักขระสี่ตัวจากข้อแก้ไขที่ 3 | 64 | 99,089 | บาหลี, คูนิฟอร์ม, อึนโก, พักส์-ปา, และฟินิเชียน เพิ่มเข้ามา [12] |
5.1 | เมษายน พ.ศ. 2551 | ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2, 3, 4 | 75 | 100,713 | Carian, จาม, กะยา, เลปชา, ไลเซีย, ไลเดีย, Ol Chiki, เรยัง, ศารทา, ซุนดา, และไว added, as well as sets of symbols for the Phaistos Disc, Mahjong tiles, and Domino tiles. เพิ่มเติมอักษรที่สำคัญสำหรับอักษรพม่า, additions of letters and Scribal abbreviations used in medieval manuscripts, and the addition of capital ß.[13] | |
5.2 | ตุลาคม พ.ศ. 2552 | ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2, 3, 4, 5, 6 | 90 | 107,361 | Avestan, Bamum, Egyptian hieroglyphs (the Gardiner Set, comprising 1,071 characters), Imperial Aramaic, Inscriptional Pahlavi, Inscriptional Parthian, Javanese, Kaithi, Lisu, Meetei Mayek, Old South Arabian, Old Turkic, Samaritan, Tai Tham and Tai Viet added. 4,149 additional CJK Unified Ideographs (CJK-C), as well as extended Jamo for Old Hangul, and characters for Vedic Sanskrit.[14] |
[แก้] ข้อจำกัดและปัญหา
มีการวิจารณ์ยูนิโคดเกี่ยวกับปัญหาทางเทคนิค และข้อจำกัดต่าง ๆ อย่างไรก็ดี ยูนิโคดได้กลายเป็นวิธีการเข้ารหัสที่ใช้กันมากที่สุดในการทำให้ซอฟต์แวร์และระบบปฏิบัติการใช้ได้หลายภาษาพร้อม ๆ กัน
ระบบปฏิบัติการตระกูลวินโดวส์ ได้แก่วินโดวส์เอ็นที, วินโดวส์ 2000 และ วินโดวส์เอกซ์พี ใช้รหัสยูนิโคดแบบ UTF-16 ในการเข้ารหัสข้อความ ระบบปฏิบัติการที่คล้ายกับยูนิกซ์ เช่น GNU/Linux BSD และ Mac OS X ก็ได้นำยูนิโคดแบบ UTF-8 มาใช้ เป็นพื้นฐานของการแทนข้อความที่มีหลายภาษา
การรองรับภาษาไทยในยูนิโคด ได้รับการวิพากษ์วิจารณ์เนื่องจากว่าลำดับเรียงตัวอักษรนั้นไม่ถูกต้องตามที่ควรจะเป็น ซึ่งเป็นเพราะว่ายูนิโคดในส่วนภาษาไทยได้อ้างอิงรูปแบบเดิมจาก Thai Industry Standard 620 (TIS-620) ที่มีปัญหานี้เช่นกัน จึงทำให้การเทียบเรียงลำดับยูนิโคดยุ่งยากขึ้น
[แก้] อ้างอิง
- ^ http://www.unicode.org/standard/principles.html#What_Characters
- ^ http://www.unicode.org/Public/reconstructed/1.0.0/UnicodeData.txt
- ^ http://www.unicode.org/Public/reconstructed/1.0.1/UnicodeData.txt
- ^ http://www.unicode.org/Public/1.1-Update/UnicodeData-1.1.5.txt
- ^ http://www.unicode.org/Public/2.0-Update/UnicodeData-2.0.14.txt
- ^ http://www.unicode.org/Public/2.1-Update/UnicodeData-2.1.2.txt
- ^ http://www.unicode.org/Public/3.0-Update/UnicodeData-3.0.0.txt
- ^ http://www.unicode.org/Public/3.1-Update/UnicodeData-3.1.0.txt
- ^ http://www.unicode.org/Public/3.2-Update/UnicodeData-3.2.0.txt
- ^ http://www.unicode.org/Public/4.0-Update/UnicodeData-4.0.0.txt
- ^ http://www.unicode.org/Public/4.1.0/ucd/UnicodeData.txt
- ^ http://www.unicode.org/Public/5.0.0/ucd/UnicodeData.txt
- ^ http://www.unicode.org/Public/5.1.0/ucd/UnicodeData.txt
- ^ http://www.unicode.org/Public/5.2.0/ucd/UnicodeData.txt
[แก้] แหล่งข้อมูลอื่น
- DecodeUnicode - Unicode WIKI, 50.000 gifs