ฟอรั่ม | ล่าสุดการพัฒนาเว็บบทเรียน
×

HTML ชุดอักขระ

HTML ชุดอักขระ HTML ASCII HTML ANSI HTML ISO-8859 HTML สัญลักษณ์ HTML UTF-8

HTML UTF-8

Latin ขั้นพื้นฐาน Latin เสริม Latin ขยาย A Latin ขยาย B ปรับปรุงตัวอักษร ออกเสียงวรรณยุกต์ กรีกและชาวอียิปต์โบราณ Cyrillic ขั้นพื้นฐาน Cyrillic เสริม

HTML สัญลักษณ์

เครื่องหมายวรรคตอนทั่วไป Currency สัญลักษณ์ Letterlike สัญลักษณ์ ลูกศร ผู้ประกอบการทางคณิตศาสตร์ ภาพวาดกล่อง องค์ประกอบของบล็อก รูปทรงเรขาคณิต Misc สัญลักษณ์ Dingbats

HTML หน่วยงาน

HTML4 หน่วยงาน HTML5 หน่วยงาน A HTML5 หน่วยงาน B HTML5 หน่วยงาน C HTML5 หน่วยงาน D HTML5 หน่วยงาน E HTML5 หน่วยงาน F HTML5 หน่วยงาน G HTML5 หน่วยงาน H HTML5 หน่วยงาน I HTML5 หน่วยงาน J HTML5 หน่วยงาน K HTML5 หน่วยงาน L HTML5 หน่วยงาน M HTML5 หน่วยงาน N HTML5 หน่วยงาน O HTML5 หน่วยงาน P HTML5 หน่วยงาน Q HTML5 หน่วยงาน R HTML5 หน่วยงาน S HTML5 หน่วยงาน T HTML5 หน่วยงาน U HTML5 หน่วยงาน V HTML5 หน่วยงาน W HTML5 หน่วยงาน X HTML5 หน่วยงาน Y HTML5 หน่วยงาน Z

 

HTML Unicode (UTF-8) อ้างอิง


ยูนิโค้ด Consortium

ยูนิโค้ด Consortium พัฒนามาตรฐาน UnicodeTheir goal is to replace the existing character sets with its standard Unicode Transformation Format (UTF). เป้าหมายของพวกเขาคือการเปลี่ยนชุดตัวอักษรที่มีอยู่กับการเปลี่ยนแปลงรูปแบบ Unicode มาตรฐาน (UTF)

มาตรฐาน Unicode ได้กลายเป็นที่ประสบความสำเร็จและมีการใช้งานในรูปแบบ HTML, XML, Java, JavaScript, E-mail, ASP, PHP, ฯลฯ มาตรฐาน Unicode ยังสนับสนุนในระบบปฏิบัติการจำนวนมากและเบราว์เซอร์ที่ทันสมัย

ยูนิโค้ด Consortium ร่วมมือกับองค์กรพัฒนามาตรฐานชั้นนำเช่น ISO, W3C และ ECMA


ยูนิโค้ดชุดตัวอักษร

Unicode สามารถดำเนินการโดยชุดตัวอักษรที่แตกต่างกันThe most commonly used encodings are UTF-8 and UTF-16: การเข้ารหัสที่ใช้กันมากที่สุดคือ UTF-8 และ UTF-16:

Character-set Description
UTF-8 A character in UTF8 can be from 1 to 4 bytes long. UTF-8 can represent any character in the Unicode standard. UTF-8 is backwards compatible with ASCII. UTF-8 is the preferred encoding for e-mail and web pages
UTF-16 16-bit Unicode Transformation Format is a variable-length character encoding for Unicode, capable of encoding the entire Unicode repertoire. UTF-16 is used in major operating systems and environments, like Microsoft Windows, Java and .NET.

เคล็ดลับ:128 ตัวอักษรแรกของ Unicode (ซึ่งตรงตามลักษณะอย่างใดอย่างหนึ่งต่อหนึ่งกับ ASCII) จะถูกเข้ารหัสโดยใช้ octet เดียวกับค่าไบนารีเช่นเดียวกับ ASCII ทำให้ข้อความ ASCII ที่ถูกต้องที่ถูกต้อง UTF-8 เข้ารหัส Unicode เช่นกัน

บันทึกHTML 4 รองรับ UTF-8HTML 5 supports both UTF-8 and UTF-16! HTML 5 สนับสนุนทั้ง UTF-8 และ UTF-16!


HTML5 มาตรฐาน: Unicode UTF-8

เพราะชุดตัวอักษรใน ISO-8859 ถูก จำกัด ในขนาดและเข้ากันไม่ได้ในสภาพแวดล้อมที่พูดได้หลายภาษาที่ Unicode Consortium พัฒนามาตรฐาน Unicode

ครอบคลุมมาตรฐาน Unicode (เกือบ) ทุกตัวอักษร, เครื่องหมายวรรคตอนและสัญลักษณ์ในโลก

Unicode ช่วยให้การประมวลผล, การจัดเก็บและการขนส่งของอิสระข้อความของแพลตฟอร์มและภาษา

การเข้ารหัสตัวอักษรเริ่มต้นใน HTML-5 เป็น UTF-8

หากหน้าเว็บ HTML5 ใช้ชุดตัวอักษรที่แตกต่างกันกว่า UTF-8 ก็ควรจะระบุไว้ใน <meta> แท็กที่ชอบ:

ตัวอย่าง

<meta charset="ISO-8859-1">

ความแตกต่างระหว่าง Unicode และ UTF-8

Unicode เป็นชุดตัวอักษรUTF-8 is encoding . UTF-8 คือการเข้ารหัส

Unicode คือรายการของตัวละครที่มีตัวเลขทศนิยมที่ไม่ซ้ำกัน (จุดรหัส)A = 41, B = 42, C = 43, .... A = 41, B = 42, C = 43, ....

รายการของตัวเลขทศนิยมนี้แทนสตริง "สวัสดี": 104 101 108 108 111

การเข้ารหัสเป็นวิธีการที่ตัวเลขเหล่านี้จะถูกแปลงเลขฐานสองจะถูกเก็บไว้ในเครื่องคอมพิวเตอร์:

เข้ารหัส UTF-8 จะเก็บ "สวัสดี" เช่นนี้ (binary): 01101000 01100101 01101100 01101100 01101111

บันทึกการเข้ารหัสแปลตัวเลขลงในไบนารี. ชุดตัวอักษรแปลตัวอักษรกับตัวเลข


HTML5 UTF-8 รหัสอักขระ

ด้านล่างเป็นรายการของบางส่วนของ UTF-8 รหัสอักขระที่สนับสนุนโดย HTML5 A:

Character codes Decimal Hexadecimal
C0 Controls and Basic Latin 0-127 0000-007F
C1 Controls and Latin-1 Supplement 128-255 0080-00FF
Latin Extended-A 256-383 0100-017F
Latin Extended-B 384-591 0180-024F
Spacing Modifiers 688-767 02B0-02FF
Diacritical Marks 768-879 0300-036F
Greek and Coptic 880-1023 0370-03FF
Cyrillic Basic 1024-1279 0400-04FF
Cyrillic Supplement 1280-1327 0500-052F
General Punctuation 8192-8303 2000-206F
Currency Symbols 8352-8399 20A0-20CF
Letterlike Symbols 8448-8527 2100-214F
Arrows 8592-8703 2190-21FF
Mathematical Operators 8704-8959 2200-22FF
Box Drawings 9472-9599 2500-257F
Block Elements 9600-9631 2580-259F
Geometric Shapes 9632-9727 25A0-25FF
Miscellaneous Symbols 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF