論壇 | 最新的Web開發教程
 

HTML的Unicode(UTF-8)參考


Unicode協會

Unicode協會開發了Unicode標準。Their goal is to replace the existing character sets with its standard Unicode Transformation Format (UTF). 他們的目標是其標準Unicode轉換格式(UTF)來取代現有的字符集。

Unicode標準已經成為一個成功的,並在HTML,XML,Java和JavaScript中,電子郵件,ASP,PHP等Unicode標準的實施在許多操作系統和所有現代瀏覽器也支持。

Unicode聯盟與領先的標準開發組織,如ISO,W3C和ECMA合作。


Unicode字符集

的Unicode可以通過不同的字符集來實現。The most commonly used encodings are UTF-8 and UTF-16: 最常用的編碼是UTF-8和UTF-16:

Character-set Description
UTF-8 A character in UTF8 can be from 1 to 4 bytes long. UTF-8 can represent any character in the Unicode standard. UTF-8 is backwards compatible with ASCII. UTF-8 is the preferred encoding for e-mail and web pages
UTF-16 16-bit Unicode Transformation Format is a variable-length character encoding for Unicode, capable of encoding the entire Unicode repertoire. UTF-16 is used in major operating systems and environments, like Microsoft Windows, Java and .NET.

提示:編碼,它的前128個字符(對應一到一個用ASCII)使用一個字節具有相同的二進制值,ASCII編碼,從而有效ASCII文本有效UTF-8編碼的Unicode為好。

注意HTML 4支持UTF-8。HTML 5 supports both UTF-8 and UTF-16! HTML 5支持UTF-8和UTF-16!


HTML5標準:Unicode的UTF-8

因為在ISO-8859字符集是在大小限制,並在多語言環境不兼容,Unicode協會開發了Unicode標準。

Unicode標準蓋(幾乎)所有的字符,標點符號,和世界的符號。

Unicode能實現加工,儲存,和文本獨立於平台和語言的運輸。

在HTML-5的默認字符編碼為UTF-8。

如果HTML5網頁使用不同的字符集不是UTF-8,就應該在<meta>標籤一樣被指定:

<meta charset="ISO-8859-1">

Unicode和UTF-8之間的差異

Unicode是一個字符集UTF-8 is encoding . UTF-8 編碼是。

Unicode是具有獨特的十進制數(碼點)的字符的列表。A = 41, B = 42, C = 43, .... A = 41,B = 42,C = 43,...

十進制數的這份名單代表了字符串“hello”:104 101 108 108 111

編碼是這些數字是如何轉換成二進制數被儲存在計算機中:

UTF-8編碼將存儲“你好”這樣的(二進制):01101000 01100101 01101100 01101100 01101111

注意編碼數字轉換成二進制。 字符集字符轉換為數字。


HTML5 UTF-8字符代碼

下面是一些由HTML5支持UTF-8字符代碼的列表:

Character codes Decimal Hexadecimal
C0 Controls and Basic Latin 0-127 0000-007F
C1 Controls and Latin-1 Supplement 128-255 0080-00FF
Latin Extended-A 256-383 0100-017F
Latin Extended-B 384-591 0180-024F
Spacing Modifiers 688-767 02B0-02FF
Diacritical Marks 768-879 0300-036F
Greek and Coptic 880-1023 0370-03FF
Cyrillic Basic 1024-1279 0400-04FF
Cyrillic Supplement 1280-1327 0500-052F
General Punctuation 8192-8303 2000-206F
Currency Symbols 8352-8399 20A0-20CF
Letterlike Symbols 8448-8527 2100-214F
Arrows 8592-8703 2190-21FF
Mathematical Operators 8704-8959 2200-22FF
Box Drawings 9472-9599 2500-257F
Block Elements 9600-9631 2580-259F
Geometric Shapes 9632-9727 25A0-25FF
Miscellaneous Symbols 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF