論壇 | 最新的Web開發教程
 

HTML字符集


要正確顯示HTML頁面,瀏覽器必須知道什麼字符集(字符編碼)來使用。


HTML字符集

什麼是正確的字符編碼在HTML中使用?

對於HTML5,默認的字符編碼是UTF-8。

這並非總是如此。The character encoding for the early web was ASCII. 對於早期的網絡字符編碼是ASCII。

後來,從HTML 2.0到HTML 4.01,ISO-8859-1被認為是標準。

XML和HTML 5,UTF-8終於到了,解決了很多的字符編碼問題。

下面是字符編碼標準的簡要說明。


在起點:ASCII

計算機信息(數字,文本,和圖片)被存儲為在電子二進制一和零(01000101)。

為規範的字母數字字符存儲,美國標準信息交換碼(ASCII)已創建。It defined a unique binary 7-bits number for each storable character to support the numbers from 0-9, the upper/lower case English alphabet (az, AZ), and some special characters like ! 它定義為每個存儲字符唯一的二進制7位數字從0-9支持數字,大/小寫英文字母(AZ,AZ),以及一些特殊字符,如!$ + - ()@ <>。

因為ASCII使用的一個字節(對於字符7位,和用於傳輸的奇偶校驗控制位中的一個),它只能表示128個不同的字符。In addition 32 of these characters were reserved for other control purposes. 此外,這些字符32保留給其它控制的目的。

與ASCII最大的弱點是,它排除了非英文字母。

ASCII至今仍在廣泛使用,特別是在大型計算機系統。

仔細看看,請學習我們完整的ASCII參考


在Windows中:ANSI

ANSI(也稱為Windows-1252)是默認字符在Windows中設置,最多到Windows 95。

ANSI是一個擴展ASCII碼,添加了國際字符。It uses a full byte (8-bits) to represent 256 different characters. 它採用的是全字節(8位)來表示256個不同的字符。

ANSI以來一直是默認的字符在Windows中設置,它是由所有的瀏覽器都支持。

仔細看看,請學習我們完整的ANSI參考


在HTML 4:ISO-8859-1

由於大多數國家使用外ASCII字符,在HTML 2.0標準默認的字符編碼更改為ISO-8859-1。

ISO-8859-1是一個擴展ASCII碼,添加了國際字符。Like ANSI, it uses a full byte to represent twice as many characters than ASCII. ANSI一樣,它採用了全字節來表示兩倍多的字符不是ASCII。

注意當瀏覽器檢測網頁ISO-8859-1,他們通常默認為ANSI,因為ANSI是相同的ISO-8859-1除了ANSI有32個額外的字符。

如果HTML 4網頁使用了不同的字符集不是ISO-8859-1,它應該在<meta>標籤一樣被指定:

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

注意

對於HTML5的默認字符集是UTF-8。
所有HTML 4處理器支持UTF-8,以及所有HTML5和XML處理器支持UTF-8和UTF-16。

仔細看看,請學習我們完整的ISO-8859-1參考


在HTML5:Unicode的UTF-8

由於上面列出的字符集是有限的,在多語言環境不兼容,Unicode協會開發了Unicode標準。

Unicode標準蓋(幾乎)所有的字符,標點符號,和世界的符號。

Unicode能實現處理,存儲和文字的運輸,獨立於平台和語言。

在HTML5默認的字符編碼是UTF-8。

仔細看看,請學習我們完整的Unicode參考