Forum | Gli ultimi tutorial di sviluppo web
 

Set di caratteri HTML


Per visualizzare una pagina HTML in modo corretto, il browser deve sapere cosa set di caratteri (character encoding) da utilizzare.


Set di caratteri HTML

Qual è la codifica dei caratteri corretta da utilizzare in HTML?

Per HTML5, la codifica dei caratteri di default è UTF-8.

Questo non è sempre stato così.The character encoding for the early web was ASCII. La codifica dei caratteri per i primi web era ASCII.

Più tardi, da HTML 2.0 a HTML 4.01, ISO-8859-1 è stato considerato lo standard.

Con XML e HTML5, UTF-8 finalmente arrivato, e risolto un sacco di problemi di codifica dei caratteri.

Di seguito una breve descrizione degli standard di codifica dei caratteri.


In the Beginning: ASCII

informazioni sul computer (numeri, testi e immagini) viene memorizzato come uno binario e zero (01000101) nei dell'elettronica.

Per uniformare la memorizzazione di caratteri alfanumerici, il codice standard americano per Information Interchange (ASCII) è stato creato.It defined a unique binary 7-bits number for each storable character to support the numbers from 0-9, the upper/lower case English alphabet (az, AZ), and some special characters like ! E 'definito un numero di 7 bit binario unico per ogni carattere conservabile per supportare i numeri da 0-9, il / minuscole superiore alfabeto inglese (az, AZ), e alcuni caratteri speciali come!$ + - () @ <>.

Dal momento che ASCII utilizzato un byte (7 bit per il personaggio, e uno dei bit per il controllo di parità di trasmissione), potrebbe rappresentare solo 128 caratteri diversi.In addition 32 of these characters were reserved for other control purposes. Oltre 32 di questi personaggi erano riservati per altri scopi di controllo.

La più grande debolezza con ASCII è che escludeva le lettere non inglesi.

ASCII è ancora in uso oggi largamente diffuso, soprattutto nelle grandi sistemi di computer mainframe.

Per uno sguardo più attento, si prega di studiare la nostra completa ASCII di riferimento .


In Windows: ANSI

ANSI (chiamato anche Windows 1252) è stato il set di caratteri in Windows, fino a Windows 95.

ANSI è un'estensione di ASCII, con caratteri internazionali aggiunti.It uses a full byte (8-bits) to represent 256 different characters. Esso utilizza un byte completo (8-bit) per rappresentare 256 caratteri diversi.

Dal ANSI è stato il set di caratteri predefinito in Windows, è supportato da tutti i browser.

Per uno sguardo più attento, si prega di studiare la nostra completa ANSI di riferimento .


In HTML 4: ISO-8859-1

Poiché la maggior parte dei paesi usano caratteri ASCII al di fuori, la codifica dei caratteri di default nello standard HTML 2.0 è stato cambiato a ISO-8859-1.

ISO-8859-1 è un'estensione di ASCII, con caratteri internazionali aggiunti.Like ANSI, it uses a full byte to represent twice as many characters than ASCII. Come ANSI, utilizza un byte completo per rappresentare doppio dei caratteri di ASCII.

NotaQuando i browser rilevano ISO-8859-1 in una pagina web, che normalmente di default per ANSI, ANSI perché è identico a ISO-8859-1, tranne che ANSI ha 32 caratteri extra.

Se una pagina web HTML 4 utilizza un diverso set di caratteri di ISO-8859-1, deve essere specificato nel tag <meta> come:

Esempio

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

Nota

Il set di caratteri predefinito per HTML5 è UTF-8.
Tutti i 4 processori HTML supporto UTF-8, e tutti i processori HTML5 e XML supportano sia UTF-8 e UTF-16.

Per uno sguardo più attento, si prega di studiare la nostra completa riferimento ISO-8859-1 .


In HTML5: Unicode UTF-8

Poiché i set di caratteri di cui sopra sono limitati, e non è compatibile in ambienti multilingue, Unicode Consortium ha sviluppato lo standard Unicode.

Le coperture Unicode standard (quasi) tutti i personaggi, punteggiatura e simboli del mondo.

Unicode permette lavorazione, lo stoccaggio e il trasporto di testo, indipendente dalla piattaforma e del linguaggio.

La codifica dei caratteri di default in HTML5 è UTF-8.

Per uno sguardo più attento, si prega di studiare la nostra completa Unicode di riferimento .