Forum | Gli ultimi tutorial di sviluppo web
 

HTML Unicode (UTF-8) di riferimento


Il Consorzio Unicode

Il Consorzio Unicode sviluppa lo standard Unicode.Their goal is to replace the existing character sets with its standard Unicode Transformation Format (UTF). Il loro obiettivo è quello di sostituire i set di caratteri esistenti con il suo formato Unicode standard di trasformazione (UTF).

Lo standard Unicode è diventato un successo e viene implementato in HTML, XML, Java, JavaScript, e-mail, ASP, PHP, ecc Lo standard Unicode è supportato anche in molti sistemi operativi e tutti i browser moderni.

Il Consorzio Unicode collabora con le principali organizzazioni di sviluppo standard, come ISO, W3C, e ECMA.


Il set di caratteri Unicode

Unicode può essere implementata da diversi set di caratteri.The most commonly used encodings are UTF-8 and UTF-16: Le codifiche più comunemente usati sono UTF-8 e UTF-16:

Character-set Description
UTF-8 A character in UTF8 can be from 1 to 4 bytes long. UTF-8 can represent any character in the Unicode standard. UTF-8 is backwards compatible with ASCII. UTF-8 is the preferred encoding for e-mail and web pages
UTF-16 16-bit Unicode Transformation Format is a variable-length character encoding for Unicode, capable of encoding the entire Unicode repertoire. UTF-16 is used in major operating systems and environments, like Microsoft Windows, Java and .NET.

Suggerimento:I primi 128 caratteri di Unicode (che corrispondono uno-a-uno con ASCII) sono codificati utilizzando un singolo ottetto con lo stesso valore binario come ASCII, rendendo testo ASCII valido valido UTF-8-codificato Unicode pure.

NotaHTML 4 supporta UTF-8.HTML 5 supports both UTF-8 and UTF-16! HTML 5 supporta sia UTF-8 e UTF-16!


L'HTML5 standard: Unicode UTF-8

Poiché i set di caratteri a ISO-8859 è stato limitato in termini di dimensioni, e non è compatibile in ambienti multilingue, Unicode Consortium ha sviluppato lo standard Unicode.

Le coperture Unicode standard (quasi) tutti i personaggi, punteggiatura e simboli del mondo.

Unicode permette lavorazione, lo stoccaggio e il trasporto di testo indipendente dalla piattaforma e del linguaggio.

La codifica dei caratteri di default in HTML-5 è UTF-8.

Se una pagina web HTML5 utilizza un set di caratteri diverso da UTF-8, si dovrebbe specificare nel tag <meta> come:

Esempio

<meta charset="ISO-8859-1">

La differenza tra Unicode e UTF-8

Unicode è un set di caratteri.UTF-8 is encoding . UTF-8 è la codifica.

Unicode è un elenco di caratteri con i numeri decimali unici (punti di codice).A = 41, B = 42, C = 43, .... A = 41, B = 42, C = 43, ....

Questo elenco di numeri decimali rappresentano la stringa "ciao": 104 101 108 108 111

La codifica è come questi numeri si traducono in numeri binari per essere immagazzinati in un computer:

Codifica UTF-8 memorizzerà "ciao" come questo (binario): 01.101.000 01100101 01101100 01101100 01.101.111

NotaCodifica traduce in numeri binari. Set di caratteri per tradurre i caratteri di numeri.


HTML5 UTF-8 codici di carattere

Di seguito è riportato un elenco di alcuni dei caratteri UTF-8 codici di caratteri supportati da HTML5:

Character codes Decimal Hexadecimal
C0 Controls and Basic Latin 0-127 0000-007F
C1 Controls and Latin-1 Supplement 128-255 0080-00FF
Latin Extended-A 256-383 0100-017F
Latin Extended-B 384-591 0180-024F
Spacing Modifiers 688-767 02B0-02FF
Diacritical Marks 768-879 0300-036F
Greek and Coptic 880-1023 0370-03FF
Cyrillic Basic 1024-1279 0400-04FF
Cyrillic Supplement 1280-1327 0500-052F
General Punctuation 8192-8303 2000-206F
Currency Symbols 8352-8399 20A0-20CF
Letterlike Symbols 8448-8527 2100-214F
Arrows 8592-8703 2190-21FF
Mathematical Operators 8704-8959 2200-22FF
Box Drawings 9472-9599 2500-257F
Block Elements 9600-9631 2580-259F
Geometric Shapes 9632-9727 25A0-25FF
Miscellaneous Symbols 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF