Fórum | tutoriais mais recente desenvolvimento web
 

HTML Unicode (UTF-8) Referencia


O Consórcio Unicode

O Consórcio Unicode desenvolve o padrão Unicode. Seu objetivo é substituir os conjuntos de caracteres existentes com o seu formato Unicode Transformation padrão (UTF).

O Unicode Standard tornou-se um sucesso e é implementado em HTML, XML, Java, JavaScript, E-mail, ASP, PHP, etc. O padrão Unicode também é suportado em muitos sistemas operacionais e todos os navegadores modernos.

O Consórcio Unicode coopera com as organizações de desenvolvimento de padrões de liderança, como ISO, W3C e ECMA.


Os conjuntos de caracteres Unicode

Unicode pode ser implementado por diferentes conjuntos de caracteres. As codificações mais usadas são UTF-8 e UTF-16:

Character-set Description
UTF-8 A character in UTF8 can be from 1 to 4 bytes long. UTF-8 can represent any character in the Unicode standard. UTF-8 is backwards compatible with ASCII. UTF-8 is the preferred encoding for e-mail and web pages
UTF-16 16-bit Unicode Transformation Format is a variable-length character encoding for Unicode, capable of encoding the entire Unicode repertoire. UTF-16 is used in major operating systems and environments, like Microsoft Windows, Java and .NET.

Dica: Os primeiros 128 caracteres do Unicode (que correspondem um-para-um com ASCII) são codificados usando um único octeto com o mesmo valor binário como ASCII, tornando o texto ASCII válido válido UTF-8-codificado Unicode também.

Nota HTML 4 suporta UTF-8. HTML 5 suporta tanto UTF-8 e UTF-16!


O HTML5 Standard: Unicode UTF-8

Porque os conjuntos de caracteres em ISO-8859 foi limitado em tamanho, e não compatíveis em ambientes multilingues, o Consórcio Unicode desenvolveu o padrão Unicode.

As tampas Unicode Standard (quase) todos os personagens, pontuação e símbolos do mundo.

Unicode permite o processamento, armazenamento e transporte de texto independente de plataforma e linguagem.

A codificação de caracteres padrão no HTML-5 é UTF-8.

Se uma página web HTML5 usa um conjunto de caracteres diferente de UTF-8, deve ser especificado na tag <meta> como:

Exemplo

<meta charset="ISO-8859-1">

A diferença entre Unicode e UTF-8

Unicode é um conjunto de caracteres. UTF-8 é a codificação.

Unicode é uma lista de caracteres com números decimais únicos (pontos de código). A = 41, B = 42, C = 43, ....

Esta lista de números decimais representam a string "Olá": 104 101 108 108 111

A codificação é como esses números são traduzidos em números binários sejam armazenados em um computador:

UTF-8 irá armazenar "Olá" como este (binário): 01101000 01100101 01101100 01101100 01101111

Nota Encoding traduz números em binário. Os conjuntos de caracteres converte caracteres em números.


UTF-8 Códigos de caracteres HTML5

Abaixo está uma lista de alguns dos UTF-8 códigos de caracteres suportados pelo HTML5:

Character codes Decimal Hexadecimal
C0 Controls and Basic Latin 0-127 0000-007F
C1 Controls and Latin-1 Supplement 128-255 0080-00FF
Latin Extended-A 256-383 0100-017F
Latin Extended-B 384-591 0180-024F
Spacing Modifiers 688-767 02B0-02FF
Diacritical Marks 768-879 0300-036F
Greek and Coptic 880-1023 0370-03FF
Cyrillic Basic 1024-1279 0400-04FF
Cyrillic Supplement 1280-1327 0500-052F
General Punctuation 8192-8303 2000-206F
Currency Symbols 8352-8399 20A0-20CF
Letterlike Symbols 8448-8527 2100-214F
Arrows 8592-8703 2190-21FF
Mathematical Operators 8704-8959 2200-22FF
Box Drawings 9472-9599 2500-257F
Block Elements 9600-9631 2580-259F
Geometric Shapes 9632-9727 25A0-25FF
Miscellaneous Symbols 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF