Fórum | tutoriais mais recente desenvolvimento web
 

Conjuntos de caracteres HTML


Para exibir uma página HTML corretamente, o navegador deve saber o conjunto de caracteres (codificação de caracteres) para usar.


Conjuntos de caracteres HTML

Qual é a codificação de caracteres correta para usar em HTML?

Para HTML5, a codificação de caracteres padrão é UTF-8.

Isso nem sempre tem sido o caso. A codificação de caracteres para o início da web foi ASCII.

Mais tarde, a partir de HTML 2.0 para HTML 4.01, ISO-8859-1 foi considerado o padrão.

Com XML e HTML5, UTF-8 chegou finalmente, e resolveu uma série de problemas de codificação de caracteres.

Abaixo está uma breve descrição dos padrões de codificação de caracteres.


In the Beginning: ASCII

Informações sobre o computador (números, textos e fotos) é armazenado como binário uns e zero (01000101) na eletrônica.

Para padronizar o armazenamento de caracteres alfanuméricos, a American Standard Code para Information Interchange (ASCII) foi criado. É definido um número de 7 bits binários único para cada personagem armazenável para apoiar os números 0-9, a maiúsculas / minúsculas alfabeto Inglês (az, AZ), e alguns caracteres especiais como! $ + - () @ <>.

Desde ASCII usado um byte (7 bits para o personagem, e um dos bits para o controle de paridade de transmissão), ele só poderia representar 128 caracteres diferentes. Além disso 32 desses personagens foram reservados para outros fins de controlo.

A maior fraqueza com ASCII foi que ele excluídos letras não inglesas.

ASCII ainda está em uso difundido hoje, especialmente em sistemas de computação de mainframe grandes.

Para um olhar mais atento, por favor estudar a nossa completa ASCII Referência .


No Windows: ANSI

ANSI (também chamado de Windows-1252) foi o conjunto de caracteres padrão no Windows, até o Windows 95.

ANSI é uma extensão para ASCII, com caracteres internacionais adicionais. Ele usa um byte inteiro (8 bits) para representar 256 caracteres diferentes.

Desde ANSI tem sido o conjunto de caracteres padrão no Windows, ele é suportado por todos os navegadores.

Para um olhar mais atento, por favor estudar a nossa completa ANSI Referência .


Em HTML 4: ISO-8859-1

Como a maioria dos países usam caracteres fora ASCII, a codificação de caracteres padrão no padrão HTML 2.0 foi alterada para ISO-8859-1.

ISO-8859-1 é uma extensão para ASCII, com caracteres internacionais adicionais. Como ANSI, ele usa um byte inteiro para representar o dobro de caracteres do que ASCII.

Nota Quando os navegadores detectar ISO-8859-1 em uma página da web, que normalmente padrão para ANSI, porque ANSI é idêntica à ISO-8859-1, exceto que ANSI tem 32 caracteres extras.

Se uma página web HTML 4 usa um caractere-conjunto diferente de ISO-8859-1, deve ser especificado na tag <meta> como:

Exemplo

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

Nota

O conjunto de caracteres padrão para HTML5 é UTF-8.
Todos os HTML 4 processadores suportam UTF-8, e todos os processadores HTML5 e XML apoiar tanto UTF-8 e UTF-16.

Para um olhar mais atento, por favor estudar a nossa referência ISO-8859-1 completa .


Em HTML5: Unicode UTF-8

Porque os conjuntos de caracteres listados acima são limitados e não é compatível em ambientes multilingues, o Consórcio Unicode desenvolveu o padrão Unicode.

As tampas Unicode Standard (quase) todos os personagens, pontuação e símbolos do mundo.

Unicode permite o processamento, armazenamento e transporte de texto, independente de plataforma e linguagem.

A codificação de caracteres padrão no HTML5 é UTF-8.

Para um olhar mais atento, por favor estudar a nossa completa Unicode Referência .