Foro | Los últimos tutoriales de desarrollo web
 

Conjuntos de caracteres HTML


Para visualizar una página HTML correctamente, el navegador debe saber qué juego de caracteres (codificación de caracteres) para su uso.


Conjuntos de caracteres HTML

¿Cuál es la codificación de caracteres correcta para utilizar en HTML?

Para HTML5, la codificación de caracteres por defecto es UTF-8.

Esto no siempre ha sido el caso.The character encoding for the early web was ASCII. La codificación de caracteres para la web temprano era ASCII.

Más tarde, a partir de HTML 2.0 a la versión 4.01, ISO-8859-1 se considera el estándar.

Con XML y HTML 5, UTF-8, finalmente llegaron, y resuelto muchos problemas de codificación de caracteres.

A continuación se muestra una breve descripción de los estándares de codificación de caracteres.


En el Principio: ASCII

Información del equipo (números, textos, e imágenes) se almacena en forma de unos y ceros binarios (01000101) en la electrónica.

Para estandarizar el almacenamiento de caracteres alfanuméricos, se creó el Código Estándar Americano para Intercambio de Información (ASCII).It defined a unique binary 7-bits number for each storable character to support the numbers from 0-9, the upper/lower case English alphabet (az, AZ), and some special characters like ! Se define un número de 7 bits binarios único para cada carácter almacenable para apoyar a los números del 0-9, el mayúsculas / minúsculas del alfabeto Inglés (az, AZ), y algunos caracteres especiales como!$ + - () @ <>.

Desde ASCII utiliza un byte (7 bits para el carácter, y uno de bit para el control de paridad de transmisión), sólo podría representar 128 caracteres diferentes.In addition 32 of these characters were reserved for other control purposes. Además de estos 32 personajes estaban reservados para otros fines de control.

La mayor debilidad con ASCII fue que excluye las letras no ingleses.

ASCII se encuentra todavía en uso generalizado hoy en día, sobre todo en los sistemas de computadora central de gran tamaño.

Para una mirada más cercana, por favor estudiar nuestra Referencia completa de ASCII .


En Windows: ANSI

ANSI (también llamado Windows-1252) fue el juego de caracteres predeterminado en Windows, hasta Windows 95.

ANSI es una extensión a ASCII, con caracteres internacionales añadidas.It uses a full byte (8-bits) to represent 256 different characters. Se utiliza un byte completo (8 bits) para representar 256 caracteres diferentes.

Desde ANSI ha sido el juego de caracteres predeterminado en Windows, que es compatible con todos los navegadores.

Para una mirada más cercana, por favor estudiar nuestra completa ANSI referencia .


En HTML 4: ISO-8859-1

Como la mayoría de los países utilizan caracteres ASCII fuera, la codificación de caracteres por defecto en el estándar HTML 2.0 fue cambiado a la norma ISO-8859-1.

ISO-8859-1 es una extensión a ASCII, con caracteres internacionales añadidas.Like ANSI, it uses a full byte to represent twice as many characters than ASCII. Como ANSI, que utiliza un byte completo para representar el doble de caracteres que ASCII.

NotaCuando los navegadores detectan ISO-8859-1 en una página web, normalmente por defecto a ANSI, ANSI, porque es idéntica a la norma ISO-8859-1 ANSI excepto que tiene 32 caracteres adicionales.

Si una página web HTML 4 utiliza un juego de caracteres de la norma ISO-8859-1 diferente, se debe especificar en la etiqueta <meta> como:

Ejemplo

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

Nota

El juego de caracteres predeterminado para HTML5 es UTF-8.
Todos los HTML 4 procesadores son compatibles con UTF-8, y todos los procesadores de HTML5 y XML soportan tanto UTF-8 y UTF-16.

Para una mirada más cercana, por favor estudiar nuestra Referencia completa de la norma ISO-8859-1 .


En HTML5: Unicode UTF-8

Debido a que los juegos de caracteres enumerados anteriormente son limitados, y no es compatible en entornos multilingües, el Consorcio Unicode desarrolló el estándar Unicode.

Las cubiertas estándar Unicode (casi) todos los caracteres, signos de puntuación y símbolos que existen.

Unicode permite el procesamiento, almacenamiento y transporte de texto, independiente de la plataforma y lenguaje.

La codificación de caracteres por defecto en HTML5 es UTF-8.

Para una mirada más cercana, por favor estudiar nuestra completa Unicode de referencia .