Forum | Najnowsze tutoriale tworzenie stron internetowych
 

HTML Unicode (UTF-8) Referencje


Konsorcjum Unicode

Konsorcjum Unicode rozwija standard Unicode. Ich celem jest zastąpienie istniejących zestawów znaków z jego standardowego formatu transformacji Unicode (UTF).

Standard Unicode stał się sukcesem i jest realizowany w HTML, XML, Java, JavaScript, E-mail, ASP, PHP itp standard Unicode jest również wspierany w wielu systemach operacyjnych i wszystkich nowoczesnych przeglądarkach.

Konsorcjum Unicode współpracuje z czołowymi organizacjami rozwoju norm, takich jak ISO, W3C i ECMA.


Zestawy znaków Unicode

Unicode mogą być realizowane za pomocą różnych zestawów znaków. Najczęściej stosowane są kodowania UTF-8 i UTF-16:

Character-set Description
UTF-8 A character in UTF8 can be from 1 to 4 bytes long. UTF-8 can represent any character in the Unicode standard. UTF-8 is backwards compatible with ASCII. UTF-8 is the preferred encoding for e-mail and web pages
UTF-16 16-bit Unicode Transformation Format is a variable-length character encoding for Unicode, capable of encoding the entire Unicode repertoire. UTF-16 is used in major operating systems and environments, like Microsoft Windows, Java and .NET.

Wskazówka: Pierwsze 128 znaków Unicode (które odpowiadają jeden na jeden z ASCII) są kodowane za pomocą jednego oktetu o tej samej wartości binarnej jako ASCII, dzięki czemu ważne ASCII ważne UTF-8 zakodowany Unicode, jak również.

Uwaga HTML 4 obsługuje UTF-8. HTML 5 obsługuje UTF-8 i UTF-16!


HTML5 standard: Unicode UTF-8

Ponieważ zestawy znaków w ISO-8859 został ograniczony rozmiar, a nie jest kompatybilny w środowiskach wielojęzycznych Konsorcjum Unicode opracowany standard Unicode.

Pokrywy Standardowe Unicode (prawie) wszystkie znaki, znaki przestankowe i symbole świata.

Unicode umożliwia przetwarzanie, przechowywanie i transport niezależnych tekstu platformy i języka.

Domyślne kodowanie znaków w HTML-5 jest UTF-8.

Jeśli strona HTML5 używa innego zestawu znaków niż UTF-8, powinien być określony w tagu <meta> takich jak:

Przykład

<meta charset="ISO-8859-1">

Różnica między Unicode i UTF-8

Unicode jest zestaw znaków. UTF-8 jest kodowaniem.

Unicode jest lista postaci z unikalnymi liczb dziesiętnych (punkty kodowe). A = 41, B = 42, C = 43, ....

Ta lista liczb po przecinku stanowią ciąg "Hello": 104 101 108 108 111

Kodowanie jest to, jak te liczby są przeliczane na liczb binarnych być przechowywane w komputerze:

Kodowanie UTF-8 będzie przechowywać "cześć" tak (binarne): 01101000 01100101 01101100 01101100 01101111

Uwaga Kodowanie przekłada liczby na binarny. Zestawy znaków przekłada znaki liczb.


HTML5 UTF-8 kody znaków

Poniżej znajduje się lista niektórych z UTF-8 kodów znaków obsługiwanych przez HTML5:

Character codes Decimal Hexadecimal
C0 Controls and Basic Latin 0-127 0000-007F
C1 Controls and Latin-1 Supplement 128-255 0080-00FF
Latin Extended-A 256-383 0100-017F
Latin Extended-B 384-591 0180-024F
Spacing Modifiers 688-767 02B0-02FF
Diacritical Marks 768-879 0300-036F
Greek and Coptic 880-1023 0370-03FF
Cyrillic Basic 1024-1279 0400-04FF
Cyrillic Supplement 1280-1327 0500-052F
General Punctuation 8192-8303 2000-206F
Currency Symbols 8352-8399 20A0-20CF
Letterlike Symbols 8448-8527 2100-214F
Arrows 8592-8703 2190-21FF
Mathematical Operators 8704-8959 2200-22FF
Box Drawings 9472-9599 2500-257F
Block Elements 9600-9631 2580-259F
Geometric Shapes 9632-9727 25A0-25FF
Miscellaneous Symbols 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF