Encodage UTF-8
Le format de transformation Unicode sur 8 bits, appelé UTF-8, est un encodage de caractères à largeur variable capable de coder les 1 114 112 points de code valides d'Unicode en un à quatre octets de 8 bits. Le chiffre « 8 » signifie que des blocs de 8 bits sont utilisés par UTF pour représenter un caractère.
Depuis 2009, UTF-8 est l'encodage de référence pour le World Wide Web.
Pour les caractères égaux ou inférieurs à 127 (hex 0x7F), la représentation UTF-8 tient sur un seul octet. Cela est similaire à la valeur ASCII.
Pour tout caractère égal ou inférieur à 2047 (hex 0x07FF), la représentation UTF-8 s'étend sur deux octets.
Pour tout caractère supérieur ou égal à 2048 mais inférieur à 65535 (0xFFFF), la représentation UTF-8 s'étend sur trois octets.
Pour tout caractère supérieur ou égal à 65536 (0x10000) jusqu'au point de code Unicode maximum (0x10FFFF), la représentation UTF-8 s'étend sur quatre octets.
La liste ci-dessous présente quelques codes de caractères UTF-8 pris en charge par HTML5 :
| Codes de caractères | Décimal | Hexadécimal |
|---|---|---|
| Contrôles C0 et Latin de base | 0-127 | 0000-007F |
| Contrôles C1 et Supplément Latin-1 | 128-255 | 0080-00FF |
| Latin étendu-A | 256-383 | 0100-017F |
| Latin étendu-B | 384-591 | 0180-024F |
| Modificateurs d'espacement | 688-767 | 02B0-02FF |
| Signes diacritiques | 768-879 | 0300-036F |
| Grec et copte | 880-1023 | 0370-03FF |
| Cyrillique de base | 1024-1279 | 0400-04FF |
| Supplément cyrillique | 1280-1327 | 0500-052F |
| Ponctuation générale | 8192-8303 | 2000-206F |
| Symboles monétaires | 8352-8399 | 20A0-20CF |
| Symboles de type lettrine | 8448-8527 | 2100-214F |
| Flèches | 8592-8703 | 2190-21FF |
| Opérateurs mathématiques | 8704-8959 | 2200-22FF |
| Dessins de boîtes | 9472-9599 | 2500-257F |
| Éléments de bloc | 9600-9631 | 2580-259F |
| Formes géométriques | 9632-9727 | 25A0-25FF |
| Symboles divers | 9728-9983 | 2600-26FF |
| Dingbats | 9984-10175 | 2700-27BF |
Pratique
Quel est l'objectif de l'Unicode dans HTML, selon le contenu de w3docs.com ?