Aller au contenu

Encodage UTF-8

Le format de transformation Unicode sur 8 bits, appelé UTF-8, est un encodage de caractères à largeur variable capable de coder les 1 114 112 points de code valides d'Unicode en un à quatre octets de 8 bits. Le chiffre « 8 » signifie que des blocs de 8 bits sont utilisés par UTF pour représenter un caractère.

Depuis 2009, UTF-8 est l'encodage de référence pour le World Wide Web.

Pour les caractères égaux ou inférieurs à 127 (hex 0x7F), la représentation UTF-8 tient sur un seul octet. Cela est similaire à la valeur ASCII.

Pour tout caractère égal ou inférieur à 2047 (hex 0x07FF), la représentation UTF-8 s'étend sur deux octets.

Pour tout caractère supérieur ou égal à 2048 mais inférieur à 65535 (0xFFFF), la représentation UTF-8 s'étend sur trois octets.

Pour tout caractère supérieur ou égal à 65536 (0x10000) jusqu'au point de code Unicode maximum (0x10FFFF), la représentation UTF-8 s'étend sur quatre octets.

La liste ci-dessous présente quelques codes de caractères UTF-8 pris en charge par HTML5 :

Codes de caractèresDécimalHexadécimal
Contrôles C0 et Latin de base0-1270000-007F
Contrôles C1 et Supplément Latin-1128-2550080-00FF
Latin étendu-A256-3830100-017F
Latin étendu-B384-5910180-024F
Modificateurs d'espacement688-76702B0-02FF
Signes diacritiques768-8790300-036F
Grec et copte880-10230370-03FF
Cyrillique de base1024-12790400-04FF
Supplément cyrillique1280-13270500-052F
Ponctuation générale8192-83032000-206F
Symboles monétaires8352-839920A0-20CF
Symboles de type lettrine8448-85272100-214F
Flèches8592-87032190-21FF
Opérateurs mathématiques8704-89592200-22FF
Dessins de boîtes9472-95992500-257F
Éléments de bloc9600-96312580-259F
Formes géométriques9632-972725A0-25FF
Symboles divers9728-99832600-26FF
Dingbats9984-101752700-27BF

Pratique

Quel est l'objectif de l'Unicode dans HTML, selon le contenu de w3docs.com ?

Trouvez-vous cela utile?

Aperçu dual-run — comparez avec les routes Symfony en production.