Aller au contenu

Jeux de caractères HTML

Le navigateur doit savoir quel jeu de caractères (encodage de caractères) utiliser. C’est nécessaire pour afficher correctement une page HTML.

UTF-8 est l’encodage de caractères par défaut pour HTML5. Cependant, cela n’a pas toujours été le cas. ASCII était le jeu de caractères auparavant. Et ISO-8859-1 était le jeu de caractères par défaut de HTML 2.0 à HTML 4.01.

Cependant, il y avait encore des problèmes d’encodage, et lorsque UTF-8 est apparu avec HTML5 et XML, de nombreux problèmes ont été résolus.

Voyons plus en détail les jeux de caractères.

ASCII

ASCII était la première norme d’encodage de caractères, également appelée jeu de caractères. C’est l’abréviation de American Standard Code for Information Interchange.

Pour chaque caractère stockable, ASCII définissait un nombre binaire unique afin de prendre en charge les lettres minuscules et majuscules (a-z, A-Z), les chiffres de 0 à 9 et les caractères spéciaux. Il est à l’origine basé sur l’alphabet anglais et encode 128 caractères dans un entier binaire de 7 bits. Cela fonctionne parce que toutes les informations informatiques sont enregistrées sous forme de 1 et de 0 binaires (01000101) en électronique.

Ci-dessous, vous pouvez voir un tableau ASCII.

html-ascii-character-set

Le plus gros problème d’ASCII est qu’il ne contenait pas de lettres non anglaises. Il est toujours utilisé, en particulier dans les ordinateurs centraux.

Click here to see more about ASCII.

ANSI

ANSI, également appelé Windows-1252, était le jeu de caractères par défaut de Windows jusqu’à Windows 95. C’est une extension d’ASCII, qui ajoute des caractères internationaux. Il prenait en charge 256 caractères à l’aide d’un octet complet (8 bits).

ANSI était pris en charge par tous les navigateurs puisqu’il a été annoncé comme jeu de caractères par défaut de Windows.

ISO-8859-1

ISO-8859-1 est devenu l’encodage de caractères par défaut dans HTML 2.0, car la plupart des pays utilisent des caractères différents de ceux d’ASCII. C’est aussi une extension d’ASCII, tout comme ANSI, et elle ajoute des caractères internationaux. ISO-8859-1 utilise également un octet complet pour représenter deux fois plus de caractères qu’ASCII.

Click here to see more about ISO-8859-1.

Jeux de caractères HTML 4

html
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1" />

Si une page HTML 4 utilise un encodage de caractères différent de ISO-8859-1, il doit être défini dans la balise <meta>.

Jeux de caractères HTML 4

html
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8" />

Tous les processeurs HTML 4 prennent en charge UTF-8.

Jeux de caractères HTML 5

html
<meta charset="UTF-8" />

Placez cette balise aussi tôt que possible à l’intérieur de l’élément <head> afin de garantir que le navigateur lise correctement l’encodage.

Unicode UTF-8

UTF-8 est l’encodage de caractères par défaut pour HTML5.

Comme les jeux de caractères mentionnés ci-dessus sont limités, le Consortium Unicode a développé une norme Unicode.

Cette norme Unicode contient presque tous les caractères, signes de ponctuation et symboles utilisés dans le monde.

En HTML, l’attribut charset spécifie l’encodage de caractères.

TIP

Tous les processeurs HTML5 prennent en charge UTF-8. Notez que les processeurs XML exigent strictement UTF-8 ou UTF-16.

Practice

What is true about HTML character sets?

Trouvez-vous cela utile?

Aperçu dual-run — comparez avec les routes Symfony en production.