Encodage HTML
Un navigateur doit savoir quels jeux de caractères (encodage de caractères) utiliser. Il est nécessaire d'afficher la page HTML correctement.
UTF-8 est le caractère initial de l’encodage pour HTML5. Cependant, c'était autrefois. ASCII était le jeu de caractère le précédant. Et le ISO-8859-1 était le jeu de caractères initial de HTML 2.0 à HTML 4.01.
Mais il restait des problèmes d’encodage et quand UTF-8 est arrivé avec HTML5 et XML, de nombreux problèmes ont été résolus.
Voyons plus de détailles sur les jeux de caractères.
ASCII
ASCII était le premier standard de codage de caractères (également appelé jeu de caractères).
En réalité, il est abrégé de American Standard Code for Information Interchange (Code American Standard pour l'échange d'informations). Il est basé à l'origine sur l'alphabet anglais et code 128 caractères en un nombre entier binaire de 7 bits, car il est connu que toutes les informations de l'ordinateur sont enregistrées sous forme de valeurs binaires et de zéros (01000101) dans l'électronique.
Vous pouvez voir un graphique ASCII ci-dessus.
Le plus gros problème pour ASCII est qu’il n’a pas de lettres non anglaises. Il est encore couramment utilisé, en particulier dans les ordinateurs centraux.
ANSI
ANSI, également appelé Windows-1252, était le jeu de caractères initial pour Windows jusqu'à Windows 95. Il s'agit d'une extension pour ASCII qui ajoute des caractères internationaux. Il supportait 256 caractères en utilisant un octet complet (8 bits).
La norme ANSI était prise en charge par tous les navigateurs puisqu'elle avait été annoncée comme le jeu de caractères initial de Windows.
ISO-8859-1
ISO-8859-1 est devenu l'encodage de caractères initial dans HTML 2.0, car la plupart des pays utilisent des caractères différents de l'ASCII. C'est également une extension de l'ASCII, tout comme ANSI, qui ajoute des caractères internationaux. ISO-885-1 utilise également un octet complet pour afficher deux fois plus de caractères que ASCII.
En savoir plus sur ISO-8859-1.
Si une page HTML4 utilise un codage de caractères différent de l'ISO-8859-1, il doit être défini dans la balise <meta>.
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">
Unicode UTF-8
UTF-8 est le codage de caractères par défaut pour HTML5.
Les jeux de caractères mentionnés ci-dessus étant limités, le consortium Unicode a développé une norme Unicode.
Cette norme Unicode contient presque tous les caractères, signes de ponctuation et symboles utilisés dans le monde.
En HTML, l'attribut charset sert à ajouter un codage de caractères.
<meta charset="UTF-8">