Caractères ASCII, ISO8859-1, Unicode, UT-8



Faite une recherche
par mot clé sur cette page




Faite une recherche par mot clé
sur toutes les pages de mon site

PicoSearch
Recherche effectuée par PicoSearch. Aide





Introduction
ISO8859-1
ASCII
Unicode
UT-8

Introduction

L'ASCII définit 128 caractères, codés en binaire de 0000000 à 1111111. 7 bits suffisent donc à représenter un caractère ASCII. Toutefois, les ordinateurs travaillant sur des octets de 8 bits, chaque caractère d'un texte en ASCII est stocké dans un octet dont le 8e bit est 0.

Les caractères de 0 à 31 ainsi que le 127 ne sont pas affichables, et correspondent à des directives de terminal. Le caractère 32 est l'espace blanc. Les autres correspondent aux chiffres, aux lettres majuscules et minuscules et à quelques symboles de ponctuation.

Beaucoup de pages de codes étendent l'ASCII en utilisant le 8e bit pour définir des caractères numérotés de 128 à 255. La norme ISO 8859 fournit des extensions pour diverses langues. Par exemple, l'ISO 8859-1, appelée aussi Latin-1, étend l'ASCII avec les caractères accentués utiles aux langues d'Europe occidentale comme le français.

Afin d'unifier les différents codages de caractères complétant l'ASCII et y intégrer les codages complètement différents (le JIS pour le japonais par exemple), d'autres normes ont été créées : l'Unicode et l'ISO 10646. Le codage UTF-8 de l'Unicode est une extension d'ASCII utilisant le 8e bit.

La limite de l'octet


Là où l'ASCII utilisait jadis 7 bits et le latin-1, ou ISO 8859-1, 8 bits (comme l'ISO 8859-15 et la plupart des pages de codes nationales), Unicode, qui rassemble les caractères de chaque page de code, avait besoin d'utiliser plus que les 8 bits d'un octet. La limite fut dans un premier temps fixée à 16 bits puis est désormais placée entre 20 et 21 bits par caractère.



UTF-8

L'UTF-8, spécifié dans le RFC 2279, est le plus commun pour les applications Internet. Son codage de taille variable lui permet d'être en moyenne moins coûteux en occupation mémoire, mais ralentit nettement les opérations où interviennent des extractions de sous-chaînes. L'UTF-8 assure aussi une compatibilité avec les manipulations simples de chaînes en ASCII ou latin-1 dans les langages de programmation. UTF-8 est donc compatible avec les anciens programmes. En UTF-8, par exemple, le « é » est codé « é », et « Gaïa » est une chaîne de quatre caractères (Gaïa). Il faut noter que dans son cas, à la différence de codes de tailles fixes sur octet ou double octet, il est impossible d'extraire une sous-chaîne par accès direct : il faut la parcourir depuis le début pour savoir où commence la lettre à extraire, ce qui peut être très pénalisant même sur une machine rapide.


Source :
Wikipedia

Norme ISO 8859-1

A quoi sert-elle ?
Les normes ISO servent à codifier les caractères avec accents ou symboles pour qu'ils soient lisibles partout dans le monde. Si nous ne le faisons pas il est probable qu'ils apparaissent avec des symboles illisibles pour quelqu'un qui voudrait les consulter dans un pays n'utilisant pas notre norme.

La norme internationale comprend les caractères suivants, qui sont lus par tous les ordinateurs :

!"#$%&'()*+,-./
0123456789
:;<=>?@
ABCDEFGHIJKLMNOPQRSTUVWXYZ
[\]^_`
abcdefghijklmnopqrstuvwxyz
{|}~

Tous les autres doivent être codifiés.

Le code ASCII étendue sur 8 bits
Vici quelques définitions qui devraient nous faire comprendre comment tout cela fonctionne :

ASCII : (American Standard Code for Information Interchange) norme internationale de codage de caractères (128 (27) sont définis). Les ordinateurs ne possèdent pas de moyens pour stocker les caractères, mais ils conservent les données sous forme numérique. Lors de la définition des codages de chaque caractère (minuscule, majuscule, chiffres, ponctuation, caractères spéciaux), les codes avaient été fais pour le langage anglais (sur 7 bits), les accents ainsi que les caractères spéciaux à une langue spécifique n'avaient pas été pris en compte. Pour corriger ce problème qui limitait l'utilisation des codes aux langues anglaises, une modification fut apportée en créant le code ASCII étendue (sur 8 bits). Ils nous aident donc à lire sur n'importe quel ordinateur, n'importe où dans le monde un document écrit en code ASCII sur un éditeur de texte, alors que cela n'est pas toujours le cas sans la codification.

Bit : (Binary Digit) La plus petite unité compréhensible par un ordinateur ayant la valeur 0 ou 1.
8 bits est égale a 1 octet, ce qui permet de codifier un caractère.
Le bit et ses multiples : 8 bits = 1 octet ; 1024 octets = 1 kilo octet ; 1024 ko = 1 mega octet ; 1024 mo = 1 giga octet.
Le bit et ses multiples servent également à mesurer les débits ou les capacités : mémoire cache, mémoire vive, mémoire de masse, bus ; exemple un disque dur d'une capacité de 20 GO.

Nous venons de voir que l'on pouvait donc codifier des caractères grâce au code ASCII étendu sur 8 bits. Pour codifier un caractère il faut donc déjà connaître la norme ISO de référence.

Le jeu de caractère ISO-8859-1 (Latin 1) permet de codifier la plupart des langues de l'Europe occidentale. Nous devons donc indiquer dans notre source HTML dans la partie <HEAD>, que nous comptons l'utiliser :

<HEAD>
<META http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
</HEAD>

Nous écrivons donc le contenu de notre page :

Cette ligne est un exemple pour vous montrer comment on doit codifier nos pages : c'est à dire que dès que nous avons besoin de caractères qui se trouvent dans le tableau de la page suivante, nous devons les remplacer par les codes de la première ou deuxième colonne.

Le texte ci-dessus sera écrit dans notre code comme cela :

Cette ligne est un exemple pour vous montrer comment on doit codifier nos pages : c'est &agrave; dire que d&egrave;s que nous avons besoin de caract&egrave;res qui se trouvent dans le tableau de la page suivante, nous devons les remplacer par les codes de la premi&egrave;re ou deuxi &egrave;me colonne.

Il est bien évident que vous devez faire le remplacement que lorsque vous aurez terminé le contenu de votre page (utilisez la commande remplace de votre programme).
Source :
Jolies pages

Liste des entités de caractères
Numérique Symbolique Description Affichage
&#34; &quot; guillemets "
&#38; &amp; esperluète &
&#60; &lt; inférieur à <
&#62; &gt; supérieur à >
&#160; &nbsp; espace non-sécable
&#161; &iexcl; point d'exclamation inversé ¡
&#162; &cent; cent ¢
&#163; &pound; livre sterling £
&#164; &curren; signe monétaire ¤
&#165; &yen; yen ¥
&#166; &brvbar; barre verticale brisée ¦
&#167; &sect; section §
&#168; &uml; tréma ¨
&#169; &copy; copyright ©
&#170; &ordf; ordinal féminin ª
&#171; &laquo; ouvrir les guillemets «
&#172; &not; négation ¬
&#173; &shy; petit trait d'union ­
&#174; &reg; marque déposée ®
&#175; &macr; accent macron ¯
&#176; &deg; Degré °
&#177; &plusmn; plus ou moins ±
&#178; &sup2; exposant 2 ²
&#179; &sup3; exposant 3 ³
&#180; &acute; accent aigu ´
&#181; &micro; signe micro µ
&#182; &para; paragraph
&#183; &middot; point mi-hauteur ·
&#184; &cedil; cédille ¸
&#185; &sup1; exposent 1 ¹
&#186; &ordm; ordinal masculin º
&#187; &raquo; fermer les guillemets »
&#188; &frac14; fraction (un quart) ¼
&#189; &frac12; fraction (une demi) ½
&#190; &frac34; fraction (trois quarts) ¾
&#191; &iquest; point d'interrogation inversé ¿
&#192; &Agrave; A grave À
&#193; &Aacute; A aigu Á
&#194; &Acirc; A circonflexe Â
&#195; &Atilde; A tilda Ã
&#196; &Auml; A tréma Ä
&#197; &Aring; A ring Å
&#198; &AElig; AE (ligature) Æ
&#199; &Ccedil; C cédille Ç
&#200; &Egrave; E grave È
&#201; &Eacute; E aigu É
&#202; &Ecirc; E circonflexe Ê
&#203; &Euml; E tréma Ë
&#204; &Igrave; I grave Ì
&#205; &Iacute; I aigu Í
&#206; &Icirc; I circonflexe Î
&#207; &Iuml; I tréma Ï
&#208; &ETH; Eth Icelandais Ð
&#209; &Ntilde; N tilda Ñ
&#210; &Ograve; O grave Ò
&#211; &Oacute O aigu Ó
&#212; &Ocirc; O circonflexe Ô
&#213; &Otilde; O tilda Õ
&#214; &Ouml; O tréma Ö
&#215; &times; signe de multiplication ×
&#216; &Oslash; O barré Ø
&#217; &Ugrave U grave Ù
&#218; &Uacute; U aigu Ú
&#219; &Ucirc; U circonflexe Û
&#220; &Uuml; U tréma Ü
&#221; &Yacute; Y aigu Ý
&#222; &THORN; Thorn Icelandais Þ
&#223; &szlig; sz ligature ß
&#224; &agrave; a grave à
&#225; &aacute; a aigu á
&#226; &acirc; a circonflexe â
&#227; &atilde; a tilda ã
&#228; &auml a tréma ä
&#229; &aring; a ring å
&#230; &aelig; ae ligature æ
&#231; &ccedil; c cédille ç
&#232; &egrave; e grave è
&#233; &eacute; e aigu é
&#234; &ecirc; e circonflexe ê
&#235; &euml; e tréma ë
&#236; &igrave; i grave ì
&#237; &iacute; i aigu í
&#238; &icirc; i circonflexe î
&#239; &iuml; i tréma ï
&#240; &eth; eth Icelandais ð
&#241; &ntilde; n tilda ñ
&#242; &ograve; o grave ò
&#243; &oacute; o aigu ó
&#244; &ocirc; o circonflexe ô
&#245; &otilde; o tilda õ
&#246; &ouml; o tréma ö
&#247; &divide; signe de division ÷
&#248; &oslash; o barré ø
&#249; &ugrave; u grave ù
&#250; &uacute; u aigu ú
&#251; &ucirc; u circonflexe û
&#252; &uuml; u tréma ü
&#253; &yacute; y aigu ý
&#254; &thorn; thorn Icelandais þ
&#255; &yuml; y tréma ÿ


Source : Jolies Pages



Iso8859-1

iso8859-1 table

Description                               Code            Entity name   
===================================       ============    ==============
quotation mark                            &#34;  --> "    &quot;   --> "
ampersand                                 &#38;  --> &    &amp;    --> &
less-than sign                            &#60;  --> <    &lt;     --> <
greater-than sign                         &#62;  --> >    &gt;     --> >

Description                          Char Code            Entity name   
===================================  ==== ============    ==============
non-breaking space                        &#160; -->      &nbsp;   -->  
inverted exclamation                 ¡    &#161; --> ¡    &iexcl;  --> ¡
cent sign                            ¢    &#162; --> ¢    &cent;   --> ¢
pound sterling                       £    &#163; --> £    &pound;  --> £
general currency sign                ¤    &#164; --> ¤    &curren; --> ¤
yen sign                             ¥    &#165; --> ¥    &yen;    --> ¥
broken vertical bar                  ¦    &#166; --> ¦    &brvbar; --> ¦
                                                          &brkbar; --> &brkbar;
section sign                         §    &#167; --> §    &sect;   --> §
umlaut (dieresis)                    ¨    &#168; --> ¨    &uml;    --> ¨
                                                          &die;    --> ¨
copyright                            ©    &#169; --> ©    &copy;   --> ©
feminine ordinal                     ª    &#170; --> ª    &ordf;   --> ª
left angle quote, guillemotleft      «    &#171; --> «    &laquo;  --> «
not sign                             ¬    &#172; --> ¬    &not;    --> ¬
soft hyphen                          ­    &#173; --> ­    &shy;    --> ­
registered trademark                 ®    &#174; --> ®    &reg;    --> ®
macron accent                        ¯    &#175; --> ¯    &macr;   --> ¯
                                                          &hibar;  --> &hibar;
degree sign                          °    &#176; --> °    &deg;    --> °
plus or minus                        ±    &#177; --> ±    &plusmn; --> ±
superscript two                      ²    &#178; --> ²    &sup2;   --> ²
superscript three                    ³    &#179; --> ³    &sup3;   --> ³
acute accent                         ´    &#180; --> ´    &acute;  --> ´
micro sign                           µ    &#181; --> µ    &micro;  --> µ
paragraph sign                       ¶    &#182; --> ¶    &para;   --> ¶
middle dot                           ·    &#183; --> ·    &middot; --> ·
cedilla                              ¸    &#184; --> ¸    &cedil;  --> ¸
superscript one                      ¹    &#185; --> ¹    &sup1;   --> ¹
masculine ordinal                    º    &#186; --> º    &ordm;   --> º
right angle quote, guillemotright    »    &#187; --> »    &raquo;  --> »
fraction one-fourth                  ¼    &#188; --> ¼    &frac14; --> ¼
fraction one-half                    ½    &#189; --> ½    &frac12; --> ½
fraction three-fourths               ¾    &#190; --> ¾    &frac34; --> ¾
inverted question mark               ¿    &#191; --> ¿    &iquest; --> ¿
capital A, grave accent              À    &#192; --> À    &Agrave; --> À
capital A, acute accent              Á    &#193; --> Á    &Aacute; --> Á
capital A, circumflex accent         Â    &#194; --> Â    &Acirc;  --> Â
capital A, tilde                     Ã    &#195; --> Ã    &Atilde; --> Ã
capital A, dieresis or umlaut mark   Ä    &#196; --> Ä    &Auml;   --> Ä
capital A, ring                      Å    &#197; --> Å    &Aring;  --> Å
capital AE diphthong (ligature)      Æ    &#198; --> Æ    &AElig;  --> Æ
capital C, cedilla                   Ç    &#199; --> Ç    &Ccedil; --> Ç
capital E, grave accent              È    &#200; --> È    &Egrave; --> È
capital E, acute accent              É    &#201; --> É    &Eacute; --> É
capital E, circumflex accent         Ê    &#202; --> Ê    &Ecirc;  --> Ê
capital E, dieresis or umlaut mark   Ë    &#203; --> Ë    &Euml;   --> Ë
capital I, grave accent              Ì    &#204; --> Ì    &Igrave; --> Ì
capital I, acute accent              Í    &#205; --> Í    &Iacute; --> Í
capital I, circumflex accent         Î    &#206; --> Î    &Icirc;  --> Î
capital I, dieresis or umlaut mark   Ï    &#207; --> Ï    &Iuml;   --> Ï
capital Eth, Icelandic               Ð    &#208; --> Ð    &ETH;    --> Ð
                                                          &Dstrok; --> Đ
capital N, tilde                     Ñ    &#209; --> Ñ    &Ntilde; --> Ñ
capital O, grave accent              Ò    &#210; --> Ò    &Ograve; --> Ò
capital O, acute accent              Ó    &#211; --> Ó    &Oacute; --> Ó
capital O, circumflex accent         Ô    &#212; --> Ô    &Ocirc;  --> Ô
capital O, tilde                     Õ    &#213; --> Õ    &Otilde; --> Õ
capital O, dieresis or umlaut mark   Ö    &#214; --> Ö    &Ouml;   --> Ö
multiply sign                        ×    &#215; --> ×    &times;  --> ×
capital O, slash                     Ø    &#216; --> Ø    &Oslash; --> Ø
capital U, grave accent              Ù    &#217; --> Ù    &Ugrave; --> Ù
capital U, acute accent              Ú    &#218; --> Ú    &Uacute; --> Ú
capital U, circumflex accent         Û    &#219; --> Û    &Ucirc;  --> Û
capital U, dieresis or umlaut mark   Ü    &#220; --> Ü    &Uuml;   --> Ü
capital Y, acute accent              Ý    &#221; --> Ý    &Yacute; --> Ý
capital THORN, Icelandic             Þ    &#222; --> Þ    &THORN;  --> Þ
small sharp s, German (sz ligature)  ß    &#223; --> ß    &szlig;  --> ß
small a, grave accent                à    &#224; --> à    &agrave; --> à
small a, acute accent                á    &#225; --> á    &aacute; --> á
small a, circumflex accent           â    &#226; --> â    &acirc;  --> â
small a, tilde                       ã    &#227; --> ã    &atilde; --> ã
small a, dieresis or umlaut mark     ä    &#228; --> ä    &auml;   --> ä
small a, ring                        å    &#229; --> å    &aring;  --> å
small ae diphthong (ligature)        æ    &#230; --> æ    &aelig;  --> æ
small c, cedilla                     ç    &#231; --> ç    &ccedil; --> ç
small e, grave accent                è    &#232; --> è    &egrave; --> è
small e, acute accent                é    &#233; --> é    &eacute; --> é
small e, circumflex accent           ê    &#234; --> ê    &ecirc;  --> ê
small e, dieresis or umlaut mark     ë    &#235; --> ë    &euml;   --> ë
small i, grave accent                ì    &#236; --> ì    &igrave; --> ì
small i, acute accent                í    &#237; --> í    &iacute; --> í
small i, circumflex accent           î    &#238; --> î    &icirc;  --> î
small i, dieresis or umlaut mark     ï    &#239; --> ï    &iuml;   --> ï
small eth, Icelandic                 ð    &#240; --> ð    &eth;    --> ð
small n, tilde                       ñ    &#241; --> ñ    &ntilde; --> ñ
small o, grave accent                ò    &#242; --> ò    &ograve; --> ò
small o, acute accent                ó    &#243; --> ó    &oacute; --> ó
small o, circumflex accent           ô    &#244; --> ô    &ocirc;  --> ô
small o, tilde                       õ    &#245; --> õ    &otilde; --> õ
small o, dieresis or umlaut mark     ö    &#246; --> ö    &ouml;   --> ö
division sign                        ÷    &#247; --> ÷    &divide; --> ÷
small o, slash                       ø    &#248; --> ø    &oslash; --> ø
small u, grave accent                ù    &#249; --> ù    &ugrave; --> ù
small u, acute accent                ú    &#250; --> ú    &uacute; --> ú
small u, circumflex accent           û    &#251; --> û    &ucirc;  --> û
small u, dieresis or umlaut mark     ü    &#252; --> ü    &uuml;   --> ü
small y, acute accent                ý    &#253; --> ý    &yacute; --> ý
small thorn, Icelandic               þ    &#254; --> þ    &thorn;  --> þ
small y, dieresis or umlaut mark     ÿ    &#255; --> ÿ    &yuml;   --> ÿ

How to read this table. The columns are
1st:
textual description of the character
2nd:
character inserted directly into the HTML page as one byte
3rd:
character written as numeric HTML entity, in the format:
"how it looks literally" --> "what your browser does with it"
4th:
character written as symbolic HTML entity, in the format:
"how it looks literally" --> "what your browser does with it"
So for example, if you see something like "&divide; -->& divide;" in the 4th column, this means your browser doesn't know about the entity name "divide" and just puts it literally.

This table grew out of an overview of the "ISO Latin-1 Character Set" overview related to the Hyper-G Text Format (HTF). The entity names &brkbar; and &Dstrok; seem to be unique to HTF. The entity name &hibar; has been supported by X Mosaic but seems to be replaced with &macr;. The entity names &uml; and &die; should be equivalent.

The standards stuff: The HTML 2.0 Standard includes a section on Character Entity Sets and an overview on the HTML Coded Character Set (The entity names are derived from ISO 8879).
Or have a look at the Latin-1 Character Entities as listed in an draft for the HTML 3.0 specification.
The Appendix II of CERN's HTML+ Discussion Document contains a table (in PostScript format) of the proposed character entities for HTML+ and their corresponding character codes for Unicode and the Adobe Latin-1 & Symbol character sets.

Please note that there is nothing wrong with using characters of ISO Latin-1 above 127: the normal transmission protocol for the WWW, HTTP/1.0, uses the 8bit ISO latin-1 as default encoding. (Thanks to Roman Czyborra for pointing this out!)

Other information:


Martin Ramsch, 16.02.1994, 07.01.1996, 01.07.1996, 1998-10-09, 2000-05-15



Mathematical, Greek and Symbolic characters for HTML:
HTMLmisc

These entities were added to the HTML definition as of HTML 4. The Relevant ISO standard defining the entity name is given unless the names were newly introduced with HTML 4. These entity names are not supported by Netscape Communicator 4, but are supported by Internet Explorer 4.

NOTE -- There is a useful Table Key at the bottom of this document.

A quoi sert-elle ?
Character # (Decimal) Character # (Hex) Character Reference Entity Name Entity Reference Description ISO
Standard
Latin Extended-B
402 0192 ƒ fnof ƒ latin small f with hook=function, =florin, ISOtech
Greek
913 0391 Α Alpha Α greek capital letter alpha
914 0392 Β Beta Β greek capital letter beta
915 0393 Γ Gamma Γ greek capital letter gamma ISOgrk3
916 0394 Δ Delta Δ greek capital letter delta ISOgrk3
917 0395 Ε Epsilon Ε greek capital letter epsilon
918 0396 Ζ Zeta Ζ greek capital letter zeta
919 0397 Η Eta Η greek capital letter eta
920 0398 Θ Theta Θ greek capital letter theta ISOgrk3
921 0399 Ι Iota Ι greek capital letter iota
922 039A Κ Kappa Κ greek capital letter kappa
923 039B Λ Lambda Λ greek capital letter lambda ISOgrk3
924 039C Μ Mu Μ greek capital letter mu
925 039D Ν Nu Ν greek capital letter nu
926 039E Ξ Xi Ξ greek capital letter xi ISOgrk3
927 039F Ο Omicron Ο greek capital letter omicron
928 03A0 Π Pi Π greek capital letter pi ISOgrk3
929 03A1 Ρ Rho Ρ greek capital letter rho
931 03A3 Σ Sigma Σ greek capital letter sigma ISOgrk3
932 03A4 Τ Tau Τ greek capital letter tau
933 03A5 Υ Upsilon Υ greek capital letter upsilon ISOgrk3
934 03A6 Φ Phi Φ greek capital letter phi ISOgrk3
935 03A7 Χ Chi Χ greek capital letter chi
936 03A8 Ψ Psi Ψ greek capital letter psi ISOgrk3
937 03A9 Ω Omega Ω greek capital letter omega ISOgrk3
945 03B1 α alpha α greek small letter alpha ISOgrk3
946 03B2 β beta β greek small letter beta ISOgrk3
947 03B3 γ gamma γ greek small letter gamma ISOgrk3
948 03B4 δ delta δ greek small letter delta ISOgrk3
949 03B5 ε epsilon ε greek small letter epsilon ISOgrk3
950 03B6 ζ zeta ζ greek small letter zeta ISOgrk3
951 03B7 η eta η greek small letter eta ISOgrk3
952 03B8 θ theta θ greek small letter theta ISOgrk3
953 03B9 ι iota ι greek small letter iota ISOgrk3
954 03BA κ kappa κ greek small letter kappa ISOgrk3
955 03BB λ lambda λ greek small letter lambda ISOgrk3
956 03BC μ mu μ greek small letter mu ISOgrk3
957 03BD ν nu ν greek small letter nu ISOgrk3
958 03BE ξ xi ξ greek small letter xi ISOgrk3
959 03BF ο omicron ο greek small letter omicron NEW
960 03C0 π pi π greek small letter pi ISOgrk3
961 03C1 ρ rho ρ greek small letter rho ISOgrk3
962 03C2 ς sigmaf ς greek small letter final sigma ISOgrk3
963 03C3 σ sigma σ greek small letter sigma ISOgrk3
964 03C4 τ tau τ greek small letter tau ISOgrk3
965 03C5 υ upsilon υ greek small letter upsilon ISOgrk3
966 03C6 φ phi φ greek small letter phi ISOgrk3
967 03C7 χ chi χ greek small letter chi ISOgrk3
968 03C8 ψ psi ψ greek small letter psi ISOgrk3
969 03C9 ω omega ω greek small letter omega ISOgrk3
977 03D1 ϑ thetasym ϑ greek small letter theta symbol NEW
978 03D2 ϒ upsih ϒ greek upsilon with hook symbol NEW
982 03D6 ϖ piv ϖ greek pi symbol ISOgrk3
General Punctuation
8226 2022 bull bullet=black small circle, ISOpub
8230 2026 hellip horizontal ellipsis=three dot leader, ISOpub
8242 2032 prime prime=minutes, =feet, ISOtech
8243 2033 Prime double prime=seconds, =inches, ISOtech
8254 203E oline overline=spacing overscore, NEW
8260 2044 frasl fraction slash NEW
Letterlike Symbols
8472 2118 weierp script capital P=power set, =Weierstrass p, ISOamso
8465 2111 image blackletter capital I=imaginary part, ISOamso
8476 211C real blackletter capital R=real part symbol, ISOamso
8482 2122 trade trade mark sign ISOnum
8501 2135 alefsym alef symbol=first transfinite cardinal, NEW
Arrows
8592 2190 larr leftwards arrow ISOnum
8593 2191 uarr upwards arrow ISOnum
8594 2192 rarr rightwards arrow ISOnum
8595 2193 darr downwards arrow ISOnum
8596 2194 harr left right arrow ISOamsa
8629 21B5 crarr downwards arrow with corner leftwards=carriage return, NEW
8656 21D0 lArr leftwards double arrow ISOtech
8657 21D1 uArr upwards double arrow ISOamsa
8658 21D2 rArr rightwards double arrow ISOtech
8659 21D3 dArr downwards double arrow ISOamsa
8660 21D4 hArr left right double arrow ISOamsa
Mathematical Operators
8704 2200 forall for all ISOtech
8706 2202 part partial differential ISOtech
8707 2203 exist there exists ISOtech
8709 2205 empty empty set=null set, =diameter, ISOamso
8711 2207 nabla nabla=backward difference, ISOtech
8712 2208 isin element of ISOtech
8713 2209 notin not an element of ISOtech
8715 220B ni contains as member ISOtech
8719 220F prod n-ary product=product sign, ISOamsb
8721 2211 sum n-ary sumation ISOamsb
8722 2212 minus minus sign ISOtech
8727 2217 lowast asterisk operator ISOtech
8730 221A radic square root=radical sign, ISOtech
8733 221D prop proportional to ISOtech
8734 221E infin infinity ISOtech
8736 2220 ang angle ISOamso
8869 2227 and logical and=wedge, ISOtech
8870 2228 or logical or=vee, ISOtech
8745 2229 cap intersection=cap, ISOtech
8746 222A cup union=cup, ISOtech
8747 222B int integral ISOtech
8756 2234 there4 therefore ISOtech
8764 223C sim tilde operator=varies with, =similar to, ISOtech
8773 2245 cong approximately equal to ISOtech
8776 2248 asymp almost equal to=asymptotic to, ISOamsr
8800 2260 ne not equal to ISOtech
8801 2261 equiv identical to ISOtech
8804 2264 le less-than or equal to ISOtech
8805 2265 ge greater-than or equal to ISOtech
8834 2282 sub subset of ISOtech
8835 2283 sup superset of ISOtech
8836 2284 nsub not a subset of ISOamsn
8838 2286 sube subset of or equal to ISOtech
8839 2287 supe superset of or equal to ISOtech
8853 2295 oplus circled plus=direct sum, ISOamsb
8855 2297 otimes circled times=vector product, ISOamsb
8869 22A5 perp up tack=orthogonal to, =perpendicular, ISOtech
8901 22C5 sdot dot operator ISOamsb
Miscellaneous Technical
8968 2308 lceil left ceiling=apl upstile, , ISOamsc
8969 2309 rceil right ceiling , ISOamsc
8970 230A lfloor left floor=apl downstile, , ISOamsc
8971 230B rfloor right floor , ISOamsc
9001 2329 lang left-pointing angle bracket=bra, ISOtech
9002 232A rang right-pointing angle bracket=ket, ISOtech
Geometric Shapes
9674 25CA loz lozenge ISOpub
Miscellaneous Symbols
9824 2660 spades black spade suit ISOpub
9827 2663 clubs black club suit=shamrock, ISOpub
9829 2665 hearts black heart suit=valentine, ISOpub
9830 2666 diams black diamond suit ISOpub

Table Key/Description

  • Column 1 defines the decimal position of the character in the Unicode character set.
  • Column 2 defines the position of the character in the Unicode character set, but in hexadecimal notation.
  • Column 3 contains an SGML decimal character reference for the character (i.e., &#xxx;, where xxx is the decimal character code). If the character is rendered correctly, then your browser supports this character reference and has a font that can generate the required symbol. If you see a "box" or question mark, then your browser probably understands the character reference, but does not have an appropriate font for displaying it.
  • Column 4 gives the entity name by which the character can be identified.
  • Column 5 contains an actual entity reference, of the form &name;, where name is the name of the entity -- for example, &cent;. If the character is rendered correctly, then your browser supports this entity reference and has a font that can generate the required symbol. If you see a "box" or question mark, then your browser probably understands the character reference, but does not have an appropriate font for displaying it. If you simply see the literal entity string (e.g., &Epsilon;), then your browser does not understand the entity name.
  • Column 6 contains a short, simple description of the character.
  • Column 7 lists the ISO standard (if any) that originally defined this entity name.

The XHTML Language and Design Guide
Source : Ian Graham's Personal Resources Directory


Unicode et UT-8 : Extrait du site Web : sebsauvage.net



L'Unicode

Au lieu d'utiliser les codes 0 à 127, il utilise les codes 0 à 65535 (en base 16 : de 0000 à FFFF).

Le code UNICODE permet de représenter tous les caractères spéficiques aux différentes langues. De nouveaux codes sont régulièrement attribués pour de nouveaux caractères: caractères latins (accentués ou non), grecs, cyrillics, arméniens, hébreux, thaï, hiragana, katakana...L'Unicode définie donc un correspondance entre symboles et nombres.
(Le symbole "Ő" sera représent par le nombre 213).

Vous pourrez trouver plus d'informations sur l'UNICODE sur http://www.unicode.org/.

Même si l'UNICODE est bien conçu, il reste assez peu utilisé par rapport à l'ASCII. (Ne vous amusez pas à envoyer un message en UNICODE à quelqu'un : il ne saurait probablement pas comment le lire !). Pour les programmeurs, ça n'est pas toujours très facile à manipuler non plus.

Ce standard se développe de plus en plus. Les langages Java, .Net (C#) et Python supportent déjà nativement l'UNICODE. La plupart des systèmes d'exploitation (Windows, Linux, MacOS X...) supportent déjà l'Unicode.



Unicode dans la pratique: UTF-8

Bon. Unicode, dans la théorie, c'est très bien.

Mais dans la pratique, c'est une autre paire de manches:
Généralement en Unicode, un caractères prend 2 octets. Autrement dit, le moindre texte prend deux fois plus de place qu'en ASCII. C'est du gaspillage.

De plus, si on prend un texte en français, la grande majorité des caractères utilisent seulement le code ASCII. Seuls quelques rares caractères nécessitent l'Unicode.

On a donc trouvé une astuce: l'UTF-8.

Un texte en UTF-8 est simple: il est partout en ASCII, et dès qu'on a besoin d'un caractère appartenant à l'Unicode, on utilise un caractère spécial signalant "attention, le caractère suivant est en Unicode".

Par exemple, pour le texte "Bienvenue chez Sébastien !", seul le "é" ne fait pas partie du code ASCII. On écrit donc en UTF-8:

Message en UTF-8

Pour être rigoureux, on indique quand même au début du fichier que c'est un fichier en UTF-8 à l'aide de caractères spéciaux:

Message en UTF-8 avec entête

Et voilà !

L'UTF-8 rassemble le meilleur de deux mondes: l'efficacité de l'ASCII et l'étendue de l'Unicode. D'ailleurs l'UTF-8 a été adopté comme norme pour l'encodage des fichiers XML. La plupart des navigateurs récents supportent également l'UTF-8 et le détectent automatiquement dans les pages HTML.


Alors dans les pages web, comment on fait ?

Si vous mettez directement le caractère "é" dans une page web, ce n'est pas bien. ll faut obligatoirement choisir une des 3 solutions suivantes:

  • soit utiliser les entités HTML, et donc mettre &eacute; à la place de "é".
  • soit laisser le "é" tel quel et préciser le charset que vous utilisez au début du fichier HTML (dans la balise <head>):
    <meta http-equiv="Content-type" content="text/html; charset=ISO-8859-1">
    (ISO-8859-1 est le jeu de caractère latin courant sous Windows.)
  • soit travailler directement en UTF-8 dans votre éditeur HTML (s'il le permet). Ajoutez alors:
    <meta http-equiv="Content-type" content="text/html; charset=UTF-8">
L'ISO-8859-1 convient pour la plupart des langues latines ou occidentales (anglais, français, allemand, espagnol...), et l'UTF-8 vous sera indispensable pour les autres langues (japonais, hébreu, etc.).

A vous de choisir en fonction de vos besoins.