Important: You are required to change your passwords used for Gentoo services and set an email address for your Wiki account if you haven't done so. See the full announcement and Wiki email policy change for more information.

UTF-8

From Gentoo Wiki
Revision as of 18:39, 1 August 2013 by FuzzyBot (Talk | contribs)

Jump to: navigation, search
Other languages:English 100% • ‎español 100% • ‎français 100% • ‎italiano 7% • ‎русский 100%

UTF-8 is a variable-length character encoding, which in this instance means that it uses 1 to 4 bytes per symbol. So, the first UTF-8 byte is used for encoding ASCII, giving the character set full backwards compatibility with ASCII. UTF-8 means that ASCII and Latin characters are interchangeable with little increase in the size of the data, because only the first byte is used. Users of Eastern alphabets such as Japanese, who have been assigned a higher byte range are unhappy, as this results in as much as a 50% redundancy in their data.

Encodage des caractères

Qu'est-ce que l'encodage des caractères ?

Les ordinateurs ne comprennent pas les textes eux-mêmes. Au lieu de cela, chaque caractère est représenté par un nombre. Traditionnellement, chaque jeu de nombres utilisé pour représenter les alphabets et les caractères (connu sous le nom de système de codage, encodage ou jeu de caractères) était limité en taille à cause de la limitation même du matériel constituant les ordinateurs.

L'histoire de l'encodage des caractères

Le plus courant (ou du moins le plus largement accepté) des jeux de caractères est l'ASCII (American Standard Code for Information Interchange). Il est largement reconnu que l'ASCII est la norme logicielle qui a connu le plus grand succès de tous les temps. L'ASCII moderne a été normalisé en 1986 (ANSI X3.4, RFC 20, ISO/IEC 646:1991, ECMA-6) par l'American National Standards Institute.

ASCII, a strictement parler, est encodé sur 7 chiffres binaires, ce qui signifie qu'il utilise des motifs de chiffres représentables avec 7 chiffres binaires. Ce qui correspond à la plage 0 à 127 en décimal. Ceci inclut 32 caractères de contrôle non visualisables, en majorité entre 0 et 31, auxquels s'ajoute le caractère de contrôle final, DEL ou delete, dont la représentation est 127. Tous les caractères entre 32 et 126 inclus, sont visualisables : l'espace, les marques de ponctuation, les lettres latines et les chiffres.

Le huitième bit en ASCII était à l'origine utilisé comme bit de parité pour la détection d'erreurs. Si cela n'est pas souhaité, on peut le laisser à 0. Ceci signifie que, avec l'ASCII, chaque caractère est représenté par un seul octet.

Bien que l'ASCII soit suffisant pour communiquer en anglais moderne, dans d'autres langues européens qui comprennent des caractères accentués, les choses ne sont pas aussi simples. Les normes ISO 8859 ont été développées pour satisfaire ces besoins. Elles sont rétro-compatibles avec l'ASCII, mais au lieu de laisser le huitième chiffre binaire à 0, elles l'utilisent pour former un autre ensemble de 127 caractères dans chacun des encodages. Les limitations des normes ISO 8859 sont apparues très vite, et il y a aujourd'hui 15 variantes de la norme ISO 8859 (8859-1 à 8859-15). En dehors de la plage compatible avec l'ASCII, il y a souvent des conflits entre les lettres représentées par chacun des octets. Pour compliquer encore l'interopérabilité entre versions, Windows-1252 est utilisée à leur place dans certaines versions de Microsoft Windows pour les langues européennes. Il s'agit d'un jeu étendu de ISO-8859-1, cependant il en différe de plusieurs façons. Tous ces jeux restent néanmoins compatibles avec ASCII.

Le développement nécessaire d'encodage mono-octet pour des alphabets non latins, tels que EUC (Extended Unix Coding) qui est utilisé pour le Japonais et le Coréen (et dans une moindre mesure pour le Chinois) a créé encore plus de confusion, tandis que d'autres systèmes d'exploitation utilisaient des jeux de caractères différents pour les mêmes langues, par exemple, Shift-JIS et ISO-2022-JP. Les utilisateurs désireux d'afficher des glyphes cyrilliques avaient à choisir entre KOI8-R pour le Russe et le Bulgare ou KOI8-U pour l'Ukrainien, aussi bien que parmi les autres encodages cyrilliques comme le peu prisé ISO 8859-5 et le plus connu Windows-1251. Tous ces jeux de caractères rompaient la compatibilité avec ASCII (quoi que le jeu KOI8 place les caractères cyrilliques dans l'ordre latin, de manière telle que si le huitième chiffre binaire est retiré, le texte est déchiffrable sur un terminal ASCII via une translittération à casse inversée.)

Ceci a conduit à la confusion, et aussi à une presque totale incapacité à communiquer dans plusieurs langues, en particulier à travers des alphabets différents. C'est là qu' Unicode entre en scène.

Qu'est-ce qu'Unicode ?

La norme Unicode jette aux orties la limite traditionnelle d'un octet pour les jeux de caractères. Elle utilise 17 plans de 65.536 points de code pour décrire un maximum de 1.114.112 caractères. Comme le premier plan, aussi connu sous le nom de Basic Multilingual Plane (Plan Multilingue de Base) ou BMP, contient presque tout ce dont vous aurez jamais besoin, beaucoup ont fait la supposition fausse que l'Unicode était un jeu de caractères encodé sur 16 chiffres binaires.

Unicode a été cartographié de différentes manières, mais les deux plus courantes sont UTF (Unicode Transformation Format pour Format de transformation d'Unicode) et UCS (Universal Character Set pour Jeu de caractères universel). Le nombre après UTF indique le nombre de chiffres binaires dans chacun des éléments, tandis que le nombre après UCS indique le nombre d'octets. UTF-8 est devenu le moyen le plus répandu pour l'échange de texte Unicode en raison de sa nature 8 chiffres binaires pure, et fait l'objet de ce document.

Que peut faire UTF-8 pour vous ?

UTF-8 vous permet de travailler dans un environnement multilingue conforme aux normes et reconnu internationalement, avec une redondance des données comparativement faible. UTF-8 est le moyen privilégié pour transmettre les caractères non ASCII sur Internet, via des courriels, l'IRC ou presque n'importe quel autre médium. En dépit de cela, beaucoup de gens considèrent la communication en ligne en UTF-8 comme abusive. Il est toujours bon d'être conscient de cela sur certains canaux, listes de diffusion ou groupes Usenet avant d'employer des caractères non ASCII en UTF-8.

Installer l' UTF-8 sur Gentoo Linux

Trouver ou créer des locales UTF-8

Maintenant que vous comprenez les principes d'Unicode, vous êtes prêt à utiliser UTF-8 sur votre système.

Le prérequis pour UTF-8 est d'avoir une version de glibc installée qui assure la prise en charge de la langue nationale. Le moyen recommandé pour réaliser cela, est le fichier /etc/locale.gen. C'est cependant au-delà du champ de ce document d'expliquer l'utilisation de ce fichier. Ceci est expliqué dans le Gentoo Localization Guide .

Ensuite, vous devez décider si une locale UTF-8 est déjà disponible pour votre langue, ou si vous devez en créer une.

user $ locale -a | grep 'en_GB'
en_GB
en_GB.UTF-8

De la sortie de cette commande, vous devez prendre le résultat avec un suffixe similaire à .UTF-8. Si vous ne trouvez aucun résultat avec un suffixe similaire à .UTF-8, vous devez créez une locale UTF-8 compatible.


Note
N'exécutez le code suivant que si vous n'avez pas une locale UTF-8 disponible pour votre langue.

Remplacez "en_GB" avec le code de locale que vous souhaitez :

root # localedef -i en_GB -f UTF-8 en_GB.UTF-8

Une autre façon d'inclure une locale UTF-8 est de l'ajouter au fichier /etc/locale.gen et de générer les locales nécessaires avec la commande locale-gen.

CodeLine in /etc/locale.gen

en_GB.UTF-8 UTF-8

Définir la Locale

Il y a une variable d'environnement qui doit être définie de manière à ce que le système utilise vos nouvelles locales UTF-8 : LC_CTYPE (ou, en option, LANG, si vous désirez changer aussi la langue). Il y a aussi différentes manières de la définir ; certains préfèrent avoir un environnement UTF-8 pour un utilisateur donné, auquel cas il la définissent dans leur fichier ~/.profile (s'ils utilisent /bin/sh ), ~/.bash_profile ou ~/.bashrc (s'ils utilisent /bin/bash ). Une information complémentaire et de bonnes pratiques sont disponibles dans notre Localization Guide .

D'autres préfèrent la définir globalement. Une circonstance particulière où nous recommandons fortement de procéder de cette manière, c'est quand /etc/init.d/xdm est utilisé, parce que ce script d'initialisation lance le gestionnaire d'écran et le bureau avant qu'aucun des scripts de démarrage mentionnés précédemment ne soit sourcé, et en conséquence, avant qu'aucune des variables ne soit dans l'environnement.

Définir la locale globalement devrait être fait en utilisant /etc/env.d/02locale . Ce fichier devrait ressembler à quelque chose comme ce qui suit :

CodeDemonstration /etc/env.d/02locale

## (Comme d'habitude, remplacez "en_GB.UTF-8" par votre  locale)
LANG="en_GB.UTF-8"
Note
Vous pouvez aussi remplacer LC_CTYPE par LANG . Pour une information plus complète sur les catégories affectées par l'utilisation de LC_CTYPE , lisez la GNU locale page .

Ensuite l'environnement doit être mis à jour pour prendre en compte les changements.

root # env-update
>>> Regenerating /etc/ld.so.cache...
 * Caching service dependencies ...
root # source /etc/profile

Maintenant, exécutez la commande locale sans argument pour voir si vous disposez des variables correctes dans votre environnement.

root # locale
LANG=en_GB.UTF-8
LC_CTYPE="en_GB.UTF-8"
LC_NUMERIC="en_GB.UTF-8"
LC_TIME="en_GB.UTF-8"
LC_COLLATE="en_GB.UTF-8"
LC_MONETARY="en_GB.UTF-8"
LC_MESSAGES="en_GB.UTF-8"
LC_PAPER="en_GB.UTF-8"
LC_NAME="en_GB.UTF-8"
LC_ADDRESS="en_GB.UTF-8"
LC_TELEPHONE="en_GB.UTF-8"
LC_MEASUREMENT="en_GB.UTF-8"
LC_IDENTIFICATION="en_GB.UTF-8"
LC_ALL=

C'est tout. Vous utilisez désormais les locales UTF-8, et le prochain obstacle à franchir, c'est la configuration des applications que vous utilisez quotidiennement.

Prise en charge par les applications

Lorsque Unicode commença à prendre son essor dans le monde du logiciel, les jeux de caractères multi-octets n'étaient pas très adaptés à des langages de programmation tels que le langage C, langage dans lequel beaucoup des programmes utilisés quotidiennement sont écrits. Même encore aujourd'hui, certains programmes ne sont pas capable de prendre en charge l'UTF-8 correctement. Fort heureusement, la plupart le sont !

Noms de fichiers, NTFS, et FAT

Il y a plusieurs options NLS (Native Language Support) dans le menu de configuration du noyau Linux, mais il est important d'éviter la confusion ! Pour la majeure partie, la seule chose que vous avez à faire est de compiler la prise en charge de UTF-8 NLS dans votre noyau, et de changer l'option par défaut de NLS en utf8.

Kernel configurationKernel configuration steps for UTF-8 NLS

File Systems -->
  Native Language Support -->
    (utf8) Default NLS Option
    <*> NLS UTF8
    ## (Also <*> other character sets that are in use in
    your FAT filesystems or Joilet CD-ROMs.)

Si vous envisagez de monter des partitions NTFS, vous avez besoin de spécifier une option nls= pour la commande mount. Si vous envisagez de monter des partitions FAT, vous devez spécifier une option codepage= pour la commande mount. En option, vous pouvez aussi définir une page de code (codepage) par défaut pour FAT dans la configuration du noyau. Notez que l'option codepage pour mount écrasera les réglages faits dans la configuration du noyau.

Kernel configurationFAT settings in kernel configuration

File Systems -->
  DOS/FAT/NT Filesystems  -->
    (437) Default codepage for fat

Vous devriez éviter de définir le Default iocharset for fat (jeu de caractères par défaut pour fat) à UTF-8, car ce n'est pas recommandé. Au lieu de cela, vous pouvez passer l'option utf8=true au moment de monter votre partition FAT. Pour une information plus complète, reportez-vous à la page man mount et à la documentation du noyau à /usr/src/linux/Documentation/filesystems/vfat.txt .

Pour changer l'encodage des noms de fichier, vous pouvez utiliser app-text/convmv.

root # emerge --ask app-text/convmv

Le format de la commande convmv est le suivant :

root # convmv -f <current-encoding> -t utf-8 <filename>

Remplacez iso-8859 par le jeu de caractères à partir duquel vous effectuez la conversion :

root # convmv -f iso-8859-1 -t utf-8 filename

Pour changer le contenu de fichiers, utilisez l'utilitaire iconv, fournit avec glibc. Remplacez muitute iso-8859-1 par le jeu de caractères à partir duquel vous effectuez la conversion, et vérifiez que la sortie est saine :

root # iconv -f iso-8859-1 -t utf-8 filename

Pour convertir un fichier vous devez en créer un autre :

root # iconv -f iso-8859-1 -t utf-8 filename > newfile

app-text/recode peut aussi être utilisé à cet effet.

La console système

Important
Vous avez besoin de sys-apps/baselayout-1.11.9 ou plus récent pour disposer d' Unicode à la console.

Pour valider UTF-8 à la console, vous devriez éditer /etc/rc.conf et définir unicode="yes", et lire aussi les commentaires de ce fichier--il est important d'avoir une police de caractères qui dispose d'une bonne plage de caractères si vous envisagez d'utiliser Unicode largement. Pour que cela fonctionne, assurez-vous d'avoir créé la locale Unicode correctement.

La variable keymap, définie dans /etc/conf.d/keymaps , devrait spécifier une carte de clavier Unicode.

CodeExample /etc/conf.d/keymaps snippet

## (Remplacez "uk" par votre arrangement de clavier local)
keymap="uk"

Ncurses et Slang

Note
Veuillez ignorer toute référence à Slang dans cette section si vous ne l'avez pas installé ou si vous ne l'utilisez pas.

Il est sage d'ajouter unicode aux options globales de votre variable USE dans le fichier /etc/portage/make.conf, et de réinstaller sys-libs/ncurses et sys-libs/slang si c'est approprié. Portage le fera automatiquement si vous mettez votre système à jour :

root # emerge --update --deep --newuse world

Il vous faut également recompiler les paquets qui possèdent un lien vers ceux-là, maintenant que les changements de la variable USE ont été appliqués. L'outil à utiliser (revdep-rebuild ) fait partie du paquet gentoolkit.

root # revdep-rebuild --soname libncurses.so.5
root #
revdep-rebuild --soname libslang.so.1

KDE, GNOME et Xfce

Tous les environnements de bureau majeurs prennent totalement en charge l'Unicode, et ne nécessitent pas d'autres étapes de configuration que celles décrites dans ce guide. Ceci est dû au fait que les boîtes à outils graphiques sous-jacentes (Qt ou GTK+2) sont prédisposées UTF-8 et que, par conséquent, les applications qui s'appuient sur ces boîtes à outils le sont également dès l'installation.

Les exceptions à cette règle surviennent avec Xlib et GTK+1. GTK+1 requiert une spécification de police de caractères iso-10646-1 dans ~/.gtkrc, par exemple, -misc-fixed-*-*-*-*-*-*-*-*-*-*-iso10646-1. C'est pourquoi, les applications utilisant Xlib ou Xaw doivent recevoir une spécification de police de caractères similaire ; autrement elles ne fonctionnent pas.

Note
Si vous avez à votre disposition le centre de contrôle de gnome1, utilisez le à la place. Choisissez une police de caractères iso10646-1 à partir de là.
CodeExample ~/.gtkrc (for GTK+1) that defines a Unicode compatible font

style "user-font"
{
    fontset="-misc-fixed-*-*-*-*-*-*-*-*-*-*-iso10646-1"
}
widget_class "*" style "user-font"

Dans les applications qui prennent en charge les interfaces graphiques Qt et GTK+2, l'interface GTK+2 donnera en général de meilleurs résultats avec Unicode.

X11 et polices de caractères

Les polices de caractères TrueType prennent en charge l'Unicode, et la plupart des polices qui arrivent avec Xorg disposent d'une impressionnante prise en charge, bien qu'évidemment, tous les glyphes particuliers accessibles par Unicode n'aient été créés pour ces polices. Pour compiler les polices (y compris le jeu Bitstrean Vera) avec la prise en charge des caractères est-asiatique dans X, assurez-vous que l'option cjk de la variable USE est définie. Beaucoup d'autres applications utilisent cette option, c'est pourquoi, il est judicieux de l'ajouter aux options permanentes de la variable USE.

Il y a aussi plusieurs paquets de polices de caractères dans Portage qui sont prédisposées Unicode.

root # emerge --ask terminus-font intlfonts freefonts corefonts

Gestionnaires de fenêtres et émulateurs de terminal

Les gestionnaires de fenêtres qui ne sont pas construits sur GTK ou Qt n'ont généralement pas une très bonne prise en charge de l'Unicode, car ils utilisent souvent la bibliothèque Xft pour les polices. Si votre gestionnaire de fenêtres n'utilise pas les polices Xft, vous pouvez utiliser la spécification de police de caractères mentionnée dans les sections précédentes en tant que police Unicode.

Les émulateurs de terminal qui utilisent Xft et prennent en charge l'Unicode sont difficiles à mettre en place. En plus de Konsole et du terminal-gnome, les meilleures options dans Portage sont x11-terms/rxvt-unicode , x11-terms/xfce4-terminal , gnustep-apps/terminal , x11-terms/mlterm , ou plain x11-terms/xterm quand il est compilé avec l'option unicode de la variable USE et invoqué comme uxterm .

app-misc/screen prend en charge l'UTF-8 également, lorqu'il est invoqué comme screen -U ou lorsque ce qui suit est placé dans le fichier ~/.screenrc :

Code~/.screenrc for UTF-8

defutf8 on

Vim, Emacs, Xemacs et Nano

Vim fournit une prise en charge totale de l'UTF-8, et dispose d'une détection des fichiers UTF-8 en interne. Pour une information plus complète sur Vim, utilisez :help mbyte.txt.

La version 23 d'Emacs et la version 21.5 de Xemacs prennent totalement en charge l'UTF-8. La version 24 d'Emacs prend également en charge l'édition de texte bidirectionnelle.

Nano fournit une prise en charge totale de l'UTF-8 depuis la version 1.3.6.

Shells

Ordinairement, bash assure une prise en charge totale de l'UTF-8 via la bibliothèque GNU readline. Z shell ( zsh ) fournit une prise en charge du l'Unicode avec l'option unicode de la variable USE.

Le shell C, tcsh et ksh ne fournissent aucune prise en charge de l'UTF-8.

Irssi

Irssi dispose d'une prise en charge totale de l'UTF-8, bien que cela nécessite la définition d'une option par l'utilisateur.

[irssi] set term_charset UTF-8

Pour les canaux dans lesquels des caractères non-ASCII sont souvent échangés dans des jeux de caractères non-UTF-8, la commande /recode peut être utilisée pour convertir les caractères. Tapez /help recode pour plus d'informations.

Mutt

L'agent utilisateur de courriel Mutt dispose d'une très bonne prise en charge de l'UTF-8, vous n'avez rien à mettre dans vos fichiers de configuration. Mutt travaille dans un environnement unicode sans modification si tous vos fichiers de configuration (y compris la signature) sont encodés UTF-8.

Note
Vous pouvez regarder '?' dans un courriel que vous lisez avec Mutt. Ceci est le résultat de quelqu'un qui utilise un client de courriel qui ne spécifie aucun jeu de caractères. Vous ne pouvez pas y faire grand-chose d'autre que de lui demander de configurer son client correctement.

Une information complémentaire est disponible sur Mutt Wiki .

Man

Les page man sont une partie intégrante de toute machine Linux. Pour vérifier que tout texte unicode dans vos pages est rendu correctement, éditez le fichier /etc/man.conf et remplacer une ligne comme indiqué ci-dessous :

Codeman.conf changes for Unicode support

## (Ceci est l'ancienne ligne)
NROFF           /usr/bin/nroff -Tascii -c -mandoc
## (Remplacer l'ancienne ligne par ceci)
NROFF           /usr/bin/nroff -mandoc -c

elinks et links

Il s'agit ici de navigateurs textuels, et nous allons voir comment activer la prise en charge de l'UTF-8 pour eux. Pour elinks et links, il y deux façons d'y parvenir, une en utilisant une option de configuration interne au navigateur, l'autre en éditant un fichier de configuration. Pour positionner l'option interne du navigateur, ouvrez un page Web avec elinks ou links, puis, faites Alt+S au clavier pour entrer dans le menu de configuration. Sélectionnez alors la dernière option UTF-8 I/O en pressant Entrée. Sauvegardez et quittez le menu. Sur links vous pouvez avoir à faire à nouveau Alt+S et à appuyer sur la touche S pour sauvegarder. Le fichier de configuration est présenté ci-dessous :

CodeEnabling UTF-8 for elinks/links

## (Pour elinks, éditez /etc/elinks/elinks.conf ou ~/.elinks/elinks.conf et
ajoutez la ligne suivante.)
set terminal.linux.utf_8_io = 1

## (Pour links, éditez ~/.links/links.cfg et ajoutez la ligne suivante.)
terminal "xterm" 0 1 0 us-ascii utf-8

-

Samba

Samba est une suite logicielle qui met en œuvre le protocole SMB (Server Message Block) pour les systèmes UNIX tels que les Macs, Linux et FreeBSD. Le protocole est aussi parfois appelé le Common Internet File System (CIFS). Samba inclut aussi le système NetBIOS - utilisé pour le partage de fichiers à travers des réseaux windows.

Ajoutez ce qui suit sous la section [global] :

root # nano -w /etc/samba/smb.conf
dos charset = 1255
unix charset = UTF-8
display charset = UTF-8

Test complet

Il y a de nombreux sites Web de test en UTF-8. net-www/w3m , net-www/links , net-www/elinks , net-www/lynx et tous les navigateurs basé sur Mozilla (y compris Firefox) prennent en charge l'UTF-8. Konqueror et Opera disposent également d'une prise en charge complète de l'UTF-8.

Lorsque vous utilisez un des navigateurs seulement textuels, assurez-vous bien d'utiliser un terminal prédisposé UTF-8.

Si vous voyez certains caractères affichés sous forme de boîte avec des lettres ou des chiffres dedans, ceci signifie que votre police de caractères ne dispose pas de caractère pour ce symbole ou ce glyphe attendu par UTF-8. À la place, il affiche une boîte avec de code hexadécimal du symbole UTF-8.

Méthodes d'entrée

Les touches mortes peuvent être utilisées pour saisir des caractères qui ne sont pas directement sur votre clavier. Ceci fonctionne en pressant simultanément la touche Alt de droite (ou, dans certains pays, AltGr) et une touche optionnelle de la section non alphabétique de votre clavier à gauche de la touche Entrée, puis en les relachant et en pressant une touche de lettre. Les touches mortes devraient la modifier. Les entrées peuvent être modifiées plus encore, en utilisant la touche Shift en même temps que la touche AltGr et la touche modificatrice.

Pour activer les touches mortes dans X, vous devez utiliser un arrangement de clavier qui les prend en charge. La plupart des arrangements de clavier européens ont déjà les touches mortes avec leur variante par défaut. Cependant, ce n'est pas le cas des arrangements de clavier nord-américain. Bien qu'il puisse y avoir un certain manque de cohérence entre les arrangements de clavier, la solution la plus simple semble d'utiliser un arrangement de la forme en_US plutôt que us, par exemple. L'arrangement de clavier est défini dans /etc/X11/xorg.conf de la manière suivante :

Code/etc/X11/xorg.conf snippet

Section "InputDevice"
    Identifier "Keyboard0"
    Driver     "kbd"
    Option     "XkbLayout" "en_US" ## # Rather than just "us"
    ## (Other Xkb options here)
EndSection
Note
Les changements précédents ne doivent être appliqués que si vous utilisez un arrangement de clavier nord-américain, ou un autre arrangement pour lequel les touches mortes semblent ne pas fonctionner. Les utilisateurs européens devraient disposer des touches mortes sans rien faire.

Ces changements prennent effet après redémarrage de votre serveur X. Pour appliquer les changements immédiatement, utilisez l'outil setxkbmap, par exemple, setxkbmap en_US.

Il est probablement plus facile de décrire les touches mortes avec des exemples. Bien que les résultats dépendent du choix de la locale, les concepts devraient rester les mêmes indépendamment de la locale. Les exemples contiennent l'UTF-8, aussi pour les voir devriez-vous indiquer à votre navigateur de lire les pages en UTF-8, ou avoir une locale UTF-8 déjà configurée.

Lorsque vous pressez simultanément AltGr et [ et en pressant ensuite e, 'ë' est produit. Lorsque vous pressez simultanément AltGr et ;, 'á' est produit. Lorsque vous pressez simultanément AltGr et ;,les relâchez, et pressez ensuite e, 'é' est produit.

En pressant simultanément, AltGr, Shift et [ en les relâchant, et en pressant la lettre a, un 'å' scandinave est obtenu. De façon similaire, lorsque vous pressez simultanément, AltGr, Shift et p#91;, relâchez seulement le [, et le pressez à nouveau, un '°' est obtenu. Il s'agit ici de (U-02DA), et bien qu'il lui ressemble, il ne s'agit pas du symbole des degrés (U+00B0)..

AltGR peut être utilisé avec les touches des caractères alphabétiques seuls. Par exemple, AltGr et s produisent le scharfes ß ou esszet de la langue allemande,etc. Comme beaucoup d'utilisateurs européens l'attendent (parce que c'est écrit sur leur clavier), AltGr et 4 (ou E selon le clavier) produisent le symbole de l'euro, '€'.

Ressources

Problèmes connus

Fichiers de configuration système (dans /etc)

La plupart des fichiers de configuration, tels que /etc/fstab, ne prennent pas en charge l'UTF-8. Il est recommandé de s'en tenir aux caractères ASCII pour ces fichiers.

Remerciements

Nous tenons à remercier les auteurs et éditeurs suivants pour leur contribution à ce guide :

  • Thomas Martin
  • Alexander Simonov
  • Shyam Mani
  • nightmorph