UTF-8/ru

UTF-8 это кодировка символов переменной длины, что, в данном случае, означает длину от 1 до 4 байт на символ. Первый байт UTF-8 используется для кодирования ASCII, что означает, что данный набор символов полностью обратно совместим с ASCII. UTF-8 означает, что символы ASCII и Latin полностью взаимозаменяемы с небольшим увеличением размера данных, так как используется только первый бит. Пользователи Восточных алфавитов, например, Японского, которым назначили диапазон с большим числом байт несчастливы, так как это приводит к 50%-избыточности в их данных.

Что такое Кодировка Символов?
Компьютеры неспособны воспринимать текст. Вместо этого они каждый символ представляют как число. Традиционно каждый набор чисел, соответствующий алфавиту и символам (известный как кодировка или набор символов), ограничен в размере в силу ограничений оборудования.

История кодировок символов
Самой распространенной (или, по крайней мере, наиболее принятой повсеместно) кодировкой является ASCII (Американский стандартный код для обмена информацией, American Standard Code for Information Interchange). Часто считается, что ASCII &mdash; наиболее успешный программный стандарт современности. Нынешний ASCII стандартизован в 1986 году (ANSI X3.4, RFC 20, ISO/IEC 646:1991, ECMA-6) Американским национальным институтом по стандартизации (American National Standards Institute, ANSI).

ASCII является строго семибитной кодировкой, из чего следует, что она использует семь двоичных цифр, то есть интервал от 0 до 127. ASCII начинается с 32 невидимых управляющих символов (с кодами от 0 до 31) и заканчивается управляющим символом DEL (или delete) с кодом 127. Символы в диапазоне от 32 до 126 видимы &mdash; это пробел, знаки препинания, латинские буквы и цифры.

Восьмой бит в ASCII изначально использовался как бит целостности для проверки ошибок при передаче информации. Если целостность была не важна, он всегда равнялся 0. Это означает, что в ASCII каждый символ занимал один байт.

Хотя ASCII было достаточно для передачи информации на английском, для других европейских языков, содержащих символы с ударениями, это было не так просто. Для них был разработаны стандарты семейства ISO 8859. Они были обратно совместимы с ASCII, но использовали восьмой бит для дополнения таблицы дополнительными 127 символами для каждой кодировки. Скоро стали видны и ограничения ISO 8859. На данный момент существует 15 вариантов стандарта ISO 8859 (от 8859-1 до 8859-15). Однако для каждого символа вне ASCII-совместимого диапазона между этими стандартами возникал конфликт. Чтобы еще больше усилить конфликт между различными кодировками, для восточноевропейских языков корпорацией Microsoft был введен набор Windows-1252, использованный в ранних версиях Windows. Этот набор является надстройкой ISO 8859-1, обладающий собственными изменениями. Однако все же эти наборы были совместимы с ASCII.

Необходимость разработки совершенно отличных от ASCII однобайтовых кодировок для нелатинских алфавитов, как например EUC (Extended Unix Coding), используемый в японском и корейском (и в меньшей степени китайском) алфавитах, породила еще большую неразбериху с кодировками, из-за чего ряд операционных систем все еще использует различные наборы символов для одного и того же языка, например японские Shift-JIS и ISO-2022-JP. А пользователи, желающие видеть кириллицу, вынуждены были выбирать между KOI8-R (для русского и болгарского языков) и KOI8-U (для украинского языка), неудачной ISO 8859-5 и популярной Windows-1251. Все три семейства кодировок не полностью совместимы с ASCII (хотя в KOI8 фонетически созвучные кириллические символы расположены так же, как и латинские, благодаря чему даже при отбрасывании восьмого бита текст оставался читабельным в ASCII-терминалах в виде транслита).

Все это привело к путанице и полной невозможности многоязычного общения, в особенности с использованием различных алфавитов. Переходим к Юникоду.

Что такое Юникод?
Юникод отбрасывает лимит традиционных однобайтовых кодировок. Он использует 17 "плоскостей", содержащих по 65,536 кодов символов. Таким образом, максимальное возможное число символов равно 1,114,112. Поскольку в первой плоскости ("Basic Multilingual Plane" или BMP) содержится почти всё, что вам может понадобиться, многие ошибочно посчитали, что Юникод это 16-битный набор символов.

Юникод реализован несколькими способами, но распространены только два UTF (Unicode Transformation Format) и UCS (Universal Character Set). Число после UTF обозначает число бит на каждый символ, когда как число после UCS обозначает число байт. UTF-8 стала наиболее распространенной при обмене текста Юникод из-за своей явной ориентированности на размер в 8 бит, поэтому она и является основной темой данного документа.

Что UTF-8 может сделать для вас
UTF-8 позволяет вам работать в совместимой со всеобщими стандартами и принятой по всему миру многоязычной среде, правда с небольшим увеличением размера данных. UTF-8 это наилучший способ для передачи не-ASCII символов через интернет, будь то электронная почта, IRC-сети или что-нибудь еще. Несмотря на это, множество людей расценивают использование UTF-8 при передаче данных неприличным и неуважительным. Всегда следует выяснять, поддерживает ли определенный канал, группа Usenet или список рассылки UTF-8 перед тем, как использовать символы из не-ASCII диапазона UTF-8.

Поиск или создание локалей UTF-8
Теперь, когда вы поняли основы Юникода, вы готовы начать использование UTF-8 в вашей системе.

Главным требованием для UTF-8 является наличие установленной библиотеки glibc с поддержкой национального языка. При этом рекомендуется использовать файл. Описание использования этого файла, однако, выходит за рамки данного документа. Его использование описано в Руководстве по локализации Gentoo

Далее, нужно определить, доступна ли локаль UTF-8 для нашего языка или придётся её создать.

На выходе этой команды мы должны получить хотя бы одну строку, содержащую суффикс .UTF-8. Если таковых нет, то нам придётся создать локаль, совместимую с UTF-8.

Замените "ru_RU", если вам нужна какая-то другая локаль:

Другим способом включить локаль UTF-8 является добавление её в файл и генерация нужных локалей командой.

Строка в /etc/locale.gen

Setting the Locale
There is one environment variable that needs to be set in order to use our new UTF-8 locales:  (or optionally  , if you want to change the system language as well). There are also many different ways to set it; some people prefer to only have a UTF-8 environment for a specific user, in which case they set them in their (if you use   ),  or  (if you use   ). More details and best practices can be found in our Localization Guide.

Others prefer to set the locale globally. One specific circumstance where the author particularly recommends doing this is when is in use, because this init script starts the display manager and desktop before any of the aforementioned shell startup files are sourced, and so before any of the variables are in the environment.

Setting the locale globally should be done using. The file should look something like the following:

Демонстрация /etc/env.d/02locale

Next, the environment must be updated with the change.

Now, run  with no arguments to see if we have the correct variables in our environment:

That's everything. You are now using UTF-8 locales, and the next hurdle is the configuration of the applications you use from day to day.

Application Support
When Unicode first started gaining momentum in the software world, multibyte character sets were not well suited to languages like C, in which many of the day-to-day programs people use are written. Even today, some programs are not able to handle UTF-8 properly. Fortunately, most are!

Filenames, NTFS, and FAT
There are several NLS options in the Linux kernel configuration menu, but it is important to not become confused! For the most part, the only thing you need to do is to build UTF-8 NLS support into your kernel, and change the default NLS option to utf8.

If you plan on mounting NTFS partitions, you may need to specify an  option with mount. If you plan on mounting FAT partitions, you may need to specify a  option with mount. Optionally, you can also set a default codepage for FAT in the kernel configuration. Note that the  option with mount will override the kernel settings.

You should avoid setting  to UTF-8, as it is not recommended. Instead, you may want to pass the option utf8=true when mounting your FAT partitions. For further information, see  and the kernel documentation at.

For changing the encoding of filenames,  can be used.

The format of the  command is as follows:

Substitute iso-8859-1 with the charset you are converting from:

For changing the contents of files, use the  utility, bundled with. Subst muitute iso-8859-1 with the charset you are converting from, and check that the output is sane:

To convert a file, you must create another file:

can also be used for this purpose.

The System Console
To enable UTF-8 on the console, you should edit and set  , and also read the comments in that file -- it is important to have a font that has a good range of characters if you plan on making the most of Unicode. For this to work, make sure you have properly created a Unicode locale.

The  variable, set in , should have a Unicode keymap specified.

Example /etc/conf.d/keymaps snippet

Ncurses and Slang
It is wise to add  to your global USE flags in , and then to remerge   and   if appropriate. Portage will do this automatically when you update your system:

We also need to rebuild packages that link to these, now the USE changes have been applied. The tool we use is part of the   package.

KDE, GNOME and Xfce
All of the major desktop environments have full Unicode support, and will require no further setup than what has already been covered in this guide. This is because the underlying graphical toolkits (Qt or GTK+2) are UTF-8 aware. Subsequently, all applications running on top of these toolkits should be UTF-8-aware out of the box.

The exceptions to this rule come in Xlib and GTK+1. GTK+1 requires a iso-10646-1 FontSpec in the ~/.gtkrc, for example. Also, applications using Xlib or Xaw will need to be given a similar FontSpec, otherwise they will not work.

Example ~/.gtkrc (for GTK+1) that defines a Unicode compatible font

If an application has support for both a Qt and GTK+2 GUI, the GTK+2 GUI will generally give better results with Unicode.

X11 and Fonts
TrueType fonts have support for Unicode, and most of the fonts that ship with Xorg have impressive character support, although, obviously, not every single glyph available in Unicode has been created for that font. To build fonts (including the Bitstream Vera set) with support for East Asian letters with X, make sure you have the  USE flag set. Many other applications utilise this flag, so it may be worthwhile to add it as a permanent USE flag.

Also, several font packages in Portage are Unicode aware.

Window Managers and Terminal Emulators
Window managers not built on GTK or Qt generally have very good Unicode support, as they often use the Xft library for handling fonts. If your window manager does not use Xft for fonts, you can still use the FontSpec mentioned in the previous section as a Unicode font.

Terminal emulators that use Xft and support Unicode are harder to come by. Aside from Konsole and gnome-terminal, the best options in Portage are ,   ,   ,   , or plain   when built with the   USE flag and invoked as. supports UTF-8 too, when invoked as  or the following is put into the  :

~/.screenrc for UTF-8

Vim, Emacs, Xemacs and Nano
Vim provides full UTF-8 support, and also has builtin detection of UTF-8 files. For further information in Vim, use.

Emacs version 23 and Xemacs version 21.5 have full UTF-8 support. Emacs 24 will also support editing bidirectional text.

Nano has provided full UTF-8 support since version 1.3.6.

Shells
Currently,  provides full Unicode support through the GNU readline library. Z Shell offers Unicode support with the   USE flag.

The C shell,  and   do not provide UTF-8 support at all.

Irssi
Irssi has complete UTF-8 support, although it does require a user to set an option.

For channels where non-ASCII characters are often exchanged in non-UTF-8 charsets, the  command may be used to convert the characters. Type  for more information.

Mutt
The Mutt mail user agent has very good Unicode support. To use UTF-8 with Mutt, you don't need to put anything in your configuration files. Mutt will work under unicode enviroment without modification if all your configuration files (signature included) are UTF-8 encoded.

Further information is available from the Mutt Wiki.

Man
Man pages are an integral part of any Linux machine. To ensure that any unicode in your man pages render correctly, edit and replace a line as shown below.

man.conf changes for Unicode support

elinks and links
These are commonly used text-based browsers, and we shall see how we can enable UTF-8 support on them. On  and  , there are two ways to go about this, one using the Setup option from within the browser or editing the config file. To set the option through the browser, open a site with  or   and then   to enter the Setup Menu then select Terminal options, or press. Scroll down and select the last option  by pressing Enter. Then Save and exit the menu. On  you may have to do a repeat   and then press   to save. The config file option, is shown below.

Enabling UTF-8 for elinks/links

Samba
Samba is a software suite which implements the SMB (Server Message Block) protocol for UNIX systems such as Macs, Linux and FreeBSD. The protocol is also sometimes referred to as the Common Internet File System (CIFS). Samba also includes the NetBIOS system - used for file sharing over windows networks.

add the following under the [global] section:

Testing it all out
There are numerous UTF-8 test websites around. , ,   ,   and all Mozilla based browsers (including Firefox) support UTF-8. Konqueror and Opera have full UTF-8 support too.

When using one of the text-only web browsers, make absolutely sure you are using a Unicode-aware terminal.

If you see certain characters displayed as boxes with letters or numbers inside, this means that your font does not have a character for the symbol or glyph that the UTF-8 wants. Instead, it displays a box with the hex code of the UTF-8 symbol.


 * A W3C UTF-8 Test Page
 * A UTF-8 test page provided by the University of Frankfurt

Input Methods
Dead keys may be used to input characters in X that are not included on your keyboard. These work by pressing your right Alt key (or in some countries, AltGr) and an optional key from the non-alphabetical section of the keyboard to the left of the return key at once, releasing them, and then pressing a letter. The dead key should modify it. Input can be further modified by using the Shift key at the same time as pressing the AltGr and modifier.

To enable dead keys in X, you need a layout that supports it. Most European layouts already have dead keys with the default variant. However, this is not true of North American layouts. Although there is a degree of inconsistency between layouts, the easiest solution seems to be to use a layout in the form "en_US" rather than "us", for example. The layout is set in like so:

/etc/X11/xorg.conf snippet

This change will come into effect when your X server is restarted. To apply the change now, use the  tool, for example,.

It is probably easiest to describe dead keys with examples. Although the results are locale dependent, the concepts should remain the same regardless of locale. The examples contain UTF-8, so to view them you need to either tell your browser to view the page as UTF-8, or have a UTF-8 locale already configured.

When I press AltGr and [ at once, release them, and then press a, 'ä' is produced. When I press AltGr and [ at once, and then press e, 'ë' is produced. When I press AltGr and ; at once, 'á' is produced, and when I press AltGr and ; at once, release them, and then press e, 'é' is produced.

By pressing AltGr, Shift and [ at once, releasing them, and then pressing a, a Scandinavian 'å' is produced. Similarly, when I press AltGr, Shift and [ at once, release only the [, and then press it again, '°' is produced. Although it looks like one, this (U+02DA) is not the same as a degree symbol (U+00B0).

AltGr can be used with alphabetical keys alone. For example, AltGr and m, a Greek lower-case letter mu is produced. AltGr and s produce a scharfes s or esszet, etc. As many European users would expect (because it is marked on their keyboard), AltGr and 4 (or E depending on the keyboard layout) produces a Euro sign, '€'.

Resources

 * The Wikipedia entry for Unicode
 * The Wikipedia entry for UTF-8
 * Unicode.org
 * UTF-8.com
 * RFC 3629
 * RFC 2277
 * Characters vs. Bytes

System Configuration Files (in /etc)
Most system configuration files, such as, do not support UTF-8. It is recommended to stick with the ASCII character set for these files.

Acknowledgements
We would like to thank the following authors and editors for their contributions to this guide:


 * Thomas Martin
 * Alexander Simonov
 * Shyam Mani
 * nightmorph