Главная | Обратная связь | Поможем написать вашу работу!

Кодирование текстовой информации

В настоящее время большая часть пользователей при помощи компьютера обрабатывает текстовую информацию, которая состоит из символов: букв, цифр, знаков препинания и др.

Установление соответствия между набором символов и набором числовых значений называется кодированием.

Суть кодирования заключается в том, что каждому символу ставят в соответствие уникальный двоичный код от 00000000 до 11111111 или соответствующий ему десятичный код от 0 до 255.

Когда пользователь нажимает на компьютере клавишу с символом, в память компьютера поступает последовательность из восьми электрических импульсов (двоичный код символа). Код символа хранится в оперативной памяти компьютера, где он занимает одну ячейку памяти.

В процессе вывода символа на экран монитора производится обратный процесс – декодирование, т.е. преобразование кода символа в его изображение.

Традиционно для того чтобы закодировать один символ используют количество информации равное 1 байту, т. е. I = 1 байт = 8 бит. При помощи формулы, которая связывает между собой количество возможных событий К и количество информации I, можно вычислить сколько различных символов можно закодировать (считая, что символы – это возможные события):

К = 2^I = 2⁸ = 256,

т. е. для представления текстовой информации можно использовать алфавит мощностью 256 символов.

Присвоение символу определенного числового кода – это вопрос соглашения. В качестве международного стандарта принята кодовая таблица ASCII (American Standard Code for Information Interchange – Американский стандартный код для обмена информацией)/

Рис.1 Международная кодировка ASCII

В системе ASCII закреплены две таблицы кодирования – базовая и расширенная. Базовая часть таблицы ASCII-кодов (от 0 до 127) одинакова для всех IBM-PC совместимых компьютеров и содержит:

Ÿ управляющие коды (первые 32 кода, начиная с нулевого, им не соответствуют никакие символы языка и. соответственно, эти коды не выводятся ни на экран, ни на устройства печати, но с помощью них можно управлять выводом на печать);

Ÿ коды цифр, арифметических операций, знаков препинания;

Ÿ некоторые специальные символы;

Ÿ коды прописных и строчных латинских букв.

Расширенная часть таблицы (коды от 128 до 255) бывает различной в различных компьютерах. Она содержит коды букв национального алфавита, коды некоторых математических символов, коды псевдографики.

Необходимо помнить, что в настоящее время для кодировки русских букв используют пять различных кодовых таблиц (КОИ- 8, СР1251, СР866, Мас, ISO), причем тексты, закодированные при помощи одной таблицы, не будут правильно отображаться в другой кодировке. Наглядно это можно представить в виде фрагмента объединенной таблицы кодировки символов.

Одному и тому же двоичному коду ставится в соответствие различные символы (см. табл.)

Двоичный код	Десятичный код	КОИ-8	CP1251	CP866	Mac	ISO
		Б	В	–	–	Т

Впрочем, в большинстве случаев о перекодировке текстовых документов заботится не пользователь, а специальные программы-конверторы, которые встроены в приложения.

Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ-8 ("Код обмена информацией, 8-битный"). Эта кодировка применялась еще в 70-ые годы на компьютерах серии ЕС ЭВМ, а с середины 80-х стала использоваться в первых русифицированных версиях операционной системы UNIX.

Рис. 2. Кодировка КОИ8-Р

Наиболее распространенной в настоящее время является кодировка Microsoft Windows, обозначаемая сокращением CP1251 ("CP" означает "Code Page", "кодовая страница").

Рис. 3. Кодировка CP1251

От начала 90-ых годов, времени господства операционной системы MS DOS, остается кодировка CP866. Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac. Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.

Рис. 4. Слово «Кодировка» в пяти различных кодовых таблицах

В конце 90-ых годов появился новый международный стандарт Unicode, который отводит под один символ не один байт, а два, и поэтому с его помощью можно закодировать не 256, а 65536 различных символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.

⇐ Предыдущая 1 2 3 4 5 678 9 Следующая ⇒

Воспользуйтесь поиском по сайту: