Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Кодирование текстовой информации




При вводе текстовой информации в компьютер символы (бук­вы, цифры, знаки) кодируются с помощью различных кодовых систем, которые состоят из набора кодовых таблиц, размещенных на соответствующих страницах стандартов для кодирования текс­товой информации. В таких таблицах каждому символу присваи­вается определенный числовой код в шестнадцатеричной или де­сятичной системе счисления, т.е. кодовые таблицы отражают со­ответствие между изображениями символов и числовыми кодами и предназначены для кодирования и декодирования текстовой информации. При вводе текстовой информации с помощью кла­виатуры компьютера каждый вводимый символ подвергается ко­дированию, т.е. преобразуется в числовой код, при выводе тексто­вой информации на устройство вывода компьютера (дисплей, принтер или плоттер) по числовому коду символа строится его изображение. Присвоение символу определенного числового кода является результатом соглашения между соответствующими орга­низациями разных стран. В настоящее время нет единой универ­сальной кодовой таблицы, удовлетворяющей буквам националь­ных алфавитов разных стран.

Современные кодовые таблицы включают в себя международ­ную и национальную части, т.е. содержат буквы латинского и на­ционального алфавитов, цифры, знаки арифметических операций и препинания, математические и управляющие символы, символы псевдографики. Международная часть кодовой таблицы, базиру­ющаяся на стандарте ASCII (American Standard Code for Information Interchange), кодирует первую половину символов кодовой таблицы с числовыми кодами от 0 до 7F16, или в десятичной системе счис­ления от 0 до 127. При этом коды от 0 до 2016 (0÷3210) отведены функциональным клавишам (F1, F2, F3 и т.д.) клавиатуры персо­нального компьютера. На рис. 3.1 приведена международная часть кодовых таблиц, основанная на стандарте ASCII. Ячейки таблиц пронумерованы соответственно в десятичной и шестнадцатеричной системе счисления.

 

Национальная часть кодовых таблиц содержит коды националь­ных алфавитов, которую называют также таблицей наборов сим­волов (charset).

В настоящее время для поддержки букв русского алфавита (ки­риллицы) существует несколько кодовых таблиц (кодировок), ко­торые используются различными операционными системами, что является существенным недостатком и в ряде случаев приводит к проблемам, связанным с операциями декодирования числовых значений символов. В табл. 3.1 приведены названия кодовых стра­ниц (стандартов), на которых размещены кодовые таблицы (коди­ровки) кириллицы.

 

Одним из первых стандартов кодирования кириллицы на ком­пьютерах был стандарт КОИ8-Р. Национальная часть кодовой таблицы этого стандарта приведена на рис. 3.2.

В настоящее время применяется и кодовая таблица, размещенная на странице СР866 стандарта кодирования текстовой информации, которая используется в операционной системе MS DOS или сеансе работы MS DOS для кодирования кириллицы (рис. 3.3, а).

В настоящее время для кодирования кириллицы наибольшее распространение получила кодовая таблица, размещенная на стра­нице СР1251 соответствующего стандарта, которая используется в операционных системах семейства Windows фирмы Microsoft (рис. 3.2, б). Во всех представленных кодовых таблицах, кроме таблицы стандарта Unicode, для кодирования одного символа от­водится 8 двоичных разрядов (8 бит).

В конце прошлого века появился новый международный стан­дарт Unicode, в котором один символ представляется двухбайтовым двоичным кодом. Применение этого стандарта — продолжение разработки универсального международного стандарта, позволя­ющего решить проблему совместимости национальных кодировок символов. С помощью данного стандарта можно закодировать 216 = 65536 различных символов. На рис. 3.4 приведена кодовая таблица 0400 (русский алфавит) стандарта Unicode.

Пример

Закодировать слово «Компьютер» в виде последовательности десятичных и шестнадцатеричных чисел, используя кодировку СР1251. Какие символы будут отображены в кодовых таблицах СР866 и КОИ8-Р при использовании полученного кода.

Последовательности шестнадцатеричного и двоичного кода слова «Компьютер» на основе кодировочной таблицы СР1251 (см. рис. 3.3, б) будут выглядеть следующим образом:

Данная кодовая последовательность в кодировках CP866 и КОИ8-Р приведет к отображению следующих символов:

Для преобразования русскоязычных текстовых документов из одного стандарта кодирования текстовой информации в другой используются специальные программы — конверторы. Конверто­ры обычно встраиваются в другие программы. Примером может служить программа браузер — Internet Explorer (IE), которая имеет встроенный конвертор. Программа браузер — это специальная программа для просмотра содержимого Web-страниц в глобальной компьютерной сети Интернет.

 

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...