Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Кодировка текстовых данных. Форматы текстовых файлов.




Кодирование текстовых данных и форматы текстовых файлов Если каждому символу алфавита сопоставить определенное целое число, то с помощью двоичного кода можно кодировать и текстовую информацию. 8 разрядов – 256 символов: английские и русские буквы строчные и прописные, знаки препинания, арифметических действий и некоторые общепринятые специальные символы (%, №, "). Для того, чтобы весь мир одинаково кодировал текстовые данные, нужны единые таблицы кодирования, а это пока невозможно из-за противоречий между символами национальных алфавитов и противоречий корпоративного характера. Для английского языка противоречия уже сняты. Институт стандартизации США ввел в действие систему кодирования ASCII (American Standard Code for Information Interchange – стандартный код информационного обмена США). ASCII: базовая (0 – 127) и расширенная (128 – 255) таблицы кодирования; – с 0 по 31 код отданы производителям аппаратных средств (компьютеров и печатающих устройств), это так называемые управляющие коды, которым не соответствуют никакие символы языка (эти коды не выводятся ни на экран, ни на печать), но они могут управлять выводом других данных; – 32 – 127: коды символов английского алфавита, цифр и др. Аналогичные системы кодирования были разработаны и в других странах. Поддержка производителей оборудования и программ вывела американский код ASCII на уровень международного стандарта, и национальным системам кодирования пришлось отступить на вторую, расширенную часть системы кодирования (128-255 коды). В России: – кодировка Windows-1251, введенная компанией Microsoft, – ввиду большого распространения программ этой компании; – КОИ-8 (код обмена информацией, восьмизначный): произошла в период действия Совета Экономической Взаимопомощи (СЭВ) государств Восточной Европы; имеет широкое распространение в компьютерных сетях на территории России и в российском секторе Интернета. Международный стандарт, в котором предусмотрена кодировка символов русского алфавита, – кодировка ISO (International Standard Organization – Международный институт стандартизации), на практике используется редко. На компьютерах, работающих в MS-DOS, могут действовать кодировки ГОСТ (устаревшая) и ГОСТ-альтернативная (используется и сейчас). Универсальная система кодирования текстовых данных. Трудности с созданием единой системы кодирования связаны с ограниченным набором кодов (256 – 8 разрядов). Система, основанная на 16-разрядном кодировании символов, получила название универсальной – Unicode. 16 разрядов позволяют обеспечить уникальные коды для 65 536 различных символов.

ASCII - это код для представления символов английского алфавита в виде чисел, каждой букве сопоставлено число от 0 до 127. В большинстве компьютеров код ASCII используется для представления текста, что позволяет передавать данные от одного компьютера на другой.

Текстовый файл, запомненный в формате ASCII, иногда называют ASCII-файлом. Текстовые редакторы и текстовые процессоры обычно могут сохранять данные в формате ASCII. Большинство файлов данных, особенно, если они содержат числовые данные, сохраняются не в ASCII формате. Исполняемые программы никогда не сохраняются в формате ASCII.

Стандартный набор символов ASCII использует только 7 битов для каждого символа. Есть несколько наборов символов, которые используют 8 бит, что дает дополнительно 128 символов. Дополнительные символы используются для отображения символов не-английского алфавита, графических и математических символов. В операционной системе DOS используется надмножество ASCII, называемое расширенный ASCII. Более универсальным является набор символов ISO Latin 1, который используется во многих операционных системах и в браузерах.

Юникод, или Уникод (англ. Unicode) — стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков. Стандарт предложен в 1991 году некоммерческой организацией «Консорциум Юникода» (англ. Unicode Consortium), объединяющей крупнейшие IT -корпорации. Стандарт состоит из двух основных разделов: универсальный набор символов (UCS, Universal Character Set) и семейство кодировок (UTF, Unicode Transformation Format).

Коды в стандарте Unicode разделены на несколько областей. Область с кодами от U+0000 до U+007F содержит символы набора ASCII с соответствующими кодами. Далее расположены области знаков различных письменностей, знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем. Под символы кириллицы выделены коды от U+0400 до U+052F

Хотя формы записи UTF-8 и UTF-32 позволяют кодировать до 231 (2 147 483 648) кодовых позиций, было принято решение использовать лишь 220+216 (1 114 112) для совместимости с UTF- 16. Впрочем, даже и этого более чем достаточно — сегодня (в версии 5.0) используется чуть больше 99 000 кодовых позиций.

Кодовое пространство разбито на 17 плоскостей по 216 (65536) символов. Нулевая плоскость называется базовой, в ней расположены символы наиболее употребительных письменностей. Первая плоскость используется, в основном, для исторических письменностей. Плоскости 16 и 17 выделены для частного употребления.

Для обозначения символов Unicode используется запись вида «U+xxxx» (для кодов 0…FFFF) или «U+xxxxx» (для кодов 10000…FFFFF) или «U+xxxxxx» (для кодов 100000…10FFFF), где xxx — шестнадцатеричные цифры. Например, символ «я» (U+044F) имеет код 044F16 = 110310.

Юникод имеет несколько форм представления (англ. Unicode Transformation Format, UTF): UTF-8, UTF-16 (UTF-16BE, UTF-16LE) и UTF-32 (UTF-32BE, UTF-32LE)

17.Кодировка цвета. Форматы графических файлов.

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...