Кодировка текстовых данных. Форматы текстовых файлов.
ASCII - это код для представления символов английского алфавита в виде чисел, каждой букве сопоставлено число от 0 до 127. В большинстве компьютеров код ASCII используется для представления текста, что позволяет передавать данные от одного компьютера на другой.
Текстовый файл, запомненный в формате ASCII, иногда называют ASCII-файлом. Текстовые редакторы и текстовые процессоры обычно могут сохранять данные в формате ASCII. Большинство файлов данных, особенно, если они содержат числовые данные, сохраняются не в ASCII формате. Исполняемые программы никогда не сохраняются в формате ASCII. Стандартный набор символов ASCII использует только 7 битов для каждого символа. Есть несколько наборов символов, которые используют 8 бит, что дает дополнительно 128 символов. Дополнительные символы используются для отображения символов не-английского алфавита, графических и математических символов. В операционной системе DOS используется надмножество ASCII, называемое расширенный ASCII. Более универсальным является набор символов ISO Latin 1, который используется во многих операционных системах и в браузерах.
Юникод, или Уникод (англ. Unicode) — стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков. Стандарт предложен в 1991 году некоммерческой организацией «Консорциум Юникода» (англ. Unicode Consortium), объединяющей крупнейшие IT -корпорации. Стандарт состоит из двух основных разделов: универсальный набор символов (UCS, Universal Character Set) и семейство кодировок (UTF, Unicode Transformation Format). Коды в стандарте Unicode разделены на несколько областей. Область с кодами от U+0000 до U+007F содержит символы набора ASCII с соответствующими кодами. Далее расположены области знаков различных письменностей, знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем. Под символы кириллицы выделены коды от U+0400 до U+052F Хотя формы записи UTF-8 и UTF-32 позволяют кодировать до 231 (2 147 483 648) кодовых позиций, было принято решение использовать лишь 220+216 (1 114 112) для совместимости с UTF- 16. Впрочем, даже и этого более чем достаточно — сегодня (в версии 5.0) используется чуть больше 99 000 кодовых позиций. Кодовое пространство разбито на 17 плоскостей по 216 (65536) символов. Нулевая плоскость называется базовой, в ней расположены символы наиболее употребительных письменностей. Первая плоскость используется, в основном, для исторических письменностей. Плоскости 16 и 17 выделены для частного употребления. Для обозначения символов Unicode используется запись вида «U+xxxx» (для кодов 0…FFFF) или «U+xxxxx» (для кодов 10000…FFFFF) или «U+xxxxxx» (для кодов 100000…10FFFF), где xxx — шестнадцатеричные цифры. Например, символ «я» (U+044F) имеет код 044F16 = 110310. Юникод имеет несколько форм представления (англ. Unicode Transformation Format, UTF): UTF-8, UTF-16 (UTF-16BE, UTF-16LE) и UTF-32 (UTF-32BE, UTF-32LE) 17.Кодировка цвета. Форматы графических файлов.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|