Кодирование символов. Байт.
⇐ ПредыдущаяСтр 4 из 4 На основании одной ячейки информационной ёмкостью 1 бит можно закодировать только 2 различных состояния. Для того чтобы каждый символ, который можно ввести с клавиатуры в латинском регистре, получил свой уникальный двоичный код, требуется 7 бит. На основании последовательности из 7 бит, в соответствии с формулой Хартли, может быть получено N=27=128 различных комбинаций из нулей и единиц, т.е. двоичных кодов. Поставив в соответствие каждому символу его двоичный код, мы получим кодировочную таблицу. Человек оперирует символами, компьютер – их двоичными кодами. Для латинской раскладки клавиатуры такая кодировочная таблица одна на весь мир, поэтому текст, набранный с использованием латинской раскладки, будет адекватно отображен на любом компьютере. Эта таблица носит название ASCII (American Standard Code of Information Interchange) по-английски произносится [э́ски], по-русски произносится [а́ски]. Ниже приводится вся таблица ASCII, коды в которой указаны в десятичном виде. По ней можно определить, что когда вы вводите с клавиатуры, скажем, символ “*”, компьютер его воспринимает как код 4210, в свою очередь 4210=1010102 – это и есть двоичный код символа “*”. Коды с 0 по 31 в этой таблице не задействованы. Таблица 6. Символы ASCII
Чтобы хранить также и коды национальных символов каждой страны (в нашем случае – символов кириллицы) требуется добавить еще 1 бит, что увеличит количество уникальных комбинаций из нулей и единиц вдвое, т.е. в нашем распоряжении дополнительно появится 128 свободных кодов (со 128-го по 255-й), в соответствие которым можно поставить символы русского алфавита. Таким образом, отведя под хранение информации о коде каждого символа 8 бит, мы получим N=28=256 уникальных двоичных кодов, что достаточно, чтобы закодировать все символы, которые можно ввести с клавиатуры. Дадим определение базовой единице измерения – байту.
Следует отметить, что на сегодняшний день в использовании не одна, а несколько кодировочных таблиц, включающих коды кириллицы, – это стандарты, выработанные в разные годы и различными учреждениями. В этих таблицах различен порядок, в котором расположены друг за другом символы кирилличного алфавита, поэтому одному и тому же коду соответствуют разные символы. По этой причине, мы иногда сталкиваемся с текстами, которые состоят из русских букв, но в бессмысленной для нас последовательности.
Например, текст “Компьютерные вирусы”, введенный в кодировке Windows-1251 в кодировке КОИ-8 будет отображен так: ”лПНРШАФЕТОШЕ ЧЙТХУЩ”. Таблица 7. Несоответствие кодов символов в различных кодировках кириллицы.
Эта проблема разрешима - на каждом компьютере найдутся все основные кодировочные таблицы, и если тест выглядит неадекватно, нужно попробовать перекодировать его, просто указав использовать другую кодировочную таблицу. Но наличие такой проблемы, конечно, вносит неудобства. Используя 8-битную кодировочную таблицу мы не сможем адекватно увидеть на мониторе и тексты, созданные на тех языках, где используются символы, отличные от латинских и кирилличных, например символы с умляутами в немецком языке. Юникод. UTF-8 Теоретически давно существует решение этих проблем. Оно называется Unicode (Юникод). Unicode – это кодировочная таблица, в которой для кодирования каждого символа используется 2 байта, т.е. 16 бит. На основании такой таблицы может быть закодировано N=216=65 536 символов. Юникод включает практически все современные письменности, в том числе: арабскую, армянскую, бенгальскую, бирманскую, греческую, грузинскую, деванагари, иврит, кириллицу, коптскую, кхмерскую, латинскую, тамильскую, хангыль, хань (Китай, Япония, Корея), чероки, эфиопскую, японскую (катакана, хирагана, кандзи) и другие. С академической целью добавлены многие исторические письменности, в том числе: древнегреческая, египетские иероглифы, клинопись, письменность майя, этрусский алфавит. В Юникоде представлен широкий набор математических и музыкальных символов, а также пиктограмм.
Для символов кириллицы в Юникоде выделено два диапазона кодов: Cyrillic (#0400 — #04FF) Cyrillic Supplement (#0500 — #052F). Но внедрение таблицы Unicode в чистом виде сдерживается по той причине, что если код одного символа будет занимать не один байт, а два байта, то для хранения текста понадобится вдвое больше дискового пространства, а для его передачи по каналам связи – вдвое больше времени. Поэтому сейчас на практике больше распространено представление Юникода UTF-8 (Unicode Transformation Format). UTF-8 обеспечивает наилучшую совместимость с системами, использующими 8-битные символы. Текст, состоящий только из символов с номером меньше 128, при записи в UTF-8 превращается в обычный текст ASCII. Остальные символы Юникода изображаются последовательностями длиной от 2 до 4 байтов. В целом, так как самые распространенные в мире символы – символы латинского алфавита - в UTF-8 по-прежнему занимают 1 байт, такое кодирование экономичнее, чем чистый Юникод. Измерение информации При хранении и передаче информации с помощью технических устройств информацию следует рассматривать как последовательность символов - знаков (букв, цифр, кодов цветов точек изображения и т.д.). Набор символов знаковой системы (алфавит) можно рассматривать как различные возможные состояния (события). Тогда, если считать, что появление символов в сообщении равновероятно, количество возможных событий N можно вычислить как N=2i . Количество информации в сообщении I можно подсчитать, умножив количество символов K на информационный вес одного символа i. Итак, имеются формулы, необходимые для определения количества информации в алфавитном подходе:
Возможны следующие сочетания известных (Дано) и искомых (Найти) величин:
Задача 1. Один символ алфавита «весит» 4 бита. Сколько символов в этом алфавите? Решение: Дано: i =4. Найти: N? По формуле N=2i находим N=24, N =16 Ответ: 16 Задача 2. Каждый символ алфавита записан с помощью 8 цифр двоичного кода. Сколько символов в этом алфавите? Решение: Дано: i =8. Найти: N? По формуле N=2i находим N=28, N =256 Ответ: 256 Задача 3. Алфавит русского языка иногда оценивают в 32 буквы. Каков информационный вес одной буквы такого сокращенного русского алфавита? Решение: Дано: Дано: N =32. Найти: i -? По формуле N=2i находим 32= 2i, 25= 2i, i =5 Ответ: 5
Заключение
Обобщая материал лекции, следует отметить, что для кодирования любой информации в цифровой ЭВМ используется двоичная система счисления, так как вычислительные машины выполнены на двухпозиционных электронных элементах. Двухпозиционные элементы в каждый момент времени находятся в одном из двух устойчивых состояний, которые соответствуют знакам двоичной системы счисления: 1 или 0. Изучение вычислительных основ информационных технологий позволяет понять практическое применение различных систем счисления, принципы измерения компьютерной информации. Контрольные вопросы 1. Понятия аналоговой и дискретной информации. Примеры. 2. Виды систем счисления. Примеры. 3. Правило перевода числа с любым основанием в десятичную систему счисления. Пример. 4. Правило перевода целых чисел из десятичной системы счисления в систему счисления с другим основанием. 5. Виды кодировочных таблиц. 6. Единицы измерения информации. 7. Алфавитный подход определения количества информации.
Литература: а) основная литература: 1. А. С. Давыдов, Т. В. Маслова. Информационные технологии в деятельности органов внутренних дел: учебное пособие. – М.: ЦОКР МВД России, 2008. 2. Информатика и математика для юристов: учебник для студентов вузов, обучающихся по юридическим специальностям / под редакцией С. Я. Казанцева, Н. М. Дубининой. – 2-е изд., перераб. и доп. – М.: ЮНИТИ-ДАНА, 2009. 3. Информационные технологии в юридической деятельности: учебник для бакалавров / под общей редакцией П. У. Кузнецова. – М.: Издательство Юрайт, 2012. 4. Симонович С. В. Информатика. Базовый курс. – СПб., Питер, 2011. б) дополнительная литература: 1. Горнец Н. Н., Рощин А. Г., Соломенцев В. В. Организация ЭВМ и систем. Учебное пособие. – М., Академия, 2008. 2. Орлов С. А., Цилькер Б. Я. Организация ЭВМ и систем. Учебник для вузов. – СПб., Питер, 2011. 3. Бройдо В. Л., Ильина О. П. Вычислительные системы, сети и телекоммуникации. Учебник для вузов. – СПб., Питер, 2011.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|