Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Кодирование символов. Байт.




На основании одной ячейки информационной ёмкостью 1 бит можно закодировать только 2 различных состояния. Для того чтобы каждый символ, который можно ввести с клавиатуры в латинском регистре, получил свой уникальный двоичный код, требуется 7 бит. На основании последовательности из 7 бит, в соответствии с формулой Хартли, может быть получено N=27=128 различных комбинаций из нулей и единиц, т.е. двоичных кодов. Поставив в соответствие каждому символу его двоичный код, мы получим кодировочную таблицу. Человек оперирует символами, компьютер – их двоичными кодами.

Для латинской раскладки клавиатуры такая кодировочная таблица одна на весь мир, поэтому текст, набранный с использованием латинской раскладки, будет адекватно отображен на любом компьютере. Эта таблица носит название ASCII (American Standard Code of Information Interchange) по-английски произносится [э́ски], по-русски произносится [а́ски]. Ниже приводится вся таблица ASCII, коды в которой указаны в десятичном виде. По ней можно определить, что когда вы вводите с клавиатуры, скажем, символ “*”, компьютер его воспринимает как код 4210, в свою очередь 4210=1010102 – это и есть двоичный код символа “*”. Коды с 0 по 31 в этой таблице не задействованы.

Таблица 6. Символы ASCII

 

код символ код символ код символ код символ код символ код символ
  Пробел   .   @   P   '   p
  !       A   Q   a   q
  "       B   R   b   r
  #       C   S   c   s
  $       D   T   d   t
  %       E   U   e   u
  &       F   V   f   v
  '       G   W   g   w
  (       H   X   h   x
  )       I   Y   i   y
  *       J   Z   j   z
  +   :   K   [   k   {
  ,   ;   L   \   l   |
  -   <   M   ]   m   }
  .   >   N   ^   n   ~
  /   ?   O   _   o   DEL

 

Чтобы хранить также и коды национальных символов каждой страны (в нашем случае – символов кириллицы) требуется добавить еще 1 бит, что увеличит количество уникальных комбинаций из нулей и единиц вдвое, т.е. в нашем распоряжении дополнительно появится 128 свободных кодов (со 128-го по 255-й), в соответствие которым можно поставить символы русского алфавита.

Таким образом, отведя под хранение информации о коде каждого символа 8 бит, мы получим N=28=256 уникальных двоичных кодов, что достаточно, чтобы закодировать все символы, которые можно ввести с клавиатуры.

Дадим определение базовой единице измерения – байту.

Байт - последовательность из 8 бит. 1 байт = 23 бит = 8 бит. На основании одного байта можно получить 28=256 уникальных двоичных кодов. В современных кодировочных таблицах под хранение информации о коде каждого символа отводится 1 байт. 1 символ = 1 байт. В байтах измеряется объем данных (V) при их хранении и передаче по каналам связи. Например, текст “Добрый день!” занимает объем равный 12 байтам. Биты в байте нумеруются с конца с 0-го по 7-й. Минимальная комбинация на основании одного байта – восемь нулей, максимальная – восемь единиц. Рис. 4а. 111111112=27+26+25+24+23+22+21+20=128+64+32+16+8+4+2+1=25510 При хранении на физическом уровне каждый байт может быть реализован, например, на базе восьми конденсаторов, каждый из которых либо разряжен (0), либо заряжен (1). Рис. 4b.

 

Рис. 4а. Байт: минимальная и максимальная комбинации Рис. 4b. Байт: соответствие двоичного числа и электрического импульса.

Следует отметить, что на сегодняшний день в использовании не одна, а несколько кодировочных таблиц, включающих коды кириллицы, – это стандарты, выработанные в разные годы и различными учреждениями. В этих таблицах различен порядок, в котором расположены друг за другом символы кирилличного алфавита, поэтому одному и тому же коду соответствуют разные символы. По этой причине, мы иногда сталкиваемся с текстами, которые состоят из русских букв, но в бессмысленной для нас последовательности.

Например, текст “Компьютерные вирусы”, введенный в кодировке Windows-1251 в кодировке КОИ-8 будет отображен так: ”лПНРШАФЕТОШЕ ЧЙТХУЩ”.

Таблица 7. Несоответствие кодов символов в различных кодировках кириллицы.

Код Windows-1251 КОИ-8 ISO Под национальные кодировки отданы коды с 128-го по 255-й
  А Ю Р
  Б А С
  В б Т

 

Эта проблема разрешима - на каждом компьютере найдутся все основные кодировочные таблицы, и если тест выглядит неадекватно, нужно попробовать перекодировать его, просто указав использовать другую кодировочную таблицу. Но наличие такой проблемы, конечно, вносит неудобства.

Используя 8-битную кодировочную таблицу мы не сможем адекватно увидеть на мониторе и тексты, созданные на тех языках, где используются символы, отличные от латинских и кирилличных, например символы с умляутами в немецком языке.

Юникод. UTF-8

Теоретически давно существует решение этих проблем. Оно называется Unicode (Юникод). Unicode – это кодировочная таблица, в которой для кодирования каждого символа используется 2 байта, т.е. 16 бит. На основании такой таблицы может быть закодировано N=216=65 536 символов.

Юникод включает практически все современные письменности, в том числе: арабскую, армянскую, бенгальскую, бирманскую, греческую, грузинскую, деванагари, иврит, кириллицу, коптскую, кхмерскую, латинскую, тамильскую, хангыль, хань (Китай, Япония, Корея), чероки, эфиопскую, японскую (катакана, хирагана, кандзи) и другие.

С академической целью добавлены многие исторические письменности, в том числе: древнегреческая, египетские иероглифы, клинопись, письменность майя, этрусский алфавит.

В Юникоде представлен широкий набор математических и музыкальных символов, а также пиктограмм.

Для символов кириллицы в Юникоде выделено два диапазона кодов:

Cyrillic (#0400 — #04FF)

Cyrillic Supplement (#0500 — #052F).

Но внедрение таблицы Unicode в чистом виде сдерживается по той причине, что если код одного символа будет занимать не один байт, а два байта, то для хранения текста понадобится вдвое больше дискового пространства, а для его передачи по каналам связи – вдвое больше времени.

Поэтому сейчас на практике больше распространено представление Юникода UTF-8 (Unicode Transformation Format). UTF-8 обеспечивает наилучшую совместимость с системами, использующими 8-битные символы. Текст, состоящий только из символов с номером меньше 128, при записи в UTF-8 превращается в обычный текст ASCII. Остальные символы Юникода изображаются последовательностями длиной от 2 до 4 байтов. В целом, так как самые распространенные в мире символы – символы латинского алфавита - в UTF-8 по-прежнему занимают 1 байт, такое кодирование экономичнее, чем чистый Юникод.

Измерение информации

При хранении и передаче информации с помощью технических устройств информацию следует рассматривать как последовательность символов - знаков (букв, цифр, кодов цветов точек изображения и т.д.).

Набор символов знаковой системы (алфавит) можно рассматривать как различные возможные состояния (события).

Тогда, если считать, что появление символов в сообщении равновероятно, количество возможных событий N можно вычислить как N=2i .

Количество информации в сообщении I можно подсчитать, умножив количество символов K на информационный вес одного символа i.

Итак, имеются формулы, необходимые для определения количества информации в алфавитном подходе:

N=2i i Информационный вес символа, бит
  N Мощность алфавита
I=K*i K Количество символов в тексте
  I Информационный объем текста

 

Возможны следующие сочетания известных (Дано) и искомых (Найти) величин:

 

Тип Дано Найти Формула
  i N N=2i
  N i  
  i,K I I=K*i  
  i,I K  
  I, K i  
  N, K I Обе формулы  
  N, I K  
  I, K N  

 

Задача 1. Один символ алфавита «весит» 4 бита. Сколько символов в этом алфавите?

Решение:

Дано: i =4. Найти: N?

По формуле N=2i находим N=24, N =16

Ответ: 16

Задача 2. Каждый символ алфавита записан с помощью 8 цифр двоичного кода. Сколько символов в этом алфавите?

Решение:

Дано: i =8. Найти: N?

По формуле N=2i находим N=28, N =256

Ответ: 256

Задача 3. Алфавит русского языка иногда оценивают в 32 буквы. Каков информационный вес одной буквы такого сокращенного русского алфавита?

Решение:

Дано:

Дано: N =32. Найти: i -?

По формуле N=2i находим 32= 2i, 25= 2i, i =5

Ответ: 5

 

Заключение

 

Обобщая материал лекции, следует отметить, что для кодирования любой информации в цифровой ЭВМ используется двоичная система счисления, так как вычислительные машины выполнены на двухпозиционных электронных элементах. Двухпозиционные элементы в каждый момент времени находятся в одном из двух устойчивых состояний, которые соответствуют знакам двоичной системы счисления: 1 или 0.

Изучение вычислительных основ информационных технологий позволяет понять практическое применение различных систем счисления, принципы измерения компьютерной информации.

Контрольные вопросы

1. Понятия аналоговой и дискретной информации. Примеры.

2. Виды систем счисления. Примеры.

3. Правило перевода числа с любым основанием в десятичную систему счисления. Пример.

4. Правило перевода целых чисел из десятичной системы счисления в систему счисления с другим основанием.

5. Виды кодировочных таблиц.

6. Единицы измерения информации.

7. Алфавитный подход определения количества информации.

 

Литература:

а) основная литература:

1. А. С. Давыдов, Т. В. Маслова. Информационные технологии в деятельности органов внутренних дел: учебное пособие. – М.: ЦОКР МВД России, 2008.

2. Информатика и математика для юристов: учебник для студентов вузов, обучающихся по юридическим специальностям / под редакцией С. Я. Казанцева, Н. М. Дубининой. – 2-е изд., перераб. и доп. – М.: ЮНИТИ-ДАНА, 2009.

3. Информационные технологии в юридической деятельности: учебник для бакалавров / под общей редакцией П. У. Кузнецова. – М.: Издательство Юрайт, 2012.

4. Симонович С. В. Информатика. Базовый курс. – СПб., Питер, 2011.

б) дополнительная литература:

1. Горнец Н. Н., Рощин А. Г., Соломенцев В. В. Организация ЭВМ и систем. Учебное пособие. – М., Академия, 2008.

2. Орлов С. А., Цилькер Б. Я. Организация ЭВМ и систем. Учебник для вузов. – СПб., Питер, 2011.

3. Бройдо В. Л., Ильина О. П. Вычислительные системы, сети и телекоммуникации. Учебник для вузов. – СПб., Питер, 2011.

 

 

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...