Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Измерение информации





Человек получает информацию из окружающего мира с помощью органов чувств, анализирует ее и выявляет существенные закономерности с помощью мышления, хранит полученную информацию в памяти. Процесс систематического научного познания окружающего мира приводит к накоплению информации в форме знаний (фактов, научных теорий и так далее). Таким образом, с точки зрения процесса познания информация может рассматриваться как знания.

Процесс познания можно наглядно изобразить в виде расширяющегося круга знания (такой способ придумали еще древние греки). Вне этого круга лежит область незнания, а окружность является границей между знанием и незнанием. Парадокс состоит в том, что чем большим объемом знаний обладает человек (чем шире круг знаний), тем больше он ощущает недостаток знаний (тем больше граница нашего незнания, мерой которого в этой модели является длина окружности) – рис. 1.1.

 
 

 


Рис. 1.1. Знание и незнание

Так, объем знаний выпускника школы гораздо больше, чем объем знаний первоклассника, однако и граница его незнания существенно больше. Действительно, первоклассник ничего не знает о законах физики и поэтому не осознает недостаточности своих знаний, тогда как выпускник школы при подготовке к экзаменам по физике может обнаружить, что существуют физические законы, которые он не знает или не понимает.

Само происхождение слова «информация» связано с сообщениями, сведениями, осведомлением. Такое значение слова «информация» продержалось довольно долго, примерно до середины нашего века. Именно в это время благодаря бурному развитию телеграфа, телефона, радио, телевидения и других средств массового общения и воздействия появилась необходимость измерять количество передаваемых сведений, т. е. информации. Начали возникать различные математические подходы к измерению информации, и это привело к тому, что первоначальное, зародившееся в глубине веков значение слова «информация» стало изменяться.



С появлением математических теорий понятие информации все чаще стало связываться с такой категорией, как вероятность. Наиболее четко эта связь была установлена и исследовала в работе американского математика и инженера К. Шеннона «Математическая теория связи», опубликованной в 1948 году.

Теория К. Шеннона называется вероятностно-статистической теорией информации. Именно в этой теории от первоначального недостаточно четкого представления об информации как о сведениях, которыми обмениваются люди, был совершен переход к точному понятию «количество информацин». Это понятие в статистической теории определялось на основе понятия «вероятности». Как известно, понятие «вероятность» всегда применяется для описания неопределенных ситуаций, когда эта неопределенность присуща или нашим знаниям об объекте или же самому этому объекту. Если сообщение не дает нам ничего нового, не снимает неопределенность, то с позиций рассматриваемой теории предполагается, что в нем не содержится информации. Так, например, для человека со средним образованием сообщение о том, что дважды два равно четырем, не содержит информации. Считается, что вероятность такого сообщения равна единице, а количество информации в нем равно нулю. Чем меньше вероятность тех или иных явлений {т. е., чем больше их сте пень неопределенности), тем большее количество информации содержится в сообщении об этих явлениях.

При таком подходе под информацией стали понимать лишь такие сведения, которые уменьшают существовавшую до их получения неопределенность. Информация здесь выступает как снимаемая неопределенность, как то, что уменьшает количество возможных вопросов, гипотез, предположений и т. д.

Информацию, которую получает человек, можно считать мерой уменьшения неопределенности знаний. Если некоторое сообщение приводит к уменьшению неопределенности наших знаний, то можно говорить, что такое сообщение содержит информацию.

Подход к информации как мере уменьшения неопределенности знаний позволяет количественно измерять информацию, что чрезвычайно важно для информатики.

Рис. 1.2. Подходы к измерению информации

Вероятностный подход к измерению информации принят в теории информации и кодирования. Он исходит из следующей модели: получатель сообщения имеет определенное представление о возможных наступлениях некоторых событий. Эти события в общем случае недостоверны и выражаются вероятностями, с которыми получатель ожидает то или событие.

Базисным понятием всей теории информации является понятие энтропии. Энтропия в теории информации – мера хаотичности информации или мера внутренней неупорядоченности информации, связана с вероятностью появления тех или иных символов при передаче сообщений.

Количество информации в сообщении определяется тем, насколько уменьшилась эта мера после получения сообщения: чем больше энтропия системы, тем больше степень ее неопределенности. Поступающее сообщение полностью или частично снимает эту неопределенность. Основоположенник теории информации Клод Шеннон определил информацию, как снятую неопределенность. Точнее сказать, получение информации – необходимое условие для снятия неопределенности. Неопределенность возникает в ситуации выбора. Задача, которая решается в ходе снятия неопределенности – уменьшение количества рассматриваемых вариантов (уменьшение разнообразия), и в итоге выбор одного соответствующего ситуации варианта из числа возможных. Снятие неопределенности дает возможность принимать обоснованные решения и действовать. В этом управляющая роль информации.

Ситуация максимальной неопределенности предполагает наличие нескольких равновероятных альтернатив (вариантов), т.е. ни один из вариантов не является более предпочтительным. Причем, чем больше равновероятных вариантов наблюдается, тем больше неопределенность, тем сложнее сделать однозначный выбор и тем больше информации требуется для этого получить.

Минимальная неопределенность равна 0, т.е. эта ситуация полной определенности, означающая что выбор сделан, и вся необходимая информация получена.

Величина, характеризующая количество неопределенности в теории информации обозначается символом H и имеет название энтропия, точнее информационная энтропия.

Рис. 1.3. Поведение энтропии для случая двух альтернатив

На рисунке 1.3 показано поведение энтропии для случая двух альтернатив, при изменении соотношения их вероятностей (p, (1-p)).

Максимального значения энтропия достигает в данном случае тогда, когда обе вероятности равны между собой и равны ½, нулевое значение энтропии соответствует случаям (p0=0, p1=1) и (p0=1, p1=0).

Количество информации I и энтропия H характеризуют одну и ту же ситуацию, но с качественно противоположенных сторон. I – это количество информации, которое требуется для снятия неопределенности H. Когда неопределенность снята полностью, количество полученной информации I равно изначально существовавшей неопределенности H.

Впервые понятия «энтропия» и «информация» связал Клод Шеннон в 1948. С его подачи энтропия стала использоваться как мера полезной информации в процессах передачи сигналов по проводам. Следует подчеркнуть, что под информацией Шеннон понимал сигналы нужные, полезные для получателя. Неполезные сигналы, с точки зрения Шеннона, это шум, помехи. Если сигнал на выходе канала связи является точной копией сигнала на входе то, с точки зрения теории информации, это означает отсутствие энтропии. Отсутствие шума означает максимум информации. Взаимосвязь энтропии и информации нашло отражение в формуле:

H + Y = 1,

где Н – энтропия, Y – информация.

Для расчета энтропии Шеннон предложил уравнение, напоминающее классическое выражение энтропии, найденное Больцманом.

H = ∑Pi log2 1/Pi = -∑Pi log2 Pi,

где Н – энтропия Шеннона, Pi - вероятность некоторого события.

Принято считать, что любая система стремится к состоянию равновесия, т. е. растет энтропия системы. Другими словами, энтропия максимальна в опытах, где все исходы равновероятны. Однако второе начало термодинамики требует компенсировать рост энтропии. Информация и является средством компенсации, т.к. при получении информации уменьшается неопределенность, то есть энтропия системы.

Пусть у нас имеется монета, которую мы бросаем на ровную поверхность. С равной вероятностью произойдет одно из двух возможных событий – монета окажется в одном из двух положений: "орел" или "решка".

 

Возможные события     Произошедшее событие
Рис 1.4. Рвновероятные события

Перед броском существует неопределенность наших знаний (возможны два события), и, как упадет монета, предсказать невозможно. После броска наступает полная определенность, так как мы видим (получаем зрительное сообщение), что монета в данный момент находится в определенном положении (например, "решка"). Это сообщение приводит к уменьшению неопределенности наших знаний в два раза, так как до броска мы имели два вероятных события, а после броска – только одно, то есть в два раза меньше.

В окружающей действительности достаточно часто встречаются ситуации, когда может произойти некоторое количество равновероятных событий. Так, при бросании равносторонней четырехгранной пирамиды существуют 4 равновероятных события, а при бросании шестигранного игрального кубика – 6 равновероятных событий.

Существует множество ситуаций, когда возможные события имеют различные вероятности реализации.

Например:

1. Когда сообщают прогноз погоды, то сведения о том, что будет дождь, более вероятно летом, а сообщение о снеге – зимой.

2. Если вы – лучший ученик в классе, то вероятность сообщения о том, что за контрольную работу вы получили 5, больше, чем вероятность получения двойки.

3. Если на озере живет 500 уток и 100 гусей, то вероятность подстрелить на охоте утку больше, чем вероятность подстрелить гуся.

4. Если в мешке лежат 10 белых шаров и 3 черных, то вероятность достать черный шар меньше, чем вероятность вытаскивания белого.

5. Если монета несимметрична (одна сторона тяжелее другой), то при ее бросании вероятности выпадения “орла” и “решки” будут различаться.

Чем больше количество возможных событий, тем больше начальная неопределенность и, соответственно, тем большее количество информации будет содержать сообщение о результатах опыта.

Информацию можно рассматривать как набор сообщений. Сообщение – это форма представления каких либо сведений в виде речи, текста, изображений, цифровых данных, графиков, таблиц и т.п.

Сообщение, в свою очередь, состоит в возможности наступления некоторых событий, каждое из которых может иметь свою вероятностную характеристику, т.е. степень возможности наступления этого события.

Пример 1.В закрытом ящике лежат два шара – черный и белый. Вытаскиваем один шар. Перед вытаскиванием существовала неопределенность нашего знания, так как возможны два события: «вытащили черный шар» или «вытащили белый шар». После того, как шар вытащен, наступает полная определенность: если произошло событие «вытащили черный шар», то в ящике остался белый и наоборот.

Вытаскивание одного из двух шаров приводит к уменьшению неопределенности нашего знания в два раза.

Рассмотрим понятие «вероятность».

Если N– это общее число возможных исходов какого-то процесса (например, вытаскивание шара), а из них интересующее нас событие (например, вытаскивание белого шара) может произойти k раз, то вероятность этого события p можно определить по формуле:

p = k/N.

Вероятность выражается в долях единицы. В нашем примере вероятность вытаскивания как белого, так и черного шара равна ½, т.е. события равновероятны.

Вероятность достоверного события (из 50 белых шаров вытащили белый шар) равна 1; вероятность невозможного события ( из 50 белых шаров вытащили черный шар) равна 0.

Пример 2.В закрытом ящике лежат четыре шара – три черных и один белый. Вытаскиваем один шар. Его цвет, скорее всего, будет черным. Но может быть быть и белым. Посчитаем вероятность вытаскивания белого и черного шара:

pбел. = ¼ = 0,25; pчерн. = ¾ = 0,75.

Информация содержится в сообщении о цвете вытащенного шара. Какая информация в примере 2 ценнее: «вытащили белый шар» или «вытащили черный шар? Конечно, информация о том, что вытащили белый шар, т.е. этим сообщением получено полное знание, что в ящике остались только черные шары.

Информация о том, что вытащили черный шар, тоже уменьшает неопределенность знания (после этого события в ящике осталось три шара – один белый и два черных), но не дает полного знания, какой шар может быть вытащен следующим.

Качественную связь между вероятностью события и количеством информации в сообщении об этом событии можно выразить так: чем меньше вероятность некоторого события, тем больше информации содержит сообщение об этом событии.

Количественная зависимость между вероятностью события p и количеством информации в сообщении о нем i выражается формулой

i = log2(1/p) (1)

или

2i = 1/p (2)

(Напомним, что такое логарифм.

Нахождение логарифма b по основанию a – это нахождение степени, в которую нужно возвести a, чтобы получить b.

Логарифм по основанию 2 называется двоичным:

log2(8)=3, т.к. 23=8

log2(10)=3,32, т.к. 23,32=10

Логарифм по основанию 10 называется десятичным:

log10(100)=2, т.к. 102=100)

Если событие достоверно, его вероятность равна 1, то оно неинформативно, т.е. количество информации в сообщении о нем равно 0. Но чем меньше вероятность какого-то события, тем большую ценность имеет информация об этом событии и тем больше будет значение i.

Например, куратор сообщил вам, что как обычно после этого занятия будет перерыв. (Так как вероятность этого события велика, то количество информации в нем мало.)

Куратор сообщил вам, что в перерыве будут бесплатно раздавать апельсины, бананы, ананасы. (Так как данное событие маловероятно, то количество информации в нем для вас велико.)

Количество информации можно рассматривать как меру уменьшения неопределенности знания при получении информационных сообщений.

Для количественного выражения любой величины необходимо определить единицу измерения. Например, для измерения длины выбран определенный эталон метр, массы – килограмм.

За единицу измерения количества информации принимается такое количество информации, которое содержится в сообщении, уменьшающем неопределенность знания в 2 раза. Такая единица называется «бит» (от английского словосочетания «BInary digiT» – «двоичная цифра»).

Вернемся к рассмотренному выше получению информационного сообщения о том, что выпал «орел» при бросании монеты. Здесь неопределенность уменьшилась в 2 раза, следовательно, это сообщение равно 1 биту. Сообщение о том, что выпала определенная грань игрального кубика, уменьшает неопределенность в 6 раз, следовательно, это сообщение равно 6 битам.

Минимальной единицей измерения количества информации является бит, а следующей по величине единицей – байт, причем

1 байт = 8 бит

В международной системе СИ используют десятичные приставки «Кило» (103), «Мега» (106), «Гига» (109),… В компьютере информация кодируется с помощью двоичной знаковой системы, поэтому в кратных единицах измерения количества информации используется коэффициент 2n.

1 килобайт (Кб) = 210 байт = 1024 байт

1 мегабайт (Мб) = 210 Кбайт = 1024 Кб

1 гигабайт (Гб) = 210 Мбайт = 1024 Мб

1 терабайт (Тб) = 210 Гбайт = 1024 Гб

Терабайт – очень крупная единица измерения информации, поэтому применяется крайне редко. Всю информацию, которое накопило человечество, оценивают в десятки терабайт.

Существует формула, которая связывает между собой количество возможных информационных сообщений N и количество информации i, которое несет полученное сообщение:

N=2i (3)

По этой формуле можно легко определить количество возможных событий, если известно количество информации. Например, если известно, что в результате определения того, что интересующий нас Коля Иванов живет на втором этаже, было получено 3 бит информации, то количество этажей в доме можно определить как N=23=8 этажей.

Если же вопрос стоит так: «в доме 8 этажей, какое количество информации мы получили, узнав, что интересующий нас Коля Иванов живет на втором этаже?», нужно воспользоваться формулой: i=log2(8)=3 бит.





Рекомендуемые страницы:

Воспользуйтесь поиском по сайту:



©2015- 2021 megalektsii.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.