Главная | Обратная связь | Поможем написать вашу работу!

Условная энтропия. Объединение зависимых систем

Пусть имеются две системы и , в общем случае зависимые. Предположим, что система приняла состояние . Обозначим условную вероятность того, что система примет состояние при условии, что система находится в состоянии :

. (18.4.1)

Определим теперь условную энтропию системы при условии, что система находится в состоянии . Обозначим ее . По общему определению, имеем:

(18.4.2)

или

. (18.4.2')

Формулу (18.4.2) можно также записать в форме математического ожидания:

, (18.4.3)

где знаком обозначено условное математическое ожидание величины, стоящей в скобках, при условии .

Условная энтропия зависит от того, какое состояние приняла система ; для одних состояний она будет больше, для других - меньше. Определим среднюю, или полную, энтропию системы с учетом того, что система может принимать разные состояния. Для этого нужно каждую условную энтропию (18.4.2) умножить навероятность соответствующего состояния и все такие произведения сложить. Обозначим полную условную энтропию :

(18.4.4)

или, пользуясь формулой (18.4.2),

Внося под знак второй суммы, получим:

(18.4.5)

или

. (18.4.5')

Но по теореме умножения вероятностей , следовательно,

. (18.4.6)

Выражению (18.4.6) тоже можно придать форму математического ожидания:

. (18.4.7)

Величина характеризует степень неопределенности системы , остающуюся после того, как состояние системы полностью определилось. Будем называть ее полной условной энтропией системы относительно .

Пример 1. Имеются две системы и , объединяемые в одну ; вероятности состояний системы заданы таблицей


0,1	0,2		0,3
	0,3		0,3
	0,2	0,2	0,4
0,1	0,7	0,2

Определить полные условные энтропии и .

Решение. Складывая вероятности по столбцам, получим вероятности :

; ; .

Записываем их в нижней, добавочной строке таблицы. Аналогично, складывая по строкам, найдем:

; ;

и запишем справа дополнительным столбцом. Деля на , получим таблицу условных вероятностей :

По формуле (18.4.5') находим . Так как условные энтропии при и равны нулю, то

Пользуясь таблицей 7 приложения, находим

(дв. ед.).

Аналогично определим . Из формулы (18.4.5'), меняя местами и , получим:

Составим таблицу условных вероятностей . Деля на получим:

Отсюда

(дв. сл.).

Пользуясь понятием условной энтропии, можно определить энтропию объединенной системы через энтропию ее составных частей.

Докажем следующую теорему:

Если две системы и объединяется в одну, то энтропия объединенной системы равна энтропии одной из ее составных частей плюс условная энтропия второй части относительно первой:

. (18.4.8)

Для доказательства запишем в форме математического ожидания (18.3.3):

По теореме умножения вероятностей

следовательно,

откуда

или, по формулам (18.2.11), (18.3.3)

что и требовалось доказать.

В частном случае, когда системы и независимы, , и мы получаем уже доказанную в предыдущем теорему сложения энтропий:

В общем случае

. (18.4.9)

Соотношение (18.4.9) следует из того, что полная условная энтропия не может превосходить безусловной:

. (18.4.10)

Неравенство (18.4.10) будет доказано в 18.6. Интуитивно оно представляется довольно очевидным: ясно, что степень неопределенности системы не может увеличиться оттого, что состояние какой-то другой системы стало известным.

Из соотношения (18.4.9) следует, что энтропия сложной системы достигает максимума в крайнем случае, когда ее составные части независимы.

Рассмотрим другой крайний случай, когда состояние одной из систем (например ) полностью определяет собой состояние другой (). В этом случае и формула (18.4.7) дает

Если состояние каждой из систем однозначно определяет состояние другой (или, как говорят, системы и эквивалентны), то

Теорему об энтропии сложной системы легко можно распространить на любое число объединяемых систем:

, (18.4.11)

где энтропия каждой последующей системы вычисляется при условии, что состояние всех предыдущих известно.

Энтропия и информация

В предыдущих была определена энтропия как мера неопределенности состояния некоторой физической системы. Очевидно, что в результате получения сведений неопределенность системы может быть уменьшена. Чем больше объем полученных сведений, чем они более содержательны, тем больше будет информация о системе, тем менее неопределенным будет ее состояние. Естественно поэтому количество информации измерять уменьшением энтропии той системы, для уточнения состояния которой предназначены сведения.

Рассмотрим некоторую систему , над которой производится наблюдение, и оценим информацию, получаемую в результате того, что состояние системы становится полностью известным. До получения сведений (априори)энтропия системы была ; после получения сведений состояние системы полностью определилось, т. е. энтропия стала равной нулю. Обозначим информацию, получаемую в результате выяснения состояния системы . Она равна уменьшению энтропии:

или

, (18.5.1)

т. е. количество информации, приобретаемое при полном выяснении состояния некоторой физической системы, равно энтропии этой системы.

Представим формулу (18.5.1) в виде:

, (13.5.2)

где .

Формула (18.5.2) означает, что информация есть осредненное по всем состояниям системы значение логарифма вероятности состояния с обратным знаком.

Действительно, для получения каждое значение (логарифм вероятности -го состояния) со знаком минус множится на вероятность этого состояния и всё такие произведения складываются. Естественно каждое отдельное слагаемое - рассматривать как частную информацию, получаемую от отдельного сообщения, состоящего в том, что система находится в состоянии . Обозначим эту информацию :

. (18.5.3)

Тогда информация представится как средняя (или полная) информация, получаемая от всех возможных отдельных сообщений с учетом их вероятностей. Формула (18.5.2) может быть переписана в формематематического ожидания:

, (18.5.4)

где буквой обозначено любое (случайное) состояние системы .

Так как все числа , не больше единицы, то как частная информация так и полная не могут быть отрицательными.

Если все возможные состояния системы априори одинаково вероятны , то, естественно, частная информация , от каждого отдельного сообщения

равна средней (полной) информации

В случае, когда состояния системы обладают различными вероятностями, информации от разных сообщений неодинаковы: наибольшую информацию несут сообщения о тех событиях, которые априори были наименее вероятны. Например, сообщение о том, что 31 декабря в г. Москве выпал снег, несет гораздо меньше информации, чем аналогичное по содержанию сообщение, что 31 июля в г. Москве выпал снег.

Пример 1. На шахматной доске в одной из клеток произвольным образом поставлена фигура. Априори все положения фигуры на доске одинаково вероятны. Определить информацию, получаемую от сообщения, в какой именно клетке находится фигура.

Решение. Энтропия системы с равновероятными состояниями равна ; в данном случае

(дв. ед.),

т. е. сообщение содержит 6 двоичных единиц информации. Так как все состояния системы равновероятны, то ту же информацию несет и любое конкретное сообщение типа: фигура находится в квадрате е2.

Пример 2. В условиях примера 1 определить частную информацию от сообщения, что фигура находится в одной из угловых клеток доски.

Решение. Априорная вероятность состояния, о котором сообщается, равна

Частная информация равна

(дв. ед.).

Пример 3. Определить частную информацию, содержащуюся в сообщении впервые встреченного лица : «сегодня мой день рождения».

Решение. Априори все дни в году с одинаковой вероятностью могут быть днями рождения лица . Вероятностьполученного сообщения . Частная информация от данного сообщения

(дв. ед.).

Пример 4. В условиях примера 3 определить полную информацию от сообщения, выясняющего, является ли сегодняшний день днем рождения впервые встреченного лица .

Решение. Система, состояние которой выясняется, имеет два возможных состояния: - день рождения и - не день рождения. Вероятности этих состояний ; .

Полная информация равна:

(дв. ед.).

Пример 5. По цели может быть произведено независимых выстрелов; вероятность поражения цели при каждом выстреле равна . После -го выстрела производится разведка, сообщающая, поражена или не поражена цель; если она поражена, стрельба по ней прекращается. Определить из того условия, чтобы количество информации, доставляемое разведкой, было максимально.

Решение. Рассмотрим физическую систему - цель после -го выстрела. Возможные состояния системы будут

- цель поражена;

- цель не поражена.

Вероятности состояний даны в таблице:

Очевидно, информация, доставляемая выяснением состояния системы , будет максимальна, когда оба состояния и равновероятны:

откуда

где - знак двоичного логарифма.

Например, при получаем (округляя до ближайшего целого числа)

Если информация выражена в двоичных единицах, то ей можно дать довольно наглядное истолкование, а именно: измеряя информацию в двоичных единицах, мы условно характеризуем ее числом ответов «да» или «нет», с помощью которых можно приобрести ту же информацию. Действительно, рассмотрим систему с двумя состояниями:

Чтобы выяснить состояние этой системы, достаточно задать один вопрос, например: находится ли система в состоянии ? Ответ «да» или «нет» на этот вопрос доставляет некоторую информацию, которая достигает своего максимального значения 1, когда оба состояния априори равновероятны: . Таким образом, максимальная информация, даваемая ответом «да» или «нет», равна одной двоичной единице.

Если информация от какого-то сообщения равна двоичным единицам, то она равносильна информации, даваемой ответами «да» или «нет» на вопросы, поставленные так, что «да» и «нет» одинаково вероятны.

В некоторых простейших случаях для выяснения содержания сообщения действительно удается поставить несколько вопросов так, чтобы ответы «да» и «нет» на эти вопросы были равновероятны. В таких случаях полученная информация фактически измеряется числом таких вопросов.

Если же поставить вопросы точно таким образом не удается, можно утверждать только, что минимальное число вопросов, необходимое для выяснения содержания данного сообщения, не меньше, чем информация, заключенная в сообщении. Чтобы число вопросов было минимальным, нужно формулировать их так, чтобы вероятности ответов «да» и «нет» были как можно ближе к .

Пример 6. Некто задумал любое целое число от единицы до восьми

а нам предлагается угадать его, поставив минимальное число вопросов, на каждый из которых дается ответ «да» или «нет».

Решение. Определяем информацию, заключенную в сообщении, какое число задумано. Априори все значения от 1 до 8 одинаково вероятны: , и формула (18.5.2) дает

Минимальное число вопросов, которые нужно поставить для выяснения задуманного числа, не меньше трех.

В данном случае можно, действительно, обойтись тремя вопросами, если сформулировать их так, чтобывероятности ответов «да» и «нет» были равны.

Пусть, например, задумано число «пять», мы этого не знаем и задаем вопросы:

Вопрос 1. Число меньше пяти?

Ответ. Нет. (Вывод: - одно из чисел 5, 6, 7, 8.)

Вопрос 2. Число меньше семи?

Ответ. Да. (Вывод: - одно из чисел 5, 6.)

Вопрос 3. Число меньше шести?

Ответ. Да. (Вывод: число равно пяти.)

Легко убедиться, что тремя такими (или аналогичными) вопросами можно установить любое задуманное число от 1 до 8.

Таким образом, мы научились измерять информацию о системе , содержащуюся как в отдельных сообщениях о ее состоянии, так и в самом факте выяснения состояния. При этом предполагалось, что наблюдение ведется непосредственно за самой системой . На практике это часто бывает не так: может оказаться, что система непосредственно недоступна для наблюдения, и выясняется состояние не самой системы , а некоторой другой системы , связанной с нею. Например, вместо непосредственного наблюдения за воздушными целями на посту управления средствами противовоздушной обороны ведется наблюдение за планшетом или экраном отображения воздушной обстановки, на котором цели изображены условными значками. Вместо непосредственного наблюдения за космическим кораблем ведется наблюдение за системой сигналов, передаваемых его аппаратурой. Вместо текста отправленной телеграммы получатель наблюдает текст принятой, который не всегда совпадает с .

Различия между непосредственно интересующей нас системой и поддающейся непосредственному наблюдению вообще могут быть двух типов:

1) Различия за счет того, что некоторые состояния системы не находят отражения в системе , которая «беднее подробностями», чем система .

2) Различия за счет ошибок: неточностей измерения параметров системы и ошибок при передаче сообщений.

Примером различий первого типа могут служить различия, возникающие при округлении численных данных и вообще при грубом описании свойств системы отображающей ее системой . Примерами различий второго типа могут быть искажения сигналов, возникающие за счет помех (шумов) в каналах связи, за счет неисправностей передающей аппаратуры, за счет рассеянности людей, участвующих в передаче информации, и т. д.

В случае, когда интересующая нас система и наблюдаемая различны, возникает вопрос: какоеколичество информации о системе дает наблюдение системы ?

Естественно определить эту информацию как уменьшение энтропии системы в результате получения сведений о состоянии системы :

. (18.5.5)

Действительно, до получения сведений о системе энтропия системы была ; после получения сведений «остаточная» энтропия стала , уничтоженная сведениями энтропия и есть информация .

Величину (18.5.5) мы будем называть полной (или средней) информацией о системе , содержащейся в системе .

Докажем, что

т. е. из двух систем каждая содержит относительно другой одну и ту же полную информацию.

Для доказательства запишем энтропию системы согласно теореме на стр. 479, двумя равносильными формулами:

откуда

или

, (18.5.6)

что и требовалось доказать.

Введем обозначение:

(18.5.7)

и будем называть информацию полной взаимной информацией, содержащейся в системах и .

Посмотрим, во что обращается полная взаимная информация в крайних случаях полной независимости и полной зависимости систем. Если и независимы, то , и

, (18.5.8)

т. е. полная взаимная информация, содержащаяся в независимых системах, равна нулю. Это вполне естественно, так как нельзя получить сведений о системе, наблюдая вместо нее другую, никак с нею не связанную.

Рассмотрим другой крайний случай, когда состояние системы полностью определяет состояние системы и наоборот (системы эквивалентны). Тогда :

, (18.5.9)

т. е. получается случай, уже рассмотренный нами выше (формула (18.5.2)), когда наблюдается непосредственно интересующая нас система (или, что то же, эквивалентная ей ).

Рассмотрим случай, когда между системами и имеется жесткая зависимость, но односторонняя: состояние одной из систем полностью определяет состояние другой, но не наоборот. Условимся называть ту систему, состояние которой полностью определяется состоянием другой, «подчиненной системой». По состоянию подчиненной системы вообще нельзя однозначно определить состояние другой. Например, если система представляет собой полный текст сообщения, составленного из ряда букв, a - его сокращенный текст, в котором для сокращения пропущены все гласные буквы, то, читая в сообщении слово «стл», нельзя в точности быть уверенным, означает оно «стол», «стул», «стал» или «устал».

Очевидно, энтропия подчиненной системы меньше, чем энтропия той системы, которой она подчинена.

Определим полную взаимную информацию, содержащуюся в системах, из которых одна является подчиненной.

Пусть из двух систем и подчиненной является . Тогда , и

, (18.5.10)

т. е. полная взаимная информация, содержащаяся в системах, из которых одна является подчиненной, равнаэнтропии подчиненной системы.

Выведем выражение для информации не через условную энтропию, а непосредственно через энтропию объединенной системы и энтропии ее составных частей и .

Пользуясь теоремой об энтропии объединенной системы (стр. 479), получим:

. (18.5.11)

Подставляя это выражение в формулу (18.5.5), получим:

, (18.5.12)

т. е. полная взаимная информация, содержащаяся в двух системах, равна сумме энтропий составляющих систем минус энтропия объединенной системы.

На основе полученных зависимостей легко вывести общее выражение для полной взаимной информации в видематематического ожидания. Подставляя в (18.5.12) выражения для энтропий:

, ,

получим

или

. (18.5.13)

Для непосредственного вычисления полной взаимной информации формулу (18.5.13) удобно записать в виде

, (18.5.14)

где

; .

Пример 1. Найти полную взаимную информацию, содержащуюся в системах и в условиях примера 1 18.4.

Решение. Из примера 1 18.4 с помощью таблицы 7 приложения получим:

; ; ;

(дв. ед.).

Пример 2. Физическая система может находиться в одном из четырех состояний ; соответствующиевероятности даны в таблице


	0,1	0,2	0,4	0,3

При наблюдении за системой состояния и неразличимы; состояния и также неразличимы. Сообщение о системе указывает, находится ли она в одном из состояний или же в одном из состояний . Получено сообщение, указывающее, в каком из состояний: или - находится система . Определить информацию, заключенную в этом сообщении.

Решение. В данном примере мы наблюдаем не саму систему , а подчиненную ей систему , которая принимает состояние , когда система оказывается в одном из состояний и состояние , когда оказывается в одном из состояний . Имеем:

;

Находим взаимную информацию, т. е. энтропию подчиненной системы:

(дв. ед.).

⇐ Предыдущая 72 73 74 75 767778 79 80 81 Следующая ⇒

Воспользуйтесь поиском по сайту: