Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Количество и единицы измерения информации




Язык как способ представления информации

Язык — это система обозначений и правил для передачи сооб­щений. Различают языки естественные, на которых общаются лю­ди, и искусственные (или формальные), обеспечивающие взаи­модействие систем «человек — машина» или «машина — машина». К формальным языкам относятся языки программирования.

Формальный язык задается алфавитом, синтаксисом и се­мантикой. Теоретические основы методов проектирования язы­ков программирования, конструирования трансляторов рас­сматриваются в теории формальных языков.

Формальный язык — это язык, обеспечивающий удобное описание конкретных проблем, формулируемых человеком и решаемых с помощью компьютера.

На языке программирования пишется программа, позво­ляющая при ее выполнении компьютером (вычислительной системой) получить конкретные результаты. Язык программи­рования состоит из синтаксиса и семантики.

Алфавит представляет собой совокупность упорядоченных в определенном смысле символов в данном языке или системе. Эти символы называются буквами. Только символы, принадле­жащие данному алфавиту, можно использовать для построения слов.

Буква — это элемент алфавит. Например, алфавит языка Паскаль состоит из латинских букв (причем строчные и про­писные буквы не различаются), цифр и специальных символов.

Под символом понимается элемент алфавита, имеющий оп­ределенное значение. Символ, как правило, записывается в па­мяти компьютера восемью битами, или одним байтом.

Синтаксис (от грсч. syntaxis — построение, порядок) — это набор правил построения слов, конструкций и структур текста в языке или системе. Некоторые авторы включают в синтаксис и алфавит. Ошибки, возникающие при написании программы и касающиеся только синтаксиса, выявляются при синтакси­ческом анализе, осуществляемом транслятором.

В информатике понятие «слово» имеет несколько опреде­лений, приведем два из них.

Слово — это:

— упорядоченный набор символов в заданном алфавите, имеющий определенный смысл;

— единица данных, рассматриваемая как целое при переда­че и обработке данных в процессе.

Транслятор (от англ. translator — переводчик) — это про­грамма, производящая трансляцию программы с одного языка программирования в другой.

Под семантикой (от греч. semantikos — обозначающий) по­нимается смысл каждой синтаксической конструкции в языке или системе.

В язык программирования транслятор превращает синтак­сические построения команд, понятные операционной систе­ме и процессору. Смысловые ошибки транслятор не выявляет, их поиск осуществляет человек в процессе отладки, тестирова­ния и даже эксплуатации языка программирования.

Формы представления и преобразования информации

При любых формах работы с информацией всегда идет речь о ее представлении в виде определенных символических струк­тур. Наиболее распространены одномерные представления ин­формации, при которых сообщения имеют вид последователь­ности символов. Так информация представляется в письмен­ных текстах, при передаче по каналам связи, в памяти ЭВМ. Однако широко используется и многомерное представление информации, причем под многомерностью понимается не толь­ко расположение элементов информации на плоскости или в пространстве в виде рисунков, схем, графов, объемных маке­тов и т. п., но и множественность признаков используемых символов, например цвет, размер, вид шрифта в тексте.

Формирование представления информацииназывается ее кодированием. В более узком смысле под кодированием пони­мается переход от исходного представления информации, удобного для восприятия человеком, к представлению, удоб­ному для ее хранения, передачи и обработки. В этом случае об­ратный переход к исходному представлению информации на­зывается декодированием.

При кодировании информации ставятся следующие цели:

— удобство физической реализации;

— удобство восприятия;

— высокая скорость передачи и обработки;

— экономичность, т. с. уменьшение избыточности сообще­ний;

— надежность, т. е. зашита от случайных искажений;

— сохранность, т. е. зашита от нежелательного доступа к ин­формации.

Эти цели часто противоречат друг другу. Стремясь к эко­номным сообщениям, мы тем самым уменьшаем их надеж­ность и удобство восприятия. Экономные сообщения могут по­высить скорость обработки информации (такое сообщение бу­дет передано или прочтено быстрее), но могут и уменьшить ее. А зашита от нежелательного доступа уменьшает объем храни­мой информации и замедляет работу с ней.

Рассмотрим способы представления информации в ЭВМ. Для записи, хранения и выдачи по запросу информации, обра­батываемой с помощью ЭВМ, предназначено запоминающее устройство (или память) вычислительной машины.

В отличие от обычной словесной формы, принятой в пись­менной речи, информация в памяти ЭВМ записывается в форме цифрового двоичного кода. Это объясняется тем, что электрон­ные элементы, на которых строится память ЭВМ, находятся только в одном из двух устойчивых состояний — их можно интерпретировать как 0 или 1.

Количество информации, которое может помешаться в один элемент памяти (0 или 1), называемый битом, очень мало и не несет никакой смысловой нагрузки. Однако если соединить несколько таких элементов в ячейку, то можно сохранить в за­поминающем устройстве столько информации, сколько потре­буется. Последовательность бит, рассматриваемых аппаратной частью ЭВМ как единое целое, называется машинним словом. Слово «бит» происходит от английских слов binary — двойной и digit — цифра: BInary + digiT = BIT.

Так как оперативная память ЭВМ состоит из конечной по­следовательности слов, а слова — из конечной последователь­ности бит, то объем представляемой в ЭВМ информацииогра­ничен емкостью памяти, а числовая информация может быть представлена только с определенной точностью, зависящей от архитектуры памяти данной ЭВМ.

 

Количество и единицы измерения информации

Понятие информации можно рассматри­вать при различных ограничениях, накладываемых на ее свойства, т.е. при различных уровнях рассмотрения. В основном выделяют три уровня — синтаксический, семантический и прагматический. Соответственно на каждом из них для определения количества информации применяют различные оценки.

На синтаксическом уровне для оценки количества информации используют вероятностные методы, которые принимают во вни­мание только вероятностные свойства информации и не учитыва­ют другие (смысловое содержание, полезность, актуальность и т.д.). Разработанные в середине ХХ в. математические и, в частности, вероятностные методы позволили сформировать подход к оценке количества информации как к мере уменьшения неопределенности знаний. Такой подход, называемый также вероятностным, посту­лирует принцип: если некоторое сообщение приводит к уменьше­нию неопределенности наших знаний, то можно утверждать, что такое сообщение содержит информацию. При этом сообщения содержат информацию о каких-либо событиях, которые могут реализоваться с различными вероятностями. Формулу для опреде­ления количества информации для событий с различными вероят­ностями и получаемых от дискретного источника информации предложил американский ученый К. Шеннон в 1948 г. Согласно этой формуле количество информации может быть определено следующим образом:

(1.1)

где I — количество информации; N — количество возможных со­бытий (сообщений); pi — вероятность отдельных событий (сооб­щений); Σ — математический знак суммы чисел.

Определяемое с помощью формулы (1.1) количество информа­ции принимает только положительное значение. Поскольку веро­ятность отдельных событий меньше единицы, то соответственно выражение log pi является отрицательной величиной и для получе­ния положительного значения количества информации в формуле (1.1) перед знаком суммы стоит знак минус.

Если вероятность появления отдельных событий одинаковая, и они образуют полную группу событий, т.е.

то формула (1.1) преобразуется в формулу Р. Хартли:

(1.2)

В формулах (1.1) и (1.2) отношение между количеством инфор­мации и соответственно вероятностью, или количеством, отдель­ных событий выражается с помощью логарифма.

Применение логарифмов в формулах (1.1) и (1.2) можно объяснить следующим образом. Для простоты рассуждений воспользуемся соотношением (1.2). Будем последовательно присваивать аргументу N значения, выбираемые, например, из ряда чисел: 1, 2, 4, 8, 16, 32, 64 и т.д. Чтобы определить, какое событие из N равновероятных событий произошло, для каждого числа ряда необходимо последовательно производить операции выбора из двух возможных событий. Так, при N = 1 количество операций будет равно 0 (вероятность события равна 1), при N = 2, количество операций будет равно 1, при N = 4 количество операций будет равно 2, при N = 8, количество опера­ций будет равно 3 и т.д. Таким образом получим следующий ряд чисел: 0, 1, 2, 3, 4, 5, 6 и т.д., который можно считать соответству­ющим значениям функции I в соотношении (1.2). Последователь­ность значений чисел, которые принимает аргумент N, представ­ляет собой ряд, известный в математике как ряд чисел, образующих геометрическую прогрессию, а последовательность значений чи­сел, которые принимает функция I, будет являться рядом, образу­ющим арифметическую прогрессию. Таким образом, логарифм в формулах (1.1) и (1.2) устанавливает соотношение между рядами, представляющими геометрическую и арифметическую прогрессии, что достаточно хорошо известно в математике.

Для количественного определения (оценки) любой физической величины необходимо определить единицу измерения, которая в теории измерений носит название меры. Как уже отмечалось, ин­формацию перед обработкой, передачей и хранением необходимо подвергнуть кодированию. Кодирование производится с помощью специальных алфавитов (знаковых систем). В информатике, изу­чающей процессы получения, обработки, передачи и хранения информации с помощью вычислительных (компьютерных) систем, в основном используется двоичное кодирование, при котором используется знаковая система, состоящая из двух символов 0 и 1. По этой причине в формулах (1.1) и (1.2) в качестве основания логарифма используется цифра 2.

Исходя из вероятностного подхода к определению количества информации эти два символа двоичной знаковой системы можно рассматривать как два различных возможных события, поэтому за единицу количества информации принято такое количество ин­формации, которое содержит сообщение, уменьшающее неопре­деленность знания в два раза (до получения событий их вероят­ность равна 0,5, после получения — 1, неопределенность уменьша­ется соответственно: 1/0,5 = 2, т.е. в 2 раза). Такая единица измерения информации называется битом (от англ. слова binary digit — двоичная цифра). Таким образом, в качестве меры для оцен­ки количества информации на синтаксическом уровне, при усло­вии двоичного кодирования, принят один бит.

Следующей по величине единицей измерения количества ин­формации является байт, представляющий собой последователь­ность, составленную из восьми бит, т.е.

1 байт = 23 бит = 8 бит.

В информатике также широко используются кратные байту единицы измерения количества информации, однако в отличие от метрической системы мер, где в качестве множителей кратных единиц применяют коэффициент 10 n, где n = 3, 6, 9 и т.д., в крат­ных единицах измерения количества информации используется коэффициент 2n. Выбор этот объясняется тем, что компьютер в основном оперирует числами не в десятичной, а в двоичной сис­теме счисления.

Кратные байту единицы измерения количества информации вводятся следующим образом:

1 Килобайт (Кбайт) = 210 байт = 1024 байт,

1 Мегабайт (Мбайт) = 210 Кбайт = 1024 Кбайт,

1 Гигабайт (Гбайт) = 210 Мбайт = 1024 Мбайт,

1 Терабайт (Тбайт) = 210 Гбайт = 1024 Гбайт,

1 Петабайт (Пбайт) = 210 Тбайт = 1024 Тбайт,

1 Экзабайт (Эбайт) = 210 Пбайт = 1024 Пбайт.

Единицы измерения количества информации, в названии ко­торых есть приставки «кило», «мега» и т.д., с точки зрения теории измерений не являются корректными, поскольку эти приставки используются в метрической системе мер, в которой в качестве множителей кратных единиц используется коэффициент 10", где n = 3, 6, 9 и т.д. Для устранения этой некорректности международ­ная организацией International Electrotechnical Commission, занима­ющаяся созданием стандартов для отрасли электронных техноло­гий, утвердила ряд новых приставок для единиц измерения коли­чества информации: киби (kibi), меби (mebi), гиби (gibi), теби (tebi), пети (peti), эксби (exbi). Однако пока используются старые обо­значения единиц измерения количества информации, и требуется время, чтобы новые названия начали широко применяться.

Вероятностный подход используется и при определении коли­чества информации, представленной с помощью знаковых систем. Если рассматривать символы алфавита как множество возможных сообщений N, то количество информации, которое несет один знак алфавита, можно определить по формуле (1.1). При равновероят­ном появлении каждого знака алфавита в тексте сообщения для определения количества информации можно воспользоваться фор­мулой (1.2).

Количество информации, которое несет один знак алфавита, тем больше, чем больше знаков входит в этот алфавит.

Количество знаков, входящих в алфавит, называется мощностью алфавита. Количество информации (информационный объем), содержаще­еся в сообщении, закодированном с помощью знаковой системы и содержащем определенное количество знаков (символов), опре­деляется с помощью формулы:

V = I ∙K, (1.3)

где V — информационный объем сообщения; I = log2N, информа­ционный объем одного символа (знака); K — количество символов (знаков) в сообщении; N — мощность алфавита (количество знаков в алфавите).

 

Пример 1.1

Определим, какое количество информации можно получить после реализации одного из шести событий. Вероятность первого события составляет 0,15; второго — 0,25; третьего — 0,2; четверто­го — 0,12; пятого — 0,12; шестого — 0,1.

Т.е. P1 = 0,15; P2 = 0,25; P3 = 0,2; P4 = 0,18; P5 = 0,12; P6 = 0,1.

Решение.

Для определения количества информации применим формулу

(1.1)

I = -(P1 ∙ log2P1 + P2 ∙ log2P2 + P3 ∙ log2P3 + P4 ∙ log2P4 +

+ P5 ∙ log2P5 + P6 ∙ log2P6) = -(0,15 ∙ log20,15 + 0,25 ∙ log20,25 + 0,2 ∙ log20,2 + 0,18 ∙ log20,18 + 0,12 ∙ log20,12 + 0,1 ∙ log20,1) бит = 2,52 бит (рис. 1.4).

 

На семантическом уровне информация рассматривается по ее содержанию, отражающему состояние отдельного объекта или системы в целом. При этом не учитывается ее полезность для по­лучателя информации. На данном уровне изучаются отношения между знаками, их предметными и смысловыми значениями (см. рис. 1.1), что позволяет осуществить выбор смысловых единиц измерения информации. Поскольку смысловое содержание ин­формации передается с помощью сообщения, т.е. в виде совокуп­ности знаков (символов), передаваемых с помощью сигналов от источника информации к приемнику, то широкое распростране­ние для измерения смыслового содержания информации получил подход, основанный на использовании тезаурусной меры. При этом под тезаурусом понимается совокупность априорной инфор­мации (сведений), которой располагает приемник информации.

Данный подход предполагает, что для понимания (осмыслива­ния) и использования полученной информации приемник (полу­чатель) должен обладать априорной информацией (тезаурусом), т.е. определенным запасом знаков, наполненных смыслом, слов, понятий, названий явлений и объектов, между которыми установ­лены связи на смысловом уровне. Таким образом, если принять знания о данном объекте или явлении за тезаурус, то количество информации, содержащееся в новом сообщении о данном пред­мете, можно оценить по изменению индивидуального тезауруса под воздействием данного сообщения. В зависимости от соотно­шений между смысловым содержанием сообщения и тезаурусом пользователя изменяется количество семантической информации, при этом характер такой зависимости не поддается строгому мате­матическому описанию и сводится к рассмотрению трех основных условий, при которых тезаурус пользователя:

• стремится к нулю, т.е. пользователь не воспринимает поступив­шее сообщение;

• стремится к бесконечности, т.е. пользователь досконально зна­ет все об объекте или явлении и поступившее сообщение его не интересует;

• согласован со смысловым содержанием сообщения, т.е. посту­пившее сообщение понятно пользователю и несет новые сведе­ния.

Два первых предельных случая соответствуют состоянию, при котором количество семантической информации, получаемое пользователем, минимально. Третий случай связан с получением максимального количества семантической информации. Таким образом, количество семантической информации, получаемой пользователем, является величиной относительной, поскольку одно и то же сообщение может иметь смысловое содержание для компетентного и быть бессмысленным для некомпетентного поль­зователя.

Поэтому возникает сложность получения объективной оценки количества информации на семантическом уровне ее рассмотрения и для получения такой оценки используют различные единицы измерения количества информации: абсолютные или относитель­ные. В качестве абсолютных единиц измерения могут использо­ваться символы, реквизиты, записи и т.д., а в качестве относитель­ной — коэффициент содержательности, который определяется как отношение семантической информации к ее объему. Например, для определения на семантическом уровне количества информа­ции, полученной студентами на занятиях, в качестве единицы измерения может быть принят исходный балл (символ), характе­ризующий степень усвояемости ими нового учебного материала, на основе которого можно косвенно определить количество ин­формации, полученное каждым студентом. Это количество инфор­мации будет выражено через соответствующий оценочный балл в принятом диапазоне оценок.

При семантическом подходе к оценке количества информации и выборе единицы измерения существенным является вид получа­емой информации (сообщения). Так, данный подход к оценке количества экономической информации позволяет выявить со­ставную единицу экономической информации, состоящую из со­вокупности других единиц информации, связанных между собой по смыслу. Элементарной составляющей единицей экономической информации является реквизит, т.е. информационная совокуп­ность, которая не поддается дальнейшему делению на единицы информации на смысловом уровне. Деление реквизитов на симво­лы приводит к потере их смыслового содержания. Каждый рекви­зит характеризуется именем, значением и типом. При этом под именем реквизита понимается его условное обозначение, под зна­чением — величина, характеризующая свойства объекта или явле­ния в определенных обстоятельствах, под типом — множество значений реквизита, объединенных определенными признаками и совокупностью допустимых преобразований.

Реквизиты принято делить на реквизиты-основания и реквизи­ты-признаки [2].

Реквизиты-основания характеризуют количественную сторону экономического объекта, процесса или явления, которые могут быть получены в результате совершения отдельных операций — вычислений, измерений, подсчета натуральных единиц и т.д. В экономических документах к ним можно отнести, например, цену товара, его количество, сумму и т.п. Реквизиты-основания чаще всего выражаются в цифрах, над которыми могут выполнять­ся математические операции.

Реквизиты-признаки отражают качественные свойства эконо­мического объекта, процесса или явления. С помощью реквизитов-признаков сообщения приобретают индивидуальный характер. В экономических документах к ним можно отнести, например, номер документа, имя отправителя, дату составления документа, вид операции и т.п. Реквизиты-признаки позволяют осуществлять логическую обработку единиц количества информации на семан­тическом уровне: поиск, выборку, группировку, сортировку и т.д.

Отдельный реквизит-основание вместе с относящимися к нему реквизитами-признаками образует следующую в иерархическом отношении составную единицу экономической информации — по­казатель. Показатель имеет наименование, в состав которого вхо­дят термины, обозначающие измеряемый объект: себестоимость, затраты, мощность, прибыль и т.д. Кроме того, показатель содер­жит формальную характеристику и дополнительные признаки. К формальной характеристике относится способ его получения (объем, сумма, прирост, процент, среднее значение и т.д.), а к до­полнительным — пространственно-временные (где находится из­меряемый объект, время, к которому относится данный показа­тель) и метрологические (единицы измерения).

Таким образом, с помощью совокупности реквизитов и соот­ветствующих им показателей можно оценить количество эконо­мической информации, получаемой от исследуемого объекта (ис­точника информации).

Кроме подхода, основанного на использовании тезаурусной меры, при определении количества информации на семантическом уровне находят применение и другие подходы. Например, один из подходов, связанных с семантической оценкой количества ин­формации, заключается в том, что в качестве основного критерия семантической ценности информации, содержащейся в сообще­нии, принимается количество ссылок на него в других сообщени­ях. Количество получаемой информации определяется на основе статистической обработки ссылок в различных выборках.

Подводя итог сказанному, можно утверждать, что существовала и существует проблема формирования единого системного подхода к определению информации на семантическом уровне. Это под­тверждается и тем, что в свое время для создания строгой научной теории информации К. Шеннон вынужден был отбросить важное свойство информации, связанное со смысловым ее содержанием.

Кроме перечисленных уровней рассмотрения понятия инфор­мации достаточно широко используется прагматический уровень. На данном уровне информация рассматривается с точки зрения ее полезности (ценности) для достижения потребителем информации (человеком) поставленной практической цели. Данный подход при определении полезности информации основан на расчете прира­щения вероятности достижения цели до и после получения полу­чения информации [1]. Количество информации, определяющее ее ценность (полезность), находится по формуле:

(1.4)

где Р0, Р1 — вероятность достижения цели соответственно до и после получения информации.

В качестве единицы измерения (меры) количества информации, определяющей ее ценность, может быть принят 1 бит (при основа­нии логарифма, равном 2), т.е. это такое количество полученной информации, при котором отношение вероятностей достижения цели равно 2.

Рассмотрим три случая, когда количество информации, опре­деляющее ее ценность, равно нулю и когда она принимает поло­жительное и отрицательное значение.

Количество информации равно нулю при Р0 = Р1, т.е. получен­ная информация не увеличивает и не уменьшает вероятность до­стижения цели.

Значение информации является положительной величиной при Р1 > Р0, т.е. полученная информация уменьшает исходную неопре­деленность и увеличивает вероятность достижения цели.

Значение информации является отрицательной величиной при Р1 < Р0, т.е. полученная информация увеличивает исходную не­определенность и уменьшает вероятность достижения цели. Такую информацию называют дезинформацией.

Дальнейшее развитие данного подхода базируется на статистиче­ской теории информации и теории решений. При этом кроме веро­ятностных характеристик достижения цели после получения инфор­мации вводятся функции потерь и оценка полезности информации производится в результате минимизации функции потерь. Макси­мальной ценностью обладает то количество информации, которое уменьшает потери до нуля при достижении поставленной цели [1].

Системы счисления

Системой счисления называется совокупность приемов на­именования и записи чисел. В любой системе счисления для представления чисел выбираются некоторые символы (слова или знаки), называемые базисными числами, а все остальные числа получаются в результате каких-либо операций из базисных чисел данной системы счисления. Символы, используемые для записи чисел, могут быть любыми, только они должны быть разными и значение каждого из них должно быть известно. В современном мире наиболее распространенным является представление чисел посредством арабских цифр: 0,1,2,3,4,5,6,7,8,9 — специальных знаков, используемых для записи чи­сел. Системы счисления различаются выбором базисных чисел и правилами образования из них остальных чисел. Например, в римской системе счисления базисными являются числа 1, 5, 10,50, 100,500, 1000, которые обозначаются знаками, соответ­ственно I, V, X, L, С, D, М, а другие числа получаются путем сложения и вычитания базисных: если цифра справа меньше или равна цифре слева, то эти цифры складываются; если циф­ра слева меньше, чем цифра справа, то левая цифра вычитается из правой. Так, например, число 146 в римской системе счис­ления имеет вид: CXLVI (С - 100, XL— 40, VI — 6). Здесь число 40 получается посредством вычитания из 50 числа 10, а 6 — по­средством сложения чисел 5 и 1.

Системы счисления, в кото­рых любое число получается путем сложения или вычитания базисных чисел, называются аддитивными. При таком представ­лении чисел правила сложения для небольших чисел очевидны и просты, однако если возникает необходимость выполнять операции сложения над большими числами или операции ум­ножения и деления, то римская система счисления оказывает­ся неудобной. В этой ситуации преимущество имеют позици­онные системы счисления, хотя в них, как правило, представ­ления чисел далеко не так просты и очевидны, как в римской. Систематичность представления, основанная на позицион­ном весе цифр, обеспечивает простоту выполнения операций умножения и деления.

В римской системе счисления каждый числовой знак в записи любого числа имеет одно и то же значение, т. е. значение число­вого знака не зависит от его расположения и записи числа. Таким образом, римская система счисления не является позиционной.

 

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2025 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...