Главная | Обратная связь | Поможем написать вашу работу!

Количество и единицы измерения информации

Язык как способ представления информации

Язык — это система обозначений и правил для передачи сообщений. Различают языки естественные, на которых общаются люди, и искусственные (или формальные), обеспечивающие взаимодействие систем «человек — машина» или «машина — машина». К формальным языкам относятся языки программирования.

Формальный язык задается алфавитом, синтаксисом и семантикой. Теоретические основы методов проектирования языков программирования, конструирования трансляторов рассматриваются в теории формальных языков.

Формальный язык — это язык, обеспечивающий удобное описание конкретных проблем, формулируемых человеком и решаемых с помощью компьютера.

На языке программирования пишется программа, позволяющая при ее выполнении компьютером (вычислительной системой) получить конкретные результаты. Язык программирования состоит из синтаксиса и семантики.

Алфавит представляет собой совокупность упорядоченных в определенном смысле символов в данном языке или системе. Эти символы называются буквами. Только символы, принадлежащие данному алфавиту, можно использовать для построения слов.

Буква — это элемент алфавит. Например, алфавит языка Паскаль состоит из латинских букв (причем строчные и прописные буквы не различаются), цифр и специальных символов.

Под символом понимается элемент алфавита, имеющий определенное значение. Символ, как правило, записывается в памяти компьютера восемью битами, или одним байтом.

Синтаксис (от грсч. syntaxis — построение, порядок) — это набор правил построения слов, конструкций и структур текста в языке или системе. Некоторые авторы включают в синтаксис и алфавит. Ошибки, возникающие при написании программы и касающиеся только синтаксиса, выявляются при синтаксическом анализе, осуществляемом транслятором.

В информатике понятие «слово» имеет несколько определений, приведем два из них.

Слово — это:

— упорядоченный набор символов в заданном алфавите, имеющий определенный смысл;

— единица данных, рассматриваемая как целое при передаче и обработке данных в процессе.

Транслятор (от англ. translator — переводчик) — это программа, производящая трансляцию программы с одного языка программирования в другой.

Под семантикой (от греч. semantikos — обозначающий) понимается смысл каждой синтаксической конструкции в языке или системе.

В язык программирования транслятор превращает синтаксические построения команд, понятные операционной системе и процессору. Смысловые ошибки транслятор не выявляет, их поиск осуществляет человек в процессе отладки, тестирования и даже эксплуатации языка программирования.

Формы представления и преобразования информации

При любых формах работы с информацией всегда идет речь о ее представлении в виде определенных символических структур. Наиболее распространены одномерные представления информации, при которых сообщения имеют вид последовательности символов. Так информация представляется в письменных текстах, при передаче по каналам связи, в памяти ЭВМ. Однако широко используется и многомерное представление информации, причем под многомерностью понимается не только расположение элементов информации на плоскости или в пространстве в виде рисунков, схем, графов, объемных макетов и т. п., но и множественность признаков используемых символов, например цвет, размер, вид шрифта в тексте.

Формирование представления информацииназывается ее кодированием. В более узком смысле под кодированием понимается переход от исходного представления информации, удобного для восприятия человеком, к представлению, удобному для ее хранения, передачи и обработки. В этом случае обратный переход к исходному представлению информации называется декодированием.

При кодировании информации ставятся следующие цели:

— удобство физической реализации;

— удобство восприятия;

— высокая скорость передачи и обработки;

— экономичность, т. с. уменьшение избыточности сообщений;

— надежность, т. е. зашита от случайных искажений;

— сохранность, т. е. зашита от нежелательного доступа к информации.

Эти цели часто противоречат друг другу. Стремясь к экономным сообщениям, мы тем самым уменьшаем их надежность и удобство восприятия. Экономные сообщения могут повысить скорость обработки информации (такое сообщение будет передано или прочтено быстрее), но могут и уменьшить ее. А зашита от нежелательного доступа уменьшает объем хранимой информации и замедляет работу с ней.

Рассмотрим способы представления информации в ЭВМ. Для записи, хранения и выдачи по запросу информации, обрабатываемой с помощью ЭВМ, предназначено запоминающее устройство (или память) вычислительной машины.

В отличие от обычной словесной формы, принятой в письменной речи, информация в памяти ЭВМ записывается в форме цифрового двоичного кода. Это объясняется тем, что электронные элементы, на которых строится память ЭВМ, находятся только в одном из двух устойчивых состояний — их можно интерпретировать как 0 или 1.

Количество информации, которое может помешаться в один элемент памяти (0 или 1), называемый битом, очень мало и не несет никакой смысловой нагрузки. Однако если соединить несколько таких элементов в ячейку, то можно сохранить в запоминающем устройстве столько информации, сколько потребуется. Последовательность бит, рассматриваемых аппаратной частью ЭВМ как единое целое, называется машинним словом. Слово «бит» происходит от английских слов binary — двойной и digit — цифра: BInary + digiT = BIT.

Так как оперативная память ЭВМ состоит из конечной последовательности слов, а слова — из конечной последовательности бит, то объем представляемой в ЭВМ информацииограничен емкостью памяти, а числовая информация может быть представлена только с определенной точностью, зависящей от архитектуры памяти данной ЭВМ.

Количество и единицы измерения информации

Понятие информации можно рассматривать при различных ограничениях, накладываемых на ее свойства, т.е. при различных уровнях рассмотрения. В основном выделяют три уровня — синтаксический, семантический и прагматический. Соответственно на каждом из них для определения количества информации применяют различные оценки.

На синтаксическом уровне для оценки количества информации используют вероятностные методы, которые принимают во внимание только вероятностные свойства информации и не учитывают другие (смысловое содержание, полезность, актуальность и т.д.). Разработанные в середине ХХ в. математические и, в частности, вероятностные методы позволили сформировать подход к оценке количества информации как к мере уменьшения неопределенности знаний. Такой подход, называемый также вероятностным, постулирует принцип: если некоторое сообщение приводит к уменьшению неопределенности наших знаний, то можно утверждать, что такое сообщение содержит информацию. При этом сообщения содержат информацию о каких-либо событиях, которые могут реализоваться с различными вероятностями. Формулу для определения количества информации для событий с различными вероятностями и получаемых от дискретного источника информации предложил американский ученый К. Шеннон в 1948 г. Согласно этой формуле количество информации может быть определено следующим образом:

(1.1)

где I — количество информации; N — количество возможных событий (сообщений); p_i — вероятность отдельных событий (сообщений); Σ — математический знак суммы чисел.

Определяемое с помощью формулы (1.1) количество информации принимает только положительное значение. Поскольку вероятность отдельных событий меньше единицы, то соответственно выражение log p_i является отрицательной величиной и для получения положительного значения количества информации в формуле (1.1) перед знаком суммы стоит знак минус.

Если вероятность появления отдельных событий одинаковая, и они образуют полную группу событий, т.е.

то формула (1.1) преобразуется в формулу Р. Хартли:

(1.2)

В формулах (1.1) и (1.2) отношение между количеством информации и соответственно вероятностью, или количеством, отдельных событий выражается с помощью логарифма.

Применение логарифмов в формулах (1.1) и (1.2) можно объяснить следующим образом. Для простоты рассуждений воспользуемся соотношением (1.2). Будем последовательно присваивать аргументу N значения, выбираемые, например, из ряда чисел: 1, 2, 4, 8, 16, 32, 64 и т.д. Чтобы определить, какое событие из N равновероятных событий произошло, для каждого числа ряда необходимо последовательно производить операции выбора из двух возможных событий. Так, при N = 1 количество операций будет равно 0 (вероятность события равна 1), при N = 2, количество операций будет равно 1, при N = 4 количество операций будет равно 2, при N = 8, количество операций будет равно 3 и т.д. Таким образом получим следующий ряд чисел: 0, 1, 2, 3, 4, 5, 6 и т.д., который можно считать соответствующим значениям функции I в соотношении (1.2). Последовательность значений чисел, которые принимает аргумент N, представляет собой ряд, известный в математике как ряд чисел, образующих геометрическую прогрессию, а последовательность значений чисел, которые принимает функция I, будет являться рядом, образующим арифметическую прогрессию. Таким образом, логарифм в формулах (1.1) и (1.2) устанавливает соотношение между рядами, представляющими геометрическую и арифметическую прогрессии, что достаточно хорошо известно в математике.

Для количественного определения (оценки) любой физической величины необходимо определить единицу измерения, которая в теории измерений носит название меры. Как уже отмечалось, информацию перед обработкой, передачей и хранением необходимо подвергнуть кодированию. Кодирование производится с помощью специальных алфавитов (знаковых систем). В информатике, изучающей процессы получения, обработки, передачи и хранения информации с помощью вычислительных (компьютерных) систем, в основном используется двоичное кодирование, при котором используется знаковая система, состоящая из двух символов 0 и 1. По этой причине в формулах (1.1) и (1.2) в качестве основания логарифма используется цифра 2.

Исходя из вероятностного подхода к определению количества информации эти два символа двоичной знаковой системы можно рассматривать как два различных возможных события, поэтому за единицу количества информации принято такое количество информации, которое содержит сообщение, уменьшающее неопределенность знания в два раза (до получения событий их вероятность равна 0,5, после получения — 1, неопределенность уменьшается соответственно: 1/0,5 = 2, т.е. в 2 раза). Такая единица измерения информации называется битом (от англ. слова binary digit — двоичная цифра). Таким образом, в качестве меры для оценки количества информации на синтаксическом уровне, при условии двоичного кодирования, принят один бит.

Следующей по величине единицей измерения количества информации является байт, представляющий собой последовательность, составленную из восьми бит, т.е.

1 байт = 2³ бит = 8 бит.

В информатике также широко используются кратные байту единицы измерения количества информации, однако в отличие от метрической системы мер, где в качестве множителей кратных единиц применяют коэффициент 10 ⁿ, где n = 3, 6, 9 и т.д., в кратных единицах измерения количества информации используется коэффициент 2ⁿ. Выбор этот объясняется тем, что компьютер в основном оперирует числами не в десятичной, а в двоичной системе счисления.

Кратные байту единицы измерения количества информации вводятся следующим образом:

1 Килобайт (Кбайт) = 2¹⁰ байт = 1024 байт,

1 Мегабайт (Мбайт) = 2¹⁰ Кбайт = 1024 Кбайт,

1 Гигабайт (Гбайт) = 2¹⁰ Мбайт = 1024 Мбайт,

1 Терабайт (Тбайт) = 2¹⁰ Гбайт = 1024 Гбайт,

1 Петабайт (Пбайт) = 2¹⁰ Тбайт = 1024 Тбайт,

1 Экзабайт (Эбайт) = 2¹⁰ Пбайт = 1024 Пбайт.

Единицы измерения количества информации, в названии которых есть приставки «кило», «мега» и т.д., с точки зрения теории измерений не являются корректными, поскольку эти приставки используются в метрической системе мер, в которой в качестве множителей кратных единиц используется коэффициент 10", где n = 3, 6, 9 и т.д. Для устранения этой некорректности международная организацией International Electrotechnical Commission, занимающаяся созданием стандартов для отрасли электронных технологий, утвердила ряд новых приставок для единиц измерения количества информации: киби (kibi), меби (mebi), гиби (gibi), теби (tebi), пети (peti), эксби (exbi). Однако пока используются старые обозначения единиц измерения количества информации, и требуется время, чтобы новые названия начали широко применяться.

Вероятностный подход используется и при определении количества информации, представленной с помощью знаковых систем. Если рассматривать символы алфавита как множество возможных сообщений N, то количество информации, которое несет один знак алфавита, можно определить по формуле (1.1). При равновероятном появлении каждого знака алфавита в тексте сообщения для определения количества информации можно воспользоваться формулой (1.2).

Количество информации, которое несет один знак алфавита, тем больше, чем больше знаков входит в этот алфавит.

Количество знаков, входящих в алфавит, называется мощностью алфавита. Количество информации (информационный объем), содержащееся в сообщении, закодированном с помощью знаковой системы и содержащем определенное количество знаков (символов), определяется с помощью формулы:

V = I ∙K, (1.3)

где V — информационный объем сообщения; I = log₂N, информационный объем одного символа (знака); K — количество символов (знаков) в сообщении; N — мощность алфавита (количество знаков в алфавите).

Пример 1.1

Определим, какое количество информации можно получить после реализации одного из шести событий. Вероятность первого события составляет 0,15; второго — 0,25; третьего — 0,2; четвертого — 0,12; пятого — 0,12; шестого — 0,1.

Т.е. P₁ = 0,15; P₂ = 0,25; P₃ = 0,2; P₄ = 0,18; P₅ = 0,12; P₆ = 0,1.

Решение.

Для определения количества информации применим формулу

(1.1)

I = -(P1 ∙ log2P1 + P2 ∙ log2P2 + P3 ∙ log2P3 + P4 ∙ log2P4 +

+ P₅ ∙ log₂P₅ + P₆ ∙ log₂P₆) = -(0,15 ∙ log₂0,15 + 0,25 ∙ log₂0,25 + 0,2 ∙ log₂0,2 + 0,18 ∙ log₂0,18 + 0,12 ∙ log₂0,12 + 0,1 ∙ log₂0,1) бит = 2,52 бит (рис. 1.4).

На семантическом уровне информация рассматривается по ее содержанию, отражающему состояние отдельного объекта или системы в целом. При этом не учитывается ее полезность для получателя информации. На данном уровне изучаются отношения между знаками, их предметными и смысловыми значениями (см. рис. 1.1), что позволяет осуществить выбор смысловых единиц измерения информации. Поскольку смысловое содержание информации передается с помощью сообщения, т.е. в виде совокупности знаков (символов), передаваемых с помощью сигналов от источника информации к приемнику, то широкое распространение для измерения смыслового содержания информации получил подход, основанный на использовании тезаурусной меры. При этом под тезаурусом понимается совокупность априорной информации (сведений), которой располагает приемник информации.

Данный подход предполагает, что для понимания (осмысливания) и использования полученной информации приемник (получатель) должен обладать априорной информацией (тезаурусом), т.е. определенным запасом знаков, наполненных смыслом, слов, понятий, названий явлений и объектов, между которыми установлены связи на смысловом уровне. Таким образом, если принять знания о данном объекте или явлении за тезаурус, то количество информации, содержащееся в новом сообщении о данном предмете, можно оценить по изменению индивидуального тезауруса под воздействием данного сообщения. В зависимости от соотношений между смысловым содержанием сообщения и тезаурусом пользователя изменяется количество семантической информации, при этом характер такой зависимости не поддается строгому математическому описанию и сводится к рассмотрению трех основных условий, при которых тезаурус пользователя:

• стремится к нулю, т.е. пользователь не воспринимает поступившее сообщение;

• стремится к бесконечности, т.е. пользователь досконально знает все об объекте или явлении и поступившее сообщение его не интересует;

• согласован со смысловым содержанием сообщения, т.е. поступившее сообщение понятно пользователю и несет новые сведения.

Два первых предельных случая соответствуют состоянию, при котором количество семантической информации, получаемое пользователем, минимально. Третий случай связан с получением максимального количества семантической информации. Таким образом, количество семантической информации, получаемой пользователем, является величиной относительной, поскольку одно и то же сообщение может иметь смысловое содержание для компетентного и быть бессмысленным для некомпетентного пользователя.

Поэтому возникает сложность получения объективной оценки количества информации на семантическом уровне ее рассмотрения и для получения такой оценки используют различные единицы измерения количества информации: абсолютные или относительные. В качестве абсолютных единиц измерения могут использоваться символы, реквизиты, записи и т.д., а в качестве относительной — коэффициент содержательности, который определяется как отношение семантической информации к ее объему. Например, для определения на семантическом уровне количества информации, полученной студентами на занятиях, в качестве единицы измерения может быть принят исходный балл (символ), характеризующий степень усвояемости ими нового учебного материала, на основе которого можно косвенно определить количество информации, полученное каждым студентом. Это количество информации будет выражено через соответствующий оценочный балл в принятом диапазоне оценок.

При семантическом подходе к оценке количества информации и выборе единицы измерения существенным является вид получаемой информации (сообщения). Так, данный подход к оценке количества экономической информации позволяет выявить составную единицу экономической информации, состоящую из совокупности других единиц информации, связанных между собой по смыслу. Элементарной составляющей единицей экономической информации является реквизит, т.е. информационная совокупность, которая не поддается дальнейшему делению на единицы информации на смысловом уровне. Деление реквизитов на символы приводит к потере их смыслового содержания. Каждый реквизит характеризуется именем, значением и типом. При этом под именем реквизита понимается его условное обозначение, под значением — величина, характеризующая свойства объекта или явления в определенных обстоятельствах, под типом — множество значений реквизита, объединенных определенными признаками и совокупностью допустимых преобразований.

Реквизиты принято делить на реквизиты-основания и реквизиты-признаки [2].

Реквизиты-основания характеризуют количественную сторону экономического объекта, процесса или явления, которые могут быть получены в результате совершения отдельных операций — вычислений, измерений, подсчета натуральных единиц и т.д. В экономических документах к ним можно отнести, например, цену товара, его количество, сумму и т.п. Реквизиты-основания чаще всего выражаются в цифрах, над которыми могут выполняться математические операции.

Реквизиты-признаки отражают качественные свойства экономического объекта, процесса или явления. С помощью реквизитов-признаков сообщения приобретают индивидуальный характер. В экономических документах к ним можно отнести, например, номер документа, имя отправителя, дату составления документа, вид операции и т.п. Реквизиты-признаки позволяют осуществлять логическую обработку единиц количества информации на семантическом уровне: поиск, выборку, группировку, сортировку и т.д.

Отдельный реквизит-основание вместе с относящимися к нему реквизитами-признаками образует следующую в иерархическом отношении составную единицу экономической информации — показатель. Показатель имеет наименование, в состав которого входят термины, обозначающие измеряемый объект: себестоимость, затраты, мощность, прибыль и т.д. Кроме того, показатель содержит формальную характеристику и дополнительные признаки. К формальной характеристике относится способ его получения (объем, сумма, прирост, процент, среднее значение и т.д.), а к дополнительным — пространственно-временные (где находится измеряемый объект, время, к которому относится данный показатель) и метрологические (единицы измерения).

Таким образом, с помощью совокупности реквизитов и соответствующих им показателей можно оценить количество экономической информации, получаемой от исследуемого объекта (источника информации).

Кроме подхода, основанного на использовании тезаурусной меры, при определении количества информации на семантическом уровне находят применение и другие подходы. Например, один из подходов, связанных с семантической оценкой количества информации, заключается в том, что в качестве основного критерия семантической ценности информации, содержащейся в сообщении, принимается количество ссылок на него в других сообщениях. Количество получаемой информации определяется на основе статистической обработки ссылок в различных выборках.

Подводя итог сказанному, можно утверждать, что существовала и существует проблема формирования единого системного подхода к определению информации на семантическом уровне. Это подтверждается и тем, что в свое время для создания строгой научной теории информации К. Шеннон вынужден был отбросить важное свойство информации, связанное со смысловым ее содержанием.

Кроме перечисленных уровней рассмотрения понятия информации достаточно широко используется прагматический уровень. На данном уровне информация рассматривается с точки зрения ее полезности (ценности) для достижения потребителем информации (человеком) поставленной практической цели. Данный подход при определении полезности информации основан на расчете приращения вероятности достижения цели до и после получения получения информации [1]. Количество информации, определяющее ее ценность (полезность), находится по формуле:

(1.4)

где Р₀, Р₁ — вероятность достижения цели соответственно до и после получения информации.

В качестве единицы измерения (меры) количества информации, определяющей ее ценность, может быть принят 1 бит (при основании логарифма, равном 2), т.е. это такое количество полученной информации, при котором отношение вероятностей достижения цели равно 2.

Рассмотрим три случая, когда количество информации, определяющее ее ценность, равно нулю и когда она принимает положительное и отрицательное значение.

Количество информации равно нулю при Р₀ = Р₁, т.е. полученная информация не увеличивает и не уменьшает вероятность достижения цели.

Значение информации является положительной величиной при Р₁ > Р₀, т.е. полученная информация уменьшает исходную неопределенность и увеличивает вероятность достижения цели.

Значение информации является отрицательной величиной при Р₁ < Р₀, т.е. полученная информация увеличивает исходную неопределенность и уменьшает вероятность достижения цели. Такую информацию называют дезинформацией.

Дальнейшее развитие данного подхода базируется на статистической теории информации и теории решений. При этом кроме вероятностных характеристик достижения цели после получения информации вводятся функции потерь и оценка полезности информации производится в результате минимизации функции потерь. Максимальной ценностью обладает то количество информации, которое уменьшает потери до нуля при достижении поставленной цели [1].

Системы счисления

Системой счисления называется совокупность приемов наименования и записи чисел. В любой системе счисления для представления чисел выбираются некоторые символы (слова или знаки), называемые базисными числами, а все остальные числа получаются в результате каких-либо операций из базисных чисел данной системы счисления. Символы, используемые для записи чисел, могут быть любыми, только они должны быть разными и значение каждого из них должно быть известно. В современном мире наиболее распространенным является представление чисел посредством арабских цифр: 0,1,2,3,4,5,6,7,8,9 — специальных знаков, используемых для записи чисел. Системы счисления различаются выбором базисных чисел и правилами образования из них остальных чисел. Например, в римской системе счисления базисными являются числа 1, 5, 10,50, 100,500, 1000, которые обозначаются знаками, соответственно I, V, X, L, С, D, М, а другие числа получаются путем сложения и вычитания базисных: если цифра справа меньше или равна цифре слева, то эти цифры складываются; если цифра слева меньше, чем цифра справа, то левая цифра вычитается из правой. Так, например, число 146 в римской системе счисления имеет вид: CXLVI (С - 100, XL— 40, VI — 6). Здесь число 40 получается посредством вычитания из 50 числа 10, а 6 — посредством сложения чисел 5 и 1.

Системы счисления, в которых любое число получается путем сложения или вычитания базисных чисел, называются аддитивными. При таком представлении чисел правила сложения для небольших чисел очевидны и просты, однако если возникает необходимость выполнять операции сложения над большими числами или операции умножения и деления, то римская система счисления оказывается неудобной. В этой ситуации преимущество имеют позиционные системы счисления, хотя в них, как правило, представления чисел далеко не так просты и очевидны, как в римской. Систематичность представления, основанная на позиционном весе цифр, обеспечивает простоту выполнения операций умножения и деления.

В римской системе счисления каждый числовой знак в записи любого числа имеет одно и то же значение, т. е. значение числового знака не зависит от его расположения и записи числа. Таким образом, римская система счисления не является позиционной.

12 3 4 Следующая ⇒

Воспользуйтесь поиском по сайту: