<<
>>

Измерение информации

Для того чтобы рассмотреть участие информации в информа- ционном процессе, необходимо ввести количественные характе- ристики информации, т.е. научиться ее измерять.

В теоретической информатике информация рассматривается как знания, т.е.

процесс систематического научного познания окру- жающего мира приводит к накоплению информации в виде зна- ний (научных теорий, фактов и т.д.).

Процесс познания можно наглядно изобразить в виде расши- ряющегося круга знания (такой способ придумали еще древние греки). Вне этого круга лежит область незнания, а окружность яв- ляется границей между знанием и незнанием. Парадокс состоит в том, что чем большим объемом знаний обладает человек и чем шире круг его знаний, тем больше он ощущает недостаток зна- ний и тем больше граница его незнания, мерой которого в этой модели является длина окружности.

Например, объем знаний выпускника школы гораздо больше, чем объем знаний первоклассника или пятиклассника, однако и граница его незнания также существенно больше.

Действительно, первоклассник совершенно ничего не знает о законах физики, химии или экономики и его это не смущает, тогда как выпускник школы, например, при подготовке к экзамену по физике может обнаружить, что есть законы, которых он не знает или не пони- мает. Можно считать, что ученик, получая информацию, умень- шает неопределенность знания (расширяет круг знания). Подход к информации как к мере уменьшения неопределенности знания позволяет количественно измерять информацию, что чрезвычай- но важно для информатики, учитывая, что она имеет дело с про- цессами передачи и хранения информации.

Информацию можно рассматривать как набор сообщений.

Сообщение — это форма представления каких-либо сведений в виде речи, текста, изображения, цифровых данных, графиков, таблиц и т. п.

Сообщение, в свою очередь, состоит в возможности наступле- ния некоторых событий, каждое из которых может иметь свою вероятностную характеристику, т.е. степень возможности наступ- ления этого события.

Пример 1. В закрытом ящике лежат два шара — черный и белый. Вытаскиваем один шар. Перед вытаскиванием существовала не- определенность нашего знания, так как возможны два события: «черный шар» или «белый шар». После того как шар вытащен, наступает полная определенность: событие «черный шар», тогда в ящике остался белый, и наоборот.

Вытаскивание одного из двух шаров приводит к уменьшению неопределенности нашего знания в 2 раза.

Рассмотрим понятие «вероятность».

Если N— это общее число возможных исходов какого-то процес- са (например, вытаскивание шара), а из них интересующее нас со- бытие (например, вытаскивание белого шара) может произойти к раз, то вероятность этого события р можно определить по формуле

р= к/К

Вероятность выражается в долях единицы. Для примера 1 веро- ятность вытаскивания как белого, так и черного шара равна 1/2, т. е. они равновероятны.

Вероятность достоверного события равна 1 (из 50 белых шаров вытащен белый шар); вероятность невозможного события равна 0 (из 50 белых шаров вытащен черный шар).

Пример 2. В ящике лежат четыре шара — три черных и один белый. Вытаскиваем один шар. Его цвет, скорее всего, будет чер- ным, но может быть и белым.

Посчитаем вероятность вытаскивания белого и черного шара: Рбел = 1/4 = 0,25; АерН = 3/4 = 0,75.

Информация содержится в сообщении о цвете вытащенного шара. Какая информация в примере 2 ценнее: «белый шар» или «черный шар»? Конечно, информация о том, что вытащили бе- лый шар, т.е. этим сообщением получено полное знание, что в коробке остались только черные шары.

Информация о том, что вытащили черный шар, тоже умень- шает неопределенность знания (после этого события в ящике ос- талось три шара — один белый и два черных), но не дает полного знания, какой шар может быть вытащен следующим.

Качественную связь между вероятностью события и количе- ством информации в сообщении об этом событии можно выра- зить так: чем меньше вероятность некоторого события, тем боль- ше информации содержит сообщение об этом событии.

Количественная зависимость между вероятностью события р и количеством информации в сообщении о нем / выражается фор-

Если событие достоверно, его вероятность равна 1, то оно не- информативно, т.е. количество информации в нем равно 0, но чем меньше вероятность какого-то события, тем большую цен- ность имеет информация об этом событии и тем больше будет значение /.

Единицей измерения количества информации является бит (от англ, bit — binary digit — двоичная цифра).

1 бит — количество информации, необходимой для различения двух равновероятных событий.

Вернемся к примеру 1.

Пусть х — количество информации в сообщении о том, что вытащен белый шар. Тогда

2* = 1/0,5 => 2х = 2 => х = 1 бит,

т. е. мы доказали, что сообщение об одном событии из двух равно- вероятных несет 1 бит информации.

Количество информации можно рассчитать методами Р. Харт- ли и К. Шоннона.

Формула Р. Хартли:

/ = log2jV.

Американский инженер Р. Хартли в 1928 г. рассматривал про- цесс получения информации как выбор одного сообщения из конечного наперед заданного множества из N равновероятных сообщений, а количество информации /, содержащейся в выб- ранном сообщении, определял как двоичный логарифм N.

Допустим, нужно угадать одно число из набора чисел от 1 до 100. По формуле Р, Хартли можно вычислить, какое количество информации для этого требуется:

/ = log2100 = 6,644,

Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 бит.

Приведем другие примеры равновероятных сообщений:

• при бросании монеты: «выпала решка», «выпал орел»;

• на странице книги: «число букв четное», «число букв нечетное».

Определим теперь, являются ли равновероятными сообщения

«первой выйдет из дверей здания женщина» и «первым выйдет из дверей здания мужчина». Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из две- рей первым одинакова для мужчины и женщины, а если это во- енная казарма, то для мужчины эта вероятность значительно выше, чем для женщины. Для задач такого рода американский ученый К. Шеннон предложил в 1948 г. другую формулу определения ко- личества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Формула Шеннона:

I = ~(р\\0%2р\ + Л1о&/>2 + ••• + Рн10%2Рн),

где р1 — вероятность того, что именно /-е сообщение выделено в наборе из N сообщений.

Заметим, что если вероятности р\, ... , рн равны, то каждая из них равна 1/7/ и формула К.Шеннона превращается в формулу Р.Хартли.

Помимо двух рассмотренных подходов к определению количе- ства информации существуют и другие. Важно помнить, что лю- бые теоретические результаты применимы лишь к определенному кругу случаев, очерченному первоначальными допущениями.

Пример 3, В мешке лежат 64 монеты. Сообщение о том, что достали золотую монету, несет 4 бит информации. Сколько золо- тых монет было в мешке?

Дано: N=64; = 4.

Найти: кип.

Сообщение о том, что достали золотую монету, несет 4 бит информации, следовательно:

24 = 1/Аол.

Отсюда можно найти вероятность вытаскивания золотой монеты:

Рэол= 1/16-

С Другой стороны, Дзол = следовательно, кэал = Л^зол =

= 64/16 = 4.

Ответ: число золотых монет — 4.

Пример 4. В ящике лежат 8 черных шаров и 24 белых. Сколько информации несет сообщение о том, что достали черный шар?

Ответ: сообщение о том, что достали черный шар, несет 2 бит информации.

Пример 5.

При игре в кости используется кубик с шестью гра- нями. Сколько бит информации получает игрок при каждом бро- сании кубика?

Выпадение каждой грани кубика равновероятно и равно 1/6. Поэтому количество информации от одного результата бросания находится из уравнения

2'=6.

Решая это уравнение по формуле (1): / = к^26, получаем ответ: / = 2,585 бит. Решение примера 5 можно получить, воспользовав- шись табл. 1.1, в которой N — общее число равновероятных собы- тий; / — количество информации, бит.

Теперь рассмотрим понятие информации с точки зрения ее передачи и хранения.

Информация передается в виде сообщений от некоторого ис- точника информации к ее приемнику посредством канала связи между ними. Источник посылает передаваемое сообщение, кото- рое кодируется в передаваемый сигнал. Этот сигнал посылается по каналу связи. В результате в приемнике появляется принима- емый сигнал, который декодируется и становится принимаемым сообщением (рис. 1.3).

Информация может существовать в виде следующих сигналов:

• тексты, рисунки, чертежи, фотографии;

• световые или звуковые сигналы;

• радиоволны;

• электрические и нервные импульсы;

• магнитные записи;

• жесты и мимика;

• запахи и вкусовые ощущения;

• хромосомы, посредством которых передаются по наследству признаки и свойства организмов, и т.д.

Например, сообщение, содержащее информацию о прогнозе погоды, передается приемнику (телезрителю) от источника (спе- циалиста-метеоролога) посредством канала связи — телевизион- ной передающей аппаратуры и телевизора.

Таблица 1.1

Количество информации в сообщении об одном из N равновероятных событий

Вы научились определять количество информации, которое содержится в сообщениях, уменьшающих неопределенность зна- ний. Такой подход рассматривает информацию с точки зрения содержания, ее понятности и новизны для человека (например, в опыте по вытаскиванию шара одинаковое количество информа- ции содержится и в коротком сообщении «черный», И В ДЛИННОЙ фразе «мы вытащили черный шар»).

Однако при хранении или передаче информации с помощью технических устройств первое сообщение займет меньше места, чем второе. Поэтому целесооб- разно рассматривать информацию как последовательность знаков некоего алфавита (букв, цифр, кодов цвета точек и т.д.), тогда объем информации в сообщении — это число символов в этом сообщении.

Системы Счисления можно рассматривать как формальные язы- ки, имеющие алфавит (цифры) и позволяющие не только име- новать и записывать объекты (числа), но и выполнять над ними арифметические операции по строго определенным правилам (см. гл. 2).

Некоторые алфавиты используют в качестве знаков не буквы и цифры, а другие символы (например, музыкальные ноты, изоб- ражения элементов электрических или логических схем, дорож- ные знаки, точки и тире и др.).

Если считать, что появление символов в сообщении равнове- роятно, то по формуле 2' = 1 /р можно рассчитать количество ин- формации, которое несет каждый символ.

Информационная емкость знаков зависит от их числа в алфа- вите: чем больше их число, тем большее количество информации несет один знак.

Так, информационная емкость буквы в русском алфавите, если не использовать букву «ё», составляет: общее число букв — 32, следовательно, Рбуквы = 1/32, и тогда по формуле (2) количество информации / составляет: 2' = 32, т. е. / = 5 бит.

Вероятностный метод применим и для алфавитного подхода к измерению информации, заключенной в тексте. Известно, что разные символы (буквы алфавита, знаки препинания и др.) встре- чаются в тексте с разной частотой и, следовательно, имеют раз- ную вероятность.

Значит, измерять информационный вес каждого символа в тек- сте так, как это делалось раньше (в предположении равновероят- ности), нельзя.

Пример 6. В шифрованном сообщении встречаются 4 буквы (Л", У, Д Ж), точка и пробел; его объем 1000 знаков, из них: букв X— 400, букв У — 100, букв X — 200, букв — 150, точек — 50, пробелов — 100. Какой объем информации содержит шифрован- ное сообщение?

Поскольку объем сообщения достаточно большой, то можно допустить, что вычисленная по ней частота встречаемости в тек- сте каждого символа алфавита характерна для любого текста. Подсчитаем частоту встречаемости каждого символа во всем тек- сте шифровки (т.е. вероятность) и информационные веса симво- лов:

буква X => 400:1000 = 0,4 => /* = 1ов2(1:0,4) = 1,321928;

буква У => 100:1000 = 0,1 => г>= 1о§2(1:0,1) = 3,1928;

буква 2 => 200:1000 = 0,2 => 1г= 1од2(1:0,2) = 2,321928;

буква И^=> 150:1000 = 0,15 => /ж= 1о§2(1:0,15) = 2,736966;

точка => 50:1000 = 0,05 => /^ка = 1ов2(1:0,05) = 4,321928;

пробел => 100:1000 = 0,1 => (пробел = 1о§2(1:0,1) = 3,321928.

Общий объем информации в шифрованном сообщении вычис- лим как сумму произведений информационного веса каждого сим- вола на число повторений этого символа в книге:

/ ~ (г* «Л* Му + П% + 1цг' Пцг + /точка' ^точка + /пробел * ^пробел —

= 1,321928 *400 + 3,1928 -100 + 2,321928 - 200 + 2,736966*150 + + 4,321928 * 50 + 3,321928 ■ 100 = 2284,184 бит.

Ответ: общий объем информации в сообщении составляет 2284,184 бит.

1.4.1.

<< | >>
Источник: Калмыкова Е. А.. Информатика. 2012

Еще по теме Измерение информации:

  1. Вы говорите, что Лемурия всё ещё существует в более высоком измерении, тогда где же продолжают жить люди? Существует ли ещё общество инков в пятом измерении?
  2. 2. ИСТОЧНИКИ ИНФОРМАЦИИ. СПЕЦИФИКА И АЛГОРИТМЫ РАБОТЫ С ИСТОЧНИКАМИ ИНФОРМАЦИИ. ДОСТУП К ИСТОЧНИКАМ ИНФОРМАЦИИ. ПРАВОВЫЕ И ЭТИЧЕСКИЕ НОРМЫ РАБОТЫ С ИСТОЧНИКАМИ ИНФОРМАЦИИ.
  3. Журналистика как массово-информационная деятельность. Понятия «информация» и «массовая информация». Массовая информация как продукт массово-информационной деятельности. Массовая информация и социальная информация.
  4. ИЗМЕРЕНИЕ
  5. 10.2. Правовая защита интересов личности, общества, государства от угроз воздействия недоброкачественной информации, от нарушения порядка распространения информации
  6. 2.2. Три патологических измерения
  7. Измерение времени
  8. 2. Измерение убедительности
  9. Первая глава НА ПУТИ К ЧЕТВЕРТОМУ ИЗМЕРЕНИЮ
  10. Вторая глава ОТ ТРЕХ (ПАТОЛОГИЧЕСКИХ) ИЗМЕРЕНИЙ К ЧЕТВЕРТОМУ
  11. Четыре измерения типа личности
  12. § 3. МЕТОДОЛОГИЧЕСКИЕ ОСНОВЫ ИЗМЕРЕНИЙ В СОЦИОЛОГИИ
  13. Измерение личностных характеристик.
  14. 2.2.1. Первое измерение: монитор отклонения
  15. 2.2.2. Второе измерение: семья
  16. 2.5. Четвёртое измерение женственности
  17. Реальность многих измерений
  18. Будет ли третье измерение продолжать существование после Великого Перехода?
  19. 2.2.3. Третье измерение: социальное окружение
  20. Статья 362. Несанкционированные действия с информацией, обрабатывается в электронно-вычислительных машинах (компьютерах), автоматизированных системах, компьютерных сетях или сохраняется на носителях такой информации, совершенные лицом, имеет право доступа к ней