Измерение информации
В теоретической информатике информация рассматривается как знания, т.е.
процесс систематического научного познания окру- жающего мира приводит к накоплению информации в виде зна- ний (научных теорий, фактов и т.д.).Процесс познания можно наглядно изобразить в виде расши- ряющегося круга знания (такой способ придумали еще древние греки). Вне этого круга лежит область незнания, а окружность яв- ляется границей между знанием и незнанием. Парадокс состоит в том, что чем большим объемом знаний обладает человек и чем шире круг его знаний, тем больше он ощущает недостаток зна- ний и тем больше граница его незнания, мерой которого в этой модели является длина окружности.
Например, объем знаний выпускника школы гораздо больше, чем объем знаний первоклассника или пятиклассника, однако и граница его незнания также существенно больше.
Действительно, первоклассник совершенно ничего не знает о законах физики, химии или экономики и его это не смущает, тогда как выпускник школы, например, при подготовке к экзамену по физике может обнаружить, что есть законы, которых он не знает или не пони- мает. Можно считать, что ученик, получая информацию, умень- шает неопределенность знания (расширяет круг знания). Подход к информации как к мере уменьшения неопределенности знания позволяет количественно измерять информацию, что чрезвычай- но важно для информатики, учитывая, что она имеет дело с про- цессами передачи и хранения информации.Информацию можно рассматривать как набор сообщений.
Сообщение — это форма представления каких-либо сведений в виде речи, текста, изображения, цифровых данных, графиков, таблиц и т. п.
Сообщение, в свою очередь, состоит в возможности наступле- ния некоторых событий, каждое из которых может иметь свою вероятностную характеристику, т.е. степень возможности наступ- ления этого события.
Пример 1. В закрытом ящике лежат два шара — черный и белый. Вытаскиваем один шар. Перед вытаскиванием существовала не- определенность нашего знания, так как возможны два события: «черный шар» или «белый шар». После того как шар вытащен, наступает полная определенность: событие «черный шар», тогда в ящике остался белый, и наоборот.
Вытаскивание одного из двух шаров приводит к уменьшению неопределенности нашего знания в 2 раза.
Рассмотрим понятие «вероятность».
Если N— это общее число возможных исходов какого-то процес- са (например, вытаскивание шара), а из них интересующее нас со- бытие (например, вытаскивание белого шара) может произойти к раз, то вероятность этого события р можно определить по формуле
р= к/К
Вероятность выражается в долях единицы. Для примера 1 веро- ятность вытаскивания как белого, так и черного шара равна 1/2, т. е. они равновероятны.
Вероятность достоверного события равна 1 (из 50 белых шаров вытащен белый шар); вероятность невозможного события равна 0 (из 50 белых шаров вытащен черный шар).
Пример 2. В ящике лежат четыре шара — три черных и один белый. Вытаскиваем один шар. Его цвет, скорее всего, будет чер- ным, но может быть и белым.
Посчитаем вероятность вытаскивания белого и черного шара: Рбел = 1/4 = 0,25; АерН = 3/4 = 0,75.
Информация содержится в сообщении о цвете вытащенного шара. Какая информация в примере 2 ценнее: «белый шар» или «черный шар»? Конечно, информация о том, что вытащили бе- лый шар, т.е. этим сообщением получено полное знание, что в коробке остались только черные шары.
Информация о том, что вытащили черный шар, тоже умень- шает неопределенность знания (после этого события в ящике ос- талось три шара — один белый и два черных), но не дает полного знания, какой шар может быть вытащен следующим.
Качественную связь между вероятностью события и количе- ством информации в сообщении об этом событии можно выра- зить так: чем меньше вероятность некоторого события, тем боль- ше информации содержит сообщение об этом событии.
Количественная зависимость между вероятностью события р и количеством информации в сообщении о нем / выражается фор-
Если событие достоверно, его вероятность равна 1, то оно не- информативно, т.е. количество информации в нем равно 0, но чем меньше вероятность какого-то события, тем большую цен- ность имеет информация об этом событии и тем больше будет значение /.
Единицей измерения количества информации является бит (от англ, bit — binary digit — двоичная цифра).
1 бит — количество информации, необходимой для различения двух равновероятных событий.
Вернемся к примеру 1.
Пусть х — количество информации в сообщении о том, что вытащен белый шар. Тогда
2* = 1/0,5 => 2х = 2 => х = 1 бит,
т. е. мы доказали, что сообщение об одном событии из двух равно- вероятных несет 1 бит информации.
Количество информации можно рассчитать методами Р. Харт- ли и К. Шоннона.
Формула Р. Хартли:
/ = log2jV.
Американский инженер Р. Хартли в 1928 г. рассматривал про- цесс получения информации как выбор одного сообщения из конечного наперед заданного множества из N равновероятных сообщений, а количество информации /, содержащейся в выб- ранном сообщении, определял как двоичный логарифм N.
Допустим, нужно угадать одно число из набора чисел от 1 до 100. По формуле Р, Хартли можно вычислить, какое количество информации для этого требуется:
/ = log2100 = 6,644,
Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 бит.
Приведем другие примеры равновероятных сообщений:
• при бросании монеты: «выпала решка», «выпал орел»;
• на странице книги: «число букв четное», «число букв нечетное».
Определим теперь, являются ли равновероятными сообщения
«первой выйдет из дверей здания женщина» и «первым выйдет из дверей здания мужчина». Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из две- рей первым одинакова для мужчины и женщины, а если это во- енная казарма, то для мужчины эта вероятность значительно выше, чем для женщины. Для задач такого рода американский ученый К. Шеннон предложил в 1948 г. другую формулу определения ко- личества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.
Формула Шеннона:
I = ~(р\\0%2р\ + Л1о&/>2 + ••• + Рн10%2Рн),
где р1 — вероятность того, что именно /-е сообщение выделено в наборе из N сообщений.
Заметим, что если вероятности р\, ... , рн равны, то каждая из них равна 1/7/ и формула К.Шеннона превращается в формулу Р.Хартли.
Помимо двух рассмотренных подходов к определению количе- ства информации существуют и другие. Важно помнить, что лю- бые теоретические результаты применимы лишь к определенному кругу случаев, очерченному первоначальными допущениями.
Пример 3, В мешке лежат 64 монеты. Сообщение о том, что достали золотую монету, несет 4 бит информации. Сколько золо- тых монет было в мешке?
Дано: N=64; = 4.
Найти: кип.
Сообщение о том, что достали золотую монету, несет 4 бит информации, следовательно:
24 = 1/Аол.
Отсюда можно найти вероятность вытаскивания золотой монеты:
Рэол= 1/16-
С Другой стороны, Дзол = следовательно, кэал = Л^зол =
= 64/16 = 4.
Ответ: число золотых монет — 4.
Пример 4. В ящике лежат 8 черных шаров и 24 белых. Сколько информации несет сообщение о том, что достали черный шар?
Ответ: сообщение о том, что достали черный шар, несет 2 бит информации. |
Пример 5.
При игре в кости используется кубик с шестью гра- нями. Сколько бит информации получает игрок при каждом бро- сании кубика?Выпадение каждой грани кубика равновероятно и равно 1/6. Поэтому количество информации от одного результата бросания находится из уравнения
2'=6.
Решая это уравнение по формуле (1): / = к^26, получаем ответ: / = 2,585 бит. Решение примера 5 можно получить, воспользовав- шись табл. 1.1, в которой N — общее число равновероятных собы- тий; / — количество информации, бит.
Теперь рассмотрим понятие информации с точки зрения ее передачи и хранения.
Информация передается в виде сообщений от некоторого ис- точника информации к ее приемнику посредством канала связи между ними. Источник посылает передаваемое сообщение, кото- рое кодируется в передаваемый сигнал. Этот сигнал посылается по каналу связи. В результате в приемнике появляется принима- емый сигнал, который декодируется и становится принимаемым сообщением (рис. 1.3).
Информация может существовать в виде следующих сигналов:
• тексты, рисунки, чертежи, фотографии;
• световые или звуковые сигналы;
• радиоволны;
• электрические и нервные импульсы;
• магнитные записи;
• жесты и мимика;
• запахи и вкусовые ощущения;
• хромосомы, посредством которых передаются по наследству признаки и свойства организмов, и т.д.
Например, сообщение, содержащее информацию о прогнозе погоды, передается приемнику (телезрителю) от источника (спе- циалиста-метеоролога) посредством канала связи — телевизион- ной передающей аппаратуры и телевизора.
Таблица 1.1
Количество информации в сообщении об одном из N равновероятных событий |
Вы научились определять количество информации, которое содержится в сообщениях, уменьшающих неопределенность зна- ний. Такой подход рассматривает информацию с точки зрения содержания, ее понятности и новизны для человека (например, в опыте по вытаскиванию шара одинаковое количество информа- ции содержится и в коротком сообщении «черный», И В ДЛИННОЙ фразе «мы вытащили черный шар»).
Однако при хранении или передаче информации с помощью технических устройств первое сообщение займет меньше места, чем второе. Поэтому целесооб- разно рассматривать информацию как последовательность знаков некоего алфавита (букв, цифр, кодов цвета точек и т.д.), тогда объем информации в сообщении — это число символов в этом сообщении.Системы Счисления можно рассматривать как формальные язы- ки, имеющие алфавит (цифры) и позволяющие не только име- новать и записывать объекты (числа), но и выполнять над ними арифметические операции по строго определенным правилам (см. гл. 2).
Некоторые алфавиты используют в качестве знаков не буквы и цифры, а другие символы (например, музыкальные ноты, изоб- ражения элементов электрических или логических схем, дорож- ные знаки, точки и тире и др.).
Если считать, что появление символов в сообщении равнове- роятно, то по формуле 2' = 1 /р можно рассчитать количество ин- формации, которое несет каждый символ.
Информационная емкость знаков зависит от их числа в алфа- вите: чем больше их число, тем большее количество информации несет один знак.
Так, информационная емкость буквы в русском алфавите, если не использовать букву «ё», составляет: общее число букв — 32, следовательно, Рбуквы = 1/32, и тогда по формуле (2) количество информации / составляет: 2' = 32, т. е. / = 5 бит.
Вероятностный метод применим и для алфавитного подхода к измерению информации, заключенной в тексте. Известно, что разные символы (буквы алфавита, знаки препинания и др.) встре- чаются в тексте с разной частотой и, следовательно, имеют раз- ную вероятность.
Значит, измерять информационный вес каждого символа в тек- сте так, как это делалось раньше (в предположении равновероят- ности), нельзя.
Пример 6. В шифрованном сообщении встречаются 4 буквы (Л", У, Д Ж), точка и пробел; его объем 1000 знаков, из них: букв X— 400, букв У — 100, букв X — 200, букв — 150, точек — 50, пробелов — 100. Какой объем информации содержит шифрован- ное сообщение?
Поскольку объем сообщения достаточно большой, то можно допустить, что вычисленная по ней частота встречаемости в тек- сте каждого символа алфавита характерна для любого текста. Подсчитаем частоту встречаемости каждого символа во всем тек- сте шифровки (т.е. вероятность) и информационные веса симво- лов:
буква X => 400:1000 = 0,4 => /* = 1ов2(1:0,4) = 1,321928;
буква У => 100:1000 = 0,1 => г>= 1о§2(1:0,1) = 3,1928;
буква 2 => 200:1000 = 0,2 => 1г= 1од2(1:0,2) = 2,321928;
буква И^=> 150:1000 = 0,15 => /ж= 1о§2(1:0,15) = 2,736966;
точка => 50:1000 = 0,05 => /^ка = 1ов2(1:0,05) = 4,321928;
пробел => 100:1000 = 0,1 => (пробел = 1о§2(1:0,1) = 3,321928.
Общий объем информации в шифрованном сообщении вычис- лим как сумму произведений информационного веса каждого сим- вола на число повторений этого символа в книге:
/ ~ (г* «Л* Му + П% + 1цг' Пцг + /точка' ^точка + /пробел * ^пробел —
= 1,321928 *400 + 3,1928 -100 + 2,321928 - 200 + 2,736966*150 + + 4,321928 * 50 + 3,321928 ■ 100 = 2284,184 бит.
Ответ: общий объем информации в сообщении составляет 2284,184 бит.
1.4.1.
Еще по теме Измерение информации:
- Вы говорите, что Лемурия всё ещё существует в более высоком измерении, тогда где же продолжают жить люди? Существует ли ещё общество инков в пятом измерении?
- 2. ИСТОЧНИКИ ИНФОРМАЦИИ. СПЕЦИФИКА И АЛГОРИТМЫ РАБОТЫ С ИСТОЧНИКАМИ ИНФОРМАЦИИ. ДОСТУП К ИСТОЧНИКАМ ИНФОРМАЦИИ. ПРАВОВЫЕ И ЭТИЧЕСКИЕ НОРМЫ РАБОТЫ С ИСТОЧНИКАМИ ИНФОРМАЦИИ.
- Журналистика как массово-информационная деятельность. Понятия «информация» и «массовая информация». Массовая информация как продукт массово-информационной деятельности. Массовая информация и социальная информация.
- ИЗМЕРЕНИЕ
- 10.2. Правовая защита интересов личности, общества, государства от угроз воздействия недоброкачественной информации, от нарушения порядка распространения информации
- 2.2. Три патологических измерения
- Измерение времени
- 2. Измерение убедительности
- Первая глава НА ПУТИ К ЧЕТВЕРТОМУ ИЗМЕРЕНИЮ
- Вторая глава ОТ ТРЕХ (ПАТОЛОГИЧЕСКИХ) ИЗМЕРЕНИЙ К ЧЕТВЕРТОМУ
- Четыре измерения типа личности
- § 3. МЕТОДОЛОГИЧЕСКИЕ ОСНОВЫ ИЗМЕРЕНИЙ В СОЦИОЛОГИИ
- Измерение личностных характеристик.
- 2.2.1. Первое измерение: монитор отклонения
- 2.2.2. Второе измерение: семья
- 2.5. Четвёртое измерение женственности
- Реальность многих измерений
- Будет ли третье измерение продолжать существование после Великого Перехода?
- 2.2.3. Третье измерение: социальное окружение
- Статья 362. Несанкционированные действия с информацией, обрабатывается в электронно-вычислительных машинах (компьютерах), автоматизированных системах, компьютерных сетях или сохраняется на носителях такой информации, совершенные лицом, имеет право доступа к ней