<<
>>

Вероятностный подход

Рассмотрим в качестве примера опыт, связанный с бросанием правильной игральной кости, имеющей N граней. Результаты данного опыта могут быть следующие: выпадение грани с одним из следующих знаков: 1, 2, ..., N.
Введем в рассмотрение численную величину, измеряющую неопределенность — энтропию (обозначим ее Н). Согласно развитой теории, в случае равновероятного выпадания каждой из граней величины N и Н связаны между собой формулой Хартли Н = N. Важным при введении какой-либо величины является вопрос о том, что принимать за единицу ее измерения. Очевидно, Н будет равно единице при N = 2. Иначе говоря, в качестве единицы принимается количество информации, связанное с проведением опыта, состоящего в получении одного из двух равновероятных исходов (примером такого опыта может служить бросание монеты, при котором возможны два исхода: «орел», «решка»). Такая единица количества информации называется «бит». В случае, когда вероятности Р, результатов опыта (в примере, приведенном выше, — бросания игральной кости) неодинаковы, имеет место формула Шеннона N I н = -£Р, х \0g2Pi • В случае равновероятности событий Р1 = —, и формула Шен- /-1 N нона переходит в формулу Хартли.
В качестве примера определим количество информации, связанное с появлением каждого символа в сообщениях, записанных на русском языке. Будем дчитать, что русский алфавит состоит из 33 букв и знака «пробел» для разделения слов. По формуле Хартли Н = 34 « 5,09 бит. Однако в словах русского языка (равно как и в словах других языков) различные буквы встречаются неодинаково часто. Ниже приведена табл. 1.1 вероятностей частоты употребления различных знаков русского алфавита, полученная на основе анализа очень больших по объему текстов. Воспользуемся для подсчета Н формулой Шеннона: Н ~ 4,72 бит. Полученное значение Д как и можно было предположить, меньше вычисленного ранее. Величина Ну вычисляемая по формуле Хартли, является максимальным количеством информации, которое могло бы приходиться на один знак. Аналогичные подсчеты Н можно провести и для других языков, например, использующих латинский алфавит — английского, немецкого, французского и др. (26 различных букв и «пробел»). По формуле Хартли получим Н— 1с^2 27 « 4,76 бит.
Таблица 1.1 Частотность букв русского языка

Рассмотрим алфавит, состоящий из двух знаков 0 и 1. Если считать, что со знаками 0 и 1 в двоичном алфавите связаны одинаковые вероятности их появления (Р(0) = Р(1) = 0,5), то количество информации на один знак при двоичном кодировании будет равно Н = log22 = 1 бит. Таким образом, количество информации (в битах), заключенное в двоичном слове, равно числу двоичных знаков в нем.

<< | >>
Источник: Могилев А. В.. Практикум по информатике. 2005

Еще по теме Вероятностный подход:

  1. ПРОГНОЗИРОВАНИЕ ВЕРОЯТНОСТНОЕ
  2. Случайные (вероятностные) методы отбора.
  3. Перемещение в вероятностную действительность
  4. 2.4. Методы вероятностной (случайной) выборки
  5. ТЕОРИЯ РАЗВИТИЯ ВЕРОЯТНОСТНАЯ
  6. 40. Основные теоретические подходы в определении классов. Немарксистские подходы
  7. ПСИХОЛОГИЯ: ПОДХОД
  8. Статистический подход.
  9. § 2.4. Системный подход
  10. § 2.6. Ситуационный подход
  11. ПОДХОД ДЕЯТЕЛЬНОСТНЫЙ
  12. ПОДХОД МИКРОСТРУКТУРНЫЙ
  13. ПОДХОД ТЕЛЕСНО-ОРИЕНТИРОВАННЫЙ
  14. 2.1. Направления объективного подхода