Подходы к определению количества информации. Формулы Хартли и Шеннона

В 1928 г. американский инженер Р. Хартли предложил научный подход к оценке сообщений. Предложенная им формула имела следующий вид:

I = log 2 K ,
Где К - количество равновероятных событий; I - количество бит в сообщении, такое, что любое из К событий произошло. Тогда K=2 I .
Иногда формулу Хартли записывают так:

I = log 2 K = log 2 (1 / р) = - log 2 р,
т. к. каждое из К событий имеет равновероятный исход р = 1 / К, то К = 1 / р.

Задача.

Шарик находится в одной из трех урн: А, В или С. Определить сколько бит информации содержит сообщение о том, что он находится в урне В.

Такое сообщение содержит I = log 2 3 = 1,585 бита информации.

Но не все ситуации имеют одинаковые вероятности реализации. Существует много таких ситуаций, у которых вероятности реализации различаются. Например, если бросают несимметричную монету или "правило бутерброда".

"Однажды в детстве я уронил бутерброд. Глядя, как я виновато вытираю масляное пятно, оставшееся на полу, старший брат успокоил меня:

Не горюй, это сработал закон бутерброда.

Что еще за закон такой? - спросил я.

Закон, который гласит: "Бутерброд всегда падает маслом вниз". Впрочем, это шутка, - продолжал брат.- Никакого закона нет. Прсто бутерброд действительно ведет себя довольно странно: большей частью масло оказывается внизу.

Давай-ка еще пару раз уроним бутерброд, проверим, - предложил я. - Все равно ведь его придется выкидывать.

Проверили. Из десяти раз восемь бутерброд упал маслом вниз.

И тут я задумался: а можно ли заранее узнать, как сейчас упадет бутерброд маслом вниз или вверх?

Наши опыты прервала мать…"
(Отрывок из книги "Секрет великих полководцев", В.Абчук).

В 1948 г. американский инженер и математик К Шеннон предложил формулу для вычисления количества информации для событий с различными вероятностями.
Если I - количество информации,
К - количество возможных событий,
рi - вероятности отдельных событий,
то количество информации для событий с различными вероятностями можно определить по формуле:

I = - Sum р i log 2 р i ,
где i принимает значения от 1 до К.

Формулу Хартли теперь можно рассматривать как частный случай формулы Шеннона:

I = - Sum 1 / К log 2 (1 / К) = I = log 2 К.

При равновероятных событиях получаемое количество информации максимально.

Задачи.
1. Определить количество информации, получаемое при реализации одного из событий, если бросают
а) несимметричную четырехгранную пирамидку;
б) симметричную и однородную четырехгранную пирамидку.

Решение.
а) Будем бросать несимметричную четырехгранную пирамидку.
Вероятность отдельных событий будет такова:
р1 = 1 / 2,
р2 = 1 / 4,
р3 = 1 / 8,
р4 = 1 / 8,
тогда количество информации, получаемой после реализации одного из этих событий, рассчитывается по формуле:
I = -(1 / 2 log 2 1/2 + 1 / 4 log 2 1/4 + 1 / 8 log 2 1/8 + 1 / 8 log 2 1/8) = 1 / 2 + 2 / 4 + + 3 / 8 + 3 / 8 = 14/8 = 1,75 (бит).
б) Теперь рассчитаем количество информации, которое получится при бросании симметричной и однородной четырехгранной пирамидки:
I = log 2 4 = 2 (бит).
2. Вероятность перового события составляет 0,5, а второго и третьего 0,25. Какое количество информации мы получим после реализации одного из них?
3. Какое количество информации будет получено при игре в рулетку с 32-мя секторами?
4. Сколько различных чисел можно закодировать с помощью 8 бит?
Решение: I=8 бит, K=2 I =2 8 =256 различных чисел.

Физиологи и психологи научились определять количество информации, которое человек может воспринимать при помощи органов чувств, удерживать в памяти и подвергать обработке. Информацию можно представлять в различных формах: звуковой, знаковой и др. рассмотренный выше способ определения количества информации, получаемое в сообщениях, которые уменьшают неопределенность наших знаний, рассматривает информацию с позиции ее содержания, новизны и понятности для человека. С этой точки зрения в опыте по бросанию кубика одинаковое количество информации содержится в сообщениях "два", "вверх выпала грань, на которой две точки" и в зрительном образе упавшего кубика.

При передаче и хранении информации с помощью различных технических устройств информацию следует рассматривать как последовательность знаков (цифр, букв, кодов цветов точек изображения), не рассматривая ее содержание.

Считая, что алфавит (набор символов знаковой системы) - это событие, то появление одного из символов в сообщении можно рассматривать как одно из состояний события. Если появление символов равновероятно, то можно рассчитать, сколько бит информации несет каждый символ. Информационная емкость знаков определяется их количеством в алфавите. Чем из большего количества символов состоит алфавит, тем большее количество информации несет один знак. Полное число символов алфавита принято называть мощностью алфавита.

Молекулы ДНК (дезоксирибонуклеиновой кислоты) состоят из четырех различных составляющих (нуклеотидов), которые образуют генетический алфавит. Информационная емкость знака этого алфавита составляет:

4 = 2 I , т.е. I = 2 бит.

При таком подходе в результате сообщения о результате бросания кубика, получим различное количество информации, Чтобы его подсчитать, нужно умножить количество символов на количество информации, которое несет один символ.

Количество информации, которое содержит сообщение, закодированное с помощью знаковой системы, равно количеству информации, которое несет один знак, умноженному на число знаков в сообщении.

Позиционные системы счисления

Системой счисления называется совокупность приемов наименования и записи чисел. В любой системе счисления для представления чисел выбираются некоторые символы (их называют цифрами ), а остальные числа получаются в результате каких-либо операций над цифрами данной системы счисления.

Система называется позиционной , если значение каждой цифры (ее вес) изменяется в зависимости от ее положения (позиции) в последовательности цифр, изображающих число.

Число единиц какого-либо разряда, объединяемых в единицу более старшего разряда, называют основанием позиционной системы счисления . Если количество таких цифр равно P , то система счисления называется P -ичной. Основание системы счисления совпадает с количеством цифр, используемых для записи чисел в этой системе счисления.

Запись произвольного числа x в P -ичной позиционной системе счисления основывается на представлении этого числа в виде многочлена

x = a n P n + a n -1 P n -1 + ... + a 1 P 1 + a 0 P 0 + a -1 P -1 + ... + a -m P -m

Арифметические действия над числами в любой позиционной системе счисления производятся по тем же правилам, что и десятичной системе, так как все они основываются на правилах выполнения действий над соответствующими многочленами. При этом нужно только пользоваться теми таблицами сложения и умножения, которые соответствуют данному основанию P системы счисления.

При переводе чисел из десятичной системы счисления в систему с основанием P > 1 обычно используют следующий алгоритм:

1) если переводится целая часть числа, то она делится на P , после чего запоминается остаток от деления. Полученное частное вновь делится на P , остаток запоминается. Процедура продолжается до тех пор, пока частное не станет равным нулю. Остатки от деления на P выписываются в порядке, обратном их получению;

2) если переводится дробная часть числа, то она умножается на P , после чего целая часть запоминается и отбрасывается. Вновь полученная дробная часть умножается на P и т.д. Процедура продолжается до тех пор, пока дробная часть не станет равной нулю. Целые части выписываются после запятой в порядке их получения. Результатом может быть либо конечная, либо периодическая дробь в системе счисления с основанием P . Поэтому, когда дробь является периодической, приходится обрывать умножение на каком-либо шаге и довольствоваться приближенной записью исходного числа в системе с основанием P .

Примеры

1. Перевести данное число из десятичной системы счисления в двоичную:
а) 464 (10) ; б) 380,1875 (10) ; в) 115,94 (10) (получить пять знаков после запятой в двоичном представлении).

Решение.

464 | 0 380 | 0 |1875 115 | 1 |94

232 | 0 190 | 0 0|375 57 | 1 1|88

116 | 0 95 | 1 0|75 28 | 0 1|76

58 | 0 47 | 1 1|5 14 | 0 1|52

а) 29 | 1 б) 23 | 1 1|0 в) 7 | 1 1|04

14 | 0 11 | 1 3 | 1 0|08

7 | 1 5 | 1 1 | 1 0|16

а) 464 (10) = 111010000 (2) ; б) 380,1875 (10) = 101111100,0011 (2) ; в) 115,94 (10) » 1110011,11110 (2) (в настоящем случае было получено шесть знаков после запятой, после чего результат был округлен).

Если необходимо перевести число из двоичной системы счисления в систему счисления, основанием которой является степень двойки, достаточно объединить цифры двоичного числа в группы по столько цифр, каков показатель степени, и использовать приведенный ниже алгоритм. Например, если перевод осуществляется в восьмеричную систему, то группы будут содержать три цифры (8 = 2 3). Итак, в целой части будем производить группировку справа налево, в дробной - слева направо. Если в последней группе недостает цифр, дописываем нули: в целой части - слева, в дробной - справа. Затем каждая группа заменяется соответствующей цифрой новой системы. Соответствия приведены в таблицах.

Наиболее важные системы счисления.

Двоичная (Основание 2) Восьмеричная (Основание 8) Десятичная (Основание 10) Шестнадцатиричная (Основание 16)
триады тетрады
0 1 0 1 2 3 4 5 6 7 000 001 010 011 100 101 110 111 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 A B C D E F 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 1100 1101 1110 1111

1928 год американский инженер Ральф Хартли рассматривает процесс получения информации как выбор одного сообщения из конечного заданного множества N равновероятных событий.

Формула Хартли:

где К - количество информации, N -число равновероятных событий.

Формула Хартли может быть записана и так: N=2k

Так как наступление каждого из N событий имеет одинаковую вероятность P, то:

где P- вероятность наступления события.

Тогда, формулу можно записать иначе:

1948 год американский ученый Клод Шеннон предложил другую формулу определения количества информации, учитывая возможную неодинаковую вероятность событий в наборе.

Формула Шеннона:

K = - (p1 *log2 p1+ p2 *log 2p 2 + p 3 *log 2p 3 +…+ pi * log2 pi),

где pi вероятность того, что именно i-е сообщение выделено в наборе из N сообщений.

Также эту формулу записывают:

Современная наука о свойствах информации и закономерностях информационных процессов называется теорией информации. Содержание понятия "информация" можно раскрыть на примере двух исторически первых подходов к измерению количества информации: подходов Хартли и Шеннона: первый из них основан на теории множеств и комбинаторике, а второй - на теории вероятностей.

Информация может пониматься и интерпретироваться в различных проблемах, предметных областях по-разному. Вследствие этого, имеются различные подходы к определению измерения информации и различные способы введения меры количества информации.

Количество информации - числовая величина, адекватно характеризующая актуализируемую информацию по разнообразию, сложности, структурированности (упорядоченности), определенности, выбору состояний отображаемой системы.

Если рассматривается некоторая система, которая может принимать одно из n возможных состояний, то актуальной задачей является задача оценки этого выбора, исхода. Такой оценкой может стать мера информации (события).

Мера - непрерывная действительная неотрицательная функция, определенная на множестве событий и являющаяся аддитивной.

Меры могут быть статические и динамические, в зависимости от того, какую информацию они позволяют оценивать: статическую (не актуализированную; на самом деле оцениваются сообщения без учета ресурсов и формы актуализации) или динамическую (актуализированную т.е. оцениваются также и затраты ресурсов для актуализации информации).

Существуют различные подходы к определению количества информации. Наиболее часто используются следующие объемный и вероятностный.

Объемный подход.

Используется двоичная система счисления, потому что в техническом устройстве наиболее просто реализовать два противоположных физических состояния: намагничено / не намагничено, вкл./выкл., заряжено / не заряжено и другое.

Объём информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации, подсчитывается просто по количеству требуемых для такой записи двоичных символов. При этом невозможно нецелое число битов.

Для удобства использования введены и более крупные, чем бит, единицы количества информации. Так, двоичное слово из восьми знаков содержит один байт информации, 1024 байта образуют килобайт (кбайт), 1024 килобайта - мегабайт (Мбайт), а 1024 мегабайта - гигабайт (Гбайт).

Энтропийный (вероятностный) подход.

Этот подход принят в теории информации и кодирования. Данный способ измерения исходит из следующей модели: получатель сообщения имеет определённое представление о возможных наступлениях некоторых событий. Эти представления в общем случае недостоверны и выражаются вероятностями, с которыми он ожидает то или иное событие. Общая мера неопределённостей называется энтропией. Энтропия характеризуется некоторой математической зависимостью от совокупности вероятности наступления этих событий.

Количество информации в сообщении определяется тем, насколько уменьшилась эта мера после получения сообщения: чем больше энтропия системы, тем больше степень её неопределённости. Поступающее сообщение полностью или частично снимает эту неопределённость, следовательно, количество информации можно измерять тем, насколько понизилась энтропия системы после получения сообщения. За меру количества информации принимается та же энтропия, но с обратным знаком.

Подход Р. Хартли основан на фундаментальных теоретико-множественных, по существу комбинаторных основаниях, а также нескольких интуитивно ясных и вполне очевидных предположениях.

Если существует множество элементов и осуществляется выбор одного из них, то этим самым сообщается или генерируется определенное количество информации. Эта информация состоит в том, что если до выбора не было известно, какой элемент будет выбран, то после выбора это становится известным. Необходимо найти вид функции, связывающей количество информации, получаемой при выборе некоторого элемента из множества, с количеством элементов в этом множестве, т.е. с его мощностью.

Если множество элементов, из которых осуществляется выбор, состоит из одного единственного элемента, то ясно, что его выбор предопределен, т.е. никакой неопределенности выбора нет - нулевое количество информации.

Если множество состоит из двух элементов, то неопределенность выбора минимальна. В этом случае минимально и количество информации.

Чем больше элементов в множестве, тем больше неопределенность выбора, тем больше информации.

Таким образом, логарифмическая мера информации, предложенная Хартли, одновременно удовлетворяет условиям монотонности и аддитивности. Сам Хартли пришел к своей мере на основе эвристических соображений, подобных только что изложенным, но в настоящее время строго доказано, что логарифмическая мера для количества информации однозначно следует из этих двух постулированных им условий.

В 1948 году, исследуя проблему рациональной передачи информации через зашумлённый коммуникационный канал, Клод Шеннон предложил революционный вероятностный подход к пониманию коммуникаций и создал первую, истинно математическую, теорию энтропии. Его сенсационные идеи быстро послужили основой разработки двух основных направлений: теории информации, которая использует понятие вероятности и эргодическую теорию для изучения статистических характеристик данных и коммуникационных систем, и теории кодирования, в которой используются главным образом алгебраические и геометрические инструменты для разработки эффективных кодов.

Клод Шеннон предположил, что прирост информации равен утраченной неопределённости, и задал требования к её измерению:

  • 1. мера должна быть непрерывной; то есть изменение значения величины вероятности на малую величину должно вызывать малое результирующее изменение функции;
  • 2. в случае, когда все варианты (буквы в приведённом примере) равновероятны, увеличение количества вариантов (букв) должно всегда увеличивать значение функции;
  • 3. должна быть возможность сделать выбор (в нашем примере букв) в два шага, в которых значение функции конечного результата должно являться суммой функций промежуточных результатов.

Поэтому функция энтропии должна удовлетворять условиям:

определена и непрерывна для всех,

где для всех и. (Нетрудно видеть, что эта функция зависит только от распределения вероятностей, но не от алфавита).

Для целых положительных, должно выполняться следующее неравенство:

Для целых положительных, где, должно выполняться равенство:

информационный пропускной энтропийный

Шеннон определил, что измерение энтропии, применяемое к источнику информации, может определить требования к минимальной пропускной способности канала, требуемой для надёжной передачи информации в виде закодированных двоичных чисел. Для вывода формулы Шеннона необходимо вычислить математическое ожидание «количества информации», содержащегося в цифре из источника информации. Мера энтропии Шеннона выражает неуверенность реализации случайной переменной. Таким образом, энтропия является разницей между информацией, содержащейся в сообщении, и той частью информации, которая точно известна (или хорошо предсказуема) в сообщении. Примером этого является избыточность языка -- имеются явные статистические закономерности в появлении букв, пар последовательных букв, троек и т.д.

  • K5. Количество комнат на семью (без кухни и подсобных помещений)
  • N - количество пересечений и примыканий, въездов и переездов на данном километре дороги;
  • N1, n2 – количество полных месяцев с момента ввода (выбытия).
  • Б-12. Видеозапись как средство фиксации криминалистически значимой информации. Применение видеозаписи при производстве следственных действий.
  • Б-8. Нетрадиционные методы и средства получения и использования значимой для расследования информации.
  • Хартли в 1928, а затем Шеннон в 1948 предложили формулы для вычисления количества информации, но вопрос о природе информации остался открытым. Шеннон научился измерять количество информации, передаваемой по каналам связи, однако на вопрос о том, что такое информация он не ответил.

    Формула Хартли. В 1928 Хартли предложил формулу для вычисления количества информации, необходимого для нахождения (угадывания) одного выделенного элемента x из множества M, содержащего N элементов. Это количество информации вычисляется по формуле

    Неопределённость ситуации (энтропия H) в этом случае тем больше, чем больше N. Очевидно, что при N=1 неопределённость вообще отсутствует - Н=0; В этом случае множество М состоит из одного элемента, и количество информации, необходимое для нахождения x, равно нулю.

    Если N =2, то для «угадывания» одно элемента из требуется Н=Log 2 (2) =1 единица информации. Это количество информации принято за единицу измерения и называется 1 бит.

    Дальнейшее развитие теория измерения информации получила в работа К. Шеннона.

    В 1948 году Шеннон опубликовал свой opus magnum «Математическая теория связи». Вот как он формулировал задачу: «фундаментальной проблемой связи является воспроизведение в одной точке, точно или приблизительно, сообщения, собранного в другой точке». Собственно, вся терминология науки о коммуникациях была введена именно Шенноном.

    В теории Шеннона изучаются сведения, которые кодируются и передаются в форме сигналов техническими средствами. (Это скорее ДАННЫЕ, чем информация). Здесь можно ввести количественную меру информации - 1 бит.

    Суть подхода Шеннона к определению количества информации, необходимого для выяснения состояния некоторой системы, состоит в следующем.

    Определение. Если Х – случайная величина (физическая система),принимающая значения (состояния) x i c вероятностью р i , то энтропия случайной величины X

    H(X)= - Sр i * Log 2 (р i) , i = 1,2,...n

    Наибольшее значение H(X) принимает в случае, когда все р i = p = 1/n:

    H(X) = Log 2 (n),

    и мы приходим к формуле Хартли.

    Log 2 (n) >= - Sр i * Log 2 (р i)

    Вероятность - количественная мера возможности некоторого события. Некоторые события более возможны, чем другие. Есть невозможное событие Q- его вероятность р(Q) =0. Есть достоверное событие W, его вероятность р(W)= 1. Для других событий A, которые не являются ни достоверными, ни невозможными выполняется соотношение 0 < p(A) < 1.



    Первоначально Шеннон интересовался передачей зашифрованных сообщений, и предложил способ вычисления количества информации, содержащейся в таком сообщении.

    Текстовое сообщение, состоящее из N букв содержит

    единиц информации, где М -число букв в алфавите, p i - частота буквы под номером i.

    Каждое передаваемое сообщение имеет свое содержание. Но в подходе Шеннона оно совершенно несущественно при передаче информации по каналу связи. Бессмысленные сообщения передаются также, как и осмысленные. Количество информации, вычисленное по формуле Шеннона, для осмысленного сообщения, и сообщения полученного из него произвольной перестановкой букв, будет одинаковым.

    Если алфавит бинарный = {1;0}, и сообщение состоит из N букв, то I = Log 2 (2 N) = N бит.

    Американский инженер Р. Хартли в 1928 г. процесс получения информации рассматривал как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации I , содержащееся в выбранном сообщении, определял как двоичный логарифм N .

    Формула Хартли:

    I = log2N.

    Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = log2100 > 6,644. Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации.

    Приведем другие примеры равновероятных сообщений :

    1. при бросании монеты: «выпала решка» , «выпал орел» ;

    2. на странице книги: «количество букв чётное» , «количество букв нечётное» .

    Определим теперь, являются ли равновероятными сообщения «первой выйдет из дверей здания женщина» и «первым выйдет из дверей здания мужчина» . Однозначно ответить на этот вопрос нельзя . Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.

    Для задач такого рода американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе .

    Формула Шеннона:

    I = - (p 1log2p 1 + p 2 log2p 2 +... + p N log2pN ),


    где pi - вероятность того, что именно i -е сообщение выделено в наборе из N сообщений.

    Легко заметить, что если вероятности p 1, ...,pN равны, то каждая из них равна 1/N , и формула Шеннона превращается в формулу Хартли.

    Клод Шеннон определил информацию , как снятую неопределенность . Точнее сказать, получение информации - необходимое условие для снятия неопределенности. Неопределенность возникает в ситуации выбора. Задача, которая решается в ходе снятия неопределенности – уменьшение количества рассматриваемых вариантов (уменьшение разнообразия), и в итоге выбор одного соответствующего ситуации варианта из числа возможных. Снятие неопределенности дает возможность принимать обоснованные решения и действовать. В этом управляющая роль информации.

    Представьте, что вы зашли в магазин и попросили продать вам жевательную резинку. Продавщица, у которой, скажем, 16 сортов жевательной резинки, находится в состоянии неопределенности. Она не может выполнить вашу просьбу без получения дополнительной информации. Если вы уточнили, скажем, - «Orbit», и из 16 первоначальных вариантов продавщица рассматривает теперь только 8, вы уменьшили ее неопределенность в два раза (забегая вперед, скажем, что уменьшение неопределенности вдвое соответствует получению 1 бита информации ). Если вы, не мудрствуя лукаво, просто указали пальцем на витрине, - «вот эту!», то неопределенность была снята полностью. Опять же, забегая вперед, скажем, что этим жестом в данном примере вы сообщили продавщице 4 бита информации.

    Ситуация максимальной неопределенности предполагает наличие нескольких равновероятных альтернатив (вариантов), т.е. ни один из вариантов не является более предпочтительным. Причем, чем больше равновероятных вариантов наблюдается, тем больше неопределенность, тем сложнее сделать однозначный выбор и тем больше информации требуется для этого получить. Для N вариантов эта ситуация описывается следующим распределением вероятностей: {1/N ,1/N , …,1/N }.

    Минимальная неопределенность равна 0 , т.е. эта ситуация полной определенности , означающая что выбор сделан, и вся необходимая информация получена. Распределение вероятностей для ситуации полной определенности выглядит так: {1, 0, …0}.

    Величина, характеризующая количество неопределенности в теории информации обозначается символом H и имеет название энтропия , точнееинформационная энтропия .

    Энтропия (H ) – мера неопределенности , выраженная в битах. Так же энтропию можно рассматривать как меру равномерности распределения случайной величины.

    Рис. 3.4 Поведение энтропии для случая двух альтернатив

    На рис. 3.4 показано поведение энтропии для случая двух альтернатив, при изменении соотношения их вероятностей (P , (1-P )).

    Максимального значения энтропия достигает в данном случае тогда, когда обе вероятности равны между собой и равны 1/2, нулевое значение энтропии соответствует случаям (P 0=0, P 1=1) и (P 0=1, P 1=0).

    Количество информации I и энтропия H характеризуют одну и ту же ситуацию, но с качественно противоположенных сторон. I – это количество информации, которое требуется для снятия неопределенности H. По определению Леона Бриллюэна информация есть отрицательная энтропия (негэнтропия ) .

    Когда неопределенность снята полностью, количество полученной информации I равно изначально существовавшей неопределенности H .

    При частичном снятии неопределенности, полученное количество информации и оставшаяся неснятой неопределенность составляют в сумме исходную неопределенность. Ht + It = H (рис. 3.5).

    Рис. 3.5 Связь между энтропией и количеством информации

    По этой причине, формулы, которые будут представлены ниже для расчета энтропии H являются и формулами для расчета количества информации I , т.е. когда речь идет о полном снятии неопределенности , H в них может заменяться на I .

    В общем случае , энтропия H и количество получаемой в результате снятия неопределенности информации I зависят от исходного количества рассматриваемых вариантов N и априорных вероятностей реализации каждого из них P: {p 0,p 1, …,pN- 1}, т.е. H=F (N ,P ). Расчет энтропии в этом случае производится по формуле Шеннона , предложенной им в 1948 году в статье «Математическая теория связи».

    В частном случае , когда все варианты равновероятны , остается зависимость только от количества рассматриваемых вариантов, т.е. H=F (N ). В этом случае формула Шеннона значительно упрощается и совпадает с формулой Хартли , которая впервые была предложена американским инженером Ральфом Хартли в 1928 году, т.е. на 20 лет раньше.

    Формула Шеннона имеет следующий вид:

    Знак минус в формуле (2.1) не означает, что энтропия – отрицательная величина. Объясняется это тем, чтоpi £ 1 по определению, а логарифм числа меньшего единицы - величина отрицательная. По свойству логарифма, поэтому эту формулу можно записать и во втором варианте, без минуса перед знаком суммы.

    Выражение интерпретируется как частное количество информации It , получаемое в случае реализации i -ого варианта. Энтропия в формуле Шеннона является средней характеристикой – математическим ожиданием распределения случайной величины {I 0,I 1, …,I N- 1}.

    Приведем пример расчета энтропии по формуле Шеннона. Пусть в некотором учреждении состав работников распределяется так: 3/4 - женщины, 1/4 - мужчины. Тогда неопределенность, например, относительно того, кого вы встретите первым, зайдя в учреждение, будет рассчитана рядом действий, показанных в табл. 3.1.

    Таблица 3.1

    pi 1/pi Ii= log2(1/pi ),бит pi* log2(1/pi ),бит
    Ж 3/4 4/3 log2(4/3)=0,42 3/4 * 0,42=0,31
    М 1/4 4/1 log2(4)=2 1/4 * 2=0,5
    å H= 0,81бит

    Мы уже упоминали, что формула Хартли – частный случай формулы Шеннона для равновероятных альтернатив.

    Подставив в формулу (2.1) вместо pi его (в равновероятном случае не зависящее от i )значение, получим:

    Таким образом, формула Хартли выглядит очень просто:

    Из нее явно следует, что чем больше количество альтернатив (N ), тем больше неопределенность (H ). Логарифмирование по основанию 2 приводит количество вариантов к единицам измерения информации – битам. На рис.3.6 представлена зависимость энтропии от количества равновероятных вариантов выбора.

    Рис. 3.6 Зависимость энтропии от количества равновероятных вариантов выбора (равнозначных альтернатив)

    Для решения обратных задач, когда известна неопределенность (H ) или полученное в результате ее снятия количество информации (I ) и нужно определить какое количество равновероятных альтернатив соответствует возникновению этой неопределенности, используют обратную формулу Хартли, которая выглядит еще проще:

    Например, если известно, что в результате определения того, что интересующий нас Коля Иванов живет на втором этаже, было получено 3 бита информации, то количество этажей в доме можно определить по формуле (2.3), как N= 23= 8этажей.

    Если же вопрос стоит так: «В доме 8 этажей, какое количество информации мы получили, узнав, что интересующий нас Коля Иванов живет на втором этаже?», нужно воспользоваться формулой (2.2): I = log2(8) = 3 бита.

    До сих пор мы приводили формулы для расчета энтропии (неопределенности) H , указывая, что H в них можно заменять на I , потому что количество информации, получаемое при полном снятии неопределенности некоторой ситуации, количественно равно начальной энтропии этой ситуации.

    Но неопределенность может быть снята только частично, поэтому количество информации I , получаемой из некоторого сообщения, вычисляется как уменьшение энтропии, произошедшее в результате получения данного сообщения .

    Для равновероятного случая , используя для расчета энтропии формулу Хартли, получим:

    Второе равенство выводится на основании свойств логарифма. Таким образом, в равновероятном случае I зависит от того, во сколько раз изменилось количество рассматриваемых вариантов выбора (рассматриваемое разнообразие).

    Исходя из (3.5) можно вывести следующее:

    Если, то - полное снятие неопределенности, количество полученной в сообщении информации равно неопределенности, которая существовала до получения сообщения.

    Если, то - неопределенности не изменилась, следовательно, информации получено не было.

    Если, то => ,

    если, то => .

    Т.е. количество полученной информации будет положительной величиной, если в результате получения сообщения количество рассматриваемых альтернатив уменьшилось, и отрицательной, если увеличилось.

    Если количество рассматриваемых альтернатив в результате получения сообщения уменьшилось вдвое, т.е., то I =log2(2)=1бит. Другими словами, получение 1 бита информации исключает из рассмотрения половину равнозначных вариантов.

    Рассмотрим в качестве примера опыт с колодой из 36 карт (рис.3.7).

    Рис. 3.7 Иллюстрация к опыту с колодой из 36-ти карт

    Пусть некто вынимает одну карту из колоды. Нас интересует, какую именно из 36 карт он вынул. Изначальная неопределенность, рассчитываемая по формуле (3.2), составляет H= log2(36)@5,17бит . Вытянувший карту сообщает нам часть информации. Используя формулу (3.5), определим, какое количество информации мы получаем из этих сообщений:

    Вариант A. “Это карта красной масти”.

    I =log2(36/18)=log2(2)=1бит (красных карт в колоде половина, неопределенность уменьшилась в 2 раза).

    Вариант B. “Это карта пиковой масти”.

    I =log2(36/9)=log2(4)=2 бита (пиковые карты составляют четверть колоды, неопределенность уменьшилась в 4 раза).

    Вариант С. “Это одна из старших карт: валет, дама, король или туз”.

    I =log2(36)–log2(16)=5,17-4=1,17 бита (неопределенность уменьшилась больше чем в два раза, поэтому полученное количество информации больше одного бита).

    Вариант D. “Это одна карта из колоды".

    I =log2(36/36)=log2(1)=0 бит (неопределенность не уменьшилась - сообщение не информативно).

    Вариант E. “Это дама пик".

    I =log2(36/1)=log2(36)=5,17 бит (неопределенность полностью снята).

    Задача 1. Какое количество информации будет содержать зрительное сообщение о цвете вынутого шарика, если в непрозрачном мешочке находится 50 белых, 25 красных, 25 синих шариков?

    Решение .

    1) всего шаров 50+25+25=100

    2) вероятности шаров 50/100=1/2, 25/100=1/4, 25/100=1/4

    3)I = -(1/2 log21/2 + 1/4 log21/4 + 1/4 log21/4) = -(1/2(0-1) +1/4(0-2) +1/4(0-2)) = =1,5 бит

    Задача 2. В корзине лежит 16 шаров разного цвета. Сколько информации несет сообщение, что достали белый шар?

    Решение . Т.к. N = 16 шаров, то I = log2 N = log2 16 = 4 бит.

    Задача 3. В корзине лежат черные и белые шары. Среди них18 черных шаров. Сообщение о том, что достали белый шар, несет 2 бита информации. Сколько всего шаров в корзине?

    1) 18 2) 24 3) 36 4)48

    Решение . Найдем по формуле Шеннона вероятность получения белого шара: log2N=2, N=4, следовательно, вероятность получения белого шара равна 1/4 (25%), а вероятность получения черного шара соответственно 3/4(75%). Если 75% всех шариков черные, их количество 18, тогда 25% всех шариков белые, их количество (18*25)/75=6.

    Осталось найти количество всех шариков в корзине 18+6=24.

    Ответ: 24 шарика.

    Задача 4. В некоторой стране автомобильный номер длиной 5 символов составляется из заглавных букв (всего используется 30 букв) и десятичных цифр в любом порядке. Каждый символ кодируется одинаковым и минимально возможным количеством бит, а каждый номер – одинаковым и минимально возможным количеством байт. Определите объем памяти, необходимый для хранения 50 автомобильных номеров.

    1) 100 байт 2) 150 байт 3) 200 байт 4)250 байт

    Решение . Количество символов используемых для кодирования номера составляет: 30 букв + 10 цифр = 40 символов. Количество информации несущий один символ равен 6 бит (2I=40, но количество информации не может быть дробным числом, поэтому берем ближайшую степень двойки большую количества символов 26=64).

    Мы нашли количество информации, заложенное в каждом символе, количество символов в номере равно 5, следовательно, 5*6=30 бит. Каждый номер равен 30 битам информации, но по условию задачи каждый номер кодируется одинаковым и минимально возможным количеством байт, следовательно, нам необходимо узнать, сколько байт в 30 битах. Если разделить 30 на 8 получится дробное число, а нам необходимо найти целое количество байт на каждый номер, поэтому находим ближайший множитель 8-ки, который превысит количество бит, это 4 (8*4=32). Каждый номер кодируется 4 байтами.

    Для хранения 50 автомобильных номеров потребуется: 4*50=200 байт.

    Выбор оптимальной стратегии в игре «Угадай число». На получении максимального количества информации строится выбор оптимальной стратегии в игре «Угадай число», в которой первый участник загадывает целое число (например, 3) из заданного интервала (например, от 1 до 16), а второй - должен «угадать» задуманное число. Если рассмотреть эту игру с информационной точки зрения, то начальная неопределенность знаний для второго участника составляет 16 возможных событий (вариантов загаданных чисел).

    При оптимальной стратегии интервал чисел всегда должен делиться пополам, тогда количество возможных событий (чисел) в каждом из полученных интервалов будет одинаково и отгадывание интервалов равновероятно. В этом случае на каждом шаге ответ первого игрока («Да» или «Нет») будет нести максимальное количество информации (1 бит).

    Как видно из табл. 1.1, угадывание числа 3 произошло за четыре шага, на каждом из которых неопределенность знаний второго участника уменьшалась в два раза за счет получения сообщения от первого участника, содержащего 1 бит информации. Таким образом, количество информации, необходимое для отгадывания одного из 16 чисел, составило 4 бита.

    Контрольные вопросы и задания

    1. Априори известно, что шарик находится в одной из трех урн: А, В или С. Определите, сколько бит информации содержит сообщение о том, что он находится в урне В.

    Варианты: 1бит, 1,58бита, 2бита, 2,25бита.

    2. Вероятность первого события составляет 0,5, а второго и третьего 0,25. Чему для такого распределения равна информационная энтропия. Варианты: 0,5бита, 1 бит, 1,5бита, 2бита, 2,5бита, 3бита.

    3. Вот список сотрудников некоторой организации:

    Определите количество информации, недостающее для того, чтобы выполнить следующие просьбы:

    Пожалуйста, позовите к телефону Иванову.

    Меня интересует одна ваша сотрудница, она 1970 года рождения.

    4. Какое из сообщений несет больше информации:

    · В результате подбрасывания монеты (орел, решка) выпала решка.

    · На светофоре (красный, желтый, зеленый) сейчас горит зеленый свет.

    · В результате подбрасывания игральной кости (1, 2, 3, 4, 5, 6) выпало 3 очка.

    60. Измерение информации – вероятностный и алфавитный подходы. Формулы Хартли, Шеннона. Пример в MS Ex с el .

    С точки зрения на информацию, как на снятую неопределеность, количество информации в сообщении о каком-то событии зависит от вероятности совершения данного события.

    Научный подход к оценке сообщений был предложен еще в 1928 году Р. Хартли. Расчетная формула Хартли для равновероятностных событий имеет вид:

    I = log 2 N или 2 I = N ,

    где N - количество равновероятных событий (число возможных выборов), I - количество информации.

    Если N = 2 (выбор из двух возможностей), то I = 1 бит.

    Пример 1. Использование формулы Хартли для вычисления количества информации. Сколько бит информации несет сообщение о том, что

    поезд прибывает на один из 8 путей?

    Формула Хартли: I = log 2 N ,

    где N – число равновероятностных исходов события, о котором речь идет в сообщении,

    I – количество информации в сообщении.

    I = log 2 8 = 3(бит) Ответ: 3 бита.

    Модифицированная формула Хартли для неравновероятностных событий. Так как наступление каждого из N возможных событий имеет одинаковую вероятность

    p = 1 / N , то N = 1 / p и формула имеет вид

    I = log 2 N= log 2 (1/p) = - log 2 p

    Количественная зависимость между вероятностью события (p) и количеством информации в сообщении о нем (I) выражается формулой:

    I = log 2 (1/ p )

    Вероятность события вычисляется по формуле p = K / N , K – величина, показывающая, сколько раз произошло интересующее нас событие; N – общее число возможных исходов, событий. Если вероятность уменьшается, то количество информации увеличивается.

    Пример 2. В классе 30 человек. За контрольную работу по математике получено 6 пятерок, 15 четверок, 8 троек и 1 двойка. Сколько бит информации несет сообщение о том, что Иванов получил четверку?

    Ответ:1 бит.

    Использование формулы Шеннона. Общий случай вычисления количества информации в сообщении об одном из N, но уже неравновероятных событий. Этот подход был предложен К.Шенноном в 1948 году.

    Основные информационные единицы:

    I ср = -

    Значение I ср p i = 1 / N .

    Пример 3. Сколько бит информации несет случайно сгенерированное сообщение «фара», если в среднем на каждую тысячу букв в русских текстах буква «а» встречается 200 раз, буква «ф» - 2 раза, буква «р» - 40 раз.

    Будем считать, что вероятность появления символа в сообщении совпадает с частотой его появления в текстах. Поэтому буква «а» встречается со средней частотой 200/1000=0,2; Вероятность появления буквы “а” в тексте (p a)можем считать приблизительно равной 0,2;

    буква «ф» встречается с частотой 2/1000=0,002; буква «р» - с частотой 40/1000=0,04;

    Аналогично, p р = 0,04, p ф = 0,002. Далее поступаем согласно К.Шеннону. Берем двоичный логарифм от величины 0,2 и называем то, что получилось количеством информации, которую переносит одна-единственная буква “а” в рассматриваемом тексте. Точно такую же операцию проделаем для каждой буквы. Тогда количество собственной информации, переносимой одной буквой равно log 2 1/ p i = - log 2 p i , Удобнее в качестве меры количества информации пользоваться средним значением количества информации, приходящейся на один символ алфавита

    I ср = -

    Значение I ср достигает максимума при равновероятных событиях, то есть при равенстве всех p i

    p i = 1 / N .

    В этом случае формула Шеннона превращается в формулу Хартли.

    I = M*I ср =4*(-(0,002*log 2 0,002+0,2* log 2 0,2+0,04* log 2 0,04+0,2* log 2 0,2))=4*(-(0,002*(-8,967)+0,2*(-2,322)+0,04*(-4,644)+0,2*(-2,322)))=4*(-(-0,018-0,46-0,19-0,46))=4*1,1325=4,53

    Ответ: 4,53 бита

    Алфавитный подход к измерению информации

    Алфавитный подход используется в технике, в данном случае количество информации не зависит от содержания, а зависит от мощности алфавита и количества символов в тексте.

    Для кодировки ASCII – мощность алфавита=256

    I=log 2 256=8(бит);При кодировании символьной информации в кодах каждый символ, включая пробелы и знаки препинания, кодируется 1 байтом (8 битами).

    Единицы измерения информации в вычислительной технике

    1 бит (технический подход)

    минимальная единица измерения информации

    количество информации измеряется только целым числом бит

    1 Кбайт (килобайт)

    2 10 байт = 1024 байт

    ~ 1 тысяча байт

    1 Мбайт (мегабайт)

    2 10 Кбайт = 2 20 байт

    ~ 1 миллион байт

    1 Гбайт (гигабайт)

    2 10 Мбайт = 2 30 байт

    ~ 1 миллиард байт

    • 3. Технологии передачи данных. Ethernet, Token Ring, ISDN, X.25, Frame Relay.
    • 4. Устройства межсетевого интерфейса: повторители, мосты, маршрутизаторы, шлюзы. Методы коммутации и маршрутизации. Способы повышения производительности сети
    • 5 .Одноранговые и серверные сети: сравнительная характеристика. Основные виды специализированных серверов.
    • 6. Технологическая основа сети Интернет. Система адресации (IP-адреса, доменные имена, система DNS). Основные протоколы общения в сети.
    • 7. Базовые пользовательские технологии работы в сети Интернет. WWW, FTP, TELNET, E-MAIL. Поиск информации в сети Интернет.
    • 9. Базы данных: данные, модель данных, база данных, система управления базами данных, информационная система. Модели данных. Реляционная модель данных.
    • 12. Проектирование информационных систем. Структура и модели жизненного цикла.
    • 13. Моделирование и представление структуры предприятия. Диаграммы IDEF0.
    • 14. Моделирование и представление потоков данных. DFD-диаграммы.
    • 16. Экспертные системы (ЭС): понятие, назначение, архитектура, отличительные особенности. Классификация ЭС. Этапы разработки ЭС.
    • 17. Базы знаний экспертных систем. Методы представления знаний: логические модели, продукционные правила, фреймы, семантические сети.
    • 18 Знания. Виды знаний. Методы извлечения знаний: коммуникативные, текстологические.
    • 19 Языки программирования, их характеристики (Пролог, Delphi, C++).
    • 20. Языки программирования, их характеристики (PHP, Perl, JavaScript).
    • 21. Цели, задачи, принципы и основные направления обеспечения информационной безопасности Российской Федерации. Правовая, организационная, инженерно-техническая защита информации.
    • 22. Электронные издания: понятие, состав. Классификация ЭИ. Регистрация ЭИ.
    • 23. Информационные ресурсы: понятие, состав. Государственные информационные ресурсы.
    • 24. Операционная система персонального компьютера как средство управления ресурсами (на примере изучаемой ОС). Структура и компоненты ОС.
    • 25. Вредоносное программное обеспечение: классификации, методы обнаружения и удаления.
    • 26 Структура web-приложений. Протокол HTTP. Cookie. Функции web-приложения. Протокол CGI.
    • 27 Обеспечение надежности работы ИС. Транзакции. OLTP-системы.
    • 28. Эргономические цели и показатели качества программного продукта.
    • 31.Информационный менеджмент: понятие и основные функции.
    • 33 Стандартизация в области программного обеспечения. Стандарты документирования программных средств.
    • 34. Оценка качественных и количественных характеристик информационных систем. Модели оценки характеристик надежности программного и информационного обеспечения. Основные понятия, показатели и методы обеспечения надежности информационных систем.
    • 36.Особенности выполнения инновационных программ в сфере информатизации (характеристика информационной политики в сфере информатизации, принципы формирования проекта и внедрения ИС, управление проектами информатизации).

    Похожие статьи

    • Что такое мессенджер в компьютере

      Мессенджеры – бум последних лет. Они появляются в магазинах приложений пачками – один круче другого, и каждый выбирает для себя тот, который больше по вкусу. Навигация Программы для передачи сообщений и другого контента между...

    • Лучшие фоторедакторы для андроид

      Вам может не понравиться яркость фото на вашем смартфоне Asus Zenfone или любом другом смартфоне на андроид, контрастность, ориентация или, возможно, вы захотите добавить что-то, чтобы фотографии выглядели броскими. Вот когда к вам...

    • Обзор самых лучших программ!

      Возможно, одну из наиболее сложных проблем в Excel представляет почти ошеломляющее количество форматов файлов, с которыми он может работать. С появлением Excel 2007 все стало еще более запутанным, поскольку в этой версии появилось...

    • Как и чем открыть xml файл выписки егрн

      Не все, но очень многие пользователи современных компьютерных систем зачастую сталкиваются с непонятными XML. Что это за данные и зачем они нужны, знает еще меньше юзеров. Ну а какой программой открыть понимают вообще единицы. Хотя в этом...

    • Как настроить удаленный рабочий стол

      Remote Desktop Protocol - протокол удалённого рабочего стола) - проприетарный протокол прикладного уровня, использующийся для обеспечения удалённой работы пользователя с сервером, на котором запущен сервис терминальных подключений ....

    • Как настроить селфи-палку на Андроид: инструкции, приложения, решение проблем

      Что такое монопод (селфи-палка) Если быть конкретным, то монопод представляет собой выдвигающееся длинное устройство, рукоятка которого выполнена по принципу телескопа - то есть удлиняется при необходимости и компактно задвигается обратно....