В чем измеряется информационный вес символа. Измерение информацииалфавитный подход

Информационный объем текста и единицы измерения информации


Современный компьютер может обрабатывать числовую, текстовую, графическую, звуковую и видео информацию. Все эти виды информации в компьютере представлены в двоичном коде, т. е. используется всего два символа 0 и 1. Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1).

Такое кодирование принято называть двоичным, а сами логические последовательности нулей и единиц - машинным языком.

Какой длины должен быть двоичный код, чтобы с его помощью можно было закодировать васе символы клавиатуры компьютера?

Таким образом, информационный вес одного символа достаточного алфавита равен 1 байту .

Для измерения больших информационных объемов используются более крупные единицы измерения информации:

Единицы измерения количества информации:

1 байт = 8 бит

1 килобайт = 1 Кб = 1024 байта

1 мегабайт = 1 Мб = 1024 Кб

1 гигабайт = 1 Гб = 1024 Гб

Информационный объем текста

1. Количество символов в книге:

60 * 40 * 150 = 360 000 символов.

2. Т.к. 1 символ весит 1 байт, информационный объем книги равен

360 000 байтов.

3. Переведем байты в более крупные единицы:

360 000 / 1024 = 351,56 Кб

351,56 / 1024 = 0,34 Мб

Ответ: Информационный объем текста 0,34 Мб.

Задача:

Информационный объем текста, подготовленного с помощью компьютера, равен 3,5 Кб. Сколько символов содержит этот текст?

1. Переведем объем из Мб в байты:

3,5 Мб * 1024 = 3584 Кб

3584 Кб * 1024 = 3 670 016 байт

2. Т.к. 1 символ весит 1 байт, количество символов в тексте равно

Алфавитом в информатике называется система знаков, с помощью которой можно подать информационное сообщение. Чтобы понять сущность этого определения, приведем немного дополнительных теоретических фактов:

  1. Любые сообщения состоят из алфавита. Например, данная статья - сообщение. Тогда она состоит из символов русского алфавита.
  2. Под символом мы можем понимать минимально значимую частицу алфавита. Также неделимые частицы называют атомами. Символами в русском алфавите являются "а", затем "б", "в", и так далее.
  3. В теории, алфавиту необязательно быть закодированным как-либо. Например, в печатной книге символы алфавита означают сами себя, значит, не имеют какой-либо кодировки.

Но на практике мы имеем следующее: компьютер не понимает, что такое буквы. Поэтому для передачи информационного сообщения его сначала нужно закодировать понятным компьютеру языком. Для того чтобы двигаться дальше, необходимо ввести дополнительные термины.

Что такое мощность алфавита

Под мощностью алфавита мы подразумеваем общее количество символов в нем. Для того чтобы узнать, какова мощность алфавита, необходимо просто посчитать количество символов в нем. Давайте разбираться. Для русского алфавита мощность алфавита равна 33 или же 32 символам, если не использовать "ё".

Давайте предположим, что все символы в нашем алфавите встречаются с равной вероятностью. Это предположение можно понимать так: допустим, у нас есть мешок с подписанными кубиками. Число кубиков в нем бесконечно, и каждый подписан лишь одним символом. Тогда при равномерном распределении, сколько бы мы кубиков ни доставали из мешка, количество кубиков с разными символами будет одинаково, или будет стремиться к этому при росте числа кубиков, которые мы достаем из мешка.

Оценка веса информационных сообщений

Почти сто лет назад американский инженер Ральф Хартли вывел формулу, с помощью которой можно оценивать количество информации в сообщении. Его формула работает для равновероятных событий и выглядит так:

i = log 2 M

Где "i" - количество неделимых информационных атомов (битов) в сообщении, "M" - мощность алфавита. Следуем далее. С помощью математических преобразований можем определить, что мощность алфавита можно вычислять так:

Эта формула в общем виде задает связь между количеством равновероятных событий "M" и количеством информации "i".

Рассчитываем мощность

Скорее всего, вам уже известно из школьного курса информатики, что в современных вычислительных системах, построенных на архитектуре фон Неймана, используется двоичная система кодировки информации. Так кодируются как программы, так и данные.

Для того чтобы представить текст в вычислительной системе, используют равномерный код из восьми разрядов. Равномерным код считается потому, что содержит фиксированный набор элементов - 0 и 1. Значения в таком коде задаются определенным порядком этих элементов. С помощью восьмиразрядного кода мы можем закодировать сообщения весом 256 бит, ведь по формуле Хартли: M 8 =2 8 = 256 бит информации.

Такая ситуация с кодировкой символов двоичным кодом сложилась исторически. Но теоретически мы могли бы использовать и другие алфавиты для представления данных. Так, к примеру, в четырехзнаковом алфавите у каждого символа был бы вес не один, а два бита, в восьмизнаковом - 3 бита и так далее. Это рассчитывается с помощью двоичного логарифма, который был приведен выше (i = log 2 M ).

Так как в алфавите мощностью 256 бит для обозначения одного символа отводится восемь двоичных разрядов, было решено ввести дополнительную меру информации - байт. Один байт содержит один символ кодовой таблицы ASCII и содержит в себе восемь бит.

Как измеряют информацию

Восьмибитная кодировка текстовых сообщений, которая используется в кодовой таблице ASCII, позволяет вместить базовый набор символов латиницы и кириллицы в прописном и строчном варианте, цифры, символы знаков препинания и другие базовые символы.

Для того чтобы измерять более крупные объемы данных, используют специальные приставки к словам байт и бит. Такие приставки приведены в таблице ниже:

Многие люди, изучавшие физику возразят, что рационально было бы использовать классические приставки для обозначения единиц информации (вроде кило- и мега-), но на самом деле это не совсем корректно, ведь такие префиксы к величинам обозначают умножение на ту или иную степень числа десять, когда в информатике везде используется двоичная система измерений.

Правильные названия единиц измерения данных

Для того чтобы устранить некорректности и неудобства, в марте 1999 года Международной комиссией в области электротехники были утверждены новые приставки к единицам, которые используются для определения объема информации в электронной вычислительной технике. Такими приставками стали "меби", "киби", "гиби", "теби", "эксби", "пети". Пока эти единицы еще не прижились, так что, скорее всего, необходимо время для введения этого стандарта и начала широкого применения. Как осуществлять переход от классических единиц к новоутвержденным, вы можете определить по следующей таблице:

Предположим, что мы имеем текст, который содержит K символов. Тогда, используя алфавитный подход, можно вычислить объем информации V, который в нем содержится. Он будет равен произведению мощности алфавита на информационный вес одного символа в нем.

По формуле Хартли мы знаем, как вычислить объем информации через двоичный логарифм. Предположив, что количество знаков алфавита равно N и количество знаков в записи информационного сообщения равняется K, получим такую формулу для вычисления информационного объема сообщения:

V = K ⋅ log 2 N

Алфавитный подход свидетельствует о том, что информационный объем будет зависеть только лишь от мощности алфавита и размера сообщений (то есть количества символов в нем), но никак не будет связан со смысловым содержанием для человека.

Примеры расчета мощности

На уроках информатики часто дают задачи на нахождение мощности алфавита, длины сообщения или информационного объема. Вот одна из таких задач:

"Текстовый файл занимает 11 Кбайт дискового пространства и содержит 11264 символа. Определите мощность алфавита данного текстового файла".

Каким будет решение, можно увидеть на картинке ниже.

Таким образом, алфавит мощностью 256 символов несет в себе всего лишь 8 бит информации, что в информатике называют одним байтом. Байт описывает 1 символ таблицы ASCII, что, если задуматься, совсем не много.

Один байт - это много или мало?

Современные хранилища данных вроде дата-центров Google и Facebook содержат не меньше, чем десятки петабайт информации. Точное количество данных, впрочем, трудно будет подсчитать даже им самим, ведь тогда нужно будет остановить все процессы на серверах и закрыть пользователям доступ к записи и редактированию их личной информации.

Но чтобы вообразить такие немыслимые объемы данных, необходимо четко понимать, что все складывается из маленьких деталей. Необходимо понимать, чему равна мощность алфавита (256) и сколько бит содержит 1 байт информации (как вы помните, 8).

На меня действительно нашло затмение. Однако, под чутким руководством коллеги pythonchik я осознал свои заблуждения и встал на путь истинный.

Тем не менее, изложение материала по приведенной в той заметке ссылке я считаю очень запутанным.

Вот как этот материал излагал бы я.

Тема урока :Кодирование информации и вычисление информационного объема сообщения.

Теория

1. Все сообщения состоят из символов алфавита. Например, этот текст состоит из символов русского алфавита.

2. Символ - это минимальная неделимая частица алфавита. Например, символами русского алфавита являются буквы "а", "б", "в" и так далее.

3. Мощность алфавита - это количество символов, из которых состоит алфавит. Например, мощность русского алфавита - 33 символа.

4. Теоретически, любой алфавит может использоваться сам по себе, без какого либо кодирования. В этом случае каждый символ алфавита означает сам себя и имеет самостоятельный смысл. Например, в бумажной книге каждая буква означает сама себя, никакого кодирования нет.

5. Но на практике часто бывает нужно закодировать один алфавит с помощью другого алфавита. Например, в компьютере, на самом деле, нет никаких букв, только цифры. Поэтому, чтобы компьютер понимал буквы "человеческого алфавита", их нужно кодировать с помощью специального "машинного алфавита".

6. Таким образом, при кодировании используется два алфавита - кодируемый и кодирующий.

7. Один символ кодируемого алфавита кодируется несколькими символами кодирующего алфавита.

8. Мощность кодируемого алфавита определяется по формуле N=M i , где M - мощность кодирующего алфавита, а i - количество символов кодирующего алфавита, которыми закодирован кодируемый алфавит.

9. Особая оговорка! Если нет отдельных указаний, то следует считать, что мощность кодирующего алфавита - 2 символа. Все современные компьютеры работают с двумя символами, единицей и нулем, поэтому все расчеты делаются исходя из этого факта.

Практика

Как уже говорилось, компьютер ничего не знает про буквы. Чтобы на компьютере можно было писать буквы, их требуется кодировать. В качестве кодирующего алфавита используются два символа машинного алфавита - 0 и 1. Таким образом, мощность машинного алфавита - два символа.

Чаще всего, хотя и не обязательно, для кодирования одного символа человеческого алфавита в компьютере используется восемь символов машинного алфавита. Вот как это выглядит внутри компьютера:

Эти восемь нулей и единичек кодируют один символ - & .

А сколько всего символов может быть закодировано с помощью восьми нулей и единичек? Ответ можно посчитать по формуле N=M i . Мощность кодирующего алфавита - 2, количество кодирующих символов - 8.

Т.е. с помощью восьми нулей и единичек можно закодировать 256 символов. Иначе говоря, с помощью двух символов машинного алфавита (кодирующий алфавит) можно закодировать 256 символов человеческого алфавита (кодируемый алфавит). В эти 256 символов отлично помещаются русские буквы, латинские буквы, знаки препинания и всякие разные знаки, вроде упоминавшегося выше знака & .

Теперь решим простую задачу

Объем сообщения, содержащего 4096 символов, равен 1/512 части Мбайта. Какова мощность алфавита, с помощью которого записано это сообщение?

Мощность алфавита N=M i . M известно, оно всегда равно 2. Значит, нам нужно узнать i - количество символов кодирующего алфавита, которыми закодирован один символ кодированного алфавита.

Для этого 1/512 Мбайта символов кодирующего алфавита поделим на 4096 символов кодированного алфавита.

Объем 1/512 Мбайта это 1024/512 = 2 Кбайта = 2*1024 = 2048 байт = 2048*8 = 16384 бита.

Значит i = 16384/4096 = 4 бита на символ.

Отсюда мощность кодированного алфавита = 2 4 = 16 символов.

А теперь решим сложную задачу

Милиционер Дядя Степа хочет передать сообщение своему коллеге на соседнем перекрестке с помощью светофора. Сколько светофоров понадобится Дяде Степе, если он хочет использовать все буквы русского языка?

В данном случае кодируемым алфавитом является русский язык. В русском языке 33 буквы, значит мощность кодируемого алфавита - 33 символа.

Кодирующим алфавитом будут светофорные сигналы. Светофор имеет 5 сигналов: красный, желтый, красно-желтый, мигающий желтый, зеленый. Стало быть, мощность кодирующего алфавита - 5 символов.

Вспоминаем, как вычисляется мощность кодируемого алфавита: N=M i . В отличие от простой задачи, тут у нас M не будет равно 2. В случае со светофорами M будет равно 5. Значит, N=5 i .

Мы знаем, что мощность русского языка равна 33. Значит, N=33. Тогда формула будет 33=5 i . Вычислим i.

Если взять i=2, то 5 2 будет равно 25. Т.е. двумя светофорами можно закодировать 25 символов. 25 меньше, чем 33, а это значит, что двух светофоров будет недостаточно для кодирования всех букв русского языка.

Если взять i=3, то 5 3 будет равно 125. Т.е. двумя светофорами можно закодировать 125 символов. 125 больше, чем 33, а это значит, что трех светофоров будет достаточно для кодирования всех букв русского языка.

Остается даже много лишних символов, так что с помощью трех светофоров Дядя Степа сможет не только буквы закодировать, но еще и кучу смайликов в свое сообщение вставить:)

При хранении и передаче информации с помощью технических устройств информацию следует рассматривать как последовательность символов - знаков (букв, цифр, кодов цветов точек изображения и т.д.).

Набор символов знаковой системы (алфавит) можно рассматривать как различные возможные состояния (события).
Тогда, если считать, что появление символов в сообщении равновероятно, количество возможных событий N можно вычислить как N=2 i
Количество информации в сообщении I можно подсчитать умножив количество символов K на информационный вес одного символа i
Итак, мы имеем формулы, необходимые для определения количества информации в алфавитном подходе:

N=2 i i Информационный вес символа, бит
N Мощность алфавита
I=K*i K Количество символов в тексте
I Информационный объем текста

Возможны следующие сочетания известных (Дано) и искомых (Найти) величин:

Тип Дано Найти Формула
1 i N N=2 i
2 N i
3 i,K I I=K*i
4 i,I K
5 I, K i
6 N, K I Обе формулы
7 N, I K
8 I, K N

Если к этим задачам добавить задачи на соотношение величин, записанных в разных единицах измерения, с использованием представления величин в виде степеней двойки мы получим 9 типов задач

Рассмотрим задачи на все типы. Договоримся, что при переходе от одних единиц измерения информации к другим будем строить цепочку значений. Тогда уменьшается вероятность вычислительной ошибки.

Задача 1 . Получено сообщение, информационный объем которого равен 32 битам. чему равен этот объем в байтах?

Решение: В одном байте 8 бит. 32:8=4
Ответ: 4 байта.

Задача 2 . Объем информацинного сообщения 12582912 битов выразить в килобайтах и мегабайтах.

Решение: Поскольку 1Кбайт=1024 байт=1024*8 бит, то 12582912:(1024*8)=1536 Кбайт и
поскольку 1Мбайт=1024 Кбайт, то 1536:1024=1,5 Мбайт
Ответ:1536Кбайт и 1,5Мбайт.

Задача 3. Компьютер имеет оперативную память 512 Мб. Количество соответствующих этой величине бит больше:

1) 10 000 000 000бит 2) 8 000 000 000бит 3) 6 000 000 000бит 4) 4 000 000 000бит

Решение: 512*1024*1024*8 бит=4294967296 бит.
Ответ: 4.

Задача 4. Определить количество битов в двух мегабайтах, используя для чисел только степени 2.
Решение: Поскольку 1байт=8битам=2 3 битам, а 1Мбайт=2 10 Кбайт=2 20 байт=2 23 бит. Отсюда, 2Мбайт=2 24 бит.
Ответ: 2 24 бит.

Задача 5. Сколько мегабайт информации содержит сообщение объемом 2 23 бит?
Решение: Поскольку 1байт=8битам=2 3 битам, то
2 23 бит=2 23 *2 23 *2 3 бит=2 10 2 10 байт=2 10 Кбайт=1Мбайт.
Ответ: 1Мбайт

Задача 6. Один символ алфавита "весит" 4 бита. Сколько символов в этом алфавите?
Решение:
Дано:

i =4 По формуле N=2 i находим N=2 4 , N =16
Найти: N - ?


Ответ: 16

Задача 7. Каждый символ алфавита записан с помощью 8 цифр двоичного кода. Сколько символов в этом алфавите?
Решение:
Дано:

i =8 По формуле N=2 i находим N=2 8 , N =256
Найти:N - ?


Ответ: 256

Задача 8. Алфавит русского языка иногда оценивают в 32 буквы. Каков информационный вес одной буквы такого сокращенного русского алфавита?
Решение:
Дано:

N =32 По формуле N=2 i находим 32=2 i , 2 5 =2 i ,i =5
Найти: i - ?


Ответ: 5

Задача 9. Алфавит состоит из 100 символов. Какое количество информации несет один символ этого алфавита?
Решение:
Дано:

N =100 По формуле N=2 i находим 32=2 i , 2 5 =2 i ,i =5
Найти: i - ?


Ответ: 5

Задача 10. У племени "чичевоков" в алфавите 24 буквы и 8 цифр. Знаков препинания и арифметических знаков нет. Какое минимальное количество двоичных разрядов им необходимо для кодирования всех символов? Учтите, что слова надо отделять друг от друга!
Решение:
Дано:

N =24+8=32 По формуле N=2 i находим 32=2 i , 2 5 =2 i ,i =5
Найти: i - ?


Ответ: 5

Задача 11. Книга, набранная с помощью компьютера, содержит 150 страниц. На каждой странице - 40 строк, в каждой строке - 60 символов. Каков объем информации в книге? Ответ дайте в килобайтах и мегабайтах
Решение:
Дано:

K =360000 Определим количество символов в книге 150*40*60=360000. Один символ занимает один байт. По формуле I=K*i находим I =360000байт 360000:1024=351Кбайт=0,4Мбайт
Найти: I - ?


Ответ: 351Кбайт или 0,4Мбайт

Задача 12. Информационный объем текста книги, набранной на компьютере с использованием кодировки Unicode, - 128 килобайт. Определить количество символов в тексте книги.
Решение:
Дано:

I =128Кбайт,i =2байт В кодировке Unicode один символ занимает 2 байта. Из формулыI=K*i выразимK=I/i ,K =128*1024:2=65536
Найти: K - ?


Ответ: 65536

Задача 13. Информационное сообщение объемом 1,5 Кб содержит 3072 символа. Определить информационный вес одного символа использованного алфавита
Решение:
Дано:

I =1,5Кбайт,K =3072 Из формулы I=K*i выразимi=I/K ,i =1,5*1024*8:3072=4
Найти: i - ?


Ответ: 4

Задача 14. Сообщение, записанное буквами из 64-символьного алфавита, содержит 20 символов. Какой объем информации оно несет?
Решение:
Дано:

N =64, K =20 По формуле N=2 i находим 64=2 i , 2 6 =2 i ,i =6. По формуле I=K*i I =20*6=120
Найти: I - ?


Ответ: 120бит

Задача 15. Сколько символов содержит сообщение, записанное с помощью 16-символьного алфавита, если его объем составил 1/16 часть мегабайта?
Решение:
Дано:

N =16, I =1/16 Мбайт По формуле N=2 i находим 16=2 i , 2 4 =2 i ,i =4. Из формулы I=K*i выразим K=I/i , K =(1/16)*1024*1024*8/4=131072
Найти: K - ?


Ответ: 131072

Задача 16. Объем сообщения, содержащего 2048 символов,составил 1/512 часть мегабайта. Каков размер алфавита, с помощью которого записано сообщение?
Решение:
Дано:

K =2048,I =1/512 Мбайт Из формулы I=K*i выразим i=I/K , i =(1/512)*1024*1024*8/2048=8. По формулеN=2 i находим N=2 8 =256
Найти:
  1. Каждый символ алфавита записывается с помощью 4 цифр двоичного кода. Сколько символов в этом алфавите?
  2. Алфавит для записи сообщений состоит из 32 символов, каков информационный вес одного символа? Не забудьте указать единицу измерения.
  3. Информационный объем текста, набранного на компьюте¬ре с использованием кодировки Unicode (каждый символ кодируется 16 битами), - 4 Кб. Определить количество символов в тексте.
  4. Объем информационного сообщения составляет 8192 бита. Выразить его в килобайтах.
  5. Сколько бит информации содержит сообщение объемом 4 Мб? Ответ дать в степенях 2.
  6. Сообщение, записанное буквами из 256-символьного ал¬фавита, содержит 256 символов. Какой объем информации оно несет в килобайтах?

Решение задач на измерение информации

Для решения задач нам понадобится формула, связывающая между собой информационный вес каждого символа, выраженный в битах (b), и мощность алфавита (N):

N = 2 b

Задача 1:

Алфавит содержит 32 буквы. Какое количество информации несет одна буква?

1. 32 = 2 5 , значит вес одного символа b = 5 бит.

Ответ: одна буква несет 5 бит информации.

Задача 2:

Сообщение, записанное буквами из 16 символьного алфавита, содержит 10 символов. Какой объем информации в битах оно несет?

1. 16 = 2 4 , значит вес одного символа b = 4 бита.

2. Всего символов 10, значит объем информации 10 * 4 = 40 бит.

Ответ: сообщение несет 40 бит информации (8 байт).

Задача 3:

Информационное сообщение объемом 300 бит содержит 100 символов. Какова мощность алфавита?

1. Определим вес одного символа: 300 / 100 = 3 бита.

2. Мощность алфавита определяем по формуле: 2 3 = 8.

Ответ: мощность алфавита N = 8.

Попробуйте следующие задачи решить самостоятельно.

Задача 4:

Объем сообщения, содержащего 20 символов, составил 100 бит. Каков размер алфавита, с помощью которого записано сообщение?

Задача 5:

Сколько символов содержит сообщение, записанное с помощью 8 символьного алфавита, если объем его составил 120 бит?

Задача 6:

В книге 100 страниц. На каждой странице 60 строк по 80 символов в строке. Вычислить информационный объем книги.

Похожие статьи