P
pro·school.ru
Каталог школ

Измерение информации: содержательный и алфавитный подходы

💻 Информатика · 10 класс

Что значит измерить информацию

Измерение информации — это определение количества информации в сообщении в принятых единицах. За единицу принят бит — количество информации, которое уменьшает неопределённость знания ровно в два раза. Восемь битов составляют один байт. В школьном курсе для класса рассматривают два основных подхода к измерению: содержательный (вероятностный) и алфавитный.

Содержательный подход

В содержательном подходе количество информации связывают с уменьшением неопределённости. Если возможны N равновероятных исходов, а сообщение указывает на один из них, то количество информации i находят по формуле Хартли:

N = 2^i, откуда i = log2(N)

Например, при бросании монеты возможны два исхода, поэтому сообщение о выпавшей стороне несёт log2(2) = 1 бит. При бросании игрального кубика исходов шесть, и сообщение несёт log2(6) ≈ 2,585 бита.

Вероятностный подход

Если исходы не равновероятны, применяют формулу Шеннона. Количество информации о событии с вероятностью p равно i = log2(1/p). Чем реже событие, тем больше информации несёт сообщение о нём.

Алфавитный подход

Алфавитный подход не зависит от смысла текста. Если алфавит содержит M символов, то информационный вес одного символа равен i = log2(M) бит. Этот M называют мощностью алфавита. Информационный объём всего сообщения из K символов равен I = K · i.

Мощность алфавита MВес символа i
21 бит
42 бита
164 бита
2568 бит

Разобранный пример

Сообщение записано алфавитом из 16 символов и содержит 200 символов. Найдём объём.

  • i = log2(16) = 4 бита
  • I = 200 · 4 = 800 бит = 100 байт

Единицы измерения

  • 1 байт = 8 бит;
  • 1 килобайт = 1024 байта;
  • 1 мегабайт = 1024 килобайта;
  • 1 гигабайт = 1024 мегабайта.

Таблица приставок помогает быстро переводить объёмы данных из одних единиц в другие. Важно помнить, что каждая следующая единица больше предыдущей именно в 1024 раза, то есть в 2^10 раз, потому что вычислительная техника работает с двоичными степенями.

ЕдиницаСколько байтСтепень двойки
байт12^0
килобайт10242^10
мегабайт1 048 5762^20
гигабайт1 073 741 8242^30

Ещё один разбор

Определим, сколько информации несёт сообщение об одной выпавшей карте из колоды в 32 карты, если все карты равновероятны. По формуле Хартли:

N = 32 = 2^5, значит i = log2(32) = 5 бит.

Если же из той же колоды нужно угадать масть, то мастей всего четыре, и сообщение о масти несёт log2(4) = 2 бита. Видно, что чем меньше число возможных исходов, тем меньше информации в сообщении.

Связь подходов

Содержательный и алфавитный подходы не противоречат друг другу, а описывают разные стороны одного понятия. Содержательный связан со смыслом и неопределённостью знания, а алфавитный — с техническим объёмом записи. На практике для оценки размера файла применяют алфавитный подход, а для оценки информативности сообщения — содержательный.

Частые ошибки. Не путайте мощность алфавита и длину сообщения. Помните, что приставка кило- в информатике означает 1024, а не 1000. При неравновероятных исходах нельзя применять формулу Хартли — нужна формула Шеннона.

Кратко о главном

  • Бит уменьшает неопределённость в два раза, байт равен восьми битам.
  • Формула Хартли N = 2^i связывает число исходов и количество информации.
  • Алфавитный подход: вес символа i = log2(M), объём I = K · i.
  • Для неравновероятных событий используют формулу Шеннона.