Измерение информации: содержательный и алфавитный подходы
💻 Информатика · 10 класс
Что значит измерить информацию
Измерение информации — это определение количества информации в сообщении в принятых единицах. За единицу принят бит — количество информации, которое уменьшает неопределённость знания ровно в два раза. Восемь битов составляют один байт. В школьном курсе для класса рассматривают два основных подхода к измерению: содержательный (вероятностный) и алфавитный.
Содержательный подход
В содержательном подходе количество информации связывают с уменьшением неопределённости. Если возможны N равновероятных исходов, а сообщение указывает на один из них, то количество информации i находят по формуле Хартли:
N = 2^i, откудаi = log2(N)
Например, при бросании монеты возможны два исхода, поэтому сообщение о выпавшей стороне несёт log2(2) = 1 бит. При бросании игрального кубика исходов шесть, и сообщение несёт log2(6) ≈ 2,585 бита.
Вероятностный подход
Если исходы не равновероятны, применяют формулу Шеннона. Количество информации о событии с вероятностью p равно i = log2(1/p). Чем реже событие, тем больше информации несёт сообщение о нём.
Алфавитный подход
Алфавитный подход не зависит от смысла текста. Если алфавит содержит M символов, то информационный вес одного символа равен i = log2(M) бит. Этот M называют мощностью алфавита. Информационный объём всего сообщения из K символов равен I = K · i.
Мощность алфавита M | Вес символа i |
|---|---|
| 2 | 1 бит |
| 4 | 2 бита |
| 16 | 4 бита |
| 256 | 8 бит |
Разобранный пример
Сообщение записано алфавитом из 16 символов и содержит 200 символов. Найдём объём.
i = log2(16) = 4 битаI = 200 · 4 = 800 бит = 100 байт
Единицы измерения
- 1 байт = 8 бит;
- 1 килобайт = 1024 байта;
- 1 мегабайт = 1024 килобайта;
- 1 гигабайт = 1024 мегабайта.
Таблица приставок помогает быстро переводить объёмы данных из одних единиц в другие. Важно помнить, что каждая следующая единица больше предыдущей именно в 1024 раза, то есть в 2^10 раз, потому что вычислительная техника работает с двоичными степенями.
| Единица | Сколько байт | Степень двойки |
|---|---|---|
| байт | 1 | 2^0 |
| килобайт | 1024 | 2^10 |
| мегабайт | 1 048 576 | 2^20 |
| гигабайт | 1 073 741 824 | 2^30 |
Ещё один разбор
Определим, сколько информации несёт сообщение об одной выпавшей карте из колоды в 32 карты, если все карты равновероятны. По формуле Хартли:
N = 32 = 2^5, значитi = log2(32) = 5бит.
Если же из той же колоды нужно угадать масть, то мастей всего четыре, и сообщение о масти несёт log2(4) = 2 бита. Видно, что чем меньше число возможных исходов, тем меньше информации в сообщении.
Связь подходов
Содержательный и алфавитный подходы не противоречат друг другу, а описывают разные стороны одного понятия. Содержательный связан со смыслом и неопределённостью знания, а алфавитный — с техническим объёмом записи. На практике для оценки размера файла применяют алфавитный подход, а для оценки информативности сообщения — содержательный.
Частые ошибки. Не путайте мощность алфавита и длину сообщения. Помните, что приставка кило- в информатике означает 1024, а не 1000. При неравновероятных исходах нельзя применять формулу Хартли — нужна формула Шеннона.
Кратко о главном
- Бит уменьшает неопределённость в два раза, байт равен восьми битам.
- Формула Хартли
N = 2^iсвязывает число исходов и количество информации. - Алфавитный подход: вес символа
i = log2(M), объёмI = K · i. - Для неравновероятных событий используют формулу Шеннона.