P
pro·school.ru
Каталог школ

Вычисление объёма текстового сообщения

💻 Информатика · 7 класс

Объём текстового сообщения

Текст в памяти компьютера хранится как последовательность кодов символов. Чтобы узнать его информационный объём, применяют алфавитный подход: считают, сколько информации несёт один символ, и умножают на число символов. Этот подход не зависит от смысла текста — важны только алфавит и длина сообщения.

Мощность алфавита и вес символа

Мощность алфавита N — это число различных символов, из которых составляется текст. В мощность входят не только буквы, но и пробел, цифры и знаки препинания. Информационный вес одного символа i связан с мощностью формулой:

N = 2^i

Если все символы алфавита равновероятны, то по этой формуле находят, сколько битов приходится на каждый из них. Чем богаче алфавит, тем больше битов нужно на один символ.

Мощность NВес символа i
21 бит
164 бита
325 битов
646 битов
2568 битов = 1 байт

Объём всего сообщения

Если в тексте K символов, а вес одного символа равен i, то полный объём вычисляют по формуле:

I = K · i

При подсчёте числа символов K учитывают абсолютно всё: буквы, пробелы между словами и знаки препинания. Пробел — такой же символ, как буква, и тоже имеет свой код.

Разобранный пример

Сообщение из 200 символов записано алфавитом мощностью 32. Найдём его объём.

N = 32 = 2^5, значит i = 5 битов
I = 200 · 5 = 1000 битов
I = 1000 : 8 = 125 байтов

Если бы использовалась компьютерная кодировка по 1 байту на символ, то объём был бы равен просто числу символов в байтах: 200 символов — это 200 байтов. А в современной кодировке Юникод на символ часто отводят 2 байта, и тогда объём вырос бы вдвое.

Обратная задача

Если известен объём и мощность алфавита, можно найти длину сообщения: объём в битах делят на вес символа. Так по размеру файла оценивают, сколько символов он вмещает. Например, текстовый файл объёмом 500 байтов в однобайтовой кодировке содержит примерно 500 символов, а в двухбайтовой — вдвое меньше.

Сравнение с содержательным подходом

Алфавитный подход не интересуется смыслом текста: для него важны только мощность алфавита и число символов. Поэтому осмысленная фраза и случайный набор тех же букв имеют одинаковый объём. Этим алфавитный подход отличается от содержательного, который учитывает, насколько сообщение уменьшает неопределённость знания. Зато алфавитный подход проще и именно он используется для подсчёта размера файлов в памяти компьютера.

Частые ошибки. Берут мощность алфавита вместо веса символа; забывают, что i находят из уравнения N = 2^i; путают биты и байты при переводе результата; не считают пробелы и знаки препинания за символы.

Кратко о главном

  • Мощность алфавита N — число различных символов, включая пробел.
  • Вес символа находят из формулы N = 2^i.
  • Объём текста I = K · i, где K — число символов.
  • В однобайтовой кодировке число символов равно объёму в байтах.
  • По объёму и мощности можно найти длину сообщения.