Вычисление объёма текстового сообщения
💻 Информатика · 7 класс
Объём текстового сообщения
Текст в памяти компьютера хранится как последовательность кодов символов. Чтобы узнать его информационный объём, применяют алфавитный подход: считают, сколько информации несёт один символ, и умножают на число символов. Этот подход не зависит от смысла текста — важны только алфавит и длина сообщения.
Мощность алфавита и вес символа
Мощность алфавита N — это число различных символов, из которых составляется текст. В мощность входят не только буквы, но и пробел, цифры и знаки препинания. Информационный вес одного символа i связан с мощностью формулой:
N = 2^i
Если все символы алфавита равновероятны, то по этой формуле находят, сколько битов приходится на каждый из них. Чем богаче алфавит, тем больше битов нужно на один символ.
| Мощность N | Вес символа i |
|---|---|
| 2 | 1 бит |
| 16 | 4 бита |
| 32 | 5 битов |
| 64 | 6 битов |
| 256 | 8 битов = 1 байт |
Объём всего сообщения
Если в тексте K символов, а вес одного символа равен i, то полный объём вычисляют по формуле:
I = K · i
При подсчёте числа символов K учитывают абсолютно всё: буквы, пробелы между словами и знаки препинания. Пробел — такой же символ, как буква, и тоже имеет свой код.
Разобранный пример
Сообщение из 200 символов записано алфавитом мощностью 32. Найдём его объём.
N = 32 = 2^5, значит i = 5 битов
I = 200 · 5 = 1000 битов
I = 1000 : 8 = 125 байтов
Если бы использовалась компьютерная кодировка по 1 байту на символ, то объём был бы равен просто числу символов в байтах: 200 символов — это 200 байтов. А в современной кодировке Юникод на символ часто отводят 2 байта, и тогда объём вырос бы вдвое.
Обратная задача
Если известен объём и мощность алфавита, можно найти длину сообщения: объём в битах делят на вес символа. Так по размеру файла оценивают, сколько символов он вмещает. Например, текстовый файл объёмом 500 байтов в однобайтовой кодировке содержит примерно 500 символов, а в двухбайтовой — вдвое меньше.
Сравнение с содержательным подходом
Алфавитный подход не интересуется смыслом текста: для него важны только мощность алфавита и число символов. Поэтому осмысленная фраза и случайный набор тех же букв имеют одинаковый объём. Этим алфавитный подход отличается от содержательного, который учитывает, насколько сообщение уменьшает неопределённость знания. Зато алфавитный подход проще и именно он используется для подсчёта размера файлов в памяти компьютера.
Частые ошибки. Берут мощность алфавита вместо веса символа; забывают, чтоiнаходят из уравненияN = 2^i; путают биты и байты при переводе результата; не считают пробелы и знаки препинания за символы.
Кратко о главном
- Мощность алфавита
N— число различных символов, включая пробел. - Вес символа находят из формулы
N = 2^i. - Объём текста
I = K · i, гдеK— число символов. - В однобайтовой кодировке число символов равно объёму в байтах.
- По объёму и мощности можно найти длину сообщения.