Кодирование текстовой информации
💻 Информатика · 8 класс
Как кодируется текст
Компьютер хранит и обрабатывает только числа, поэтому каждому символу текста — букве, цифре, знаку препинания, пробелу — сопоставляется свой числовой код. Соответствие между символами и их кодами задаёт кодовая таблица. Зная, сколько памяти занимает один символ и сколько символов в сообщении, можно вычислить его информационный объём.
Кодовые таблицы
Исторически первой широко используемой таблицей была восьмибитная кодировка, в которой на один символ отводится один байт (восемь бит). Один байт позволяет закодировать 2^8 = 256 различных символов — этого хватает для латиницы, кириллицы, цифр и служебных знаков. Современная универсальная кодировка способна вместить символы всех письменностей мира, и в ней на символ может отводиться больше одного байта.
Вес одного символа
Количество бит, которое нужно для кодирования одного символа, называют информационным весом символа. Его связь с мощностью алфавита (числом разных символов) задаёт формула:
N = 2^i
Здесь N — мощность алфавита, i — вес одного символа в битах. Например, если в алфавите 32 символа, то 32 = 2^5, значит вес символа равен пяти битам.
Объём текстового сообщения
Информационный объём всего текста равен весу одного символа, умноженному на количество символов:
I = i * K
где K — число символов в сообщении (включая пробелы и знаки препинания). Разберём пример: сообщение из 200 символов, каждый символ закодирован одним байтом.
i = 8 бит = 1 байт
I = 1 байт * 200 = 200 байт
Единицы измерения
| Единица | Значение |
|---|---|
| 1 байт | 8 бит |
| 1 килобайт | 1024 байта |
| 1 мегабайт | 1024 килобайта |
Подсчёт для алфавита разной мощности
Рассмотрим задачу подробнее. Пусть в некотором алфавите 64 символа, а сообщение состоит из 150 символов. Сначала найдём вес одного символа из формулы N = 2^i:
64 = 2^6, значит i = 6 бит
I = 6 * 150 = 900 бит
900 / 8 = 112,5 байта
Если же каждый символ кодируется двумя байтами (как в универсальной кодировке), то сообщение из тех же 150 символов займёт 150 * 2 = 300 байт. Видно, что объём зависит и от длины сообщения, и от выбранной кодировки.
Алфавитный подход к измерению информации
Описанный способ называют алфавитным (объёмным) подходом к измерению информации. В нём информационный объём текста не зависит от его содержания, а определяется только числом символов и весом каждого символа. Это отличает алфавитный подход от содержательного, где учитывают, насколько сообщение уменьшает неопределённость знаний.
Частая ошибка. При подсчёте символов забывают про пробелы и знаки препинания. В кодировании текста пробел — такой же символ со своим кодом, и он тоже занимает память. Ещё одна ошибка — оставить ответ в битах, когда требуется перевести его в байты или килобайты.
Кратко о главном
- Каждому символу сопоставляется числовой код из кодовой таблицы.
- В восьмибитной кодировке символ занимает один байт.
- Мощность алфавита и вес символа связаны формулой
N = 2^i. - Объём текста равен
I = i * K, где учитываются все символы.