Кодирование текстовой информации

💻 Информатика · 8 класс

Как кодируется текст

Компьютер хранит и обрабатывает только числа, поэтому каждому символу текста — букве, цифре, знаку препинания, пробелу — сопоставляется свой числовой код. Соответствие между символами и их кодами задаёт кодовая таблица. Зная, сколько памяти занимает один символ и сколько символов в сообщении, можно вычислить его информационный объём.

Кодовые таблицы

Исторически первой широко используемой таблицей была восьмибитная кодировка, в которой на один символ отводится один байт (восемь бит). Один байт позволяет закодировать 2^8 = 256 различных символов — этого хватает для латиницы, кириллицы, цифр и служебных знаков. Современная универсальная кодировка способна вместить символы всех письменностей мира, и в ней на символ может отводиться больше одного байта.

Вес одного символа

Количество бит, которое нужно для кодирования одного символа, называют информационным весом символа. Его связь с мощностью алфавита (числом разных символов) задаёт формула:

N = 2^i

Здесь N — мощность алфавита, i — вес одного символа в битах. Например, если в алфавите 32 символа, то 32 = 2^5, значит вес символа равен пяти битам.

Объём текстового сообщения

Информационный объём всего текста равен весу одного символа, умноженному на количество символов:

I = i * K

где K — число символов в сообщении (включая пробелы и знаки препинания). Разберём пример: сообщение из 200 символов, каждый символ закодирован одним байтом.

i = 8 бит = 1 байт I = 1 байт * 200 = 200 байт

Единицы измерения

Единица	Значение
1 байт	8 бит
1 килобайт	1024 байта
1 мегабайт	1024 килобайта

Подсчёт для алфавита разной мощности

Рассмотрим задачу подробнее. Пусть в некотором алфавите 64 символа, а сообщение состоит из 150 символов. Сначала найдём вес одного символа из формулы N = 2^i:

64 = 2^6, значит i = 6 бит I = 6 * 150 = 900 бит 900 / 8 = 112,5 байта

Если же каждый символ кодируется двумя байтами (как в универсальной кодировке), то сообщение из тех же 150 символов займёт 150 * 2 = 300 байт. Видно, что объём зависит и от длины сообщения, и от выбранной кодировки.

Алфавитный подход к измерению информации

Описанный способ называют алфавитным (объёмным) подходом к измерению информации. В нём информационный объём текста не зависит от его содержания, а определяется только числом символов и весом каждого символа. Это отличает алфавитный подход от содержательного, где учитывают, насколько сообщение уменьшает неопределённость знаний.

Частая ошибка. При подсчёте символов забывают про пробелы и знаки препинания. В кодировании текста пробел — такой же символ со своим кодом, и он тоже занимает память. Ещё одна ошибка — оставить ответ в битах, когда требуется перевести его в байты или килобайты.

Кратко о главном

Каждому символу сопоставляется числовой код из кодовой таблицы.
В восьмибитной кодировке символ занимает один байт.
Мощность алфавита и вес символа связаны формулой N = 2^i.
Объём текста равен I = i * K, где учитываются все символы.

← Предыдущая тема

Таблицы истинности логических выражений

Следующая тема →

Кодирование графической информации