Двоичное кодирование текста
💻 Информатика · 7 класс
Как компьютер хранит текст
Кодирование текста — это представление символов (букв, цифр, знаков препинания) в виде двоичных кодов, понятных компьютеру. Компьютер не различает буквы напрямую: каждому символу заранее назначается определённое число, а число записывается нулями и единицами.
Соответствие между символами и их числовыми кодами задаёт таблица кодировки. Если все компьютеры используют одну таблицу, текст, набранный на одном устройстве, правильно прочитается на другом.
Кодовые таблицы
Долгое время основной была таблица ASCII, в которой на один символ отводился 1 байт (8 бит). Этого хватает на 2 в степени 8 = 256 различных символов: латинские и русские буквы, цифры, знаки. Сегодня широко применяется кодировка Unicode, которая охватывает символы почти всех письменностей мира.
| Кодировка | Бит на символ | Сколько символов |
|---|---|---|
ASCII | 8 | 256 |
Unicode (упрощённо) | 16 | 65 536 |
Вес текста
Зная, сколько байтов занимает один символ, можно посчитать информационный объём всего текста. Если каждый символ кодируется 1 байтом, то объём текста = количество символов × 1 байт. При подсчёте учитывают и пробелы, и знаки препинания — это тоже символы.
Разобранный пример
Фраза: «Привет, мир!»
Считаем символы (с пробелом и знаками): П р и в е т , (пробел) м и р !
Всего: 12 символов.
Кодировка ASCII: 1 символ = 1 байт = 8 бит.
Объём = 12 символов × 1 байт = 12 байт = 96 бит.Если ту же фразу записать в кодировке, где символ занимает 2 байта, объём вырастет вдвое: 12 × 2 = 24 байта.
Частые ошибки. Не забывайте считать пробелы и знаки препинания — это полноправные символы. Различайте бит и байт: 1 байт равен 8 битам, поэтому ответ в битах в восемь раз больше, чем в байтах.
Перевод единиц объёма
Объём текстов часто выражают в более крупных единицах: килобайтах и мегабайтах. В информатике эти единицы кратны не 1000, а 1024, потому что компьютер работает с двоичными числами, а 1024 = 2 в степени 10.
| Единица | Сколько содержит |
|---|---|
| 1 байт | 8 бит |
| 1 килобайт | 1024 байта |
| 1 мегабайт | 1024 килобайта |
Например, страница книги содержит примерно 2000 символов. В кодировке, где символ занимает 1 байт, объём страницы — около 2000 байт, то есть примерно 2 килобайта. Зная это, можно прикинуть, сколько страниц поместится в файл заданного размера.
Почему важна единая кодировка
Если автор набрал текст в одной кодировке, а читатель открыл его в другой, вместо букв появятся непонятные знаки — такую путаницу называют «кракозябрами». Именно поэтому создали универсальную кодировку Unicode: она содержит символы почти всех языков и позволяет читать тексты на любом устройстве одинаково.
Кратко о главном
- Кодирование текста — это замена символов двоичными кодами по таблице кодировки.
- В кодировке
ASCIIодин символ занимает 1 байт (256 символов), вUnicode— больше. - Объём текста равен числу символов, умноженному на вес одного символа.
- Пробелы и знаки препинания тоже считаются символами.