P
pro·school.ru
Каталог школ

Двоичное кодирование текста

💻 Информатика · 7 класс

Как компьютер хранит текст

Кодирование текста — это представление символов (букв, цифр, знаков препинания) в виде двоичных кодов, понятных компьютеру. Компьютер не различает буквы напрямую: каждому символу заранее назначается определённое число, а число записывается нулями и единицами.

Соответствие между символами и их числовыми кодами задаёт таблица кодировки. Если все компьютеры используют одну таблицу, текст, набранный на одном устройстве, правильно прочитается на другом.

Кодовые таблицы

Долгое время основной была таблица ASCII, в которой на один символ отводился 1 байт (8 бит). Этого хватает на 2 в степени 8 = 256 различных символов: латинские и русские буквы, цифры, знаки. Сегодня широко применяется кодировка Unicode, которая охватывает символы почти всех письменностей мира.

КодировкаБит на символСколько символов
ASCII8256
Unicode (упрощённо)1665 536

Вес текста

Зная, сколько байтов занимает один символ, можно посчитать информационный объём всего текста. Если каждый символ кодируется 1 байтом, то объём текста = количество символов × 1 байт. При подсчёте учитывают и пробелы, и знаки препинания — это тоже символы.

Разобранный пример

Фраза: «Привет, мир!» Считаем символы (с пробелом и знаками): П р и в е т , (пробел) м и р ! Всего: 12 символов. Кодировка ASCII: 1 символ = 1 байт = 8 бит. Объём = 12 символов × 1 байт = 12 байт = 96 бит.

Если ту же фразу записать в кодировке, где символ занимает 2 байта, объём вырастет вдвое: 12 × 2 = 24 байта.

Частые ошибки. Не забывайте считать пробелы и знаки препинания — это полноправные символы. Различайте бит и байт: 1 байт равен 8 битам, поэтому ответ в битах в восемь раз больше, чем в байтах.

Перевод единиц объёма

Объём текстов часто выражают в более крупных единицах: килобайтах и мегабайтах. В информатике эти единицы кратны не 1000, а 1024, потому что компьютер работает с двоичными числами, а 1024 = 2 в степени 10.

ЕдиницаСколько содержит
1 байт8 бит
1 килобайт1024 байта
1 мегабайт1024 килобайта

Например, страница книги содержит примерно 2000 символов. В кодировке, где символ занимает 1 байт, объём страницы — около 2000 байт, то есть примерно 2 килобайта. Зная это, можно прикинуть, сколько страниц поместится в файл заданного размера.

Почему важна единая кодировка

Если автор набрал текст в одной кодировке, а читатель открыл его в другой, вместо букв появятся непонятные знаки — такую путаницу называют «кракозябрами». Именно поэтому создали универсальную кодировку Unicode: она содержит символы почти всех языков и позволяет читать тексты на любом устройстве одинаково.

Кратко о главном

  • Кодирование текста — это замена символов двоичными кодами по таблице кодировки.
  • В кодировке ASCII один символ занимает 1 байт (256 символов), в Unicode — больше.
  • Объём текста равен числу символов, умноженному на вес одного символа.
  • Пробелы и знаки препинания тоже считаются символами.