P
pro·school.ru
Каталог школ

Сканирование и распознавание текста

💻 Информатика · 6 класс

Что такое сканирование и распознавание текста

Сканирование — это процесс получения изображения бумажного документа в виде файла. Сканер освещает лист яркой лампой и с помощью светочувствительных датчиков измеряет яркость в каждой маленькой точке. Из этих измерений складывается растровое изображение страницы. Но такое изображение компьютер воспринимает только как картинку: отдельные буквы в нём не различимы, текст нельзя ни редактировать, ни искать по словам.

Распознавание текста — это преобразование изображения букв в настоящий редактируемый текст. Программа анализирует форму каждого значка на картинке и подбирает соответствующий ему символ. Технологию распознавания печатных символов называют OCR — оптическое распознавание символов. Только после распознавания документ становится полноценным текстом.

Как проходит работа

Весь путь от бумаги к редактируемому документу состоит из нескольких этапов, которые выполняются по порядку.

  1. Лист кладут в сканер и получают изображение всей страницы.
  2. Программа делит изображение на строки, а строки — на отдельные знаки.
  3. Каждый знак сравнивается с образцами букв, цифр и знаков препинания.
  4. Распознанные символы собираются в строки, а строки — в текст.
  5. Готовый текст открывают в текстовом редакторе и при необходимости исправляют ошибки распознавания.

Что влияет на качество

Качество распознавания зависит от того, насколько чётким было исходное изображение. Если буквы видны плохо, программа путает похожие знаки.

УсловиеХороший результатПлохой результат
Чёткость печатировный жирный шрифтбледный или смазанный
Состояние листачистый, без пятенпомятый, с пятнами
Разрешение сканавысокоенизкое
Язык документавыбран верновыбран неправильно

Рукописный текст распознать намного труднее, чем печатный, потому что почерк у всех людей разный, а печатные буквы всегда одинаковой формы. Поэтому для рукописей результат почти всегда приходится проверять вручную.

Пример

Допустим, отсканирована страница книги. Программа выделила первую строку и обрабатывает её посимвольно, заменяя каждую картинку буквы на сам символ.

изображение → [М][а][м][а] → текст «Мама»

После распознавания слово «Мама» уже можно выделить, скопировать, исправить или найти поиском в редакторе. До распознавания всё это было невозможно.

Частая ошибка: думать, что отсканированный лист сразу стал текстом. Пока не выполнено распознавание, это только картинка, и слова в ней искать нельзя. Сканирование и распознавание — два разных действия.

Кратко о главном

  • Сканирование превращает бумагу в изображение, распознавание — изображение в текст.
  • Технология распознавания печатных символов называется OCR.
  • Качество зависит от чёткости печати, чистоты листа, разрешения и выбора языка.
  • Рукописный текст распознаётся хуже печатного и требует проверки.