Сканирование и распознавание текста
💻 Информатика · 6 класс
Что такое сканирование и распознавание текста
Сканирование — это процесс получения изображения бумажного документа в виде файла. Сканер освещает лист яркой лампой и с помощью светочувствительных датчиков измеряет яркость в каждой маленькой точке. Из этих измерений складывается растровое изображение страницы. Но такое изображение компьютер воспринимает только как картинку: отдельные буквы в нём не различимы, текст нельзя ни редактировать, ни искать по словам.
Распознавание текста — это преобразование изображения букв в настоящий редактируемый текст. Программа анализирует форму каждого значка на картинке и подбирает соответствующий ему символ. Технологию распознавания печатных символов называют OCR — оптическое распознавание символов. Только после распознавания документ становится полноценным текстом.
Как проходит работа
Весь путь от бумаги к редактируемому документу состоит из нескольких этапов, которые выполняются по порядку.
- Лист кладут в сканер и получают изображение всей страницы.
- Программа делит изображение на строки, а строки — на отдельные знаки.
- Каждый знак сравнивается с образцами букв, цифр и знаков препинания.
- Распознанные символы собираются в строки, а строки — в текст.
- Готовый текст открывают в текстовом редакторе и при необходимости исправляют ошибки распознавания.
Что влияет на качество
Качество распознавания зависит от того, насколько чётким было исходное изображение. Если буквы видны плохо, программа путает похожие знаки.
| Условие | Хороший результат | Плохой результат |
|---|---|---|
| Чёткость печати | ровный жирный шрифт | бледный или смазанный |
| Состояние листа | чистый, без пятен | помятый, с пятнами |
| Разрешение скана | высокое | низкое |
| Язык документа | выбран верно | выбран неправильно |
Рукописный текст распознать намного труднее, чем печатный, потому что почерк у всех людей разный, а печатные буквы всегда одинаковой формы. Поэтому для рукописей результат почти всегда приходится проверять вручную.
Пример
Допустим, отсканирована страница книги. Программа выделила первую строку и обрабатывает её посимвольно, заменяя каждую картинку буквы на сам символ.
изображение → [М][а][м][а] → текст «Мама»После распознавания слово «Мама» уже можно выделить, скопировать, исправить или найти поиском в редакторе. До распознавания всё это было невозможно.
Частая ошибка: думать, что отсканированный лист сразу стал текстом. Пока не выполнено распознавание, это только картинка, и слова в ней искать нельзя. Сканирование и распознавание — два разных действия.
Кратко о главном
- Сканирование превращает бумагу в изображение, распознавание — изображение в текст.
- Технология распознавания печатных символов называется
OCR. - Качество зависит от чёткости печати, чистоты листа, разрешения и выбора языка.
- Рукописный текст распознаётся хуже печатного и требует проверки.