Оптическое распознавание текста (OCR, или оптическое распознавание символов) – это технология, которая позволяет преобразовывать цифровые изображения текста и PDF-файлы в электронные текстовые документы для удобного редактирования, копирования, поиска и хранения в электронном архиве. Программное обеспечение и онлайн-сервисы для распознавания текста (как FineReader Online) конвертируют отсканированные документы, PDF-файлы и цифровые фотографии текста, полученные с помощью фотокамеры или камеры смартфона, в редактируемые форматы с возможностью поиска по тексту.
Документ, который необходимо конвертировать в редактируемый текст, может иметь сложную структуру и содержать таблицы, картинки, заголовки, сноски, фоновые рисунки, оглавление; сам текст может быть разбит на колонки.
Программа или сервис для распознавания текста «понимают» логическую структуру документа и выделяют в ней следующие элементы:
Каждый элемент данной иерархии создается объектами низшего уровня: буквы составляют слова, слова – строки и т.п. Поэтому программы и сервисы для распознавания текста всегда анализируют документ «сверху вниз»: они находят искомые элементы на картинке и разбивают их на объекты низшего уровня, а полученные объекты – на объекты еще более низшего уровня. И так до символов (самого низкого уровня иерархии). При этом каждый объект характеризуется определенными параметрами: для букв важен тип и размер шрифта, для абзацев – виды отступов и межстрочный интервал. Всё это учитывается при анализе структуры документа.
После учёта и идентификации символов происходит синтез редактируемого документа. В результате получается электронный документ, который в точности повторяет бумажный оригинал.
Полученный документ легко сохраняется в любом распространенном формате (DOC/DOCX, XLS/XLSX, ODT, RTF и т.д.), редактируется в текстовых редакторах и копируется. Его можно отправить друзьям и коллегам или добавить в электронный архив.