Теория:
Для быстрого перевода текста с бумажных носителей в электронный вид используют сканеры и программы распознавания символов.
После обработки документа сканером получается графическое изображение документа (графический образ). Но графический образ ещё не является текстовым документом. Человеку достаточно взглянуть на лист бумаги с текстом, чтобы понять, что на нём написано. С точки зрения компьютера документ после сканирования превращается в набор разноцветных точек, а вовсе не в текстовый документ.
Проблема распознавания текста в составе точечного графического изображения является весьма сложной. Подобные задачи решают с помощью специальных программных средств, называемых средствами распознавания образов.
ContentReader PDF — это программа, которая помогает работать с документами в формате PDF. С её помощью можно не только смотреть файлы, но и редактировать их, переводить в другие форматы и даже «превращать» бумажные документы в электронные.
Разберём по шагам, как она работает.
Шаг \(1\). Загружаем документ.
Сначала нужно дать программе документ, с которым мы хотим работать. Это можно сделать тремя способами:
- открыть уже готовый PDF‑файл;
- отсканировать бумажную страницу прямо в программе (она работает с большинством сканеров);
- загрузить фотографию страницы с телефона или фотоаппарата.
Шаг \(2\). Улучшаем картинку (при необходимости).
Если фотография получилась не очень чёткой или страница на ней перекошена, программа сама это исправит:
- выровняет страницу;
- сделает картинку чётче и контрастнее;
- уберёт лишние пятна и фон;
- разделит две страницы, если они попали на один снимок.
Шаг \(3\). Распознаём текст.
Теперь программа «читает» текст на картинке — это называется «распознаванием». Она умеет «понимать» текст на \(179\) языках, в том числе на русском и английском. Что происходит:
- программа «видит» не просто картинку, а отдельные части: где текст, где таблица, где картинка;
- она превращает изображение текста в настоящий редактируемый текст — такой, который можно копировать и исправлять;
- при этом она запоминает, где были абзацы, заголовки, таблицы и картинки — всё останется на своих местах.
Шаг \(4\). Редактируем документ.
Теперь можно вносить изменения — почти как в текстовом редакторе:
- исправлять ошибки в тексте;
- менять шрифт, размер букв и цвет;
- добавлять комментарии или заметки;
- работать с таблицами — например, скопировать таблицу из документа и вставить её в электронную таблицу;
- удалять ненужные части текста или картинок с помощью «ластика»;
- добавлять номера страниц, ссылки или колонтитулы.
Шаг \(5\). Сохраняем или отправляем.
Когда всё готово, можно:
- сохранить документ в формате PDF — и даже защитить его паролем, чтобы никто не смог открыть без разрешения;
- перевести его в другой формат: например, в текстовый процессор, чтобы дальше редактировать в нём, в электронную таблицу, если там много таблиц, в презентацию или просто в обычный текст;
- отправить документ по электронной почте прямо из программы.
Программа работает на российских операционных системах (например, Astra Linux). Её интерфейс похож на LibreOffice Writer — разобраться несложно!