Главная | Обратная связь | Поможем написать вашу работу!

Автоматическое распознавание текстов. Программа FineReader

После сканирования документа получается графическое изображение исходного документа. Такое графическое изображение представляет собой набор разноцветных точек и редактированию в программах, предназначенных для обработки текстовых документов не подлежит. Программа FineReader решает проблему распознавания текста в составе точечного графического изображения.

Окно программы содержит строку меню, ряд панелей инструментов и рабочую область.

Рисунок 1 – Порядок распознавания текстовых документов

Преобразование бумажного документа в электронный происходит поэтапно или автоматически. Для автоматической работы используется инструмент Scan&Read.

Поэтапное распознавание:

- Первый этап работы – сканирование.

Если документ был уже отсканирован ранее, его открывают. Если изображение находится на бумажном носителе, то на первом этапе выбирают действие сканировать.

Программа FineReader использует для сканирования устройство, заданное по умолчанию. По завершении процесса сканирования полученное графическое изображение автоматически выгружается в рабочую область программы FineReader.

Рисунок 2 - Программа FineReader

- Второй этап – распознавание текста.

Прежде чем включать текст в документ, он разбивается на блоки, содержащее цельные фрагменты. Эту операцию программа может выполнить автоматически, хотя разбиение не всегда проходит удачно.

Границы и типы блоков можно устанавливать вручную.

Процесс распознавания отображается в специальном информационном окне:

- Полученный текст помещается в окно «Текст».

Рисунок 3 – Тестовое окно FineReader

- Третий этап - проверка.

На данном этапе программа выполняет поиск ошибок распознавания. FineReader выделяет цветом те символы, которые она сама рассматривает как неоднозначно опознанные.

С помощью диалогового окна Проверка можно отредактировать нераспознанные символы.

Рисунок 4 –Процесс распознавания

Если вариант интерпретации программы верный нажимаем кнопку Пропустить.

В случае обнаружения символов неверно распознанных программой ошибки исправляют вручную и фиксируют исправления нажатием кнопки Подтвердить.

- Четвёртый этап – сохранение текста.

Программа FineReader предусматривает возможность прямой передачи полученного текста в Word:

Сохранение текстового документа выполняют в программе Word.

Дополнительные сведения. Сегментация текста на этапе распознавания.

При автоматической сегментации программа разбивает отсканированный документ на блоки различных типов: текстовые, графические и т. д.

Если исходный текст содержит рисунки, подрисуночные подписи, таблицы, примечания и другие элементы, автоматическое распознавание текста может пройти неудачно.

В таких случаях границы блоков указывают вручную. Для этого используют кнопки специальной панели инструментов Изображение.

Рисунок 5 – Настройка изображения

Кнопки панели инструментов Изображение соответствуют различным типам блоков.

Блоки выделяются прямоугольными рамками различных цветов. Чтобы выделить блок необходимо:

1. Выбрать соответствующую кнопку панели инструментов;

2. Протягиванием определить границы блока.

Анализ макета страницы - выполняет автоматическое разбиение на блоки.

Выделить зону распознавания – позволяет выбрать щелчком мыши тот или иной блок, если автоматическое разбиение на блоки уже выполнено, и определить зону для автоматического разбиения методом протягивания, если оно ещё не выполнено.

Ластик - удаляет фрагмент отсканированного документа. Обрезка - позволяет вырезать любой фрагмент документа.

ABBYY FineReader 10: Превратности распознавания

Новые версии софта для распознавания текстов выходят если не часто, то весьма регулярно. Но чем обновления отличаются от своих предшественников и как будет развиваться это направление программостроения?

Первое, что бросается в глаза еще во время установки ABBYY FineReader 10, это поддержка большого количества языков для распознавания текстов — всего более 180. В дополнение к основным славянским, европейским и азиатским языкам, пользователю доступно распознавание на бесчисленном множестве диалектов (скажем, албанский, чукотский, гуарани или язык Конго), включая иероглифическое письмо. Также программа хорошо понимает искусственные языки (например, эсперанто, идо или интерлингву) и синтаксис наиболее популярных языков программирования.

В FineReader есть автоматическое определение языка документа, что позволяет весьма корректно распознавать даже многоязычные тексты. В том числе и такие, где иероглифическое письмо чередуется, например, с английским языком. К сожалению, в популярной программе вы не найдете возможности распознавания рукописного текста. По словам представителей компании ABBYY, данная функция (в отличие от распознавания рукопечатного текста, реализованного в программах обработки форм, например, ABBYY FlexiCapture), не имеет широкого применения, которое оправдало бы разработку этой непростой технологии.

ABBYY FineReader 10 имеет множество предустановленных сценариев, что, безусловно, упростит работу начинающим пользователям

Второе важное изменение — интерфейс программы стал более дружественным. При запуске FineReader 10 Professional Edition (версия предназначена для индивидуального использования дома или в офисе) открывается мастер, содержащий наи-более типичные сценарии использования программы. Например, можно отсканировать и распознать документ, сохранив результаты в файл Microsoft Word. Для удобства использования сценарии сгруппированы в несколько категорий: Основные, Microsoft Word, Adobe Acrobat и Другие. Последняя предназначена для экспорта в файлы других форматов, например, Excel, PowerPoint или даже веб-страницы HTML. Кроме того, используя менеджер сценариев, пользователь может создавать собственные макросы для решения типичных для него задач.

Меню настроек программы реализовано далеко не так удобно. Например, для задания особенностей сохранения отсканированного документа в формат Microsoft Word пользователю придется потратить некоторое время на изучение разнообразных установок. Причем некоторые пункты настроек далеко не очевидны.

Новая версия программы порадовала своим быстродействием и качеством работы. На распознавание даже весьма увесистого документа уходит не более нескольких минут. FineReader 10 с легкостью распознает как качественно отсканированный текст, так снимки, сделанные на камеру мобильного телефона или сканы с искусственно уменьшенным разрешением (например, полученные через Интернет), а также текст, имеющий явные визуальные дефекты.

Программа хорошо справляется с текстами, отсканированными даже в низком разрешении, а также с изображениями, имеющими дефекты. Непонятно, почему при этом в тексте не всегда сохраняется даже элементарное форматирование

А вот другая улучшенная возможность — точная передача форматирования сложных документов (например, журнальных страниц), все еще требует доработки. Дело в том, что на страницах, богатых графикой, разноцветными текстами и фоновой заливкой, FineReader 10 не всегда корректно определяет текстовые, графические и табличные блоки, что негативно сказывается на качестве распознавания. В этом случае пользователю наверняка придется выполнить предобработку картинки и переопределить эти области вручную.

В документах со сложным форматированием и заливкой фона FineReader 10 иногда путает текстовые, графические и табличные блоки, что негативно влияет на качество распознавания

Рассказывая о новой версии FineReader, нельзя не упомянуть об утилите Screenshot Reader, входящей в ее состав. Это небольшая резидентная программа, позволяющая при помощи нескольких щелчков мыши делать снимки экрана или же некоторых его областей, автоматически распознавать их и возвращать пользователю результат в одном из выбранных ранее форматов. Скажем, можно сделать скриншот какого-либо служебного окна и скопировать распознанный текст в буфер обмена.

Воспользуйтесь поиском по сайту: