Главная | Обратная связь | Поможем написать вашу работу!

Порядок выполнения задания №1

Практическое занятие №30

Тема: Системы оптического распознавания текстов

Цель: изучение информационной технологии распознавания отсканированного текста с помощью OCR – программ распознавания текста, передачи и редактирования его в Word.

Оборудование и материалы: практическое задание, компьютер, сканер, программа ABBYY Fine Reader.

Теоретические сведения к практическому занятию

При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания документов.

С помощью сканера достаточно просто получить изображение страницы текста в графическом файле. Для получения документа в формате текстового файла необходимо провести распознавание текста, то есть преобразовать элементы графического изображения в последовательности текстовых символов.

Преобразованием графического изображения в текст занимаются специальные программы распознавания текста (Optical Character Recognition - OCR). (оптикаль чекта рекогнитишен)

Чтобы получить электронную, готовую к редактированию копию любого печатного текста, программе OCR необходимо выполнить «цепочку» из множества отдельных операций.

Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и так далее. Затем выделенные текстовые фрагменты графического изображения страницы преобразовать в текст.

Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений), то задача распознавания решается методом сравнения с растровым шаблоном. Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов, имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством отличных от входного изображения точек.

При распознавании документов с низким качеством печати (машинописный текст, факс и так далее) используется метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.).

При распознавании структурным методом в искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех структурных элементов и их расположение больше всего соответствует распознаваемому символу.

Наиболее распространенные системы оптического распознавания символов ABBYY FineReader и CuneiForm от Cognitive, используют как растровый, так и структурный методы распознавания.

Самая известная программа для распознавания текстов – это FineReader от компании ABBYY.

FineReader - омнифонтовая система оптического распознавания текстов. т.е. позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати.

FineReader имеет массы дополнительных функций, и одним из ее достоинств является поддержка неимоверного количества языков распознавания — 176, в числе которых экзотические и древние языки, и даже популярные языки программирования.

Но не все возможности включены в самую простую модификацию программы, которую можно получить бесплатно вместе со сканером. Пакетное сканирование, грамотная обработка таблиц и изображений — для всего этого стоит приобрести профессиональную версию программы.

FineReader работает со сканерами через TWAIN-интерфейс. Это единый международный стандарт, введенный в 1992 году для унификации взаимодействия устройств для ввода изображений в компьютер (например, сканера) с внешними приложениями.

Качество распознавания во многом зависит от того, насколько хорошее изображение получено при сканировании. Качество изображения регулируется установкой основных параметров сканирования: типа изображения, разрешения и яркости.

Сканирование в сером является оптимальным режимом для системы распознавания. В случае сканирования в сером режиме осуществляется автоматический подбор яркости. Чтобы содержащиеся в документе цветные элементы (картинки, цвет букв и фона) были переданы в электронный документ с сохранением цвета, необходимо выбрать цветной тип изображения. В других случаях используется серый тип изображения.

Оптимальным разрешением для обычных текстов является - 300 dpi и 400-600 dpi для текстов, набранных мелким шрифтом (9 и менее пунктов).

После завершения распознавания страницы FineReader предложит пользователю выбор: сканировать и распознавать дальше (для многостраничного документа) или сохранить полученный текст в одном из множества популярных форматов.

Содержание задания

Задание №1

Распознайте отсканированное изображениеиотправьте в Microsoft Word.

Порядок выполнения задания №1

1. Запустите FineReader и откройте файл Мои документы/Техникум/Техникум 1 курс/Практическая 30/russian.jpg. Для этого щелкните на кнопке Открыть и выберите файл с изображением.

2. Распознайте это отсканированное изображение. Для этого нажмите кнопку Распознать. Прежде чем приступить к распознаванию, программа должна знать, какие участки изображения надо распознавать. Для этого проводится анализ макета страницы, во время которого выделяются блоки с текстом, картинки и таблицы. В большинстве случаев FineReader сам успешно справляется с анализом сложных страниц.

Если программа произвела анализ страницы неправильно, можно исправить вручную. Для этого щелкните Процесс→Анализ макета страницы.

3. Результаты распознавания отправьте в Microsoft Word. Для этого щелкните кнопку Передать в MS Word.

4. Полученный файл сохраните в папке под своей фамилией, присвоив ему имя Солнечная система.

Задание 2

Текст, предложенный преподавателем из книги, сохраните на компьютере.

Воспользуйтесь поиском по сайту: