Порядок выполнения задания №1
Практическое занятие №30 Тема: Системы оптического распознавания текстов Цель: изучение информационной технологии распознавания отсканированного текста с помощью OCR – программ распознавания текста, передачи и редактирования его в Word.
Оборудование и материалы: практическое задание, компьютер, сканер, программа ABBYY Fine Reader. Теоретические сведения к практическому занятию При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания документов. С помощью сканера достаточно просто получить изображение страницы текста в графическом файле. Для получения документа в формате текстового файла необходимо провести распознавание текста, то есть преобразовать элементы графического изображения в последовательности текстовых символов. Преобразованием графического изображения в текст занимаются специальные программы распознавания текста (Optical Character Recognition - OCR). (оптикаль чекта рекогнитишен) Чтобы получить электронную, готовую к редактированию копию любого печатного текста, программе OCR необходимо выполнить «цепочку» из множества отдельных операций. Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и так далее. Затем выделенные текстовые фрагменты графического изображения страницы преобразовать в текст. Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений), то задача распознавания решается методом сравнения с растровым шаблоном. Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов, имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством отличных от входного изображения точек.
При распознавании документов с низким качеством печати (машинописный текст, факс и так далее) используется метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.). При распознавании структурным методом в искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех структурных элементов и их расположение больше всего соответствует распознаваемому символу. Наиболее распространенные системы оптического распознавания символов ABBYY FineReader и CuneiForm от Cognitive, используют как растровый, так и структурный методы распознавания. Самая известная программа для распознавания текстов – это FineReader от компании ABBYY. FineReader - омнифонтовая система оптического распознавания текстов. т.е. позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати. FineReader имеет массы дополнительных функций, и одним из ее достоинств является поддержка неимоверного количества языков распознавания — 176, в числе которых экзотические и древние языки, и даже популярные языки программирования. Но не все возможности включены в самую простую модификацию программы, которую можно получить бесплатно вместе со сканером. Пакетное сканирование, грамотная обработка таблиц и изображений — для всего этого стоит приобрести профессиональную версию программы.
FineReader работает со сканерами через TWAIN-интерфейс. Это единый международный стандарт, введенный в 1992 году для унификации взаимодействия устройств для ввода изображений в компьютер (например, сканера) с внешними приложениями. Качество распознавания во многом зависит от того, насколько хорошее изображение получено при сканировании. Качество изображения регулируется установкой основных параметров сканирования: типа изображения, разрешения и яркости. Сканирование в сером является оптимальным режимом для системы распознавания. В случае сканирования в сером режиме осуществляется автоматический подбор яркости. Чтобы содержащиеся в документе цветные элементы (картинки, цвет букв и фона) были переданы в электронный документ с сохранением цвета, необходимо выбрать цветной тип изображения. В других случаях используется серый тип изображения. Оптимальным разрешением для обычных текстов является - 300 dpi и 400-600 dpi для текстов, набранных мелким шрифтом (9 и менее пунктов). После завершения распознавания страницы FineReader предложит пользователю выбор: сканировать и распознавать дальше (для многостраничного документа) или сохранить полученный текст в одном из множества популярных форматов.
Содержание задания Задание №1 Распознайте отсканированное изображениеиотправьте в Microsoft Word. Порядок выполнения задания №1 1. Запустите FineReader и откройте файл Мои документы/Техникум/Техникум 1 курс/Практическая 30/russian.jpg. Для этого щелкните на кнопке Открыть и выберите файл с изображением. 2. Распознайте это отсканированное изображение. Для этого нажмите кнопку Распознать. Прежде чем приступить к распознаванию, программа должна знать, какие участки изображения надо распознавать. Для этого проводится анализ макета страницы, во время которого выделяются блоки с текстом, картинки и таблицы. В большинстве случаев FineReader сам успешно справляется с анализом сложных страниц. Если программа произвела анализ страницы неправильно, можно исправить вручную. Для этого щелкните Процесс→Анализ макета страницы. 3. Результаты распознавания отправьте в Microsoft Word. Для этого щелкните кнопку Передать в MS Word. 4. Полученный файл сохраните в папке под своей фамилией, присвоив ему имя Солнечная система. Задание 2 Текст, предложенный преподавателем из книги, сохраните на компьютере.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|