Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Программы распознавания текста




Программы распознавания текста предназначены для преобразования графического изображения, полученного со сканера в текстовый документ.

В технической литературе программы такого класса называются OCR – программы.

 

Требования к OCR программам:

1. Способность распознавать тексты, набранные не только определенными шрифтами, но самыми экзотическими шрифтами вплоть до рукописных текстов.

2. Способность корректно работать с текстами, содержащими, слова на нескольких языках и корректно распознавать таблицы.

3. Корректно распознавать тексты, качество которых достаточно плохое, например, старые газетные страницы.

4. Возможность сохранять результат в форме популярного текстового или табличного формата Word или Excel.

 

Операции OCR программ:

1) СКАНИРОВАНИЕ

2) СЕГМЕНТАЦИЯ

3) РАСПОЗАВАНИЕ

4) ПРОВЕРКА ОРФОГРАФИИ И ПРАВКА

5) СОХРАНЕНИЕ

Сканирование: за эту операцию отвечает не OCR – программа, а программа драйвер сканера. С помощью такого драйвера можно задавать параметры сканирования, такие как: разрешение и цветовой режим. А также можно выделить ту область документа, которую необходимо отсканировать в компьютер. После окончания операции сканирования драйвер сканера передает полученные со сканера графические изображения в OCR – программу.

Сегментация: эта операция заключается в том, что OCR – программа обрабатывает полученные со сканера изображения. В процессе этой обработки отделяются текстовые блоки от графических рисунков и при необходимости текст разбивается на отдельные участки.

Распознавание: выполнение этой операции OCR – программа преобразует текст из графической формы в обычную текстовую форму.

Проверка орфографии и правка: при выполнении этой операции включается встроенная система проверки орфографии. При этом проверяется текст и корректируются ошибки работы системы распознания. Спорные слова и специальные символы выделяются особым цветом. Далее пользователь имеет возможность внести изменения в распознанный текст вручную.

Сохранение: при выполнении этой операции документы экспортируются в соответствующую программу для дальнейшей обработки.

 

Функции OCR программ:

1. Распознавание типовых форм документов;

2. Сканирование и распознание книжного разворота целиком;

3. Автоматическое распознавание таблиц и документов на бланках;

4. Экспорт документов в программы пакета Microsoft Office;

 

Популярные OCR программы:

Fine Reader – отличается возможностью экспорта документов в графические программы.

Cinei Form – отличается наличием модуля самообучения. Этот модуль анализирует и учитывает ошибки в результате распознавания текста, указанные пользователем. При повторном сканировании эти ошибки уже не появляются. Поэтому с каждым новым сканированием качество работы программы значительно увеличивается. Использование самообучающегося алгоритма позволяет поднять точность распознавания низкокачественных текстов в несколько раз.

 

Программы перевода текстов

Программы перевода текстов предназначены для перевода текстов с русского языка на иностранные и наоборот.

 

Функции программ перевода текстов:

1. Использование встроенного текстового редактора, для открытия текстовых документов и последующего их перевода;

2. Использование различных словарей для тонкой индивидуальной подстройки стиля перевода каждого документа;

3. Перевод Web-страниц интернет;

4. Отправка переведенного текста по электронной почте

 

Популярные программы перевода текстов:

Magic Goddy – работает с 2 языками и позволяет переводить текст, набранный практически в любой программе.

Socrat – работает с 4 языками и обеспечивает перевод документов в различных текстовых форматах.

Promt – работает с 5 языками и позволяет встраивать средства перевода в популярные программы пакета Microsoft Office.

 

Электронные архивы

Электронные архивы – это компьютерные системы документооборота и поиска документов.

 

Функции программ электронных архивов:

1. Создание четкой иерархической структуры, в которую объединены документы, независимо от их типов и реального местоположения;

2. Присваивание каждому документу определенного индекса и описания, что обеспечивает возможность мгновенного поиска необходимой информации;

3. Поддержка морфологии русского языка. Включение ее позволяет найти по запросу слова «день» не только документы, в которых есть такое слово, но и документы «дни», «днями» и т.д.

 

Популярные программы электронные архивы:

ДЕЛА В ПОРЯДКЕ – данная программа рассчитана на домашнее использование и применение в рамках небольшого электронного офиса.

ЕВФРАТ – эта программа является мощным электронным архивом и обеспечивает пересылать в архив документы из популярных офисных программ, а так же графические файлы, звуковые файлы, видео файлы и мультимедийные файлы.

ИЩЕЙКА – это система поиска документов. В отличие от ЕВФРАТА ИЩЕЙКА работает с зонами поиска. При создании зоны поиска пользователь может отметить на дереве папок те, которые он хочет включить в зону поиска. При этом одна и та же папка может использоваться в нескольких зонах поиска. Создав зону поиска, ей дается команда на ее обработку и индексацию.

 

Бухгалтерские программы

Бухгалтерские программы предназначены для создания бухгалтерских документов и документов финансовой отчетности.

 

Функции бухгалтерских программ:

1. Создание различных специфических платежных документов и выполнение большого количества профессиональных бухгалтерских операций;

2. Анализ финансовых операций организаций;

3. Автоматическое составление налоговых деклараций.

 

Популярные бухгалтерские программы:

1С Бухгалтерия – это пакет бухгалтерских программ, рассчитанных на предприятия самого различного уровня.

ДЕКАРТ – эта программа используется для расчета доходов и расходов, планирования затрат и учета поступлений денежных средств.

 

 

Контрольные вопросы.

1. Требования к OCR программам(4);

2. Операции OCR программ(5);

3. Сканирование;

4. Сегментация;

5. Распознавание;

6. Проверка орфографии и правка;

7. Сохранение;

8. Функции OCR программ(4);

9. Популярные OCR программы(2);

10. Функции программ перевода текстов(4);

11. Популярные программы перевода текстов(3);

12. Функции программ электронных архивов(3);

13. Популярные программы электронные архивы(3);

14. Функции бухгалтерских программ(3);

15. Популярные бухгалтерские программы(2).

 

Тема 5. Проектирование базы данных

 

Основные понятия

Сущность – любой различимый объект, информацию о котором необходимо хранить в базе данных. Сущностями могут быть люди, места, самолеты, рейсы, вкус, цвет и т.д. Необходимо различать такие понятия, как тип сущности и экземпляр сущности.

Тип сущности – определяет набор однородных личностей, предметов, событий или идей, выступающих как целое. Например, типом сущности может быть ГОРОД.

Экземпляр сущности – определяет конкретную вещь в наборе. Например, экземпляром сущности ГОРОД может быть Ярославль.

Атрибут – поименованная характеристика сущности. Его наименование должно быть уникальным для конкретного типа сущности, но может быть одинаковым для различного типа сущностей. Например, может быть определен атрибут ЦВЕТ для сущности АВТОМОБИЛЬ, или может быть определен атрибут ЦВЕТ для сущности КРАСКА. Атрибуты используются для определения того, какая информация должна быть собрана о сущности. Примерами атрибутов для сущности АВТОМОБИЛЬ являются ТИП, МАРКА, НОМЕРНОЙ ЗНАК, ЦВЕТ и т.д. Здесь также существуют понятия тип атрибута и значение атрибута.

Тип атрибута – определяет набор значений конкретной характеристики. Например, тип атрибута ЦВЕТ содержит множество значений: Красный, Синий, Зеленый и т. д.

Значение атрибута - это параметр, характеризующий конкретный экземпляр сущности, т.е. каждому экземпляру сущности присваивается только одно значение атрибута.

Ключ – минимальный набор атрибутов, по значениям которых можно однозначно найти требуемый экземпляр сущности. Минимальность означает, что исключение из набора любого атрибута не позволяет идентифицировать сущность по оставшимся. Например, для сущности РЕЙС САМОЛЕТА, ключом может быть атрибут НОМЕР РЕЙСА. По этому ключу можно определить уникальный рейс с конкретным самолетом. Для определения уникальности рейса можно использовать ключ из нескольких атрибутов: ПУНКТ ОТПРАВЛЕНИЯ, ВРЕМЯ ВЫЛЕТА, ПУНКТ НАЗНАЧЕНИЯ.

Связь – это отображение зависимости двух или более сущностей. Если бы база данных предназначалась только для хранения информации, то тогда не нужно было бы устанавливать связи между сущностями. Однако одно из основных требований к организации базы данных – это обеспечение возможности отыскания одних сущностей по значениям других, для чего необходимо установить между ними определенные связи.

 

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...