Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Обзор и анализ существующих систем классификации информации

АВТОМАТИЗИРОВАННАЯ ИНТЕЛЛЕКТУАЛЬНАЯ СИСТЕМА КЛАССИФИКАЦИИ ИНФОРМАЦИОННЫХ СООБЩЕНИЙ СРЕДСТВ МАССОВОЙ ИНФОРМАЦИИ


Содержание

 

Введение

1. Обзор и анализ существующих систем

2. Общесистемные решения

2.1 Пояснительная записка к техническому проекту

2.2 Описание схемы организационной структуры управления информационных и аналитических технологий аппарата администрации Тульской области

2.3 Описание автоматизируемых функций и схемы функциональной структуры АИС «Классификатор»

2.4 Описание постановки задачи

3 Информационное обеспечение

3.1 Перечень входных данных

3.2 Перечень выходных данных и документов

3.3 Описание информационного обеспечения АИС «Классификатор»

3.4 Описание организации информационной базы

4 Математическое обеспечение

4.1 Математическая постановка задачи классификации информационных сообщений СМИ

4.2 Описание метода нечеткого поиска

4.3 Описание запросов

4.4 Описание схемы работы системы

5. Техническое обеспечение

5.1 Описание комплекса технических средств

5.2 Инструкция по эксплуатации комплекса технических средств

6 Программное обеспечение

6.1 Описание программного обеспечения

6.2 Описание контрольного примера

7 Организационное обеспечение

7.1 Описание организационной структуры

7.2 Руководство пользователя

Заключение

Библиографический список

 Приложения

1. Структура входных и выходных документов

2. Текст программы.


ВВЕДЕНИЕ

 

При современном уровне развития информационных технологий использование компьютера для хранения любых видов информации становится единственным способом, предоставляющим широчайшие возможности по управлению информацией.

В настоящее время идет постоянный и быстрый рост объемов информации. Значительную часть этой информации составляют текстовые данные. В связи с этим встает проблема создания средств доступа к текстовой информации.

Технически существует возможность доступа к значительной части имеющихся текстов, но практически доступна лишь малая часть. Это связано с несовершенством средств доступа. Современные средства поиска, каталогизации, описания текстов не удовлетворяют нарастающим потребностям пользователей. Требуется их развитие в направлении повышения эффективности поиска информации и упрощения взаимодействия с пользователем.

Возможным путем решения проблемы является создание технико-информационных средств описания смысла имеющихся текстов с возможностью дальнейшего осмысленного поиска в массиве текстовой информации. Причем большие и постоянно увеличивающиеся объемы текстовой информации требуют, чтобы такие средства работали в автоматическом режиме.

Наиболее важным направлением автоматизации деятельности предприятий является использование современных информационных технологий для хранения, систематизации и эффективной обработки информации, поступающей из различных источников, а также использования этой информации в целях выработки рекомендаций для принятия управленческих решений.

Проблема использования большого объема накопленных данных является ключевой во многих организациях. Проблема работы с большим количеством информации имеет два аспекта:

- автоматический сбор информации;

- автоматический разбор поступившей информации по данной тематике, проведенный на основе анализа текста документа.

В связи с этим, во-первых, появляется задача загрузки информации в систему. Процесс загрузки заключается в занесении данных с носителя информации в хранилище данных. Поставляющие информацию оперативные системы далеко не всегда обладают достаточным уровнем качества данных, поэтому процесс загрузки этих данных в хранилище не ограничивается простым копированием, а включает в себя очистку, согласование и контроль качества. Хранилища данных загружают и постоянно обновляют огромные объемы данных из различных источников, поэтому вероятность попадания в них "грязных данных" весьма высока. Поэтому появляется проблема поиска и выборки необходимой информации из больших массивов текстовых данных.

Эффективность поиска в большом информационном массиве существенно повысится, если его разбить на части по некоторому критерию, связанному с целями поиска. Следовательно, во-вторых, появляется проблема классификации сообщений. Для решения задачи анализа текстовой информации и последующего автоматического распределения ее по требуемым тематикам необходимо в первую очередь сформировать рубрикатор, то есть задать список рубрик и словарь, наиболее точно характеризующие исследуемую область знаний. Классификация документов позволяет сузить область поиска и не только увеличить его скорость, но и значительно повысить точность результатов. Поэтому технологии автоматической классификации документов отводится важное место в системах управления электронным документооборотом.

Суть задачи классификации состоит в автоматическом распределении поступающих в систему документов в зависимости от их типа и содержания по рубрикам.

В настоящее время в структуре областной исполнительной власти ответственность за поддержание информационного тонуса в регионе возложена на управление информационных и аналитических технологий аппарата администрации Тульской области (УИАТ ТО), одной из задач которого является создание условий для удовлетворения информационных потребностей органов власти, населения.

В целях обеспечения информацией органов власти и населения все больше внимание уделяется совершенствованию профессионального мастерства рабочего персонала отдела технологий отображения информации (ОТОИ) УИАТ ТО, повышению оперативности и эффективности работы. ОТОИ осуществляет свою деятельность в сфере управления процессами создания и внедрения передовых информационных технологий и в сфере управления вопросами графической обработки и отображения информации.

Внедрение системы автоматизации в технологические процессы отделов по управлению информацией позволяет максимально использовать их возможности:

- автоматизация процесса загрузки информационных сообщений СМИ в информационную базу системы позволяет улучшить качество данных, выявить и удалить ошибки несоответствий в данных;

- автоматизация процесса поиска позволяет частично снять нагрузку с работника и сократить время по отслеживанию необходимой информации;

- автоматизация процесса классификации информационных сообщений СМИ позволяет автоматически распределить поступающие в систему информационные сообщения в зависимости от их типа и содержания по рубрикам.

Управление процессами в отделах по управлению информацией должно выполняться в режиме реального времени для более успешного развития предприятия. Также необходимы такие возможности, чтобы система быстро реагировала на возникающие изменения.

Одним из путей повышения эффективности деятельности отделов по управлению информацией является совершенствование работы процессов по формированию информации. Поэтому важное место занимает проблема автоматизации работы консультанта ОТОИ, связанной с обработкой информации и присвоение ей классифицирующих атрибутов.


ОБЗОР И АНАЛИЗ СУЩЕСТВУЮЩИХ СИСТЕМ КЛАССИФИКАЦИИ ИНФОРМАЦИИ

В настоящее время задача автоматического разнесения информационного потока по тематическим рубрикам является одной из важнейшей в области обработки информации в системах электронного документооборота. Главное внимание при организации работ по управлению информацией сосредоточено на проблему автоматизации процессов классификации информационных сообщений СМИ. Наиболее актуальными являются задачи загрузки информационных сообщений в информационную базу, обработки текстовой и цифровой информации, переход к структурированным сообщениям, оперативная корректировка структуры рубрикатора и словаря.

В настоящее время в отделах документооборота началось активное использование программных продуктов для автоматизации процесса классификации.

Наибольшее распространение в отделах документооборота получили программные продукты: поисково-аналитическая система «Галактика-Зум», система «Термин-5», информационно-аналитическая система «Астарта», информационно-аналитическая система INLINE Technologies.

Каждый из вариантов имеет свои преимущества и недостатки. Наиболее распространенные зарубежные системы хорошо отлажены, но имеют гораздо более высокую стоимость, недостаточно приспособлены к принятым в организациях технологиям, стандартам и форматам, что требует их серьезной и дорогостоящей адаптации.

Отставание отечественных систем объясняется в основном тем, что при отсутствии значительных финансовых инвестиций российские системы используют в качестве базового программного обеспечения бесплатные или дешевые пакеты программ, которые не предназначены для создания высокотехнологичных систем.

Учитывая сложившуюся ситуацию, целесообразно осуществить анализ отечественных систем с целью доработки их до уровня полной конкурентоспособности.

Рассмотрим ряд автоматизированных систем по процессу классификации информации.

Поисково-аналитическая система «Галактика-Зум» предназначена для компаний и организаций, которым необходимо автоматизировать процесс классификации.

Программа предоставляет следующие возможности:

- определение «информационного портрета» запрашиваемой темы, то есть набор упорядоченных по значимости ключевых слов и словосочетаний, характерный именно для данной выборки;

- решение задачи ранжирования документов выборки по значимости – по наибольшему соответствию инфопортрету выборки количества значимых тем и их ранга в рассматриваемом документе;

- корректирование полученных инфопортретов;

- сравнение инфопортрета документа с инфопортретами рубрик, с отсечение малохарактерных инфопортретов.

Информационно-аналитическая система «Астарта» предназначена для компаний и организаций, которым необходимо автоматизировать и кардинальным образом повысить эффективность сбора, обработки и анализа неструктурированной информации, получаемой из Интернета, печатных материалов, СМИ и т.д. Программное решение базируется на технологии «Евфрат» и предназначено для сбора, обработки и анализа неструктурированной информации, получаемой из Интернета, печатных материалов СМИ и других источников.

К недостаткам данных систем можно отнести следующее:

- неудобный для работы интерфейс;

- отсутствие достаточно полного словаря для процесса классификации информационных сообщений;

- отсутствие необходимых для эффективной работы функций формирования рекомендаций для принятия решений и отчетов.

Таким образом, учитывая возможности и недостатки существующих систем, необходимо разработать систему, которая предоставляла бы следующие возможности:

- создание информационной базы для автоматизированного процесса классификации статей по категориям рубрикатора;

- загрузка информационных сообщений СМИ в информационную базу;

- обработка текстовой и цифровой информации с использованием метода нечеткого поиска;

- классификация информационных сообщений с использованием метода ранжирования;

- возможность оперативной корректировки структуры рубрикатора и словаря;

- формирование рекомендаций для принятия решений;

- формирование отчетов.


ОБЩЕСИСТЕМНЫЕ РЕШЕНИЯ

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...