Главная | Обратная связь
МегаЛекции

ПРИЛОЖЕНИЕ 1. Акт ВНЕДРЕНИЯ





    «УТВЕРЖДАЮ»
    Зав. кафедрой ПО АСУ, профессор
    __________ Б.Д. Залещанский
    «___»_______________ 2000 г.

АКТ ВНЕДРЕНИЯ

комплексного дипломного проекта

студента группы ИП-2-94 Игнатова-Радохова Д.В.

 

Настоящий акт составлен консультантом по спецчасти, начальником отдела ГУП АССНаз Елизаровым О.И., в том, что результаты дипломного проекта студента Игнатова-Радохова Д.В. используются в системе документооборота Министерства Торговли Российской Федерации.

 

Председатель комиссии, руководитель дипломного проекта   _________ В.В. Радионов
  Члены комиссии    
Начальник отдела ГУП АССНаз _________ О.И. Елизаров
  Начальник НТЦ АССНаз   _________ В.К. Щеглов
    _________
    _________ 
    _________

ДОКЛАД

Уважаемый председатель и члены комиссии! Вашему вниманию предлагается дипломный проект на тему «Система документооборота Министерства Торговли РФ. Реализация функций поиска и архивации информации».

Наиболее интересной в плане разработки в данном дипломном проекте является проблема реализации функции поиска. Суть проблемы в том, что, несмотря на все многообразие существующих на сегодняшний день систем управления документами, реализованные в них методы поиска не вполне удовлетворяют требованиям к поиску русскоязычных текстов. В использованном в качестве основы для построения системы документооборота программном продукте Microsoft Exchange функция поиска не приспособлена к морфологическим особенностям русского языка, поиск осуществляется недостаточно быстро.

Прежде чем говорить о решениях, предложенных и реализованных для повышения эффективности поиска, коснемся основных моментов проблемы поиска.

Проблема существует с момента возникновения первых систем управления документами. К решению проблемы применяется множество разнообразных подходов.

Рассмотрим модели поиска. Здесь существует два подхода. Первый состоит в том, что в процессе поиска вы ищете документ, который точно существует в системе, и ваша задача - свести процесс к его нахождению. Второй подход состоит в том, что вы ищете все документы, которые могут относиться к интересующему вас вопросу. Для этого подхода характерны такие термины, как полнота поиска - соответствие между найденными документами по данному запросу и действительному списку документов; шум при поиске - соотношение (соответствие) соответствующих и несоответствующих запросу документов.



Теперь о типах поиска. Существует два основных типа: атрибутивный (реквизитный), когда каждому документу присваивается набор определенных атрибутов (полей). При сохранении документа в архив поля заполняются определенными значениями, в дальнейшем при поиске проверяется совпадение значений этих полей запросу. Второй тип поиска носит название полнотекстовый. В этом случае автоматически обрабатывается все содержание, как правило предварительно проиндексированного, документа, и затем его можно найти по любому входящему в него слову. Также существует так называемый "нечеткй поиск". Данное понятие в приложении к системам управления документами связано с продуктом компании Excalibur Technologies – системой Excalibur EFS. В основе системы лежит технология так называемого "адаптивного распознавания образов", позволяющая, с точки зрения разработчиков, обеспечить эффективный поиск в распознанных документах, непрошедших трудоемкий этап выявления и исправления ошибок. Таким образом, декларируется возможность работы с документами, заведомо содержащими ошибки. На самом деле у данного метода больше минусов, чем плюсов. Системы, использующие данный метод поиска требуют больших вычислительных ресурсов, налагаются определенные требования к минимальной длине запроса, в ответе содержится слишком много шума, а значит пользователю прийдется вручную отсеивать лишние документы.

В данном дипломном проекте реализованы полнотекстовый и атрибутный поиск.

Поиск документа более полный, если в результате запроса будут найдены не только документы, которые точно соответствуют слову в запросе, но и те, в которых присутствуют различные его словоформы. Данная технология носит название нормализации. Причем эффективность поиска зависит от применяемого алгоритма. Для русского языка наиболее эффективен применяемый в данном дипломном проекте словарный метод, когда слово нормализуется на основе словарей, в которых содержатся основы слов.

Для повышения эффективности поиска в созданной системе были реализованы некоторые процедуры. Одни из них направлены на повышения скорости поиска, другие – на улучшение достоверности поиска.

Так, для повышения достоверности поиска индекс документа предварительно заполняется терминами, широко используемыми в Министерстве Торговли РФ. Это позволяет в дальнейшем эффективно распознавать эти термины, в то время как обычная система поиска как правило исказила бы их при занесении в индекс и сделала бы затруднительным поиск по данным терминам.

В качестве мер для повышения скорости поиска было предложено объеденить индексы документов в единый индекс определенного формата. Это также целесообразно с точки зрения экономии дискового пространства.

Для того чтобы подтвердить эффективность разработанного алгоритма, были проведены испытания, дающие определенное представление о скорости и качестве поиска при использовании различных средств поиска.

Для испытаний использовался ПК с процессором Pentium – 166MMX, RAM 64 Mb, HDD Quantum Fireball TM 2,1 GB и операционной системой MS Windows NT 4.0 Workstation.
Массив данных для поиска: 473 файла в 54 каталогах, общим объемом 53,5 Mb.

Испытываемые средства поиска:

Windows NT Server Explorer;

Medialingua Text Pilot (программа смыслового поиска документов "Следопыт" российской компании "Медиалингва");

"Евфрат 99", система автоматизации делопроизводства компании Cognitive Technologies.

Программа, реализующая алгоритм, предложенный в данном дипломном проекте.

Для составления запроса использовались слова "поиск", все словоформы которого содержат исходное слово и "автоматизация", не обладающее этим свойством.

Полученные результаты:

Время поиска: 30, 15, 13 и 9 секунд соответственно.
Количество обнаруженных документов: для слова "поиск" – 34 документа для каждого средства поиска, для слова "автоматизация" – 2, 16, 18 и 22 документов соответственно.

Проведенное исследование не претендует на абсолютную объективность. Тем не менее, очевидно, что применение предложенных мер существенно увеличивает эффективность поиска.





Рекомендуемые страницы:

Воспользуйтесь поиском по сайту:
©2015- 2019 megalektsii.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.