Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Глава 20 компьютерные технологии организации хранения и поиска документальной информации




 

Цель документального поиска — нахождение и выдача соот­ветствующих запросу пользователя документов или их описаний. Документы, отвечающие запросу пользователя, называются реле­вантными.

Понятие «документ» в рамках информационных технологий трактуется несколько шире, нежели в традиционном документоведении. В соответствии с Оксфордским словарем «документ - это текст или изображение, имеющее информационное значение».

Традиционно информационно-поисковые системы (ИПС) при­меняются для тематического поиска научно-технической информа­ции в крупных библиотеках, научно-технических центрах, архивах, патентных библиотеках.

В настоящее время в связи с возрастанием объема документаль­ной информации, необходимой для принятия эффективного управ­ленческого решения, и возможностями, предоставляемыми новыми компьютерными технологиями, автоматизированные информацион­но-поисковые системы стали широко использоваться в различных сферах экономики.

По оценкам американских экспертов (фирма Delphi Consulting), в США ежедневно генерируется более 1 млрд. страниц документов, а в архивах хранится уже более 1,3 трлн. документов, причем поток дело­вой информации чрезвычайно разнообразен по видам ее представле­ния. Можно выделить три основных составляющих деловой информа­ции. Поданным вышеназванной фирмы, 12% информации — структу­рировано, представлено в электронной форме, хранится и управляется с помощью систем управления базами данных. Примерно 15% инфор­мации представляет собой неструктурированные данные в электрон­ной форме, как правило, это текстовая информация. Для автоматиза­ции хранения и поиска такой информации используются технологии информационно-поисковых систем. И оставшиеся около 73% инфор­мации традиционно хранятся на бумаге. Организация быстрого и эф­фективного поиска такой документальной информации становится все более неразрешимой проблемой.

Таким образом, сфера приложения для технологий информаци­онно-поисковых систем представляется достаточно широкой.

Примерами документальной информации, для которой эффек­тивно автоматизированное хранение и поиск, могут служить: зако­ны, постановления, комментарии к нормативным актам, тексты кон­трактов, переписка с клиентами и партнерами, проекты, стенограм­мы переговоров, приказы, распоряжения, письма, отчеты, планы, программы, записи судебных дел, постановления судов, научные статьи, доклады, конспекты, рефераты, периодические и специаль­ные печатные издания, каталоги фирм, рекламные издания, спра­вочники и другие документы.

При автоматизации поиска документальной информации важнейшими являются задачи формализации содержания документа и запроса. При решении этих задач могут использоваться различные подходы.

Первый подход состоит в том, что содержание документа, а также его характеристики (дата издания документа, автор и т.п.) отображаются в некую структурированную информацию, представляющую собой, например, запись реляционного файла или строку в электрон­ной таблице. В этом случае поиск документа.сводится к поиску структурированной информации средствами СУБД или табличного процессора.

Второй подход состоит в том, что поиск происходит по всему тексту документа или по его поисковому образу. При этом в качестве запроса чаще всего выступают отдельные ключевые слова или их логические комбинации. Этому подходу, соответствующему тради­ционному пониманию документального поиска, и посвящена дан­ная глава.

Эффективность документального поиска оценивают на основе по­казателей полноты и точности. Полнота поиска определяется как отно­шение числа выданных в ответ на запрос релевантных документов к числу всех имеющихся в поисковом массиве релевантных документов. Точность поиска определяется как отношение числа релевантных до­кументов в выдаче к общему числу выданных документов.

Автоматизированный документальный поиск может быть орга­низован на основе различных технологий: поиска по поисковому образу документа, поиска по полному тексту документа, поиска до­кументов по гипертекстовым ссылкам.

Технология полнотекстового поиска является неотъемлемой со­ставляющей таких современных и перспективных информационных технологий, как: системы управления документами (Document management system, DMS), технологии групповой работы над документами (groupware), технологии поиска в Internet/intranet, На тех­нологии гипертекста базируется самый известный сервис Internet — World Wide Web (WWW).

 

Документальные информационно -поисковые

Системы

В документальных информационно-поисковых системах — ДИПС (их также называют библиографическими) поиск доку­мента происходит по краткому формализованному описанию его содержания — так называемому поисковому образу документа (ПОД).

Одновременно с появлением первых библиотек и архивов воз­никли и проблемы разработки методов поиска и хранения докумен­тальной информации. Основная идея этих методов состояла в том, что центральная тема произведения выражалась в виде краткого тек­ста. В простейшем случае функцию такого краткого текста выполня­ло заглавие произведения, в качестве которого в самом начале ис­пользовалась первая фраза текста. Это освобождало пользователя (библиотекаря) от необходимости просматривать весь текст докумен­та, что значительно повышало, скорость поиска.

Хотя основы методологии ДИПС разработаны достаточно давно, в 50-х — 60-х гг., эта технология и в настоящее время успешно применяет­ся при организации как ручного, так и автоматизированного поиска документов.

Важнейшей структурной составляющей является информацион­но-поисковый язык.

Информационно-поисковый язык, ИПЯ (indexing language, retrieval language) — искусственный язык для выражения содержания документов или запросов с целью последующего поиска. Основное назначение ИПЯ — установить принадлежность того или иного до­кумента к определенной группе понятий. Перевод текстов докумен­тов и запросов на ИПЯ называется индексированием. В результате индексирования содержание документа отображается в ПОД, а со­держание запроса — в поисковое предписание (ПП). Индексирова­ние может быть ручным (когда его производит человек) или автома­тическим.

К настоящему времени разработан ряд ИПЯ, носящих как об­щеотраслевой,- так и специальный характер. Например - Универ­сальная десятичная классификация (УДК); классификаторы доку­ментов, отраслевые дескрипторные языки. Однако разработка

ИПС для управленческих документов, как правило, требует раз­работки собственного ИПЯ, адекватного данной предметной об­ласти.

 

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...