Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Для подготовки и принятия решений




В ИНФОРМАЦИОННО-УПРАВЛЯЮЩИХ

СИСТЕМАХ

 

Рассмотрим основные проблемы, возникающие при разработке новых математических моделей и методов, используемых при поиске информации о производственных ситуациях в процессе управления сложными информационно-управляющими системами производственного назначения.

Поисковые системы сети Интернет

 

Проблема поиска информации, особенно в сети Интернет, занимает все большее место не только в корпоративных ИУС, но и в жизни любого современного человека, поскольку во всем мире Интернет рассматривается как обширный справочный инструмент. Рассмотрим особенности и организацию работы поисковых систем в Интернете, а также метапоисковые системы.

 

Особенности и организация работы

Поисковых систем

 

В каждой поисковой системе можно выделить три основные части:

- Spider (Crawler, Bot, или Robot) – программа, которая посещает веб-страницы, считывает (индексирует) полностью или частично их содержимое и далее следует по ссылкам, найденным на данной странице. Spider возвращается через определенные периоды времени (например, через каждый месяц) и индексирует страницу снова;

- индексы поисковой системы, которые представляют собой гигантское вместилище информации, где хранятся копии текстовой составляющей всех посещенных и проиндексированных программой Spider страниц;

- программа, которая в соответствии с запросом пользователя перебирает индексы поисковой системы в поисках информации, интересующей пользователя, и выдает найденные документы в порядке убывания релевантности.

Необходимо отметить, что каждая поисковая система имеет собственную программу Spider, индексирует страницы особым способом, со своими приоритетами при поиске по индексам [46; 47]. Поэтому после запроса по определенным ключевым словам или выражениям каждая из поисковых систем получит разные результаты. Кроме того, каждый поисковый сайт имеет свой синтаксис, что противоречит мировым тенденциям к стандартизации и открытому кодированию, упрощающим взаимодействие между разными производителями программных продуктов.

Работу каталога (директории) можно описать следующим образом.

Регистрация в каталогах полностью зависит от модераторов данной системы. Каталог обычно имеет тематическое разбиение на подкаталоги, которые в свою очередь могут подразделяться на более мелкие поддиректории и т. д. Поскольку регистрация производится человеком, а не программой, то поиск по каталогам дает более релевантные результаты, чем поисковые системы.

Каталог, как правило, имеет иерархическую структуру, и все его ресурсы классифицируются по темам. Обычно с каталогом связывают поиск по текстам – описаниям включенных в него ресурсов. Собственно классификацию осуществляют либо авторы каталога и такой процесс будет протекать более качественно, но медленно, либо хозяева ресурсов, но в этом случае нельзя гарантировать соответствие ресурса разделу.

Рассмотрим основные параметры работы поисковых систем.

Релевантность. При поиске в Интернете важны полнота охвата (когда сохранена вся имеющаяся информация) и точность (не найдено лишней информации), т. е. релевантность есть степень отношения ответа запросу. Каждая поисковая система имеет свой алгоритм сортировки результатов поиска. Однако вне зависимости от этих результатов чем ближе к началу списка стоит нужный документ, тем выше его релевантность. Проверить релевантность можно только экспериментально, делая запросы различной длины.

Охват и глубина поиска. Под охватом поиска понимается объем базы поисковой машины, который измеряется общим объемом проиндексированной информации, числом уникальных серверов и количеством документов, а под глубиной – наличие ограничения на количество страниц или глубину вложенности каталогов на одном сервере.

Эти характеристики можно проверить следующим образом. Некоторые системы дают на своей веб-странице статистику результатов поиска. Но это можно сделать и самостоятельно, задав несколько поисковых запросов, состоящих из одного слова, чтобы исключить влияние языка запросов, в частности различие в понимании пробела. При этом необходимо обратить внимание на статистику результатов, выдаваемую системой. Обычно в начале списка указывается количество всех найденных документов, причем рекомендуется, чтобы слова были взяты из разных областей, но отличались по частоте употребления, т. е. весам. Затем следует проанализировать ответы.

Глубину поиска проверить сложнее. Для этого нужно взять какие-либо веб-страницы, например с разветвленной структурой архивов, и определить, проиндексированы ли те документы, на которые можно попасть, допустим, только за шесть переходов по ссылкам.

Скорость обхода и актуальность ссылок. Скорость обхода показывает, насколько быстро происходит индексация последнего добавленного ресурса и обновляется информация в базе данных. Важным показателем качества работы поисковой системы является не только индексация новых документов, но и отслеживание состояния уже проиндексированных, так как серверы могут исчезать и появляться, к тому же их страницы постоянно обновляются. Ссылки, которые выдает поисковая система в списке ответа, должны существовать, а их содержание – соответствовать запросу.

Для того чтобы это проверить, информацию нужно получить экспериментальным путем. Так, для определения скорости обхода следует создать (или изменить уже существующую) страницу с текстом, затем добавить ее туда, где ведется поиск, и посмотреть, как быстро она будет найдена. Для определения актуальности ссылок необходимо проверить документы, приведенные, по крайней мере, на первой странице списка, найденного по нескольким запросам. Сообщение Not Found свидетельствует о том, что документа больше не существует.

Скорость поиска. Низкая скорость работы поисковой системы говорит о ее неэффективности. При этом следует иметь в виду, что воспринимаемая пользователем скорость зависит не только от характеристик поисковой машины, но и от каналов связи.

Скорость поиска также проверяется экспериментально. Для этого производится поиск с помощью запросов разной длины и тяжести слов, а также в разное время суток, поскольку загрузка серверов неравномерна и ее пик обычно наступает около 15–16 часов.

Поисковые возможности, т. е. работа с языками документов и запросов. Системы можно сравнивать еще по одному пункту: что именно и как они вносят в индекс.

Поисковая система индексирует все слова текста, видимого пользователю. Учет морфологии в языке запросов позволяет находить искомые слова во всех склонениях или спряжениях. Кроме того, в языке HTML существуют маркированные ссылки (теги), которые также могут обрабатываться поисковой машиной (заголовки, ссылки, подписи к картинкам и т. п.).

Язык запросов, использующий стандартные логические операторы И, ИЛИ и НЕ, применяется практически во всех системах. Причем некоторые из них умеют искать словосочетания или слова, отстоящие на заданном расстоянии, что зачастую бывает важно для получения разумного результата. Дополнительной возможностью является поиск в таких зонах документа, как заголовки, ссылки, ключевые слова (meta keywords) и т. д.

Язык запросов также допускает специальную форму естественно-языкового запроса, при которой не требуется знания операторов. Для проверки используется информация, публикуемая на сервере поисковой машины (в help-файле), а также реальные запросы.

Дополнительные возможности. Пользователям поисковой системы предоставляются дополнительные возможности, облегчающие их работу, а именно: специализированные страницы, поиск похожих документов, ограничение области поиска, наличие списка найденных серверов, поиск по датам и серверам, удобный интерфейс и возможность его персонализации.

Основываясь на представленных выше особенностях поисковых систем, рассмотрим организацию их работы (рис. 2.1).

 

 

Рис. 2.1. Организация поисковых систем Интернета [80]

 

При формировании информационной базы поисковая система может следить за обновлением наперед заданного набора документов, каталогов или конечного числа узлов, отобранных по какому-либо принципу. Такие системы, реализованные в Интернете, несколько условно можно назвать локальными. Глобальные поисковые системы в отличие от локальных решают более трудоемкую задачу – по возможности наиболее полный охват ресурсов всего пространства интернета (www, FTP или др.), которое они обслуживают. Следствием этого является возрастание роли механизма, который используется глобальной системой для постоянного увеличения числа подконтрольных узлов. Построение специализированных и региональных поисковых сервисов предполагает активную фильтрацию информации.

Специализация поисковой системы на базе какого-либо профиля или тематики, будь то поиск людей и организаций, аппаратного обеспечения или файлов мультимедиа в формате MP3, теоретически может происходить как на глобальной, так и на локальной основе. Разумеется, систему проще построить и сопровождать на ограниченном пространстве обновляемых узлов, что обычно и реализуется на практике.

Региональными поисковыми службами информация фильтруется в основном на основе распознавания домена верхнего уровня сервера, например ru и su для России. Серьезным недостатком таких систем является пропуск большого количества ресурсов, размещаемых региональными разработчиками в традиционно популярном домене с расширением com.

Региональные элементы нередко присутствуют и в сервисе глобальных информационно-поисковых систем. Например, каталог Lycos ранжирует результаты поиска в зависимости от того, из какого региона поступил запрос.

Еще одно важное направление в регионализации поисковых сервисов связано с разработкой узлов-зеркал (mirrors) для наиболее популярных поисковых систем. Зеркала должны содержать точную копию индекса первичной поисковой системы и гарантировать быстрое обслуживание обраще-ний, поступающих из определенной географической зоны. Однако на прак-тике обновление индекса системы зеркал всегда происходит с запаздыванием. Так, для австралийского зеркала поисковой системы Alta Vista, лидера по количеству зеркал, оно в лучшем случае составляет 1–2 дня при безаварийной работе. Альтернатива между скоростью работы и полнотой данных становится значимой для пользователя, если он имеет возможность обратиться и к зеркалу, и к первоисточнику [18].

Организации локальной по веб-узлу поисковой системы отличается определенной простотой, однако если сравнить содержимое индекса локальной системы с информацией о том же узле из индекса глобальной поисковой системы, то локальная система имеет все шансы превзойти глобальную и по полноте данных, и по частоте их обновления. Благодаря этому довольно часто наиболее эффективный путь от запроса на глобальной поисковой системе к конечному блоку информации лежит через промежуточное звено – локальный поисковый сервис узла (рис. 2.2). Под внутренним на схеме понимается поиск внутри конечного объекта, если это возможно, например поиск по тексту веб-страницы, поддерживаемый большинством браузеров.

Одним из перспективных направлений развития Интернета является интеграция различных поисковых сервисов в единую систему. С этой целью в 1999 г. был организован проект SESP (Search Engine Standards Project), призванный стандартизировать работу поисковых служб [61; 73].

 

 

Рис. 2.2. Уровни поисковой процедуры

 

Одной из задач стандартизации является максимальное сближение синтаксиса и возможностей различных поисковых языков. В частности, одним из обязательных требований становится поддержка любой поисковой системой единых команд запросов, локализующих узел по его доменному имени, а документ – по ссылке. Но на практике полная стандартизация языка поисковых систем до сих пор пока еще не достигнута [58; 59; 60], хотя принципиальные сдвиги в сторону стандартизации уже прослеживаются. Это имеет очень важное значение, так как даже простое соглашение поставило бы учет и контроль информации в масштабе Сети на принципиально новый уровень.

Метапоисковые системы

 

В связи с глобальными и стремительными темпами роста сети Интернет все возрастающее место в поиске информации занимают метапоисковые технологии. Они начинают приобретать все больший успех у пользователей за счет охвата большего сегмента Интернета, чем у традиционных поисковых систем. В 1999 г. журналы Science magazine и Forrester Research провели исследование охвата Сети ведущими на тот период времени поисковыми системами, а также сравнение областей охвата с 1998 г. Результаты этого исследования показали, что темпы роста количества информации значительно опережают темпы индексации документов поисковыми системами. Для разрешения проблемы поиска информации в Интернете можно использовать либо несколько поисковых систем, либо метапоисковые системы.

Метапоисковая система может быть реализована как в самом Интернете, например на Telnet- или веб-доступном узле, так и в виде локальной клиентской программы (URL: www.listsoft.ru, раздел «Программы-Поиск»). Не обладая собственной индексной базой данных, метапоисковая система выступает в качестве шлюза, который передает через свой интерфейс запросы на поисковые системы и возвращает результаты поиска.

Одно из назначений метапоискового сервиса при поиске состоит в тестировании Сети относительно информации, релевантной запросу [25; 26]. Метапоисковые системы позволяют также оценить результативность применения отдельных поисковых систем для решения конкретной поисковой задачи. К сожалению, для предметного поиска метасистемы пока еще плохо применимы. Проблема заключается в том, что язык запросов метапоисковой системы располагает лишь самыми общими для большинства поисковых систем и поэтому крайне скромными возможностями. Появление проекта стандарта поисковых систем SESP открывает новые перспективы в развитии метапоисковых систем, существенно расширяя их возможности.

Метапоисковые системы могут быть разработаны как самостоятельно или приобретены.

При самостоятельной разработке практически каждая крупная поисковая система предоставляет интерфейс для организации поисковой процедуры.

Среди недорогих готовых продуктов можно выделить программу Inforia Quest (URL: http:/inforia.com/quest) (рис. 2.3), признанную одной из лучших в своем классе и претендующую на роль профессионального поискового инструмента [28; 49; 69].

 

 

Рис. 2.3. Локальный метапоисковый клиент Inforia Quest

 

Рассмотрим некоторые возможности этой программы, которые позволяют показать тенденции развития метапоисковых систем последнего поколения.

Прежде всего Inforia Quest интегрирует в себе не только поисковые сервисы веб-пространства, но и другие поля информационного сектора Сети – файловые архивы FTP и систему телеконференций.

При обработке поискового запроса допускается соединение более чем со 100 поисковыми системами, включая специализированные.

Отчетная информация о найденных ресурсах отображается в рабочей области программы. Ссылки, дублирующие уже найденные, исключаются (правда, без работы по изменению коэффициентов релевантности ссылок). Полученные адреса немедленно проверяются на доступность. Есть возможность выбрать необходимые поисковые системы из полного списка, установить время проведения поиска и ограничение на число ссылок, полученных от каждого поискового сервера. Сам перечень поисковых систем, с которыми взаимодействует программа, обновляется автоматически с сервера разработчика при работе в Интернете.

Одним из достоинств программы Inforia Quest является то, что она поддерживает некоторое подобие поискового языка: работают два логических оператора и поиск по фразам. Однако всякий раз, когда язык метасистемы не в состоянии обеспечить точное построение поискового запроса, приходится прибегать к автономным сервисам Интернета, в первую очередь к поисковым системам.

Таким образом, можно сделать вывод, что возможности метапоисковых систем в будущем превзойдут возможности традиционных поисковых систем.

До недавнего времени каждая отдельная традиционная поисковая система индексировала несравненно меньший объем данных, чем тот, который учитывался при осуществлении метапоиска. Сейчас, с появлением поисковиков с глубокой индексацией Интернета (Google, AllTheWeb и др.), ситуация постепенно меняется, хотя метапоисковые системы позволяют существенно расширить зону поиска, так как они опрашивают множество баз данных.

Каждая метапоисковая система при осуществлении поиска использует базы данных традиционных поисковых систем [48; 77; 84]. В частности, четыре ведущих метапоисковых системы: MetaCrawler, Dogpile, Ixquick и Mamma – опрашивают следующие ресурсы:

– система MetaCrawler использует Alta Vista и LookSmart, а также другие базы данных (URL: www.metacrawler.com). Она сортирует и выводит результаты в соответствии с их релевантностью и исключает повторы;

– система Dogpile работает с Alta Vista, LookSmart, Yahoo! и другими базами данных. Повторы не исключаются, а результаты выводятся сгруппированными по поисковым системам;

– Ixquick – это новая, мощная и быстрая метапоисковая система. Она использует различный набор исходных баз данных для каждого запроса в зависимости от того, как те или иные поисковые системы ранжировали сайты, содержащие запрашиваемый термин.

Ixquick применяет star system (систему звездочек, или рейтинговую систему), чтобы определить наиболее релевантные результаты. Эта система работает следующим образом: за каждую поисковую систему, поместившую сайт при поиске по определенному ключевому слову в первую десятку результатов, этот сайт получает (в рамках данного запроса) одну звездочку. Таким образом, релевантность каждого конкретного сайта определяется на основе опроса множества поисковых систем, использующих различные алгоритмы поиска, и только если сайт показал высокие результаты в каждой из них;

– система Mamma считается «мамой всех поисковых систем». Она проводит поиск в LookSmart, Lycos и MSN Search. Mamma также выводит различные типы файлов в результатах поиска, включая MP3, графические и видеофайлы. Она использует все эти источники, сортируя результаты в зависимости от их релевантности, которая определяется прежде всего различным весом разных поисковых систем (например, результаты Yahoo! имеют большее значение, чем Lycos), а затем – путем оценки и ранжирования результатов, полученных из всех источников.

Существует и множество других служб и инструментов метапоиска, среди которых можно выделить Copernic, C4, Debriefing, Highway 61, ProFusion, Search.com, SearchWho, SurfWax, Verio, Vivisimo.

Качество результатов поиска метапоисковыми системами напрямую зависит от качества поиска традиционных систем. Но возможности метапоисковиков постоянно расширяются, благодаря чему число их пользователей будет расти [24; 26; 56].

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...