Главная | Обратная связь | Поможем написать вашу работу!

Средства поиска информации

Наиболее популярные способы поиска реализуются поисковыми службами Интернет (поисковыми системами). Требования к поисковым системам:

• простота интерфейса,

• полнота области поиска,

• максимальное соответствие найденной информации задаче поиска,

• эффективный учет образования новых узлов сети и постоянного обновления информации.

Для целенаправленного поиска в сети имеется большое количество информационных служб или поисковых систем. Поисковая система представляет собой специализированный веб-узел или поисковый сервер. Пользуясь поисковой системой можно получить список гиперссылок на страницы, соответствующий запросу пользователя. Существуют несколько моделей работы поисковых систем. По популярности использования следует выделить две модели – это каталоги (справочники, директории) и поисковые машины (индексы или поисковые указатели).

Поисковые каталоги. Каталоги в WWW представляют систематизированную по тематическим разделам информацию о страницах в сети. Обычно это многоуровневая классификация ссылок, построенная сверху вниз. По сути, поисковые каталоги являются предметными каталогами и аналогичны тематическим библиотечным каталогам. Они представляют собой наборы ссылок на сайты, организованные по некоторым содержательным свойствам. Иногда ссылки сопровождаются кратким описанием. Каталоги можно назвать поисковыми деревьями, так как они ветвятся по мере уточнения искомой темы. Классификация ресурсов в таких каталогах осуществляется главным образом вручную. На основной странице поискового каталога находится список крупных тематических категорий, например таких, как Компьютеры и Интернет (Computers & Internet).

Каждая запись в списке – это гиперссылка, по которой можно перейти к следующей странице поискового каталога, на котором данная тема представлена детальнее, по категориям, таким как, например: Информатика (Computer Science) или Программы (Software). Продолжая выбор темы, можно дойти до последнего уровня – списка конкретных веб-страниц, и дальше среди них выбрать подходящие ресурсы.

Следует учитывать, что поисковые каталоги создаются вручную, поэтому качество каталога зависит от работы персонала, вручную отбирающего то, что представляет достаточный интерес. Одним из крупнейших мировых каталогов является каталог Yahoo! (www.yahoo.com). Общий объем каталогизированных веб-ресурсов составляет около миллиона веб-страниц, то есть менее десятой доли процента от всех веб-ресурсов. Несмотря на такой низкий процент охвата, каталоги пользуются заслуженной популярностью.

Поисковые машины. Как указывалось выше, поисковые каталоги имеют очень низкий коэффициент охвата ресурсов WWW. И хотя во многих случаях для реферативного поиска это не критично, очень часто необходим механизм поиска актуальной, уникальной, специальной информации, которая не охвачена и не может быть охвачена поисковыми каталогами.

Для многократного увеличения охвата веб-ресурсов, процесс формирования базы данных поисковой системы необходимо автоматизировать, то есть исключить человеческий фактор. При этом значительно падает качество ссылок, предоставляемых системой по результатам поиска, но одновременно увеличивается их количество.

Разработка программных средств автоматического поиска – это сегодня одно из самых развивающихся направлений в Интернет.

Как же должна работать поисковая машина? При поиске веб-ресурсов пользователь составляет запрос на поиск с помощью ключевых слов. Поисковая система должна найти веб-страницы, соответствующие запросу. В результате пользователь должен получить гиперссылки и краткие сведения о найденных ресурсах, на основании которых можно выбрать то, что ему нужно.

Для эффективного решения задачи поиска за короткое время процесс необходимо разбить на несколько этапов. На первых этапах ведется подготовка базы данных поисковой машины. Эта работа ведется постоянно и независимо от конкретных запросов. Поисковая машина последовательно исследует все доступные узлы Интернет со всеми их связями и ответвлениями. В связи с постоянным обновлением информации машина поиска регулярно возвращается через определенный срок (порядка месяца) к уже изученным узлам, чтобы обнаружить и зарегистрировать изменения. Вся прочитанная информация индексируется, то есть создается специализированная база данных, в которой закодированы все исследованные системой страницы Интернет. При поступлении же от пользователя запроса на поиск выполняется непосредственно последний этап, на котором поисковая машина использует уже заранее индексированную информацию из собственной базы данных. Найденные документы ранжируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста, в первых параграфах) и частоты их появления в тексте.

Несмотря на схожий принцип работы, машины поиска различаются по языкам запроса, зонам поиска, глубине поиска внутри документа, методам ранжирования и приоритетов, поэтому применение разных поисковых машин дает различные результаты.

Сегодня в мире существуют тысячи поисковых машин. Можно отметить следующие зарубежные системы:

• AltaVista (www.altavista.com);

• Google (www.google.com);

• HotBot (www.hotbot.com);

• Inktomi (www.inktomi.com);

• Lycos (www.lycos.com);

• WebCrawler (www.webcrawler.com).

В России наиболее крупными и популярными поисковыми системами являются:

• Яndex (www.yandex.ru)

• Апорт (www.aport.ru)

• Рамблер (www.rambler.ru).

Работа поисковой машины обычно состоит из трех основных этапов. Два этапа являются подготовительными, а на третьем этапе происходит взаимодействие с пользователем.

На первом этапе поисковая система сканирует информационное пространство WWW. Для этого используют специальные агентские программы, обычно называемые роботами или пауками (crawlers). Эти программы работают в чем-то аналогично браузерам. Только в отличие от обычных браузеров им не надо выполнять функции просмотра и воспроизведения содержимого — их задача состоит только в том, чтобы автоматически разыскивать в Сети веб-ресурсы. Следуя по гиперссылкам, эти «пауки» «ползают» по всемирной паутине и копируют данные веб-ресурсов в свою базу данных. Также происходит обновление ранее принятых документов, но измененных за время после предыдущего копирования.

На втором этапе происходит индексация базы данных, то есть создаются специальные индексы. Это необходимо для ускорения поиска в базе данных.

Аналогично устроены и поисковые указатели (индексы). Простейший тип индекса – это словарь, в который входят все слова, встреченные при просмотре веб-ресурсов. Против каждого слова приводится список ссылок, указывающих на местоположение соответствующих ресурсов в базе данных. Поиск по ключевым словам при использовании такого индекса происходит очень быстро, так как он предварительно отсортирован по алфавиту.

На третьем этапе работы происходит рафинирование результирующего списка. Создаётся список ссылок, который будет передан пользователю в качестве результирующего. Качество работы поисковой системы во многом зависит от методов, использованных на этом этапе.

На этапе рафинирования происходит фильтрация и ранжирование результатов поиска. При фильтрации происходит отсев ссылок, которые выдавать нецелесообразно. Прежде всего, проверяется наличие дубликатов. На первых двух этапах поисковая машина находит множество ссылок, ведущих к одному и тому же веб-ресурсу. Дублирующиеся ссылки перегружают результирующий список и затрудняют пользователю выбор полезных ресурсов. Затем выполняется ранжирование. При ранжировании происходит упорядочивание результирующего списка, при котором наиболее полезные (с точки зрения поисковой системы) ссылки приводятся в начале списка, а наименее полезные – в его конце. Критерий полезности для клиента той или иной ссылки может быть самым разнообразным. Именно поэтому разные поисковые системы, даже работающие с одинаковыми базами ресурсов, выдают разные результаты поиска.

При ранжировании учитывается количество появлений ключевых слов в веб-документе. Большую полезность могут иметь те документы, в которых искомое слово появляется достаточно часто в начале документа, в его первых 5-10 абзацах. Также считается полезным, когда ключевые слова встречаются в заголовках документа и в подрисуночных подписях.

Имеются и другие специальные методы ранжирования. Среди них наиболее распространенным является использование количества ссылок с других веб-страниц. При этом еще на этапе индексации высокий рейтинг могут получать те страницы, на которые имеется больше ссылок. Этот метод использует оценку более высокой важности тех документов, которые чаще цитируются.

Но главная объективная трудность поисковых машин обусловлена бурным развитием информационного пространства Интернет. На ранних этапах коэффициент охвата веб-ресурсов поисковыми системами достигал 50%. В 1994 г. количество веб-ресурсов составляло около 100 млн. веб-страниц, из которых десятки миллионов были проиндексированы. В дальнейшем коэффициент охвата продолжал падать, и в 2000г. не превышал 20%. В 2002 г. лидер среди поисковых машин – Google в своей базе содержала 1,25 млрд. страниц проиндексированной информации. Общее количество веб-страниц в Интернет на этот момент оценивалось примерно в 10 млрд. А уже в 2008 году Google проиндексировал 1 триллион страниц.[36]

Количество поисковых серверов Google составляет десятки тысяч компьютеров, а в 2010г превысило 100 000[37].

Существуют средства поиска, которые позволяют усовершенствовать процесс путем запуска одновременно нескольких средств поиска. Это так называемый мета-поиск (или внешний поиск), который повышает качество поиска, объединяя достоинства и возможности всех используемых средств. При этой технологии подключаются сразу несколько поисковых машин, которым одновременно отправляется запрос. Получив результаты от различных систем, метапоисковая система их группирует и удаляет повторения в результатах поиска.

В качестве примера метапоисковой системы можно привести MetaCrawler (www.metacrawler.com), которая подключает 9 поисковых систем одновременно или NIGMA (www.nigma.ru, разработка ВМК МГУ).

Кроме поиска документов в WWW часто бывает необходимо найти какой-либо конкретный файл. При этом зачастую требуется информация, расположенная не на вебсайте, а размещенная на FTP-сервере. Для подобной работы существуют свои специализированные серверы. Многие поисковые машины умеют осуществлять поиск в телеконференциях и среди различных файлов. Например, упоминавшийся ранее крупнейший поисковик Fast Search (www.alltheweb.com) позволяет осуществлять поиск на FTP-серверах и в новостных группах, а также с успехом выводит отдельные списки по MP3-файлам, картинкам и видеоклипам.

Очень часто поисковые каталоги и индексирующие поисковые сервера интегрируются, предоставляя и тот, и другой сервис.

Рассмотрим методику поиска в Интернет.

Познакомившись с основными типами поисковых систем, важно научиться использовать их возможности в конкретных случаях поиска необходимой информации. При первичном, реферативном поиске рекомендуется пользоваться каталогами. При этом, как правило, удается найти несколько источников, в той или иной мере содержащих полезные сведения. Ознакомившись с их содержанием можно уточнить основные понятия и термины и подобрать набор ключевых слов, характеризующих задачу, для более углубленного поиска. Кроме того, многие сайты, найденные в каталогах, содержат списки ссылок по рассматриваемой теме, что помогает в дальнейшем поиске.

При более конкретном, углубленном поиске используют поисковые машины, которым надо сформулировать запрос, наиболее точно характеризующий тему. Запрос составляется с использованием ключевых слов. Следует различать приемы простого, расширенного, контекстного и специального поиска.

При простом поиске задается одно или несколько ключевых слов. Недостатком простого поиска является то, что обычно он выдает слишком много документов, среди которых трудно выбрать наиболее подходящие.

При расширенном поиске ключевые слова связывают между собой операторами логических отношений. Расширенный поиск применяют в тех случаях, когда приемы простого поиска дают слишком много результатов. С помощью логических отношений поисковое задание формируют так, чтобы более точно детализировать задание и ограничить область отбора, например по дате публикации или по типу данных. Для использования расширенного поиска или применяют специальный язык запросов данной поисковой машины, или специальную форму, позволяющую задать нужные условия.

При контекстном поиске задается точная фраза, которую надо найти. Этот вид поиска информации часто удобен, но доступен далеко не во всех поисковых системах. Чтобы обеспечивать такую возможность, система должна работать не только с индексированными файлами, но и с полноценными образами веб-страниц. Эта операция достаточно медленная, и ее выполняют не все поисковые системы.

При специальном поиске ищут заданные адреса URL, а также данные, содержащиеся в служебных полях, например в поле заголовка.

Языки запросов

Обычно запрос формулируется на естественном языке. Это означает, что будут искаться не только точные вхождения заданных в запросе слов, а и все близкие по смыслу. На сервере Яndex так говорится об этом:

Например, если задан запрос «идти», то в результате поиска будут найдены ссылки на документы, содержащие слова: «идти», «идет», «шел», «шла» и т.д. На запрос «окно» будет выдана информация, содержащая и слово «окон», а на запрос «отзывали» – документы, содержащие слово «отозвали».

Поисковые серверы часто предлагают пользователю специальный язык запросов, который позволяют точнее находить необходимые документы. Если такая возможность предусмотрена, на сервере представлено описание языка запросов.

Языки запросов различных поисковых систем не совпадают.

Если обобщить языки запроса различных систем поиска, можно выделить следующие общие функции:

Операторы булевой алгебры AND, OR, NOT и оператор близости NEAR, FOLLOWED BY- заданный порядок, ADJ – смежные термины, «*» - возможност ь усечения терминов:

Учет морфологии языка – машина автоматически учитывает все формы данного термина, возможные в языке, на котором ведется поиск.

Возможность поиска по словосочетанию, фразе.

Ограничение поиска элементом документа (слова запроса должны находиться именно в заголовке, первом абзаце, ссылках и т.д.).

Ограничения по дате опубликования документа.

Ограничения на количество совпадений терминов.

Возможность поиска графических изображений.

Чувствительность к строчным и прописным буквам.

Так, например, на сервере Яndex для использования языка запросов необходимо на стандартной поисковой странице установить флажок «строгий поиск (с языком запросов)», иначе символы этого языка будут игнорироваться при запросе. Основные операторы языка запросов Яndex приведены в табл. 9.3.11.

Таблица 9.3.11

Операторы языка запросов Яndex

Оператор	Что означает	Пример
пробел или &	логическое И (в пределах предложения)	лечебная физкультура
&&	логическое И (в пределах документа)	рецепты && (плавленый сыр)
\|	логическое ИЛИ	фото \| фотография \| снимок \| фотоизображение
+	обязательное наличие слова в найденном документе	+быть или +не быть
()	группирование слов	(технология \| изготовление) (сыра \| творога)
" "	поиск фразы	"красная шапочка"

Некоторые поисковые системы предлагают вместо языка запросов использовать поисковую форму. Поисковая форма Яndex представлена на рис. 9.3.12.

Рис 9.3.12. Поисковая форма Яndex

Контрольные вопросы.

1. Приведите понятие и виды компьютерных сетей.

2. Охарактеризуйте топологию локальных сетей и виды сетевого оборудования.

3. Опишите порядок обмена сообщениями в локальной сети.

4. Раскройте понятие сети Internet как информационной среды.

5. Приведите определение понятия сайта.

6. Какова логическая и физическая структура Internet?

7. Охарактеризуйте протокол TCP/IP.

8. Раскройте содержание понятий «гипертекстовая технология WWW», «язык HTML», «Web – страница».

9. Какая адресация принята в сети Internet? Для чего предназначена доменная система имен?

10..Приведите характеристику обозревателя Microsoft Internet Explorer и способов его настройки.

11. Опишите порядок доступа к сети Internet.

12. Приведите классификацию информационных ресурсов Интернета

13. Какие существуют средства поиска информации в Интернете.

14. Охарактеризуйте основные поисковые системы и язык запросов.

Практикум

⇐ Предыдущая 1 2 34

Воспользуйтесь поиском по сайту: