Основные сервисы Google.
Информационно-поисковая система Rambler
Система – множество связанных друг с другом элементов некоторого вполне определенного множества (некоторых определенных множеств), образующих целостный объект при условии задания для этих объектов и отношений между ними некоторой цели и некоторых ресурсов для достижения этой цели. В качестве примеров системы могут выступать: электронная почта, операционная система компьютера, телевидение, система высшего профессионального образования, информационно- поисковая система. Информационно- поисковая система – система, предназначенная для поиска документов в информационных массивах, базах данных и всей совокупности информационных ресурсов. Ниже приведен список наиболее популярных поисковых систем: AltaVista (www.altavista.com) Google (www.google.com) InfoSeek (www.infoseek.com) Lycos (www.lycos.com) Microsoft (www.search.msn.com) Yahoo (www.yahoo.com) Апорт (www.aport.com) Rambler (www.rambler.ru) Яndех (www.yandex.ru) Цель данной работы – изучить назначение, механизм работы, функции одной из популярных российских поисковых систем —Google; выделить в ней подсистемы, одну из которых рассмотреть детально; определить достоинства и недостатки системы в целом. Google появился сравнительно недавно, в 1998 г. Его создатели, сотрудники Стенфордского университета (США) Сергей Брин и Лоуренс Пейдж, постарались сделать его механизм более гибким и расширяемым, чем существовавшие на то время у грандов поиска - Аltavista и Inktomi. На данный момент Google и Fast (еще одна ИПС, www.alltheweb.com) имеют самый большой объем проиндексированных страниц - более двух миллиардов (данные на июль 2002 г.). Речь идет не только о собственно html- и xml-документах, но и pdf, doc и даже флэш-анимации. Причем только Google, в отличие от других иностранных ИПС (мы не рассматриваем "Яндекс", "Рамблер> и <Апорт>), хорошо индексирует русскоязычные Web-ресурсы в зоне.ru.
Хотя корпорация была основана 2 сентября 1998 года, а домен Google.com зарегистрирован 15 сентября 1997 года, поисковик (с 2000 года) иногда отмечает свой день рождения и в другой день: как 7, так и 27 сентября. Название Google произошло от намеренно искажённого Сергеем Брином слова Гугол (Googol), которое означает «десять в сотой степени» — 10100. Успех компании Google состоит из трех основных слагаемых: Первый – прекрасный релевантный алгоритм поиска. В отличие от многих поисковых систем Google не применяет программы, имеющие механизм мета поиска. Поисковая система гугл проводит анализ каждой интернет страницы, местонахождение всех заданных слов и шрифта. Когда происходит запрос фразы, которая несет смысловую нагрузку, Google выдается ссылка на главную страницу ресурса по указанной теме, а не только на те статьи, где из текста запроса есть какие-то слова. Третье – поисковая система Google является некоммерческим проектом. Никогда реклама не была основным его источником доходов, даже создавался данный проект без какого-либо бизнес-плана. Вся его реклама очень ненавязчивая.
Рисунок 1 - Информационно-поисковая система Google. Основные сервисы Google. • Вопросы и ответы – сервис, предназначенный для коллективного получения ответов на различные вопросы.
Кроме этого, есть еще масса сервисов Google, например, карта Луны, карта Марса, персональные галереи фотографий, история поисковых запросов каждого пользователя, инструменты для веб-мастеров и целый ряд других. Наряду с этим, есть также и специальные сервисы Google, которые являются полезными и интересными пользователям. Теперь более подробно рассмотрим схему функционирования информационно-поисковой системы Google. Всю основную работу по просеиванию сквозь себя содержимого Сети выполняют Интернет-роботы (боты, crawlers). Каждый из них берет один адрес (URL, uniform resource locator; каждый URL соответствует определенному идентификатору документа) из базы данных URL-сервера, скачивает и передает содержимое странички на сервер хранения документов (рис. 2). Необходимо отметить, что все содержимое сервера хранится в заархивированном виде для увеличения его вместимости. Рис. 2. Структура информационно-поисковой системы Google Другая программа - индексатор - занимается тем, что разлагает текст документа на составляющие его слова (хит в терминологии Google), запоминая при этом местонахождение, шрифтовой вес, а также написано ли слово заглавными или строчными буквами и принадлежит ли оно к категории <особенных> (названия документов, метатеги, URL'ы и тексты ссылок). Вся эта информация складывается в набор контейнеров, именуемых на рисунке прямым индексом. Структура хранимых в нем данных выглядит следующим образом (рис. 3). Рис. 3. Структура прямого индекса (doc_id - идентификатор документа; word_id - идентификатор слова; null_word - символ окончания документа; n_hits - частота, с которой слово встречается в документе) Идентификаторы слов берутся из словаря, который постоянно пополняется. Одновременно с этим индексатор просматривает содержимое тегов <a></a> и проверяет корректность всех ссылок в службе разрешения имен DNS (domain name service). Если ему встретился URL, которого нет в базе данных по doc_id, он пополняет не только ее, но и коллекцию ссылок. В дальнейшем этот Интернет-адрес попадает в URL-сервер и круг замыкается. Система поиска новых документов, при условии, что на них хоть кто-нибудь ссылается, становится самодостаточной - она сама себя подпитывает.
Но каким образом ИПС узнает о новых Web-ресурсах, которых еще никто не успел посетить? Для разрешения этой проблемы разработчики предусмотрели ручную форму регистрации ресурсов в поисковой системе. Введенные в нее адреса после проверки на корректность также попадают в URL-сервер. Заметим, что каждая из программ, обозначенных на рис. 1 эллипсом, работает независимо от других, причем аппаратные конфигурации серверов и рабочих станций, на которых функционирует <движок> Google, выбираются так, чтоб не создавать <пробок> при обработке информации, собранной Интернет-роботами. Описанная выше структура прямого индекса не очень удобна при поиске документов на основании встречающихся в них слов (пользователь задает слово или словосочетание, а система должна найти подходящий документ). Чтобы решить эту проблему, был введен так называемый инверсный, или обратный, индекс (рис. 4). В нем любому слову из словаря соответствует набор doc_id-документов, в которых это слово встречается. Работой по постоянному формированию инверсного индекса занимаются сортировщики. Так как, во-первых, всегда появляются новые документы и, во-вторых, обновляются старые, индекс приходится постоянно перестраивать. Рис. 4. Структура инверсного индекса (word_id - идентификатор слова; ndocs - количество документов с этим словом; doc_id - идентификатор документа; n_hits - частота, с которой слово встречается в документе) Пусть от пользователя поступил запрос найти документы со словом <мухобойка>. Программа, формирующая ответы, посмотрит в словарь, найдет там word_id для <мухобойки>, сформирует запрос в базу данных с использованием инверсного индекса и получит набор документов, в которых это слово встречается. Далее на основании PageRank, количества хитов, их качества и, может быть, других ограничений и приоритетов разработчиков будут распределены порядковые номера страниц в выходном списке. В итоге Интернет-пользователь получит самую оптимальную, по мнению ИПС, информацию о том, где и что писали о правилах и способах мухоубийства. Полнота - это одна из основных характеристик поисковой системы, которая представляет собой отношение количества найденных по запросу документов к общему числу документов в Интернете, удовлетворяющих данному запросу.
Точность - еще одна основная характеристика поисковой машины, которая определяется как степень соответствия найденных документов запросу пользователя. Огромную роль в повышении точности поиска играет ранжирование. Google использует алгоритм расчёта авторитетности PageRank. PageRank — это числовая величина, характеризующая «важность» веб-страницы. Чем больше ссылок на страницу, тем она становится «важнее». Кроме того, «вес» страницы А определяется весом ссылки, передаваемой страницей B. Таким образом, PageRank — это метод вычисления веса страницы путём подсчёта важности ссылок на неё. PageRank является одним из вспомогательных факторов при ранжировании сайтов в результатах поиска. PageRank не единственный, но очень важный способ определения положения сайта в результатах поиска Google. Google использует показатель PageRank найденных по запросу страниц, чтобы определить порядок выдачи этих страниц посетителю в результатах поиска. Скорость поиска тесно связана с его устойчивостью к нагрузкам. Сегодня Google представляет обновленный интерфейс и функционал поиска. Живой поиск Google сразу показывает результаты поиска по мере того, как вы вводите запрос. Благодаря живому поиску пользователь сможет сэкономить от 2 до 5 секунд на каждом запросе. Главное отличие Живого поиска от обычного заключается в том, что получить нужную информацию можно гораздо быстрее, так как необязательно вводить весь запрос и даже нажимать Enter. Кроме того, в Живом поиске видны результаты прямо при вводе текста. Преимущества живого поиска: Более быстрый поиск. В Живом поиске вы получаете результаты непосредственно при вводе текста, что позволяет экономить от 2 до 5 секунд при каждом запросе. Более точные подсказки. Даже если вы не уверены, как сформулировать запрос, система подсказок поможет вам найти нужные слова. При этом лучшая подсказка появится прямо в строке поиска (выделяется серым цветом), и если она подойдет, вам даже не придется вводить весь запрос – результаты уже будут на экране. Мгновенные результаты. Раньше приходилось сначала указывать ключевое слово, после этого нажимать Enter, а затем ждать результаты. Теперь вы видите результаты еще при вводе запроса и можете сразу менять направление поиска. Наглядность представления результатов является необходимым компонентом удобного поиска. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. Вследствие нечеткости запросов или неточности поиска, даже первые страницы не всегда содержат только нужную информацию. Это означает, что пользователю часто приходится проводить свой собственный поиск внутри списка найденного. Различные элементы ответной страницы помогают ориентироваться в результатах поиска. Человек, который попадет на сайт поисковой системы Google первый раз, удивится тому, насколько чистое окно, где, кроме поиска, нет ничего лишнего. Как лучше искать в Google: Говорят что правильно заданный вопрос это половина ответа. Одной из самых важных состовляющих поиска – релевантность: полнота и точность. Поисковик оценивает не только сам факт нахождения слов в тексте, но и их порядок, структуру и местонахождение, что влияет на рейтинг страниц. Страница на которой искомое слово в заголовке будет иметь больший рейтинг чем страница на которой это слово в тексте. При отображении количество ссылок на эту страницу в и-нете также будет влиять на рейтинг. При запросе на поиск двух и более слов поисковик выдает вам результаты в которых есть хотя бы 1 из этих слов. Возьмем к примеру скриншот №1. Скачать песню queen – we will rock you -197 результатов. Придется убить всю ночь на просмотр всех. Но есть способ сократить ненужные вам результаты Если взять искомую фразу в кавычки то поисковик будет искать не одно из слов, а только эти 3 слова и только в заданной последовательности. Результат — 10 страниц. 197 и 10 — есть разница? Так же гугл можно использовать вместо калькулятора, просто введите числа и знаки: /,*,-,+. Чтобы высчитать процент введите 13% of 333. Так же есть конвертер валют. Работает по такому принципу, нужно вводить названия валют на англ. Например: 47RUB in USD. Актуальность – очень важная характеристика поиска, которая определяется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу. Для поисковиков очень важна актуальность информации. Не случайно, если вы наберете в поиске по картинкам Google запрос чемпионат мира, поисковик выдаст события в картинках в хронологическом порядке. Это можно использовать для своих целей, регулярно обновляя и наращивая визуальный контент сайта. Чтобы выделить основные достоинства и недостатки информационно-поисковой системы Google необходимо представить ее в сравнении с другими поисковыми системами. Для этого следует определить степень схожести структур поисковых запросов к крупнейшим российским поисковым системам (Яндекс, Rambler, Google); определить процент транзакционных («продающих») запросов от общего числа поисковых запросов к поисковой системе; определить процент пересечения поисковых запросов, в исследуемых поисковых системах.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|