Информационно-поисковая система Rambler
Стр 1 из 2Следующая ⇒
Система – множество связанных друг с другом элементов некоторого вполне определенного множества (некоторых определенных множеств), образующих целостный объект при условии задания для этих объектов и отношений между ними некоторой цели и некоторых ресурсов для достижения этой цели. В качестве примеров системы могут выступать: электронная почта, операционная система компьютера, телевидение, система высшего профессионального образования, информационно- поисковая система. Информационно- поисковая система – система, предназначенная для поиска документов в информационных массивах, базах данных и всей совокупности информационных ресурсов. Ниже приведен список наиболее популярных поисковых систем: - AltaVista (www.altavista.com) - Google (www.google.com) - InfoSeek (www.infoseek.com) - Lycos (www.lycos.com) - Microsoft (www.search.msn.com) - Yahoo (www.yahoo.com) - Апорт (www.aport.com) - Rambler (www.rambler.ru) - Яndех (www.yandex.ru) Цель данной работы – изучить назначение, механизм работы, функции одной из популярных российских поисковых систем — Rambler; выделить в ней подсистемы, одну из которых рассмотреть детально; определить достоинства и недостатки системы в целом. История поисковика Rambler начинается в 1991 году в городке Пущено Московской области. Именно там группой единомышленников была создана компания "Стек", которую возглавил Сергей Лысаков. Занималась компания локальными сетями и подключением к Интернету. Уже в 1996 году, Сергей Лысаков и программист Дмитрий Крюков приняли решение разработать первую русскую поисковую систему для Интернета. Дмитрий Крюков придумал название проекту - Rambler. В переводе Rambler означает "скиталец, странник, бродяга", что созвучно с принципом работы робота поисковика.
26 сентября 2006 года было зарегистрирован домен rambler.ru и уже 8 октября компания "Стек" активизировала систему. Рассматривая поисковую систему Rambler, исходя из содержания понятия «система», следует отметить, что Rambler.ru уже давно вырос от поисковой машины до огромного портала, полный список сервисов которого насчитывает несколько десятков наименований. Ниже перечислены самые популярные:
- Поиск http://www.rambler.ru - Rambler’s Top 100 top100.rambler.ru. Тематический рейтинг посещаемости сайтов с подробной статистикой. - Rambler-Почта mail.rambler.ru. - Rambler-ftp (Поиск файлов) http://ftpsearch.rambler.ru. Обычные поисковые системы ходят не по всему Интернету, а только по той его части, которая работает по протоколу HTTP. Но большое количество информации хранится не в виде веб-страниц, а в виде файлов на FTP-сайтах общего доступа. Это изображения, музыка, видео, программы и многое другое. Для поиска таких файлов и предназначен Rambler-ftp. - Руметрика rumetrika.rambler.ru. Активность пользователей, география пользователей, интересы пользователей, статистика поиска, тематический состав Рунета. - Rambler-Словари - перевод слов. Русский, английский, немецкий языки. - Rambler-Планета дает возможность завести свой дневник на Rambler. - Рамблер-Знакомства - поиск друзей и спутников жизни. - Rambler-Группы - он-лайн общение на разные темы. - Rambler-Фото - личные архивы цифровых фотографий. - Rambler-Открытки - виртуальные поздравления на все случаи жизни. - Rambler-ТВ - программа телепередач по регионам. - Rambler -Гороскопы - астрология, феншуй, камни, сонник, гадания. - 8181 - мелодии, картинки, игры для мобильных телефонов. - Rambler - Игры - флеш-игры, shareware, большие онлайн-игры. - Rambler ICQ - обмен мгновенными сообщениями.
Поисковая система Rambler состоит из двух частей: Первая часть является роботом, который может получать адреса документов через прокси-сервер или непосредственно с указанного узла, индексирует содержание документа и помещает результаты этого индексирования в базу данных.
Робот может рекурсивно сканировать определенные хосты. Он поддерживает стандартный механизм исключения роботов через файлы ROBOTS.TXT. Робот Rambler самостоятельно посещает только сайты, расположенные в национальных доменах первого уровня: - Российская Федерация:.ru,.su - Украина:.ua - Белоруссия:.by - Казахстан:.kz - Киргизия:.kg - Узбекистан:.uz - Грузия:.ge Робот сканирует страницы сайта в течение суток с момента регистрации (или нахождения ресурса). При этом он сразу же обходит сайт на некоторую глубину (сканирует страницы, на которые ссылается зарегистрированная страница). Скачанные роботом страницы появляются в поисковой базе с некоторой задержкой. Переиндексация полученных документов производится с интервалом приблизительно в две недели. Второй частью Rambler является собственно сама поисковая система по серверам России и стран СНГ, содержащая миллионы документов с более чем 15,000 сайтов (имен DNS). Поисковая система Rambler поддерживает различные логические операции между словами, а также усечения слов с помощью метасимволов. Пользователь может определить выходной формат документов, максимальное количество результатов поиска и т. д. Полнота - это одна из основных характеристик поисковой системы, которая представляет собой отношение количества найденных по запросу документов к общему числу документов в Интернете, удовлетворяющих данному запросу. Точность - еще одна основная характеристика поисковой машины, которая определяется как степень соответствия найденных документов запросу пользователя. Огромную роль в повышении точности поиска играет ранжирование. По умолчанию в Rambler результаты ранжируются по степени соответствия запросу (релевантности) и группируются по сайтам. При ранжировании оцениваются различные характеристики текстов, такие как: - количество вхождений слов (словосочетаний); - расположение слов запроса в документе; - формы слов запроса - преимущество отдается вхождениям, в которых слова имеют тот же падеж, число, склонение и т.д.; - относительная частота (отношение количества вхождений слов запроса в документ к общему количеству слов в документе);
- расстояние между словами запроса - преимущество отдается документам, в которых слова запроса находятся ближе друг к другу, потому что в этом случае они с большей вероятностью связаны между собой. - посещаемость документа - преимущество отдается более посещаемым ресурсам. - ссылочный вес документа, рассчитанный на основании учета гиперссылок, содержащих слова запроса. Скорость поиска тесно связана с его устойчивостью к нагрузкам. На сегодняшний день в рабочие часы к поисковой машине Rambler приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель хочет получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих. Наглядность представления результатов является необходимым компонентом удобного поиска. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. Вследствие нечеткости запросов или неточности поиска, даже первые страницы не всегда содержат только нужную информацию. Это означает, что пользователю часто приходится проводить свой собственный поиск внутри списка найденного. Различные элементы ответной страницы помогают ориентироваться в результатах поиска. Ассоциации представляют собой список запросов, которые часто подаются пользователями в течение одной поисковой сессии. Алгоритм построения ассоциаций устроен так, что они почти всегда связаны между собой по смыслу. На рисунке 1 представлена главная страница информационно-поисковой системы Rambler.
Рисунок 1 - Информационно-поисковая система Rambler. Интерфейс у Rambler простой и понятный - в центре экрана находится поле ввода и кнопки - "Найти" и "Расширенный поиск", с их помощью можно начать поиск по запросу и перейти к расширенному поиску. Слева несколько ссылок позволяют перейти к справочной информации, ссылки вверху страницы позволяют сменить кодировку для русского текста. На странице результатов поиска Rambler выводит исчерпывающую информацию по каждому результату - ссылка, название страницы, размер страницы, кодировка, контекст в котором встречается слово и процент релевантности. Кроме того, выводится количество результатов для всех частичных поисков (совпадение 1 слова), нажав на соответствующую ссылку эти результаты можно просмотреть. Средства для сложного поиска на Rambler довольно многообразны - Rambler является лучшим кандидатом на звание "Русская Альтависта".
Чтобы Rambler находил нужные документы необходимо соблюдать следующие правила: 1. размер документа для роботов Rambler составляет максимум 200 килобайт. Документы большего размера усекаются до указанной величины; 2. первые несколько позиций (до пяти) в результатах поиска отданы сайтам, зарегистрированных в Top100. Поисковая машина и рейтинг Rambler Тор100 независимые системы, и регистрация в них производится раздельно; 3. необходимо следить за соблюдением русско-латинского регистров. Ошибочно вместо русской буквы 'р' использовать латинскую 'p', вместо русского 'с' - латинское 'c'; 4. не следует использовать невидимый текст (в котором цвет шрифта совпадает с цветом фона). На результат поиска это не отразится; 5. комментарии в документе робот Rambler тоже не сканирует, поэтому используйте их по прямому назначению; 6. целесообразно базовые понятия и ключевые для данного сайта слова включать в следующие HTML-теги. Ниже расположены теги в порядке значимости: <title> <h1>...<h4> <b>, <strong>, <u> 7. заполняя поля мета тег "Название сайта" и "Описание" не следует вводить в них длинные перечни ключевых слов, так как при сканировании игнорируются поля <meta name="keywords"...> и все другие по-ля <meta...>, кроме <meta name="robots"...>; 8. ссылки типа <a href=".../imagemap..."> обрабатываются, однако рекомендуется поместить в текст документа конструкцию <map name="name">. Это ускорит индексацию документов; 9. записи типа: <a href="directory"...> и <a href="directory/"...> ("слэш" в конце href) с точки зрения HTML являются разными ссылками. При запросе по первой ссылке робот получит редирект на вторую, а значит, извлечет сам документ при обращении к вашему серверу только на следующем проходе. Тем самым замедляется индексация сайта; 10. не индексируются части HTML, размеченные тегами <script...>...</script> и Macromedia Flash; 11. части документа, не требующие индексации, могут отделяться в документе с помощью тегов <noindex>... </noindex>. Из частей документа, размеченных этими тегами, также не будут выделены ссылки для дальнейшего обхода; 12. исключить страницу из списка индексируемых можно с помощью стандартного для Http механизма - посредством файла robots.txt в головной директории вашего сайта или HTML-тега <meta name="robots"...>.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|