Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Поиск по странам и регионам.




В некоторых поисковых машинах предусмотрена опция "поиск по странам" и "поиск по регионам". Для этого пользователь в специальном поле формы запроса пишет (или выбирает) название страны и региона. В этом случае ответы на запрос "фильтруются" по Интернет-адресам серверов, расположенных в данном регионе.

Поиск по типам файлов (фильтр).

Некоторые поисковые системы предоставляют услугу фильтрации содержимого по типу файлов. Так, по умолчанию поиск ведется только по Веб-страницам (html-файлам). При включении этого фильтра также будет осуществляться поиск в файлах формата Adobe Acrobat (.pdf), Microsoft Word (.doc), Microsoft Excel (.xls), Microsoft PowerPoint (.ppt) и Macromedia Flash (.swf). Необходимо только учесть, что проиндексированного содержимого этих файлов гораздо меньше, чем HTML, поэтому, если поиск с использованием этого фильтра даст отрицательный результат, это не значит, что таких фрагментов в этих файлах нет - скорее всего, их просто нет в индексе.

Поиск по дате модификации файла.

Встроенный фильтр некоторых поисковых систем позволяет проверять и выбраковывать веб-страницы, закаченные на веб-сервер раньше или позже определенных дат. Этим фильтром можно отсечь "мертвые", давно не обновляющиеся страницы.

Фильтр по размеру файлов.

Этот фильтр позволяет отсечь слишком малые (меньше 1 Кб) или слишком большие файлы или веб-страницы.

Примечание. Этот фильтр применим только к файлам, но не к каталогам.

Поиск по "зеркалам".

По умолчанию поисковая система ищет только оригинальные страницы, а не их копии на других веб-сайтах (так называемых "зеркалах", "mirror" по-английски). Чтобы система не игнорировала зеркала, необходимо включить эту опцию.

Обработка регистров букв в запросе.

В общем случае регистр написания букв в поисковых словах и операторах значения не имеет. То есть такие слова, как конь и КОНЬ, and и aND воспринимаются поисковыми системами как одинаковые. Однако, в некоторых поисковых системах, с целью повышения качества поиска, регистр слов в запросе принимае6тся во внимание. Прежде всего, это касается обработки имен собственных.

Например, если запрос в Рамблере состоит из двух, трех или четырех слов, каждое из которых начинается с прописной буквы, то эти слова считаются именами собственными. Поисковая система автоматически производит изменение ограничения расстояния между словами запроса со значения по умолчанию на величину (n-1)*2, где n - количество слов в запросе. Это позволяет находить группу слов запроса, внутри которого есть не более одного "лишнего" слова или знака препинания, например: "Николай Гаврилович Чернышевский", "Л.Н. Толстой", "Ростов на Дону".

Кавычки

Для поиска цитат можно использовать двойные кавычки. Слова запроса, заключенного в двойные кавычки, ищутся в документах в тех форматах и в том порядке, в котором они встретились в запросе.

Следовательно, двойные кавычки можно использовать и просто для нахождения слова в заданной форме (по умолчанию слова находятся во всех морфологических формах).

Морфология.

По каждому слову запроса ведется поиск с учетом правил словообразования и морфологии соответствующего языка. Например, при поиске по слову "человек" будут найдены документы, содержащие слова "человеку", "человеком", "человека", и даже "люди". Чтобы произвести поиск только по одной определенной форме слова, нужно взять его в двойные кавычки, или воспользоваться поиском точной фразы в расширенном поиске.

Рамблер понимает и различает слова русского и английского языков.

Стоп-слова

Некоторые слова и символы по умолчанию исключаются из запроса в связи с их малой информативностью. Это так называемые стоп-слова самые частотные слова русского и английского языка: предлоги, частицы, союзы и артикли. Присутствие этих слов может замедлить поиск и негативно повлиять на полноту результатов. Если необходимо все-таки включить эти слова в поиск, используйте двойные кавычки.

Ненайденные слова.

Если запрос в Рамблере состоит из нескольких слов, и при этом некоторые из них вообще не удалось найти, то выдаются результаты поиска по частичному запросу. Из этого результата частичного поиска исключаются отсутствующие слова. При этом на странице результатов поиска выдается соответствующая диагностика.

Ограничение расстояния.

Если запрос был составлен из двух или нескольких слов без применения операторов и конструкций языка запросов, то будут найдены документы, в которых встречаются все слова запроса (Rambler). При этом для каждого запроса всегда существует так называемое ограничение контекста - положительное число, по умолчанию равное расстоянию в 40 слов. Документ, в котором встречаются все слова запроса, будет выдан только в том случае, если расстояния в словах между вхождениями этих слов запроса будет меньше этого числа. Например, по запросу: "красная армия" будут найдены те документы, в которых слова "красная" и "армия" будут хотя бы один раз меньше, чем в 40 словах друг от друга.

Значение ограничения контекста можно изменять конструкцией "(число, запрос)", где число - любое положительное число, а запрос - любой корректный с точки зрения поисковой машины запрос, состоящий более чем из одного слова. Таким образом, по запросу "(2, красная армия)" найдутся только те документы, в которых между словами "красная" и "армия" хотя бы раз не стоит ни одного слова (поскольку лишь в случае их непосредственного соседства разница в порядковых номерах слов меньше двух, то есть равно единице).

Язык запроса.

Как Вы, может быть, догадываетесь, поисковые системы физически не могут создавать индексы на всех языках. Все поисковые системы имеют "национальную" составляющую. Какие-то из поисковых систем ищут тексты только на английском языке (Yahoo.Com, Alta Vista.Com), какие-то на русском и английском (Рамблер), некоторые индексируют страницы на нескольких языках. Например, поисковая система Яндекс способна индексировать файлы на русском, английском, немецком, французском, украинском и белорусском языках. Особняком среди этих поисковых систем стоит Google: базовый ее сервер (www.google.com) индексирует файлы на английском языке, а национальные серверы (www.google.de, www.google.fr, www.google.ru) - на своих национальных языках. Все индексные базы находятся в одной глобальной сети, поэтому, можно сказать, что Google - одна из немногих поисковых систем, которая ищет сразу на всех языках в сети.

B.4.2. Российские поисковые машины.

B.4.2.1. Яндекс.

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...