Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Задачи информационного поиска

Практическая работа № 4

Тема: «Поиск информации»

Цель работы: сформировать навыки поиска информации в тексте и в файловых структурах путем формирования различных запросов, средствами текстового процессора, по ключевым словам, подходящим для решения конкретной задачи.

Оборудование, приборы, аппаратура, материалы: персональный компьютер с выходом в Интернет.

Теоретическая часть

Информационный поиск (англ. information retrieval) — процесс поиска неструктурированной документальной информации, удовлетворяющей информационные потребности, и наука об этом поиске.

Сначала системы автоматизированного ИП, или информационно-поисковые системы (ИПС), использовались лишь для поиска научной информации и литературы. Многие университеты и публичные библиотеки стали использовать ИПС для обеспечения доступа к книгам, журналам и другим документам. Широкое распространение ИПС получили с появлением сети Интернет и развитием Всемирной паутины. У русскоязычных пользователей наибольшей популярностью пользуются поисковые системыЯндекс, Google и Mail.Ru.

Поиск информации представляет собой процесс выявления в некотором множестве документов (текстов) всех тех, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты, сведения, данные.

Процесс поиска включает последовательность операций, направленных на сбор, обработку и предоставление информации.

В общем случае поиск информации состоит из четырех этапов:

· определение (уточнение) информационной потребности и формулировка информационного запроса;

· определение совокупности возможных держателей информационных массивов (источников);

· извлечение информации из выявленных информационных массивов;

· ознакомление с полученной информацией и оценка результатов поиска.

Виды поиска

1. Полнотекстовый поиск — поиск по всему содержимому документа. Пример полнотекстового поиска — любой интернет-поисковик, например www.yandex.ru, www.google.com. Как правило, полнотекстовый поиск для ускорения поиска использует предварительно построенные индексы. Наиболее распространенной технологией для индексов полнотекстового поиска являются инвертированные индексы.

2. Поиск по метаданным — это поиск по неким атрибутам документа, поддерживаемым системой — название документа, дата создания, размер, автор и т. д. Пример поиска по реквизитам — диалог поиска в файловой системе (например, MS Windows).

3. Поиск изображений — поиск по содержанию изображения. Поисковая система распознает содержание фотографии (загружена пользователем или добавлен URL изображения). В результатах поиска пользователь получает похожие изображения. Так работают поисковые системы: Polar Rose, Picollator и др.

Методы поиска

I. Адресный поиск - процесс поиска документов по чисто формальным признакам, указанным в запросе.

Для осуществления нужны следующие условия:

— Наличие у документа точного адреса;

— Обеспечение строгого порядка расположения документов в запоминающем устройстве или в хранилище системы.

Адресами документов могут выступать адреса веб-серверов и веб-страниц и элементы библиографической записи, и адреса хранения документов в хранилище.

II. Семантический поиск – процесс поиска документов по их содержанию.

Условия:

· Перевод содержания документов и запросов с естественного языка на информационно-поисковый язык и составление поисковых образов документа и запроса.

· Составление поискового описания, в котором указывается дополнительное условие поиска.

Принципиальная разница между адресным и семантическим поисками состоит в том, что при адресном поиске документ рассматривается как объект с точки зрения формы, а при семантическом поиске — с точки зрения содержания.

При семантическом поиске находится множество документов без указания адресов.

В этом принципиальное отличие каталогов и картотек.

Библиотека — собрание библиографических записей без указания адресов.

III. Документальный поиск – процесс поиска в хранилище информационно-поисковой системы первичных документов или в базе данных вторичных документов, соответствующих запросу пользователя.

Два вида документального поиска:

1. Библиотечный, направленный на нахождение первичных документов.

2. Библиографический, направленный на нахождение сведений о документах, представленных в виде библиографических записей.

IV. Фактографический поиск – процесс поиска фактов, соответствующих информационному запросу.

К фактографическим данным относятся сведения, извлеченные из документов, как первичных, так и вторичных и получаемые непосредственно из источников их возникновения.

Различают два вида:

1. Документально-фактографический, заключается в поиске в документах фрагментов текста, содержащих факты.

2. Фактологический (описание фактов), предполагающий создание новых фактографических описаний в процессе поиска путем логической переработки найденной фактографической информации.

Информационный поиск — большая междисциплинарная область науки, стоящая на пересечении когнитивной психологии, информатики, информационного дизайна, лингвистики, семиотики, и библиотечного дела.

Поиск информации — процесс выявления в массиве информации записей, удовлетворяющих заранее определенному условию поиска или запросу.

Информационный поиск рассматривает поиск информации в документах, поиск самих документов, извлечение метаданных из документов, поиск текста, изображений, видео и звука в локальных реляционных базах данных, в гипертекстовыхбазах данных таких, как Интернет и локальные интранет-системы.

Запрос и объект запроса

Говоря о системах ИП, употребляют термины запрос и объект запроса.

Запрос — это формализованный способ выражения информационных потребностей пользователем системы. Для выражения информационной потребности используется язык поисковых запросов, синтаксис варьируется от системы к системе. Кроме специального языка запросов, современные поисковые системы позволяют вводить запрос на естественном языке.

Объект запроса — это информационная сущность, которая хранится в базе автоматизированной системы поиска. Несмотря на то, что наиболее распространенным объектом запроса является текстовый документ, не существует никаких принципиальных ограничений. В частности, возможен поиск изображений, музыки и другой мультимедиа информации. Процесс занесения объектов поиска в ИПС называется индексацией. Далеко не всегда ИПС хранит точную копию объекта, нередко вместо неё хранится суррогат.

Задачи информационного поиска

Центральная задача ИП — помочь пользователю удовлетворить его информационную потребность. Так как описать информационные потребности пользователя технически непросто, они формулируются как некоторый запрос, представляющий из себя набор ключевых слов, характеризующий то, что ищет пользователь.

Классическая задача ИП, с которой началось развитие этой области, — это поиск документов, удовлетворяющих запросу, в рамках некоторой статической коллекции документов. Но список задач ИП постоянно расширяется и теперь включает:

· Вопросы моделирования;

· Классификация документов;

· Фильтрация документов;

· Кластеризация документов;

· Проектирование архитектур поисковых систем и пользовательских интерфейсов;

· Извлечение информации, в частности аннотирования и реферирования документов;

· Языки запросов и др.

Также, перед движками ИП ставятся некоторые задачи по обработке естественных языков, что включает в себя морфологический анализ, разрешение лексической многозначности и так далее.

Поиск в Windows предлагает несколько возможностей выполнения поиска файлов и папок. Средство «Помощник по поиску» обеспечивает наиболее быстрый способ поиска файлов. Рекомендуется использовать средство «Помощник по поиску», если выполняется поиск файлов одного из наиболее употребительных типов, если известно полное имя или часть имени файла или папки, поиск которых необходимо выполнить, или если известно времяпоследнего изменения файла. Если известна только часть имени, можно использовать подстановочные знаки для поиска всех файлов или папок, содержащих эту часть имени. Например, по запросу «*письмо.*» будут найдены файлы «Поздравительное письмо.doc», «Специальное письмо.doc» и «Специальное письмо.txt»

Поиск файла или папки

1. Нажмите кнопку Пуск, выберите пункты Найти и Файлы и папки.

2. Выберите ссылку Все файлы и папки.

2. Введите часть имени или полное имя файла или папки или введите слово или фразу, содержащиеся в этом файле.

3. Если об объекте поиска имеются определенные сведения или нужно уменьшить диапазон поиска, выберите один или несколько из следующих параметров.

· В поле Поиск в выберите диск, папку или сетевой ресурс, в котором требуется выполнить поиск.

· Нажмите кнопку Когда были произведены последние изменения? для поиска файлов, созданных или измененных в конкретном диапазоне дат.

· Нажмите кнопку Какой размер файла? для поиска файлов конкретного размера.

· Нажмите кнопку Дополнительные параметры для задания дополнительных условий поиска.

4. Нажмите кнопку Найти.

Примечание:при получении слишком большого объема результатов, попробуйте ввести дополнительные условия поиска, чтобы сделать поиск более конкретным.

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...