Главная | Обратная связь
МегаЛекции

Формирования запросов в них




 

В ДИПС поиск документов происходит посредством просмотра поискового образа документа. Такая организация поиска документов имеет свои преимущества и недостатки.

Представление документа в виде ПОД позволяет значительно снизить расходы памяти, сократить время поиска и не требует мощного и дорогого аппаратного и программного обеспечения. Поэтому технология ДИПС успешно использовалась в большин­стве созданных до 90-х гг. системах автоматического документного поиска.

В то же время технология ДИПС обладает рядом существенных недостатков. Любой набор информативных ключевых слов не может адекватно представлять содержание документа во всей его полноте. Кроме того, суть процесса образования ПОД состоит в структуриро­вании документа, что может привести к искажению его содержания. Особенно это существенно для нормативных документов, где каждое слово и словосочетание представляются значимыми.

В настоящее время в автоматизированных современных систе­мах поиска документальной информации реализуются технологии поиска по полному тексту документов. Такие системы получили на­звание - полнотекстовые базы данных (full-text system) или тексто­вые базы данных.

Полнотекстовые базы данных используются для хранения и по­иска правовой информации (справочные правовые системы — СПС), периодических изданий (газет и журналов), корпоративной докумен­тации.

В отличие от СУБД в информационно-поисковых системах до сих пор не выработаны стандартные языки запросов. Различные системы используют и различные средства формирования информа­ционных запросов. Чем мощнее поисковые возможности системы, тем богаче ее язык запросов.

Во всех системах для поиска по сочетанию терминов использу­ются логические функции AND (И), OR (ИЛИ), NOT (HE), соеди­няющие ключевые слова информационного запроса. Для иллюстра­ции процесса выполнения запроса с использованием логических функций рассмотрим следующий пример.

Задано множество документов (Dl, D2, D3, D4, D5, D6, D7, D8, D9}, содержащих слова {SI, S2, S3, S4, S5, 86} таким обра­зом, что S1 входит в текст документов D2,D3,D7,D8, S2 входит в текст документов Dl, D7, D9, S3 входит в текст документов D1, D2, D3, D4, D5, D6, D8, D9, S4 входит в текст документов D5, D6, D7, D8, D9, S5 входит в текст документов D2, D5, D7, D9, S6 входит в текст документа D4.

В этом случае:

Запросу SI AND S2 будут соответствовать множество докумен­тов, являющихся результатом логического умножения множеств до­кументов, содержащих слова S1 и.82, т.е.:

SI AND S2 соответствует {D2, D3, D7, D8}x{Dl, D7, D9} = D7

Запросу S3 OR S5 будет соответствовать множество документов, являющееся результатом операции логического сложения множеств документов, содержащих слова S3 и S5, т.е.:

52 OR S5 соответствует {Dl, D7, D9} + {D2, D5, D7, D9} = {D1, D2, D5, D7, 09}

Запросу S3 NOT S6 будет соответствовать множество докумен­тов, содержащих слово S3, но не содержащих слово S6, т.е.:

53 NOT S6 соответствует

{Dl, D2, 03, D4, D5, Об, D8, D9} - {D4} = {Dl, D2, D3, D5, D6, D7, D8, 09}

Режимы применения логических функций могут быть различ­ными. Например, В И ПС Агама в запросе, состоящей из фразы «на­логи на малое предприятие» уже подразумевается, что слова запроса соединены оператором «И». Оператор «ИЛИ» указывается явно и имеет больший приоритет, чем «И».

В ИПС Евфрат все операторы указываются в явном виде, а функ­ция NOT обозначена словом «КРОМЕ».

Некоторые средства формирования запроса допускают вложен­ные запросы и позволяют структурировать их, задавая порядок вы­полнения. Обычно с этой целью применяют круглые скобки. Логи­ческие операторы, заключенные в скобки, имеют приоритет при об­работке. Например, для вышеописанного случая, запрос:

52 AND S4 OR (S6 OR (S3 NOT S3)) будет выполняться в следу­ющем порядке:

53 NOT S5 = {01,02,03,D4,D5,D6,D8,D9}-{D2,D5,D7,D9}= ={D1,03,04,06,08}

S6OR(S3NOTS5)={D4}+{D1,D3,D4,D6,D8}={D1,D3,D4,D6,D8} S2 AND S4={D1,D7,D8}*{05,06,07,08,D9}={07,08} {D7,D8} + {D1,D3,D4,D6,D8} = {D1,D3,D4,D6,D7,D8} При формировании запросов в полнотекстовых базах данных желательно учитывать не только логическую взаимосвязь терминов, но и другие аспекты естественного языка. С этой целью используют различные средства. Например, усечение терминов, нормализацию терминов, операторы контекстного поиска, запрос по образцу.

Обычно усекают окончания слов для того, чтобы падеж или множественное число не влияли на выбор слова. Как правило, для представления несущественного символа используют знак «?», а для представления ряда несущественных символов используют знак «*». Например, выражение «налог?» может соответствовать словам «на­логи», «налогу», «налога», «налог», а выражение «налог*» может со­ответствовать словам «налогам», «налогообложение», «налоговая» и т.п. В ИПС Евфрат для осуществления этой операции введен оператор «по началу». В некоторых системах эта операция производится автоматически.

Автоматическая нормализация терминов состоит в приведении всех форм каждого слова к одной стандартной форме, например, существительного — к именительному падежу единственного числа.

Операторы контекстного поиска позволяют учитывать контекст и осуществлять поиск в заданной комбинации слов. Эти операторы можно трактовать как функции «близости», которые являются раз­витием функции «И». Формы представления операторов контекст­ного поиска существенно различаются, причем во многих ИПС их нет вообще.

В ИПС Агама ограничение контекста при поиске (в пределах одного предложения, трех предложений, всего текста) задается в меню настройки запроса.

В ИПС Cherchez в качестве операторов контекстного поиска введены функции adj, near, same, with. Они определяют нахождение терминов соответственно: «в одном абзаце», «в одном предложении», «рядом друг с другом», «рядом друг за другом в указанном порядке».

Может быть предложен следующий вариант операторов контек­стного поиска. Оператор W обозначает слова, стоящие рядом; опера­тор nW — слова, разделенные не более п символами, стоящие в за­данном порядке; оператор nN — слова, разделенные не более п сим­волами, стоящие в произвольном порядке; оператор S — слава, сто­ящие в одном параграфе; оператор TITLE указывает, что слово долж­но находиться в заголовке.

В поисковых системах сети Internet в качестве инструмента опе­ратора контекстного поиска чаще всего используется оператор NEAR.

Некоторые механизмы поиска позволяют выделить в выданном наборе документов особо полезный документ и задать операцию типа «Найти аналогичную информацию», «Найти подобные». При этом поиск выполняется на основе всех содержащихся в данном докумен­те ключевых слов. Подобный тип поиска, который называют QBE (запрос по образцу), может быть очень эффективным, поскольку позволяет задействовать термины, которые были бы неочевидны для пользователя. Запрос типа QBE используется в качестве механизма поиска документальной информации в некоторых поисковых систе­мах сети Internet (Excite, Open Text, WebGrawler).

При всем многообразии средств формирования запросов одним из главных требований к любой современной компьютерной систе­ме является наличие удобного и понятного интерфейса, обеспечива­ющего диалог с пользователем.

Во многих современных ИПС существует возможность форму­лировки запросов на естественном языке. Проблема интерфейса на естественном языке достаточно успешно решается во многих систе­мах, в которых базовым языком общения является английский, на­пример запрос на обычном английском языке обрабатывают следу­ющие поисковые системы Internet: AitaVista, Excite, HotBot, Infoseek Ultra, Lycos, WebGrawler. Русский язык в этом аспекте гораздо слож­нее английского, так как менее структурирован, имеет более слож­ную морфологию и синтаксис. Поэтому в русскоязычных системах пока преобладают традиционные средства запросов.

 





©2015- 2017 megalektsii.ru Права всех материалов защищены законодательством РФ.