Главная | Обратная связь
МегаЛекции

Информационно-поисковые языки




 

Для общения человека с компьютером разрабатываются спе­циальные искусственные языки, естественный язык (ЕЯ) в этом качестве пока не может быть использован без специального пред­варительного преобразования. В естественном языке присутству­ют: синонимия, омонимия и полисемия, избыточность, субъек­тивность и другие свойства, препятствующие его автоматизиро­ванной обработке.

-Синонимы — слова, различающиеся по написанию, но совпада­ющие по смыслу (Россия, РФ, Российская Федерация).

Омонимы - слова, совпадающие по звуковому и графическому составу, но имеющие разные значения (ключ может быть — теле­графный, поисковый, к замку, к шкафу и т.д.).

Полисемия — наличие у одного и того же слова нескольких раз­ных, но связанных между собой значений (например: фамилия — как имя и фамилия как семья; индекс — как средство более быстрого поиска в БД и как код документа в ИПС).

Избыточность ЕЯ — наличие лишней информации, без которой можно точно и однозначно установить смысл или значение сообщения. Таким образом, в естественном языке часто нет однозначного соответствия между словом и его значением.

Искусственный язык, как правило, разрабатывается на основе ЕЯ. При этом устраняется многозначность слов ЕЯ. В ИПС для однозначного описания основного смысла содержания документа и информационного запроса используются специализированные языки, которые называются информационно-поисковыми языка­ми.

ИПЯ состоит из алфавита, лексики и грамматики. Алфавит — система знаков, используемая для записи слов. В ИПЯ могут быть использованы: буквы латинского алфавита; кирил­лица; цифры; пунктуационные знаки.

Лексика (словарный состав) — совокупность слов, входящих в состав языка, называемых также лексическими единицами. Лекси­ческая единица — слово или семантически неделимое словосочета­ние, выражающее какое-либо понятие.

Грамматика — набор правил, по которым из конечного числа элементов определенного типа (например, букв или слов) можно получить язык для выражения содержания документов или запросов или описания фактов с целью последующего поиска. Грамматика подразделяется на морфологию и синтаксис.

Морфология — правила построения и изменения слов. Синтак­сис — правила построения и изменения соединения слов (построе­ние фраз).

Слова любого языка в процессе отображения предметов реального мира вступают между собой в определенные отношения. Эти отноше­ния можно разделить на парадигматические и синтагматические.

Парадигматические отношения - логические отношения, суще­ствующие между лексическими единицами ИПЯ независимо от кон­текста, в котором эти лексические единицы употребляются. Эти от­ношения обусловлены предметно-логическими, а не языковыми факторами, т.е. относятся к категории внеязыковых связей. Приме­ры парадигматических отношений: часть — целое ( отдел — органи­зация); род — вид (ценная бумага — акция); причина-следствие; функциональное сходство; ассоциации. Учет парадигматических от­ношений необходим для правильного выбора и точного употребле­ния слов. Поэтому в семантически развитом ИПЯ должны быть в явном виде выражены важнейшие отношения между терминами, иначе при отображении текста документа может произойти потеря или искажение смысла документа. Например, при поиске норматив­ных документов, касающихся термина «акция», для увеличения пол­ноты поиска возможно указание термина «ценная бумага».

Синтагматические отношения — отношения слов при соедине­нии их в словосочетания и фразы. Линейные логические отношения, которые устанавливаются между словами непосредственно при их использовании в тексте, объединяют эти слова в сочетания и пред­ложения. Для уточнения .смысла документа или запроса, помимо ключевых слов, часто необходимо указывать в каких синтагматиче­ских отношениях эти слова находятся. Так, фраза «защита окружаю­щей среды от человека» и фраза «защита человека от окружающей среды» имеют совершенно разный смысл/хотя и состоят из одних и тех же ключевых слов.

Таким образом, развитый ИПЯ должен обладать средствами ото­бражения парадигматических и синтагматических отношений.

Для оценки сравнительной эффективности различных языков используется понятие семантическая сила языка.

Семантическая сила ИПЯ характеризует смысловыразительные возможности ИПЯ и показывает, насколько ИПЯ уступает ЕЯ. Семантическая сила тем больше, чем богаче словарный.состав ИПЯ и шире его словообразовательные возможности (создание новых слов, соответствующих новым понятиям); шире используются средства отображения парадигматических и синтагматических отношений между словами.

Можно указать следующие требования, которым должен удовле­творять семантически развитый ИПЯ:

располагать лексико-грамматическими средствами для точного отображения центральной темы документа и запроса;

не содержать полисемии, синонимии и омонимии, т.е. каждая запись на ИПЯ должна допускать только одно толкование;

отображать только объективные характеристики предметов и отношений между ними;

быть удобным для алгоритмического сопоставления (отождеств­ления) поискового образа документа (ПОД) и поискового предписа­ния (ПП).

Как правило, чем больше семантическая сила ИПЯ, тем труднее

с ним работать.

Наиболее часто в качестве основания деления при классифика­ции ИПЯ используют способ организации понятий.

По способу организации понятий различают:

предкоординируемые (классификационные) ИПЯ;

посткоординируемые (дескрипторные) ИПЯ.

Предкоординация — предварительное (до использования при индексировании) построение сложных классов путем логического умножения (координации) простых классов. Словарный состав зада­ется в виде фиксированного списка слов, словосочетаний и фраз. При индексировании документов или запросов можно пользоваться только словами, словосочетаниями и фразами, содержащимися в фиксированном списке. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования докумен­тов, т.е. при создании языка.

Словарный состав предкоординируемых языков напоминает дву­язычный разговорник, в котором заранее зафиксированы наиболее употребительные фразы. При помощи предкоординируемого языка происходит отнесение документа к классу, обозначенному лексичес­кими единицами этого языка, т.е. классификация документа.

Посткоординируемые (дескрипторные языки) основаны на ме­тоде координатного индексирования. В посткоординируемых ИПЯ лексические единицы объединяются в поисковом образе лишь во время индексирования документа. Словарь дескрипторного 'ИПЯ состоит из специальным образом выбранных отдельных слов или словосочетаний ЕЯ — ключевых слов и дескрипторов.

Координатное индексирование — индексирование, при котором основное смысловое содержание текста (документа) или информа­ционного запроса представляется в виде сочетания ключевых слов или дескрипторов.

Ключевые слова - это наиболее существенные для отображения содержания документа слова и словосочетания, обладающие назыв­ной функцией. Назывные слова - слова, обозначающие вещи, явле­ния, процессы, имена собственные (т.е. в качестве ключевого слова не может выступать предлог, союз и др.).

 





©2015- 2017 megalektsii.ru Права всех материалов защищены законодательством РФ.