Информационно-поисковые языки
Для общения человека с компьютером разрабатываются специальные искусственные языки, естественный язык (ЕЯ) в этом качестве пока не может быть использован без специального предварительного преобразования. В естественном языке присутствуют: синонимия, омонимия и полисемия, избыточность, субъективность и другие свойства, препятствующие его автоматизированной обработке. -Синонимы — слова, различающиеся по написанию, но совпадающие по смыслу (Россия, РФ, Российская Федерация). Омонимы - слова, совпадающие по звуковому и графическому составу, но имеющие разные значения (ключ может быть — телеграфный, поисковый, к замку, к шкафу и т.д.). Полисемия — наличие у одного и того же слова нескольких разных, но связанных между собой значений (например: фамилия — как имя и фамилия как семья; индекс — как средство более быстрого поиска в БД и как код документа в ИПС). Избыточность ЕЯ — наличие лишней информации, без которой можно точно и однозначно установить смысл или значение сообщения. Таким образом, в естественном языке часто нет однозначного соответствия между словом и его значением. Искусственный язык, как правило, разрабатывается на основе ЕЯ. При этом устраняется многозначность слов ЕЯ. В ИПС для однозначного описания основного смысла содержания документа и информационного запроса используются специализированные языки, которые называются информационно-поисковыми языками. ИПЯ состоит из алфавита, лексики и грамматики. Алфавит — система знаков, используемая для записи слов. В ИПЯ могут быть использованы: буквы латинского алфавита; кириллица; цифры; пунктуационные знаки. Лексика (словарный состав) — совокупность слов, входящих в состав языка, называемых также лексическими единицами. Лексическая единица — слово или семантически неделимое словосочетание, выражающее какое-либо понятие.
Грамматика — набор правил, по которым из конечного числа элементов определенного типа (например, букв или слов) можно получить язык для выражения содержания документов или запросов или описания фактов с целью последующего поиска. Грамматика подразделяется на морфологию и синтаксис. Морфология — правила построения и изменения слов. Синтаксис — правила построения и изменения соединения слов (построение фраз). Слова любого языка в процессе отображения предметов реального мира вступают между собой в определенные отношения. Эти отношения можно разделить на парадигматические и синтагматические. Парадигматические отношения - логические отношения, существующие между лексическими единицами ИПЯ независимо от контекста, в котором эти лексические единицы употребляются. Эти отношения обусловлены предметно-логическими, а не языковыми факторами, т.е. относятся к категории внеязыковых связей. Примеры парадигматических отношений: часть — целое (отдел — организация); род — вид (ценная бумага — акция); причина-следствие; функциональное сходство; ассоциации. Учет парадигматических отношений необходим для правильного выбора и точного употребления слов. Поэтому в семантически развитом ИПЯ должны быть в явном виде выражены важнейшие отношения между терминами, иначе при отображении текста документа может произойти потеря или искажение смысла документа. Например, при поиске нормативных документов, касающихся термина «акция», для увеличения полноты поиска возможно указание термина «ценная бумага». Синтагматические отношения — отношения слов при соединении их в словосочетания и фразы. Линейные логические отношения, которые устанавливаются между словами непосредственно при их использовании в тексте, объединяют эти слова в сочетания и предложения. Для уточнения.смысла документа или запроса, помимо ключевых слов, часто необходимо указывать в каких синтагматических отношениях эти слова находятся. Так, фраза «защита окружающей среды от человека» и фраза «защита человека от окружающей среды» имеют совершенно разный смысл/хотя и состоят из одних и тех же ключевых слов.
Таким образом, развитый ИПЯ должен обладать средствами отображения парадигматических и синтагматических отношений. Для оценки сравнительной эффективности различных языков используется понятие семантическая сила языка. Семантическая сила ИПЯ характеризует смысловыразительные возможности ИПЯ и показывает, насколько ИПЯ уступает ЕЯ. Семантическая сила тем больше, чем богаче словарный.состав ИПЯ и шире его словообразовательные возможности (создание новых слов, соответствующих новым понятиям); шире используются средства отображения парадигматических и синтагматических отношений между словами. Можно указать следующие требования, которым должен удовлетворять семантически развитый ИПЯ: располагать лексико-грамматическими средствами для точного отображения центральной темы документа и запроса; не содержать полисемии, синонимии и омонимии, т.е. каждая запись на ИПЯ должна допускать только одно толкование; отображать только объективные характеристики предметов и отношений между ними; быть удобным для алгоритмического сопоставления (отождествления) поискового образа документа (ПОД) и поискового предписания (ПП). Как правило, чем больше семантическая сила ИПЯ, тем труднее с ним работать. Наиболее часто в качестве основания деления при классификации ИПЯ используют способ организации понятий. По способу организации понятий различают: предкоординируемые (классификационные) ИПЯ; посткоординируемые (дескрипторные) ИПЯ. Предкоординация — предварительное (до использования при индексировании) построение сложных классов путем логического умножения (координации) простых классов. Словарный состав задается в виде фиксированного списка слов, словосочетаний и фраз. При индексировании документов или запросов можно пользоваться только словами, словосочетаниями и фразами, содержащимися в фиксированном списке. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования документов, т.е. при создании языка.
Словарный состав предкоординируемых языков напоминает двуязычный разговорник, в котором заранее зафиксированы наиболее употребительные фразы. При помощи предкоординируемого языка происходит отнесение документа к классу, обозначенному лексическими единицами этого языка, т.е. классификация документа. Посткоординируемые (дескрипторные языки) основаны на методе координатного индексирования. В посткоординируемых ИПЯ лексические единицы объединяются в поисковом образе лишь во время индексирования документа. Словарь дескрипторного 'ИПЯ состоит из специальным образом выбранных отдельных слов или словосочетаний ЕЯ — ключевых слов и дескрипторов. Координатное индексирование — индексирование, при котором основное смысловое содержание текста (документа) или информационного запроса представляется в виде сочетания ключевых слов или дескрипторов. Ключевые слова - это наиболее существенные для отображения содержания документа слова и словосочетания, обладающие назывной функцией. Назывные слова - слова, обозначающие вещи, явления, процессы, имена собственные (т.е. в качестве ключевого слова не может выступать предлог, союз и др.).
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|