Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Общее понятие тезауруса

 

Известно, что для обеспечения возможно большей полноты выдачи при информационном поиске, основанном на использовании дескрипторных ИПЯ, необходимо избыточное индексирование документов и/или информационных запросов. Под избыточным индексированием в данном случае понимается дополнение поискового образа документа или поискового предписания дескрипторами, которые по смыслу связаны с основными дескрипторами. При этом более предпочтительным, по-видимому, является избыточное индексирование не документов, а информационных запросов.

Для того, чтобы можно было производить такое избыточное индексирование, необходимо преобразование алфавитного словаря дескрипторов в нормативный словарь-справочник, в котором были бы эксплицитно выражены важнейшие парадигматические связи между дескрипторами. Такие словари-справочники предназначены для следующих целей:

 

а) служить руководством для перевода текстов с естественного языка на дескрипторный ИПЯ (путем замены ключевых слов соответствующими дескрипторами);

б) обеспечивать возможность избыточного индексирования документов или информационных запросов;

в) быть пособием, которое бы помогало ищущему информацию находить правильные дескрипторы для выражения его информационной потребности.

 

Особое внимание необходимо обратить на пункт (в) и в связи с этим еще раз подчеркнуть, что одно из основных трудностей (если не самой главной), с которыми приходиться иметь дело при информационном поиске, заключается в неадекватности словесного выражения потребителем своей информационной потребности. «Узловым моментом в деятельности информационной службы», — писал Д Фоскетт, — является не перевод терминов авторов [документов] на информационно-поисковый язык. Если бы это было так, насколько просты были бы наши проблемы. Нам нужно было бы лишь составить своего рода таблицу перевода, которую всегда можно держать на современном уровне, включая в нее — в соответствии со структурой указателя — любые новые термины примененные каким-либо автором. Здесь не возникает никакой трудности, авторский текст—это статическая законченная единица, которая дает определенный контекст ко всем использованным в ней терминам. Действительная трудность для информационной службы заключается в том. чтобы выражать плохо сформулированную неполную и изменчивую мысль (thought pattern} потребителя в терминах обеспечивающих выдачу из хранилища информации, которая способна преобразовать эту мысль и некоторую коге рентную систему, соответствующую реальности» [6].

Острота проблемы неадекватного словесного выражения информационных потребностей может быть значительно уменьшена если создать особый словарь, который бы позволял по смыслу находить слова (дескрипторы), необходимые для выражения этого смысла.

Значение в языке- это отношение между именем и смыслом (при понимании значения в соответствии с так называемым треугольником Огдена и Ричардса). Данное отношение является симметричным (recipcal and reversible) [7]. Поэтому поиск значения можно начинать либо с имение либо со смысла.

Для поиска значений по именам используются – обычные алфавитные словари, а для поиска имен (слов) по их смыслам — так называемые идеологические (ideologikal} или концептуальные (conceptual) слова.

Основное назначение идеологического словаря (и это подчеркивается даже в названиях многих из таких словарей)—обеспечение выбора наиболее подходящих слов для точного выражения той пли иной мысли. В теории информационного поиска идеологические словари получили название тезаурусов сокровище, 1)богатство, 2) сокровищница, садовая, склад; лат.сокровищница: кладовая склад. Однако в лексикографии термин «тезаурус» используется также для обозначения словарей иного типа [5]. Подробная характеристика тезаурусов разных типов дана нами в монографии |1].

Однако тезаурус предназначенный для целей информационного поиска не является лишь идеологическим словарем дескрипторов, так как он должен выполнять также функцию двуязычного словаря (естественный язык—дескрипторный ИПЯ), обеспечивающего перевод текстов поисковых образов и информационных запросов естественного языка на дескрипторный ИПЯ (и наоборот). Это означает, что информационно-поисковый тезаурус должен содержать не только все дескрипторы, но и все ключевые слова, которые в рамках данной ИПС считаются синонимами дескрипторов.

Кроме того, информационно поисковый тезаурус, как уже отмечалось в начале данного раздела является нормативным пособием, предназначенным для предметизаторов, индексаторов и потребителей информации. Поэтому такой тезаурус наиболее целесообразно выполнять в виде одно- или двухтомного справочника, содержащего две основные части:

а) Общий алфавитный список дескрипторов и ключевых слова могут быть определенным образом отмечены, чтобы их легче было отличать от дескрипторов снабженных соответствующими пометами и ссылками. В том списке ключевые слова могут быть определенным образом отмечены, чтобы их легче было отличать от дескрипторов. Под каждым дескриптором должны быть приведены в упорядочен ном виде другие дескрипторы, которые по смыслу связаны с «заглавным» дескриптором. Желательно чтобы типы этих смысловых связей были соответствующим образом обозначены. В словарной статье целесообразно также дать список всех ключевых слов которые в рамках данной ИПС считаются синонимами «заглавного» дескриптора.

б) Упорядоченное множество тематических классов (поле) представляет собой подмножество наименований тематических групп, а каждая тематическая группа-подмножество дескрипторов, которое обозначено, как правило, одним или несколькими дескрипторами, выбранными из данного подмножества дескрипторов. В качестве наименований тематических групп и особенно –классов (полей) могут использоваться слова и словосочетания естественного языка, не являющимся дескрипторами. Внутри каждого тематического класса (поля) или группы наименование групп и дескрипторы также должны быть упорядочены (например, по алфавиту и/или по какому-либо иному признаку). Смысловые связи между дескрипторами могут быть выражены лексикографически, в виде таблиц (списков), аналитически или графически.

Необходимо отметить,что часть (Б) имеет не все тезаурусы. Отсутствие в информационно-поисковом тезаурусе части (Б) с упорядоченной системой тематических классов (полей) и или групп дескрипторов значительно затрудняет использование такого тезауруса в функции идеологического словаря, т.е. для более адекватного выражения в терминах дескрипторного ИПЯ фактической информационной потребности того, кто проводит поиск информации.

Отсутствие части (Б) делает информационно-поисковый тезаурус весьма похожим на упорядоченный по алфавиту нормативный список предметных заголовков. Поэтому информационно-поисковые тезаурусы иногда называют «нормативными словниками предметных заголовков. Но это сходство чисто внешнее так как построение дескрипторов как классов условной эквивалентности основательно на совершенно иных принципах, чем формулирование заголовков и подзаголовков для словников алфавитно-предметных классификаций. Этот вопрос подробно рассмотрен нами в монографии.

Информационно-поисковые тезаурусы могут быть трех типов: лингвистические, статистические и нормативные. Лингвистическим тезаурусом называется некоторое множество слов естественного языка, отобранных путем содержательного анализа текстов и систематизированных в соответствии с предварительно выбранной или разработанной системой классификации. Термин «лингвистический тезаурус является синонимом термина «идеологический словарь». Статистическим тезаурусом называется упорядоченное множество ключевых слов, отобранных путем статистического анализа текстов по какой-либо тематике. Нормативным тезаурусом называется словарь-справочник, который предназначен для оказания помощи потребителю в более точном выражении (в терминах дескрипторного ИПЯ) содержания нужной ему информации и для обеспечения возможности избыточного индексирования (также в терминах ИПЯ) документов и информационных запросов. Такой словарь-справочник должен содержать все лексические единицы ИПЯ- дескрипторы (вместе с ключевыми словами, которые в пределах данной ИПС считаются синонимами этих дескрипторов), причем дескрипторы должны быть систематизированы по смыслу,а смысловые связи между ними эксплицитно выражены. Именно в таком, и только в таком, значении мы будем далее употреблять термин «тезаурус».

Для построения нормативных тезаурусов исключительно важных смысловых (парадигматических) связей, существующих между дескрипторами.

Отсутствие в информационно-поисковом тезаурусе части (б) с упорядоченной системой тематических классов (полей) или групп дескрипторов значительно затрудняет использование такого тезауруса в функции идеологического словаря,

т.е. для адекватного выражения в терминах дескрипторного ИПЯ фактической информационной потребности того, что проводит поиск информации.

Отсутствие части (Б) делает информационно - поисковый тезаурус весьма похожий на упорядоченный по алфавиту нормативный поиск предметных заголовков. Поэтому информационно - поисковые тезаурусы иногда называют «нормативными словниками предметных заголовков, так как построение дескрипторов как классов условной эквивалентности основано на совершенно иных принципах, чем формулирование заголовков и подзаголовков для словников алфавитно – предметных классификаций.

Информационно-поисковые тезаурусы могут быть трех типов: лингвистические, статистические и нормативные. Лингвистическим тезаурусом называется некоторое множество слов естественного языка, отобранных путем содержательного анализа текстов и систематизированных в соответствии с предварительно выбранной или разработанной системой классификации Термин «лингвистический тезаурус» является синонимом термина «идеологический словарь» Статистическим тезаурусом называется упорядоченное множество ключевых слов, отобранных путем статистического анализа текстов по какой-либо тематике. Нормативным тезаурусом называется словарь-справочник, который предназначен для оказания помощи потребителю в более точном выражении (в терминах дескрипторного ИПЯ) содержания нужной ему информации и для обеспечения возможности избыточного индексирования (также в терминах ИПЯ) документов и информационных запросов. Такой словарь-справочник должен содержать все лексические единицы ИПЯ — дескрипторы (вместе с ключевыми словами, которые в пределах данной ИПС считаются синонимами этих дескрипторов), причем дескрипторы должны быть систематизированы по смыслу, а смысловые связи между ними эксплицитно выражены. Именно в таком, и только в таком, значении мы будем далее употреблять термин «тезаурус».

Для построения нормативных тезаурусов исключительно большое значение имеет выявление и обозначение наиболее важных смысловых (парадигматических) связей, существующих между дескрипторами.

 

2. ПАРАДИГМАТИЧЕСКИЕ ОТНОШЕНИЯ МЕЖДУ ДЕСКРИПТОРАМИ

 

Под парадигматическими отношениями мы понимаем лишь такие отношения между словами (означающими), которые основаны на существовании тех или иных связей между означаемыми. Таким образом к категории парадигматических отношении мы не относим отношения омонимии, а также отношений основанных на одинаковости основы при разных окончаниях (парадигмы склонения и спряжения) и на одинаковости окончания при разных основах. Что же касается отношений синонимии, то они рассматриваются отдельно от других парадигматических отношении. Это объясняется тем, что в самом дескрипторном ИПЯ синонимов нет и что отношения синонимии существуют между дескрипторами и лексическими единицами соответствующего естественного языка, т. е. ключевыми словами. Таким образом в данном случае мы имеем дело уже не с внутриязыковыми, а с межъязыковыми отношениями.

Для построения информационно - поискового тезауруса необходимо выявить наиболее существенные парадигматические отношения между словами, обусловленные не какими-то сугубо практическими соображениями, а исключительно свойствами самих предметов и явлений, обозначаемых этими словами или смысловым содержанием понятий, выражаемых ими. Такие парадигматические отношения должны быть действительны в пределах естественного языка, а также в любом дескрипторном ИПЯ, словарный состав которого представляет собой фрагмент лексики этого естественного языка.

Необходимо также разработать более или менее строгую методику построения классов дескрипторов, связанных друг с другом парадигматическими отношениями. Без этого процесс установления парадигматических отношений между дескрипторами в тезаурусах будет по-прежнему оставаться своеобразным искусством, основанным на сочетании содержательных суждений с интуицией и прагматическими соображениями.

Одним из основных проявлений тех или иных парадигматических отношений между словами являются ассоциации, называемые этими словами. Однако из множества разнообразных ассоциаций нам необходимо отобрать лишь такие, которые имеют в процессах мышления наибольший «удельный вес».

Следующий шаг — отбор из данных ассоциативных отношений таких, которые обусловлены существованием семантических связей между словами (ранее мы условились считать парадигматическими лишь такие отношения, которые основаны на существовании объективных связей между внутренними, семантическими сторонами слов). В результате получаем следующий список наиболее важных парадигматических отношений:

 

1). соподчинение;

2). сходство (функциональное);

3). вид — род (род — вид);

4). причина — следствие (следствие — причина);

5.) часть —- целое (целое — часть).

Этот список парадигматических отношений далее использован для разработки алгоритма, который по любому дескриптору порождает для тезауруса словарную статью этого дескриптора. Под словарной статьей тезауруса, в данном случае понимается упорядоченный класс дескрипторов, связанных парадигматическими отношениями с «заглавным» дескриптором, который обозначает этот класс. В словарную статью включаются также все ключевые слова которые в пределах данной ИПС считаются синонимами «заглавного» дескриптора Словарная статья тезауруса может быть выполнена в виде списка, таблицы или.графической схемы в которых при по мощи соответствующих помет шифров стрелок и т. п. обозначены виды парадигматических отношений связывающих «за парный» дескриптор с перечисленными в его словарной статье другими дескрипторами.

В словарных статьях тезаурусов все дескрипторы связанные с «заглавным» дескриптором теми или иными парадигматическими отношениями обычно даются в виде общего алфавитного списка. Исключение составляют лишь дескрипторы, которые связаны с «заглавным» дескриптором отношениями «род—вид» и «вид—род». Такие дескрипторы группируются в словарных статьях в отдельные подклассы также упорядоченные по алфавиту. В связи с этим может возникнуть вопрос: нельзя ли вообще ограничиться вылеченном лишь двух типов парадигматических отношений — «род—вид» («вид—род») и «прочие парадигматические отношения». Ведь в словарных статьях тезаурусов эксплицитно выражаются только эти два типа парадигматических отношений.

На такой вопрос мы даем отрицательный ответ так как без списка важнейших парадигматических отношений невозможно сформулировать более иди менее однозначные правила построения подкласса. «Другие ассоциативные дескрипторы» в словарных статьях тезаурусов.

Необходимо отметить, что особенно важную роль при информационном поиске играют парадигматические отношения «род-вид» («вид-род»). Кроме того, через родо – видовые отношения реализуется еще один важным вид парадигматических отношений — отношение - соподчинение. Например между дескрипторами ФТОР, ХЛОР, БРОМ и ИОД устанавливается соподчинительная (координативная) связь, если каждый из этих дескрипторов будет связан отношением «вид - род» с дескриптором ГАЛОГЕНЫ.

В информационно - поисковом тезаурусе парадигматические отношения между дескрипторами могут быть эксплицитно выражены четырьмя способами: лексикографическим, табличным, аналитическим и графическим. Наиболее наглядные из этих способов и, следовательно, наиболее удобные для потребителей информации и предметизаторов (индексаторов) — это лексикографический, табличный и графический способ; а также их разные сочетания. Однако аналитический способ является самым удобным с точки зрения машинных операций над дескрипторами или классами. Это означает, что если тезаурус предназначается для использования в поисковых системах реализуемых с помощью тех или иных машин, то наилучшей формой его выполнения может быть такая, когда тезаурус состоит из двух частей:

а) справочника с наглядным отображением парадигматических отношении между дескрипторами, который предназначен для использования потребителями информации и предметизаторами (индексаторами);

б) кодовой книги с аналитическим выражением парадигматических отношений между дескрипторами, которая предназначена для преобразования поисковых образов документов и поисковых предписаний в форму, удобною для их ввода в машину.

Если для реализации ИПС используется вычислительная машина, запоминающее устройство которой имеет достаточно большую емкость и малое время обращения, то необходимость в такой кодовой книге отпадает, так как дескрипторы и обозначения парадигматических отношений существующих между этими дескрипторами, в вычислительную машин можно вводить на естественном языке.

3. ОБОБЩЕННАЯ СТРУКТУРНАЯ СХЕМА ТЕЗАУРУСА

По определению информационно поисковый тезаурус—это нормативный словарь – справочник, предназначенный для индексаторов и потребителей информации. Такой словарь – справочник состоит трех частей:

а) Словарная часть представляющая собой общий алфавитный список дескрипторов (вместе с их словарными статьями) и ключевых слов, которые в данной ИПС считаются синонимами этих дескрипторов.

б} «Семантическая картина словарного состава. ИПЯ, представляющая собой систему смысловых классов, в которые сгруппированы все дескрипторы этого ИПЯ. В этом разделе тезауруса должны быть возможно более наглядно выражены важнейшие парадигматические отношения между дескрипторами или, по крайней мере, отношения «вид — род» («род — вид).

Руководство по переводу ключевых слов и словосочетаний естественного языка на дескрипторный ИПЯ.

3.1. В словарной части тезауруса дескрипторы и синонимичные им. ключевые слова, приводятся в виде общего алфавитного списка, причем дескрипторы в этом списке соответствующим образом отмечены (например: даны прописными буквами). В этом списке дескрипторы и их, синонимы связаны перекрестными ссылками. Полисемия и омонимия дескрипторов и ключевых слов в ИПЯ устранены лексикографически, т.е. при помощи системы помет и специфических символов.

Для построение информационно – поискового тезауруса необходимо последовательно выполнить следующие операции:

1. Провести отбор (накопление) ключевых слов, необходимых для построения словаря дескрипторов.

2. Построить словарь дескрипторов, для чего необходимо:

— устранять синонимию, полисемию и омонимию ключевых слов;

— сгруппировать их в классы условной эквивалентности;

— выбрать из числа членов каждого класса условной эквивалентности такое ключевое слово, которое далее будет использоваться в качестве имени этого класса, т. е. дескриптора.

З. Для каждого дескриптора построить его словарную статью, в которой сгруппированы все другие дескрипторы данного ИПЯ, связанные с «заглавным» дескриптором соответствующими парадигматическими отношениями.

4. Построить классификационные таблицы дескрипторов или графические схемы, в которых эксплицитно выражены смысловые связи между дескрипторами.

5. Сформулировать правила перевода ключевых слов и словосочетаний естественного языка на дескрипторный ИПЯ, правила лексикографического редактирования поисковых образов и предписаний перед их вводом в ИПС, а также правила пополнения словарного состава ИПЯ новыми дескрипторами.

При построении тезауруса необходимо учитывать следующие факторы:

— среднюю скорость роста поискового массива документов;

— предлагаемый максимальный объем собрания (массива) документов, в котором будет производиться информационный поиск—предметно тематическую широту поискового массива документов;

— среднее число ежедневно поступающих информационных запросов;

1. численность, уровень научной квалификации и характер практической деятельности лиц, которые будут пользоваться тезаурусом;

2. требуемую точность, полноту и скорость информацией него пояска;

3. материальные средства выделяемые для создания и эксплуатации ИПС.

В зависимости от числа документов в поисковом массиве должен изменяться и уровень необходимой специфичности дескрипторов предназначенных для координатного индексирования этих документов. Для индексирования большого поискового массива не следует применять дескрипторов, выражающих стишком широкие понятия. Если не соблюдать этого условия, то в ответ на каждый информационный запрос ИПС будет выдавать слишком много документов. В [1] было по казано, что увеличение абсолютного объема выдачи требует повышения приемлемого уровня ее точности. Необходимо отметить также следующую тенденцию, проявляющуюся при практической эксплуатации дескрипторных ИПС: чем больше специфических и абстрактных терминов содержится в словарном составе ИПЯ, тем выше надежность работы ИПС. Это обстоятельство следует учитывать при отборе ключевых слов для словарного состава ИПЯ.

 

 

Литература:

1. Информационный поиск. УДК 002.54: [801 ].3:164 (038).

2. Михайлов А.И., Черных А.И., Гиляревский Р.С. Основы информатики. Изд. 2-е. Доп. и перераб. М., «Наука», 1968.

3. Черный А.И. Критерий смыслового соответствия документальной информационно-поисковой системы. «НТИ», 1967, сер. 2. №9. С.17-25.

 

П Л А Н

 

1. Общее понятие тезауруса.

2. Парадигматические отношения между дескрипторами.

3. Обобщенная структурная схема тезауруса.

 

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...