Главная | Обратная связь
МегаЛекции

Информационно-поисковый тезаурус




 

Возможно два способа расположения слов в словарях: по близо­сти их буквенного состава и по смысловой близости.

По первому способу создаются алфавитные словари. По второму способу — тезаурусы. Алфавитные словари служат для раскрытия значения данного слова. Тезаурусы служат для поиска слов для выра­жения данного понятия. Т.е., если в обычном словаре по слову ищет­ся его смысл, то в тезаурусе по заданному смыслу ищутся слова, которые этот смысл выражают.

Тезаурусы используют в своей работе специалисты, в той или иной степени связанные с подготовкой и обработкой текстовой ин­формации: переводчики, редакторы, научные работники, референты и др.

Информационно-поисковые тезаурусы используются при индек­сировании документов и запросов.

Различают безтезаурусное индексирование и индексирование с тезаурусным контролем лексики.

При безтезаурусном индексировании ПОД представляется в виде списка ключевых слов, выбранных непосредственно из текста доку­мента. Такое индексирование требует меньше времени и менее тру­доемко. Однако такой режим индексирования обладает рядом недо­статков: возможна синонимия; нельзя отразить парадигматические отношения.

При индексировании с тезаурусным контролем лексики для выражения содержания документа и запроса используют только де­скрипторы, входящие в информационно-поисковый тезаурус, что позволяет исключить синонимию и учесть парадигматические связи, и, в конечном счете, повышает эффективность поиска.

Таким образом, информационно-поисковые тезаурусы исполь­зуются для:

перевода текста с ЕЯ на дескрипторный ИПЯ путем замены ключевых слов соответствующими дескрипторами, при этом исклю­чается многозначность;

отображения парадигматических связей между дескрипторами.

Тезаурус имеет вид словаря, в котором в определенном порядке расположены термины и зафиксированы связи между ними.

. Как правило, тезаурус состоит из введения, алфавитного указа­теля (словарная часть) и систематического указателя.

Введение содержит общие характеристики тезауруса — область применения, правила использования, число дескрипторов, ключе­вых слов и другую справочную информацию.

Алфавитный указатель включает алфавитный перечень дескрип-торных статей.

Дескрипторная статья может иметь следующую структуру:

заглавный дескриптор;

ключевые слова из класса эквивалентности;

дескрипторы, подчиняющие заглавный;

дескрипторы, подчиненные заглавному;

дескрипторы, ассоциированные с заглавным. Ассоциации могут быть следующих видов: причина - следствие; сырье - продукт; про­цесс - объект; процесс - субъект; свойство — носитель свойства, функциональное сходство и др.

Систематический указатель служит для раскрытия, учета и кон­троля парадигматических отношений между дескрипторами. Для каждого дескриптора ИПЯ должны быть найдены соответствующие родовые и видовые дескрипторы. Причем предварительно необходи­мо сформулировать критерии, определяющие число уровней иерархии. Определение степени отображения парадигматических отноше­ний зависит от требований, предъявляемых к системе. Чем шире эти отношения отображены, тем выше полнота выдачи, но одновремен­но происходит увеличение словарного запаса, усложняется система ссылок и может произойти уменьшение точности поиска.

Тезаурусы разрабатываются для отдельных отраслей. Например, существует «Тезаурус по документации», «Дескрипторный словарь по информатике» и т.п. Тезаурус может быть разработан и для обслужи­вания конкретной информационно-поисковой системы.

Построение тезауруса состоит из нескольких взаимосвязанных этапов.

Первый этап - формирование словника.. Словник — первона­чальные множества ключевых слов. При этом рассматривается пред­ставительный массив наиболее информативных для данной предмет­ной области документов. Например: реферативные журналы, слова­ри, учебники, справочники, нормативные документы и т.д. Выбира­ются слова, употребляемые в этих источниках, при этом устанавли­вается частота употребления слов и учитываются все формы, кото­рые могут иметь слова.

Второй этап - формирование множества ключевых слов. Из словника формируется множество ключевых слов. При отборе клю­чевых слов учитывается информативность слова, которая определя-ется исходя из частоты встречаемости слова, роли слова в данной предметной области. Процесс выбора ключевых слов достаточно сложно формализовать. Например, такой критерий, как частота встречаемости не может быть абсолютным. Если слово встречается в текстах очень часто, это может означать, что оно выражает чрезмер­но широкое понятие, либо недостаточно четко определено, т.е. не­информативно. Если ключевое слово встречается очень редко, это может означать, что оно выражает новое понятие и таким образом является информативным.

Третий этап - формирование классов эквивалентности. Выделе­ние дескрипторов.

Класс эквивалентности — это группа терминов, равнозначных по смыслу .в пределах сферы действия данной системы. Одно из слов класса эквивалентности объявляется дескриптором (как правило, наиболее употребимое). Все слова, включенные в класс эквивалент­ности, объявляются условными синонимами (условными — так как они равнозначны в пределах данной предметной области,>а в ЕЯ эти слова могут не являться синонимами).

Критерием включения слов в класс эквивалентности является семантическая значимость этого слова при поиске документов, т.е. если данное слово при поиске документа может быть заменено дру­гим словом, так, что на любой запрос выдача документов будет та­кой же, как и до замены, то такие два слова объявляются условными эквивалентами и включаются в один класс эквивалентности. Ключе­вые слова, относящиеся к одному классу эквивалентности, помеща­ются в соответствующую дескрипторную статью и помечаются сим­волом «с».

В процессе построения тезауруса и выделения множества дес­крипторов происходит устранение синонимии, омонимии, полисе­мии ключевых слов, а также выявление парадигматических связей между дескрипторами.

В ЕЯ многие слова могут быть правильно истолкованы только с учетом контекста. В ИПЯ для правильной трактовки ключевых слов необходимы средства для исключения многозначности трактования слов.

Для устранения многозначности (омонимии и полисемии) клю­чевое слово, которое можно неоднозначно трактовать, снабжается пометой, в которой указывается в каком значении данное ключевое слово используется в ИПЯ.

Разработка тезауруса без использования компьютерных техноло­гий — достаточно длительный и трудоемкий процесс.

Большинство автоматизированных методов создания тезауруса основано на автоматическом подсчете частоты слов, содержащихся в документах, считающихся типичными для данной предметной обла­сти. Результаты такой обработки обычно представляются в виде ма­трицы «документ-термин», (см. рис. 20.1). Элемент матрицы на пе­ресечении строки и столбца, трактуется как вес слова в документе. На основе полученной матрицы вычисляются коэффициенты подо­бия между словами, определяемые в зависимости от частоты, с кото­рой слова совместно встречаются в анализируемых документах, и формируется структура тезауруса.

Документы   Частота слова в документе  
                 
D1                              
D2                              
D3                              
D4                              

Рис. 20.1. Пример матрицы «термин-документ»

 

Автоматические информационно-поисковые тезаурусы являются составным элементом систем автоматического индексирования доку­ментов и запросов. В словарной статье автоматического тезауруса, как правило, зафиксированы отношения условной эквивалентности (сино­нимии), отношение подчинения и ассоциативные отношения.

В настоящее время происходит расширение сфер применения автоматических тезаурусов. При этом тезаурусы выступают состав­ной частью современных систем подготовки текстов, осуществляя лингвистическую поддержку процесса подготовки и обработки тек­стов на естественном языке.

Среди наиболее перспективных направлений развития автома­тических тезаурусов можно указать следующие.

Получение справки по используемому слову. Указав слово, в качестве ключа для запроса, пользователь в ответ получает соответ­ствующий фрагмент словаря, содержащий лингвистическую инфор­мацию о данном слове. Например, автоматический тезаурус получа­ет от пользователя некоторое существительное и в ответ выдает со­вокупность устойчиво сочетающихся с ним глаголов или все наибо­лее часто сопровождающие его определения. При этом автоматиче­ски выполняется процедура нормализации входного слова (т.е. при­ведение существительного к именительному падежу).

Контекстные замены по требованию пользователей. В данном случае тезаурус не только подбирает вместо одного словосочетания другое, которое пользователь счел более соответствующим контексту по смысловым или стилистическим соображениям, но и автоматиче­ски переоформляет параметры слов (например, род прилагательно­го) в соответствии с контекстом. Это означает, что синтаксические операции, производимые тезаурусом, существенно усложняются.

Автоматическая оценка стиля. Если слова и словосочетания в тезаурусе снабдить стилистическими пометками, то он может исполь­зоваться для стилистической оценки текста с выделением слов и словосочетаний, выпадающих из общего стиля документа.

 





©2015- 2017 megalektsii.ru Права всех материалов защищены законодательством РФ.