Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Автоматическое индексирование




Документальной информации

 

Индексирование документа это процедура отображения текста документа в определенную форму, предназначенную для автомати­ческой обработки (индекс документа).

Различают ручное и автоматическое индексирование. При руч­ном индексировании этот процесс осуществляет информационный работник. На основе анализа содержания документа специалист отображает текст документа в набор ключевых слов или дескрип­торов. Преимущество ручного индексирования состоит в его ка­честве, недостатком является низкая производительность и, сле­довательно, высокая стоимость. Кроме того, при ручном ин­дексировании вполне возможна ситуация, когда один и тот же документ, обработанный различными специалистами, может по­лучить различные индексы.

При автоматическом индексировании (АИ) индексирование осу­ществляется компьютерной системой. Формально текст документа представляет собой множество символов, разделенных пробелами. Эти отрезки текста называют словоформами. Основная задача авто­матического индексирования состоит в распознавании в словофор­ме соответствующего словарного слова. С этой целью используют автоматический морфологический анализ текста.

Морфологический анализ текста — анализ структур словоформ, рассматриваемых изолированно с целью определения принадлежно­сти словоформы слову.

Задачами морфологического анализа текста являются: выделе­ние из текста словоформ; распознавание слов или их сочетаний; нормализация словоформ (приведение слова к словарному виду); распознавание грамматических признаков словоформ (часть речи, падеж и т.п.). Грамматические признаки, приписываемые в результа­те морфологического анализа, могут использоваться на дальнейших этапах обработки исходного текста.

Для анализа текста в системах АИ используются различные ав­томатические словари, которые можно разделит на два типа. Первый тип представлен словарями, используемыми для распознавания сло­воформ и их нормализации. Например, словарь словоформ, словарь основ слов, словарь окончаний, словарь словосочетаний. Словарь словосочетаний содержит устойчивые последовательности слов. Счи­тается, что и развитом языке насчитывается десятки миллионов по­нятий, а слов - около миллиона. Поэтому большая часть понятий выражена комбинациями слов.

Второй тип словарей представляют информационно-поисковые тезаурусы, которые содержат информацию об отношениях условной эквивалентности, отношениях подчинения и ассоциативных отно­шениях между словами.

В некоторых системах АИ вместо словарей для нормализации слов используются алгоритмы, предназначенные для преобразова­ния слов в различные грамматические формы. При этом исчезает необходимость заносить в словарь все возможные формы слов, уменьшается объем словарей, увеличивается эффективность поиска, так как в тексте могут быть найдены все грамматические формы слова, заданного в запросе.

Как уже отмечалось ранее, сложность формальной обработки текста на ЕЯ состоит прежде всего в том, что текст нельзя предста­вить как простую совокупность слов, имеющих тот или иной смысл. Большая доля смысла текста содержится не в самих словах, а в отно­шениях между словами. Поэтому для более полного и точного рас­познавания смысла текста в развитых системах АИ помимо морфо­логического анализа осуществляется и автоматический синтаксиче­ский анализ текста.

Синтаксический анализ текста представляет собой исследование структуры предложения текста с целью установления синтаксичес­ких связей между членами предложения. В ходе синтаксического анализа используются результаты морфологического анализа. Осно­вой для разработки методов синтаксического анализа систем АИ являются исследования в области математической лингвистики и опыт создания систем машинного перевода.

Результаты синтаксического анализа текста обычно представля­ются в виде дерева отношений между словами с указанием их типов. Например, для русского языка различают до 50 типов отношений между словами.

В начале 90-х гг. появились другие, альтернативные техноло­гии автоматического индексирования текста. Например, техноло­гия «адаптивного распознавания образов», при которой каждая словоформа представляется в виде своего двоичного кода, кото­рый является ее «образом». При этом становится возможен так называемый нечеткий поиск, при котором можно игнорировать опечатки и искажения слов. Преимуществом этой технологии яв­ляется значительное увеличение скорости индексирования и по­иска информации, минимизация объема индекса. Недостатком -снижение полноты и точности поиска вследствие отсутствия се­мантического анализа текста, который особенно важен в случае русского языка.

Для выбора из множества слов текста информативных ключевых слов в системах АИ применяются методы статистического анализа текста. Как показывают исследования, в ЕЯ наблюдается тенденция повторять старые слова, а не использовать новые, так что 70% сло­воупотреблений приходится на 20% слов.

В основе статистических методов анализа текста лежит идея о возможности использования числовых параметров для оценки ин­формативности лексических единиц, составляющих текст. Счита­ется, что как очень редкие, так и очень часто встречаемые терми­ны не могут использоваться в качестве информативных слов, а пик информативности приходится на слова со средней частотой встречаемости.

При статистическом анализе текста рассчитывают различные количественные оценки. Например, число вхождений слова в доку­мент; общее число вхождения слова в документы, относительная частота вхождения слова в документ

Статистические методы удобны тем, что позволяют автомати­чески, посредством достаточно простых операций, получить све­дения о данной лексической единице в документе или массиве документов. В тоже время использование только статистических методов при определении' информативности слов не всегда при­водит к адекватным результатам. Например, удаление часто встре­чающихся терминов уменьшает полноту, а удаление редко встре­чающихся терминов снижает точность поиска. Поэтому статисти­ческие методы не могут в полной мере оценить информативность слов текста, а ручное индексирование по качеству всегда будет превосходить автоматическое.

В современных информационно-поисковых системах часто пре­дусмотрено и ручное и автоматическое индексирование.

 

Структуры информационно-поисковых

Массивов в ИПС

 

Центральной частью каждой ИПС является информационно-поисковый массив (ИПМ), который может быть организован раз­личными способами. В ДИПС ИПМ подразделяется на две части: сами документы или их копии и ПОД с адресами - номерами доку­ментов в поисковом массиве. Поиск осуществляется по второй части ИПМ.

В полнотекстовых базах данных поиск может осуществляться как по самому тексту документа (при такой организации поиск будет очень медленным), так и в специальных поисковых файлах, содер­жащих информацию о тексте документа (индексах).

В ИПС используют две принципиальные схемы информацион­ного массива — прямую и инверсную.

При прямой организации каждому документу соответствует пе­речень слов, составляющих текст или поисковый образ документа. Например, логическая структура поискового файла при прямой ор­ганизации для примера, приведенного в подразделе 20.4, будет вы­глядеть следующим образом (см. рис. 20.2).

При этом отыскание нужных документов производится путем поочередного сравнения поисковых образов документов со словами, составляющими информационный запрос, т.е. реализуется принцип последовательного доступа к данным. Достоинства прямой схемы состоят в простоте организации и использования, например для включения нового документа в массив достаточно добавить новую запись в файл.

Недостатком прямой организации поиска является необходи­мость последовательного просмотра ПОД всех документов, что ведет к большим затратам времени, поэтому в современных текстовых базах данных применяют инверсный способ.

 

Адрес документа   Ключевые слова  
D1   S2, S3  
D2   S1, S3, S5  
D3   S1, S3  
D4   S3, S6  
D5   S3, S4, S5  
D6   S3, S4  
D7   S1, S2, S4, S5  
D8   S1, S3  
D9   S2, S3, S4, S5  

Рис. 20.2. Прямая схема организации информационного массива

 

Инверсный способ организации поискового массива предусмат­ривает создание инвертированной матрицы, в которой и происходит поиск (ее называют инвертированным матричным индексом) (см. рис. 20.3).

 

 

Слова   Адреса документов    
S1   D2, D3, 07, D8      
S2   D1, 02, D3, D4, D5, D6, D8,D9    
S3   D1, D2, D3. D4, D5, Dб, 08,D9    
S4   D5, D6, D7, D8, D9      
S5   D2, D5, D7, D9      
S6   D4      

Рис. 20.3. Инверсная схема организации информационного массива

 

Простой индекс можно представить как бинарное отношение I(v,a), в котором «v» - слово, взятое из текста, «а» - список адресов документов, содержащих это слово. Каждый кортеж инвертирован­ного индекса называется инвертированным списком.

Инвертированная матрица напоминает предметный указатель в книге, где слова, размещенные в алфавитном порядке, сопровожда­ются перечислением номеров страниц, на которых они встречаются.

Документальный поиск сводится к просмотру соответствующих записей файла инвертированного матричного индекса/Таким образом, отпадает необходимость в последовательном просмотре всего инфор­мационного массива и значительно сокращается время поиска.

При индексировании (инвертировании) текста документа воз­можны различные варианты.

В случае частичного инвертирования в индекс включают инфор­мативные ключевые слова, т.е. формируется поисковый образ доку­мента.

При полном инвертировании все слова документа, в том числе и шумовые (незначащие), включаются в индекс.

В случае неполного инвертирования в индекс включаются все значимые слова текста документов, а незначимые удаляются. В каче­стве незначимых слов выступают союзы, предлоги и прочие служеб­ные части речи.

При инвертировании всех значащих слов текста документов, файлы инвертированных матричных индексов могут достигать ги­гантских размеров. Часто для них требуется более 50% дискового пространства, необходимого для хранения самих документов. Однако увеличение инвертированного матричного индекса в размерах замедляется с ростом числа документов, так как с каждым новым документом вероятность того, что встречающиеся в нем значимые слова уже включены в индекс, увеличивается. В этом случае в матри­цу добавляются лишь указатели на новые документы.

При решении задач организации эффективного доступа к дан­ным индексы больших размеров преобразуют в иерархию индексов небольших размеров. Один из способов реализации таких индекс­ных структур состоит в использовании В-деревьев, листьями кото­рых являются ссылки на документы.

Списки адресов {а} в ИПС значительно больше по размерам, чем в СУБД. Поэтому для организации эффективного доступа к дан­ным индекс может храниться, например, в трех разных файлах, свя­занных указателями. Первый файл — индексный файл состоит из полей: слово; указатели пересылок. Второй файл - пересылок, со­стоит из полей: номер документа; адрес документа. Третий файл содержит тексты документов.

В инвертированных матричных индексах может также храниться дополнительная информация. Например, данные о месте вхождения термина, статистические данные о термине, слова, связанные пара­дигматическими отношениями с данным термином, и др.

Информация о месте вхождения термина это — зона, абзац, пред­ложение и номер слова в предложении. Эти данные могут указы­ваться для каждого вхождения термина в документ и для каждого документа, содержащего данный термин. Данные о положении сло­ва используются для реализации некоторых видов контекстного по­иска.

В индексных файлах могут также храниться частоты терминов и документов. Частота термина есть число вхождений термина в доку­мент. Частота документа есть число документов, содержащих дан­ный термин. Данные о частоте встречаемости используются в раз­личных схемах поиска, основанных на весах или рангах терминов.

Если в индексе присутствуют указатели на синонимы, то при обработке запроса происходит автоматическое связывание инверти­рованных списков всех терминов, синонимичных указанному в за­просе. Это значительно повышает полноту поиска.

В дополнение к прямой и инвертированной схемам в ИПС ис­пользуется так называемый атрибутный индекс. Он позволяет хра­нить данные о документе, не содержащиеся непосредственно в его тексте. Например, имя автора, дату создания, наименование темы и другие фактические данные. Данные могут автоматически извлекать­ся из документа либо вноситься вручную при вводе документа в систему. Структура атрибутного индекса соответствует стандарту пред­ставления структурированной информации — т.е. это таблица с зара­нее заданными полями. На рис. 20.4 представлен пример организа­ции поискового файла — атрибутного индекса, в котором все доку­менты характеризуются одним и тем же набором реквизитов-полей: автор документа, вид документа и его номер, дата издания, назва­ние. Поиск по атрибутному индексу осуществляется средствами об­работки запросов СУБД — выдаются только те документы, значе­ния атрибутов которых удовлетворяют условиям запроса.

Поиск по атрибутному индексу выполняется быстрее, чем по инвертированному матричному индексу, но имеет значительно мень­ше поисковых возможностей. Однако атрибутный индекс позволяет находить информацию, не являющуюся составной частью текста документа. Кроме того, файлы атрибутных индексов значительно меньше по размеру файлов инвертированных матричных индексов с полным текстом, поскольку в этом случае с каждым документом связано гораздо меньше хранимой информации.

 

Автор   Вид документа   Дата издания   Название  
Правительство РФ   Постановление №1172   7.11.96   Об утверждении Положения о порядке контроля за вывозом из РФ товаров и технологий двойного назначения, экспорт которых контролируется  
Центральный банк РФ   Приказ № 02-368   27.09.97   О введении в действие Инструк­ции № 49 «0 порядке регистра­ции кредитных организаций и лицензирования банковской деятельности»  
ГТКРФ   Письмо № 01-14/1104   1.10.96   0 применении Положения о таможенном перевозчике  

Рис. 20.4. Пример атрибутного индекса

 

В современных ИПС реализованы как атрибутное индексирова­ние, так и инвертированное матричное. Это позволяет, например, отыскать все документы, созданные за определенный период време­ни, и при этом содержащие конкретную фразу. Первая часть поис­ка — по дате - выполняется с помощью атрибутного индекса, а вто­рая часть - по заданному набору слов — на основе инвертированного матричного индекса. Разрешается и обратная последовательность отбора. Так, если пользователь из всей базы предварительно получил список документов, содержащих сведения о льготах по уплате подоходного налога, он может сузить этот список, ограничившись доку­ментами, принятыми каким-либо органом, или за определенный период (дату).

 

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...