Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Глава 2. Лингвистическое обеспечение АБИС. Теоретический аспект




Лингвистическое обеспечение представляет собой комплекс языковых средств для обработки документов и формирования запросов в режиме обслуживания. Информационно-поисковые языки (ИПЯ) буквенного и кодового значения. В АБИС обычно представляют следующий набор словарей-тезаурусов:

· Дескрипторный словарь,

· Рубрикатор ВИНИТИ (политематическая направленность) – буквенное выражение поискового образа документа (ПОДа),

· Рубрикатор ГАСНТИ,

· ББК (УДК) - кодовое выражение ПОДа.

Состав и задачи лингвистического обеспечения различаются в зависимости от вида информационной системы: автоматизированной библиотечно-информационной системы (АБИС), электронной библиотеки, информационно-поисковой системы в Интернете и т.д.

Начну с рассмотрения лингвистического обеспечения библиотечно-информационных систем, имеющего более глубокие традиции, более разработанного и способного в определенной степени выступать в качестве основы лингвистического обеспечения других информационных систем.

Лингвистическое обеспечение современной АБИС можно определить как совокупность применяемых в технологии АБИС информационных языков, лингвистических процессоров, словарей и авторитетных файлов. Основные функции лингвистического обеспечения АБИС связаны с обеспечением индексирования документов и запросов, а также эффективного поиска в электронном каталоге. Лингвистическое обеспечение корпоративной АБИС в отличие от локальной АБИС носит более универсальный или комплексный характер (например может включать несколько классификационных языков или единую систему предметных рубрик) и требует соблюдения дополнительных условий реализации лингвистической совместимости.

Словарные средства АБИС обычно требуют многолетнего рутинного ведения, поэтому прогресс в развитии лингвистического обеспечения не столь очевиден, как например в развитии аппаратного или программного обеспечения. При этом очень часто именно изменение или усложнение последних компонент вызывает продвижение вперед первой. Можно выделить следующие современные тенденции в развитии лингвистического обеспечения АБИС.

 

1. Комплексное использование элементов библиографического описания, классификационных индексов, ключевых терминов/слов, предметных рубрик в качестве ключевых элементов при поиске.

Следует избегать смешения понятий ключевых терминов/слов и применения при индексировании одновременно и тех, и других элементов. Это приводит к усложнению правил нормирования лексики и правил индексирования, что затрудняет работу индексаторов. Использование стандартизованных изолированных прилагательных в форме единственного числа требует знания пользователем правил индексирования или же обязательного наличия в системе лингвистического процессора отсечения окончаний. Перевод прилагательных в существительные при нормировании ключевых слов влечет за собой проблему выбора слов/основ при составлении поискового предписания. Кроме того, индексирование документов с помощью ключевых слов не дает возможности пользователю получить представление о содержании документа на основе ПОД и судить о релевантности документа.

2. Применение в технологии индексирования одного или нескольких классификационных языков, обеспечивающих поиск по широкотематическим запросам, и хотя бы одного вербального языка, обеспечивающего поиск по узкотематическим запросам. В числе классификационных языков один должен быть универсальным, а другие могут носить отраслевой или локальный характер (например классификация стандартов, патентов, архивная классификация).

3. Среди вербальных языков наблюдается тенденция к предпочтительному использованию в качестве языка индексирования языка ключевых терминов, в наибольшей степени отвечающего потребностям пользователя в актуальной терминологии при узкотематических запросах. Возможно применение контролируемого (на основе словаря) или свободного (неконтролируемого словарем) индексирования. В любом случае предпочтительно иметь тезаурус и использовать его для обогащения поисковых предписаний.

Преимущества тезауруса по сравнению со списком ключевых слов/терминов очевидны. В списках ключевых слов/терминов не отражены смысловые связи между терминами, при этом алфавитный порядок расположения терминов усугубляет эту разобщенность: родственные понятия удалены друг от друга. Использование тезауруса в информационно-поисковых системах повышает качество анализа текста и полноту поиска информации, позволяя расширить запрос синонимическими, более общими или более частными понятиями.

4. Ведение и поддержка в актуальном состоянии баз данных классификационных систем, тезаурусов, предметных рубрик, применяемых при индексировании и поиске. Ведение авторитетных файлов и их использование при каталогизации и поиске документов.

5. Организация поиска в классификационных базах данных по ключевым словам с последующим выходом на поиск по классификационному индексу/ам в электронном каталоге. Ведутся работы по созданию конкордансных таблиц разных классификаций, классификационной системы и системы предметных рубрик или ключевых терминов.

6. Увеличение количества и усложнение лингвистических процессоров в составе лингвистического обеспечения АБИС. К таким процессорам относятся процессоры транслитерации, трансляторы ПОД с одного языка индексирования на другой, грамматические процессоры типа процедур отсечения окончаний или идентификации словоформ одного слова, словарные процессоры, т.е. средства автоматизированного ведения словарей (например, процессор словарно-грамматической фильтрации слов, процессор тезаурусной фильтрации терминов).

 

Лингвистическое обеспечение электронной библиотеки, оперирующей текстовой информацией, неизбежно должно иметь свои особенности. Большие объемы текстовой и гипертекстовой информации создают значительные трудности при ее классификации традиционными «библиотечными» способами.

Интеллектуальная обработка требует значительных временных затрат, что несовместимо с необходимостью оперативного анализа текстовых документов. Поэтому в рассматриваемой сфере реализуются разработки технологий автоматической обработки текста (в частности автоматического смыслового анализа), автоматического индексирования текстов, аннотирования или реферирования и смыслового поиска в информационных ресурсах на естественном. Таким образом, лингвистическое обеспечение в этой сфере идет по пути интенсивного развития лингвопроцессорной компоненты, которая сопровождается развитыми тезаурусными и грамматическими словарями. Следует отметить, что классификационные и вербальные информационно-поисковые языки в электронных библиотеках практически не используются, что является, на мой взгляд, неоправданным упущением.

 

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...