Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Множество значений, обладающих определенным соответствием со значениями и величинами другого множества,




Информационно-поисковый язык.

Информационно-поисковый язык (ИПЯ) — искусственный язык, представляющий совокупность средств для описания формальной и содержательной структуры дляпоиска (путем индексирования) по запросу пользователя.

Структура

В ИПЯ можно выделить алфавит, лексику и грамматику.

Алфавит — совокупность определенных символов для записи слов и выражений. Во многих языках для этого используются символы естественного языка.

Лексика — совокупность всех использующихся в языке слов — лексических единиц.

Грамматика — правила составления выражений. Грамматика во многих ИПЯ формальна, а в некоторых вообще отсутствует.

Для упорядочения лексических единиц при построении лексики служат парадигматические отношения, то есть смысловые отношения между лексическими единицами. Эти отношения устанавливаются и фиксируются в словаре языка, исходя из потребностей информационного поиска.

Типы информационно-поискового языка.

Искусственный язык, предназначенный для формализованного описания смыслового содержания документов, данных, отдельных понятий или терминов и обеспечения последующего их поиска в информационно-поисковых массивах.

Формализация лексики и создание различных ИПЯ вызвано необходимостью устранения "избыточности" и "недостаточности" естественного языка для целей информационного поиска, а также ликвидации присутствующий в нем синонимии и омонимии (см. ниже) для реализации "однозначности" информационного поиска.

Различают языки описания (декларативные языки), которые в свою очередь подразделяются на языки предкоординатные (классификационные) и посткоординатные (координатные), а также - процедурные языки (языки запросов и манипулирования данными). Подробнее см.:[36 - 38].

Каждый тип языковых средств включает в себя: алфавит и микро синтаксис (графические средства представления данных), лексику с парадигматикой (отражаемых словарями) и синтаксис, который для языков описания может быть представлен в виде наборов форматов.

По области или по сфере применения информационно-поисковых языков можно выделить:

1. Коммуникативные (общесистемные) ИПЯ - предназначенные для обеспечения взаимодействия между различными (информационными, библиотечными и др.) системами (в т.ч. распределенными по государственной, ведомственной или территориальной принадлежности);

2. Локальные (внутренние) ИПЯ - предназначенные для использования в рамках отдельной системы;

Внешние ИПЯ - используемые в других системах и предназначенные для взаимодействия только с ними.

ПРЕДКООРДИНАТНЫЕ ИПЯ (ИПЯ КЛАССИФИКАЦИОННОГО ТИПА)

[pre-coordination language] -

ИПЯ, построенные на принципах предкоординации (см. ниже). Эти языки представлены известными классификационными системами вида: УДК, МКИ, ГРНТИ, ББК, ТБК и др.

Предкоординация [pre-coordinatin] - Построение словарного состава ИПЯ (до его использования при индексировании), которое характеризуется применением словосочетаний и фраз, выражающих сложные понятия.

ПОСТКООРДИНАТНЫЕ ИПЯ (ИПЯ ДЕСКРИПТОРНОГО ТИПА)

[post-coordination language] -

ИПЯ, построенные на принципах посткоординации (см. ниже). Эти языки представлены различного вида “тезаурусами ”, а также “ключевыми словами ".

Посткоординация [post-coordination] - Построение словарного состава путем разделения сложных понятий на составные элементы и последующего объединения полученныхлексических единиц ИПЯ при индексировании документов вводимых в информационно-поисковые массивы и запросов путем использования логических операторов и других средств, представляющих его синтаксис.

Термины, связанные с посткоординатными ИПЯ:

Координатный (посткоординатный, дескрипторный) ИПЯ [post-coordination language, descriptor language] - ИПЯ, построенный на принципах посткоординации, лексическими единицами которого являются дескрипторы. Основными словарными средствами, реализующими эти языки являются тезаурусы, представляющие так называемую нормированную лексику, и ключевые слова - ненормированную лексику.

Объектно-признаковый ИПЯ - Вид координатного ИПЯ, предназначенный для представления объектографических (фактографических) данных.

Дескриптор [descriptor] - Лексическая единица дескрипторного ИПЯ, которая при индексировании выбирается не из обрабатываемого текстового или другого материала, а из специального словаря. Дескрипторы отличаются от ключевых слов тем, что им придана смысловая однозначность.

Ключевое слово, недискриптор [keyword, non-descriptor] - Лексическая единица, выбираемая из обрабатываемого (индексируемого) текста (вводимых в систему документов и запросов на поиск) а не словаря. Однако “ключевые слова” (точнее было бы их назвать - “ключевыми терминами”) составляются на основании специальных правил и построенных на их основе технологических инструкций, обеспечивающих однозначность их понимания и применения.

Правовой тезаурус.

В тезаурусе слова группируются согласно понятиям, к которым они относятся. А понятия упорядочиваются по иерархическому принципу.Тезаурус − обобщение словаря с многократными связями

Индексирование и рубрицирование правовой информации.

ИНДЕКСИРОВАНИЕ ТЕКСТА документа - предварительная обработка электронной копии документа средствами прикладной программы при его загрузке в базу данных, в результате которой все присутствующие в тексте термины (основы слов / усечения слов справа) учитываются в индексном словаре. Индексирование текста может сопровождаться морфологическим анализом (приведением всего ряда словоформ к основе слова), контекстным анализом (фиксация сведений о близости и порядке расположения слов в тексте с учетом его внутренней структуры - разбиения на предложения и абзацы), лингвистическим анализом (учетом родо-видовых, синонимических и иных смысловых связей между словами с построением информационно-поискового тезауруса). Индексирование текстов при их переводе в формат базы позволяет существенно увеличить скорость поиска в тексте. Объектом индексирования могут быть также и записи удаленных баз данных стандартных форматов, доступных через компьютерные сети.

РУБРИЦИРОВАНИЕ документов - процесс отнесения документов или их фрагментов к той или иной рубрике (теме) классификатора правовой информации или словаря ключевых слов

Метризация и кодирование

Кодирование информации — процесс преобразования сигнала из формы, удобной для непосредственного использования информации, в форму, удобную для передачи, хранения или автоматической переработки.

Сетевое кодирование — раздел теории информации, изучающий вопрос оптимизации передачи данных по сети с использованием техник изменения пакетов данных на промежуточных узлах.

Энтропийное кодирование — кодирование последовательности значений с возможностью однозначного восстановления с целью уменьшения объёма данных (длины последовательности) с помощью усреднения вероятностей появления элементов в закодированной последовательности.

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...