Множество значений, обладающих определенным соответствием со значениями и величинами другого множества,
⇐ ПредыдущаяСтр 6 из 6 Информационно-поисковый язык. Информационно-поисковый язык (ИПЯ) — искусственный язык, представляющий совокупность средств для описания формальной и содержательной структуры дляпоиска (путем индексирования) по запросу пользователя. Структура В ИПЯ можно выделить алфавит, лексику и грамматику. Алфавит — совокупность определенных символов для записи слов и выражений. Во многих языках для этого используются символы естественного языка. Лексика — совокупность всех использующихся в языке слов — лексических единиц. Грамматика — правила составления выражений. Грамматика во многих ИПЯ формальна, а в некоторых вообще отсутствует. Для упорядочения лексических единиц при построении лексики служат парадигматические отношения, то есть смысловые отношения между лексическими единицами. Эти отношения устанавливаются и фиксируются в словаре языка, исходя из потребностей информационного поиска. Типы информационно-поискового языка. Искусственный язык, предназначенный для формализованного описания смыслового содержания документов, данных, отдельных понятий или терминов и обеспечения последующего их поиска в информационно-поисковых массивах. Формализация лексики и создание различных ИПЯ вызвано необходимостью устранения "избыточности" и "недостаточности" естественного языка для целей информационного поиска, а также ликвидации присутствующий в нем синонимии и омонимии (см. ниже) для реализации "однозначности" информационного поиска. Различают языки описания (декларативные языки), которые в свою очередь подразделяются на языки предкоординатные (классификационные) и посткоординатные (координатные), а также - процедурные языки (языки запросов и манипулирования данными). Подробнее см.:[36 - 38].
Каждый тип языковых средств включает в себя: алфавит и микро синтаксис (графические средства представления данных), лексику с парадигматикой (отражаемых словарями) и синтаксис, который для языков описания может быть представлен в виде наборов форматов. По области или по сфере применения информационно-поисковых языков можно выделить: 1. Коммуникативные (общесистемные) ИПЯ - предназначенные для обеспечения взаимодействия между различными (информационными, библиотечными и др.) системами (в т.ч. распределенными по государственной, ведомственной или территориальной принадлежности); 2. Локальные (внутренние) ИПЯ - предназначенные для использования в рамках отдельной системы; Внешние ИПЯ - используемые в других системах и предназначенные для взаимодействия только с ними. ПРЕДКООРДИНАТНЫЕ ИПЯ (ИПЯ КЛАССИФИКАЦИОННОГО ТИПА) [pre-coordination language] - ИПЯ, построенные на принципах предкоординации (см. ниже). Эти языки представлены известными классификационными системами вида: УДК, МКИ, ГРНТИ, ББК, ТБК и др. Предкоординация [pre-coordinatin] - Построение словарного состава ИПЯ (до его использования при индексировании), которое характеризуется применением словосочетаний и фраз, выражающих сложные понятия. ПОСТКООРДИНАТНЫЕ ИПЯ (ИПЯ ДЕСКРИПТОРНОГО ТИПА) [post-coordination language] - ИПЯ, построенные на принципах посткоординации (см. ниже). Эти языки представлены различного вида “тезаурусами ”, а также “ключевыми словами ". Посткоординация [post-coordination] - Построение словарного состава путем разделения сложных понятий на составные элементы и последующего объединения полученныхлексических единиц ИПЯ при индексировании документов вводимых в информационно-поисковые массивы и запросов путем использования логических операторов и других средств, представляющих его синтаксис.
Термины, связанные с посткоординатными ИПЯ: Координатный (посткоординатный, дескрипторный) ИПЯ [post-coordination language, descriptor language] - ИПЯ, построенный на принципах посткоординации, лексическими единицами которого являются дескрипторы. Основными словарными средствами, реализующими эти языки являются тезаурусы, представляющие так называемую нормированную лексику, и ключевые слова - ненормированную лексику. Объектно-признаковый ИПЯ - Вид координатного ИПЯ, предназначенный для представления объектографических (фактографических) данных. Дескриптор [descriptor] - Лексическая единица дескрипторного ИПЯ, которая при индексировании выбирается не из обрабатываемого текстового или другого материала, а из специального словаря. Дескрипторы отличаются от ключевых слов тем, что им придана смысловая однозначность. Ключевое слово, недискриптор [keyword, non-descriptor] - Лексическая единица, выбираемая из обрабатываемого (индексируемого) текста (вводимых в систему документов и запросов на поиск) а не словаря. Однако “ключевые слова” (точнее было бы их назвать - “ключевыми терминами”) составляются на основании специальных правил и построенных на их основе технологических инструкций, обеспечивающих однозначность их понимания и применения. Правовой тезаурус. В тезаурусе слова группируются согласно понятиям, к которым они относятся. А понятия упорядочиваются по иерархическому принципу.Тезаурус − обобщение словаря с многократными связями Индексирование и рубрицирование правовой информации. ИНДЕКСИРОВАНИЕ ТЕКСТА документа - предварительная обработка электронной копии документа средствами прикладной программы при его загрузке в базу данных, в результате которой все присутствующие в тексте термины (основы слов / усечения слов справа) учитываются в индексном словаре. Индексирование текста может сопровождаться морфологическим анализом (приведением всего ряда словоформ к основе слова), контекстным анализом (фиксация сведений о близости и порядке расположения слов в тексте с учетом его внутренней структуры - разбиения на предложения и абзацы), лингвистическим анализом (учетом родо-видовых, синонимических и иных смысловых связей между словами с построением информационно-поискового тезауруса). Индексирование текстов при их переводе в формат базы позволяет существенно увеличить скорость поиска в тексте. Объектом индексирования могут быть также и записи удаленных баз данных стандартных форматов, доступных через компьютерные сети.
РУБРИЦИРОВАНИЕ документов - процесс отнесения документов или их фрагментов к той или иной рубрике (теме) классификатора правовой информации или словаря ключевых слов Метризация и кодирование Кодирование информации — процесс преобразования сигнала из формы, удобной для непосредственного использования информации, в форму, удобную для передачи, хранения или автоматической переработки. Сетевое кодирование — раздел теории информации, изучающий вопрос оптимизации передачи данных по сети с использованием техник изменения пакетов данных на промежуточных узлах. Энтропийное кодирование — кодирование последовательности значений с возможностью однозначного восстановления с целью уменьшения объёма данных (длины последовательности) с помощью усреднения вероятностей появления элементов в закодированной последовательности.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|