Главная | Обратная связь | Поможем написать вашу работу!

Лингвистические информационные ресурсы (ЛИР)

Базы данных (БД) и лингвистические информационные ресурсы (ЛИР)

План:

1. Общее понятие о БД

2. СУБД, основные функции

3. Лингвистические информационные ресурсы. Основные понятия. Виды ЛИР

Существует несколько определений понятия база данных

БД – это совокупность определенным образом упорядоченных сведений о некоторых объектах.

Объекты - это сведения, факты, события, процессы. Объект может быть материальным(студент, товар, машина) и нематериальным (событие - поход в цирк, процесс - перевод текста, факт - поступление в университет). В жизни каждый объект обладает определенными свойствами или атрибутами (вес, скорость, цвет…), которым приписываются определенные значения: батон весит 400 гр., скорость машины 90 км./ч.

В БД атрибуты представляются элементами данных или просто данными, а их значения – значения данных.

Пример БД - Студент

Номер зачетной книжки	Ф.И.О. студента	Пол	Год рождения	Факультет	Группа	Стипендия
	Арбузов А.И.	м		англ.
	Белова Р.Г.	ж		фр.
…	…	…	…	…	…	…

Объектом является – студент. Он описывается атрибутами: № зач. книжки, ФИО,.. Эти атрибуты для каждого студента имеют определенное значение. В памяти ПК атрибутам № зачетной книжки, ФИО …соответствуют элементы данных или просто данные. Таким образом, данное – это некоторый показатель, который характеризует заданный объект и принимает для конкретного элемента объекта некоторое значение. Группа данных, которая образует одну строку называется записью. В рассмотренном примере запись состоит из 7 элементов.

Чтобы пользователь мог обратиться к записи, ее необходимо идентифицировать. Одно из данных выбирается в качестве идентификатора (первичного ключа). В качестве идентификатора выбирают данное, которое является уникальным для каждого объекта. Например в нашем случае № зачетной книжки. Если несколько записей имеют одно и тоже множество данных с однотипной информацией то говорят, что эти записи имеют один формат. Множество записей с одним форматом называют файлом. А множество файлов образуют базу данных. Допустим, что объект Студент будет описан не в 1 файле, а в 3 файлах.

Номер зачетной книжки	Ф.И.О. студента	Пол	Год рожд.	Факультет	Группа	Специальность	Стипендия
	Арбузов А.И.	м		англ.			С1
	Белова Р.Г.	ж		фр.			С2
…	…	…	…	…	…

Причем цифры специальностей и размеры стипендий можно также представить в виде следующих таблиц (файлов в компьютерной БД)

Специальность
Шифр	Название
	английский и немецкий. языки.
	французский и немецкий языки

Стипендия
Код	Размер
С01
С02

Эти три файла в совокупности и составляют БД – Студент

Основные функции БД

1) Поиск информации в БД

2) Модификация информации, находящейся в БД:

· добавление;

· удаление

· редактирование

Системы управления базами данных (СУБД)

СУБД – совокупность программных средств, позволяющих осуществлять создание, ведение базы данных и в них информации.

Сейчас различают 2 основных типа СУБД: настольные и сервисные.

1. Настольные СУБД по степени сложности подразделяются:

а) СУБД для обработки небольших объемов информации пр. MS OUTLOOK

б) СУБД, ориентированные на пользователя, не умеющего программировать EXCEL, LOTUS

в) Сложные СУБД, ориентированные на разработку приложений пр. Fox Base, MS Access

2. Серверные СУБД используют архитектуру “Клиент-Сервер”, т.е. происходит централизованное хранение и обработка данных. Пр. Informix, MS SQL Server

Основные функции СУБД

1) Обеспечить создание структуры БД. Чтобы эффективно хранить и обрабатывать информацию, необходимо определить: какая информация будет храниться, какие атрибуты, типы данных.

2) Модификация информации, находящейся в БД:

· добавление;

· удаление

· редактирование

3) Поиск информации

Лингвистические информационные ресурсы (ЛИР)

Лингвистические информационные ресурсы – одна из составляющих информационных ресурсов.Под информационным ресурсом понимают некоторый интеллектуальный ресурс, результат коллективного творчества

К пассивным формам информационных ресурсов относят книги, журналы, газеты, словари, энциклопедии, патенты, базы и банки данных и т.п.

Активные формы включают алгоритмы, модели, программы, базы знаний

Лингвистические информационные ресурсы - это множество определенным образом организованных речевых и языковых данных, находящихся на машинных носителях информации и используемых в различных сферах практической деятельности (образовании, промышленности, экономике, культуре, искусстве, издательстве

В самом общем виде ЛИР – это своеобразная лингвистические БД, которые можно обновлять и в которых можно искать ту или иную информацию. Лингвистические ресурсы необходимы как пользователям ПК, так и различным компьютерным системам, связанным с обработкой текста речи: реферирования, аннотирования и перевода текстов, автоматического анализа текста, синтеза речи и текста.

Пассивные лингвистические информационные ресурсы включают

1) письменный лексикон

2) письменные текстовые массивы

3) фонетические ресурсы

1) Письменный лексикон представлен одноязычными и многоязычными лексиконами. В общем смысле словарь - это справочная книга, которая содержит слова (морфемы, словосочетания, идиомы и т.п.), расположенные в определенном порядке (различном в разных типах словарей). В нем может содержаться толкование значения описываемых единиц, а также различная информацию о них. Любой словарь может быть представлен в виде реляционной БД. Какие же типы словарей сейчас создаются и используются в компьютерной лингвистике?

· Простейшей лингвистической базой данных может служить частотно-алфавитный словарь словоформ какого-либо текста

· Более сложную организацию имеет база данных словоуказатель. В ней кроме абсолютной частоты употребления словоформы в тексте указываются номера страниц и строк на странице, где встретилась данная словоформа.

· Еще более сложным типом словарей являются конкордансы. В них каждая словоформа текста характеризуется не только численными показателями (частотой, номером страницы, номером строки и т.д.), но и некоторым контекстом, в котором она употреблена. Как правило, этот контекст состоит из 3-х предложений: предложения, в котором встретилась словоформа, предложения, стоящего перед основным предложением, и предложения, стоящего после него

· Энциклопедии - это словари, содержащие характеристики не слова как такового, а обозначенного им предмета, факта или явления. Существует достаточно большое число различных энциклопедий на машинных носителях информации. Наиболее известна среди них энциклопедия "Britannica". Она включает 82000 статей и 700 дополнительных материалов, опубликованных с 1768 года. Не менее известны французские энииклопеди "Tons les savoire du Monde", "Le monde sur CD-ROM", "Versailles" и др. t^^ русском языке изданы "Большая Энциклопедия Кирилла и Мефодия

· Тезаурус - принципиально иной тип словарей. В нем в явном виде указаны семантические связи между определенной частью его лексических единиц. Как правило, такие словари строятся для текстов достаточно узкой проблемной области: вычислительной техники, музыки, кораблестроения, сельского хозяйства и т.д.

· Терминологическим словарем (ТС) называется словарь, основной единицей которого является термин.
Термин - это слово или подчинительное словосочетание, имеющее специальное значение, выражающее и формирующее профессиональное понятие и применяемое процессе познания и освоения научных и профессионально-технических объектов и отношений между ними.

2) Письменный текстовый массив или корпус тексто в, где корпус текста - это совокупность текстов, являющаяся достаточной для обеспечения надежных научных выводов о некотором языке, диалекте или ином другом подмножестве языка

Могут быть использованы:

· В лексикографии и лексикологии (для составления различных словарей, определения значений многозначных слов, выявления ассоциативных связей слов в тексте, выделения терминов и терминологических словосочетаний и т.п.).

· В грамматике (для определения частоты употребления грамматических морфем в текстах различного типа, выявления наиболее употребляемых типов словосочетаний и предложений, определения значений синонимичных морфологических единиц, частоты употребления классов слов и т.д.).

· В лингвистике текста (для дифференциации типов текста, создания конкордансов, выявления связи между предложениями в абзацах и между абзацами «т.д.).

· При автоматическом переводе текстов (для поиска контекстов слов, имеющих несколько переводных эквивалентов, поиска переводных эквивалентов терминологических и фразеологических словосочетаний в параллельных текстах и т.д.).

· В учебных целях (для выбора цитат, отдельных фрагментов произведений, примеров, используемых в процессе создания учебников и учебных пособий

в последние годы стали создаваться таггированные корпусы текстов (от англ, tag - 'индекс, помета'). Все слова такого корпуса получают некоторые буквенные или цифровые индексы, которые обозначают их грамматические, лексические, семантические или структурные признаки. Таких индексов может быть несколько.

3) Фонетические лингвистические ресурсы
В настоящее время общепринято, что для создания машиночитаемых фонетических корпусов используется транскрипция на основе орфографического представления звуков речи с дополнительными знаками, передающими (при необходимости) просодические, паралингвистические и другие особенности произношения.

Фонетические корпусы текстов широко используются для решения следующих задач:

· сопоставительного изучения устной и письменной форм языка;

· изучения грамматических и лексических особенностей устной речи;

· исследования фонетических особенностей диалектов;

· построения частотных списков фонем и их сочетаний;

· изучения акустических свойств речевых единиц и их использования в психолингвистических и лингвистических экспериментах;

· создания компьютерных систем, распознавания и синтеза устной речи.

Пример: Германия – записи радиопередач, для транскрибирования отобрали 222 текста;

США. Корпус устной речи - записи психоаналитических сеансов (225 записей)

Воспользуйтесь поиском по сайту: