Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Форматы данных и стандартизация




Корпусы, как правило, предназначены для многократного использования многими пользователями, соответственно, и их разметка, и их программное обеспечение должны быть определенным образом унифицированы. Что касается разметки, то как лингвистическая, так и экстралингвистическая разметка должны базироваться на некоторых достаточно широко распространенных и принятых принципах описания текстов и языковых единиц. Параметры разметки и их значения должны быть достаточно «естественными», т.е. должны соответствовать общепринятым научным классификациям. Что касается программного обеспечения, то оно должно поддерживать обработку типовых запросов и решение типовых задач. Большое значение имеет унификация форматов, как их наполнения, так и структуры. Единые форматы представления данных позволяют во многих случаях использовать единое программное обеспечение и обмениваться корпусными данными. Стандартизация в отношении корпусов, совместимость типов данных важны и с точки зрения сравнимости разных корпусов. Вопросы оценки корпусов, их пригодности к различным заданиям также требуют своих «стандартов оценки».

В настоящее время на основе международного опыта выработались де-факто стандарты представления метаданных, базирующиеся на описаниях текстов в рамках проекта Text Encoding Initiative (TEI) и на рекомендациях EAGLES (Expert Advisory Group on Language Engineering Standards). В качестве формального языка разметки широко применяются языки SGML и XML. В настоящее время стандарты EAGLES непосредственно включаются в технологическую среду языка XML, см., в частности, разработку стандарта Corpus Encoding Standard for XML (XCES).

Корпусные менеджеры

Работа пользователей с корпусом осуществляется с помощью специализированных программных средств – корпусных менеджеров, предоставляющих разнообразные возможности по получению из корпуса необходимой информации:

- поиск конкретных словоформ;

- поиск словоформ по леммам;

- поиск группы словоформ в виде разрывной или неразрывной синтагмы;

- поиск словоформ по набору морфологических признаков;

- отображение информации о происхождении, типе текста и т.п.;

- вывод результатов поиска с указанием контекста заданной длины;

- получение различных лексико-грамматических статистических данных;

- сохранение отобранных строк конкорданса в отдельном файле на компьютере пользователя и др.

Результаты поиска обычно выдаются в виде конкорданса (поэтому корпусные менеджеры еще называют конкордансерами), где искомая единица представлена в ее контекстном окружении и в виде статистических данных. Последние могут фиксировать частотные характеристики отдельных языковых единиц, или граммем, или могут характеризовать совместную встречаемость нескольких лексических единиц. Многие системы позволяют настраивать формат выдачи (менять длину левого и правого контекста, задавать объем выдачи и порядок сортировки данных, отображать или не отображать лингвистические и экстралингвистические характеристики, и т.д.).

Пример выдачи корпусных менеджеров см. в Приложении 1 (рис. 2–4).

Пользователи и способы использования корпусов

Пользователей корпусов, как правило, интересует не содержание конкретных текстов, а их метатекстовая информация и примеры употребления тех или иных языковых элементов и конструкций. Это, в первую очередь, лингвисты. Первоначальные лингвистические исследования, проводившиеся с помощью корпусов, сводились к подсчету частот встречаемости различных языковых элементов. Статистические методики используются в решении сложных лингвистических задач, таких как машинный перевод, распознавание и синтез речи, средства проверки орфографии и грамматики и т.д. Так, устойчивые словосочетания представляют собой с семантической точки зрения неделимую смысловую единицу, что очень важно учитывать в лексикографии, системах автоматической обработки текста. На материале корпуса статистическими методами можно определить, какие слова встречаются вместе регулярно и, таким образом, могут быть отнесены к устойчивым словосочетаниям. Корпусы являются богатым источником данных для исследований по лексикографии и грамматике. С исследованиями по лексикографии тесно связаны исследования в области семантики. Наблюдая окружения той или иной лингвистической единицы в корпусе, можно установить определенные семантические признаки, характеризующие данную единицу.

Лингвисты-теоретики используют корпусы в качестве экспериментальной базы для проверки гипотез и доказательства своих теорий. Прикладные лингвисты (преподаватели, переводчики и т.п.) используют компьютерные корпусы при обучении языкам и для решения своих профессиональных задач. Особый класс пользователей представляют компьютерные лингвисты: они пытаются выявить и использовать статистические и лингвистические закономерности, присутствующие в текстах, для создания компьютерных моделей языка. Другие специалисты по языку (литературоведы, редакторы) также в ряде случаев могут получить ответы на интересующие их вопросы, обратившись к корпусу. Специалисты по общественным наукам (историки, социологи) также могут изучать свои объекты через язык, используя такие параметры текстов, как период, автор или жанр. Литературоведы используют корпусы для стилеметрических исследований. Наконец, корпусы используются для разработки и настройки различных автоматизированных систем (машинный перевод, распознавание речи, информационный поиск).

Типы корпусов

Несмотря на разнообразие корпусов, можно выделить два основных способа деления корпусов на классы: 1) это противопоставление корпусов, относящихся ко всему языку (часто к языку определенного периода), корпусам, относящимся к какому-либо подъязыку (жанр, стиль, язык определенной возрастной или социальной группы, язык писателя или ученого и т.п.); 2) разделение корпусов по типу лингвистической разметки. Несмотря на наличие множества типов разметки, большинство реально существующих корпусов относится к корпусам морфологического либо синтаксического типа (последние в англоязычной литературе называют treebanks, что можно перевести как «банки синтаксических структур»). При этом следует подчеркнуть, что корпус с синтаксической разметкой явно или неявно включает в себя и морфологические характеристики лексических единиц.

Вообще же существует большое число разных типов корпусов. Их разнообразие определяется многообразием исследовательских и прикладных задач, для решения которых они создаются, и различными основаниями для классификации. В зависимости от поставленных целей и классифицирующих признаков, можно выделить различные типы корпусов (см. таблицу).


Классификация корпусов

Признак Типы корпусов
Тип данных Письменные Речевые Смешанные
Язык текстов Русский Английский и т.д.
«Параллельность» Одноязычные Двуязычные Многоязычные
«Литературность», специфичность Литературные Диалектные Разговорные Терминологические Смешанные
Жанр Литературные Фольклорные Драматургические Публицистические
Доступность Свободно доступные Коммерческие Закрытые
Назначение Исследовательские Иллюстративные
Динамичность Динамические (мониторные) Статические
Разметка Размеченные Неразмеченные
Характер разметки Морфологические Синтаксические Семантические Просодические и т.д.
Объем текстов Полнотекстовые «Фрагментнотекстовые»
Хронологический аспект Синхронические Диахронические
«Общность» Общие Одного писателя
Структура Центральные и архивные Ядерные и периферийные

Терминология

Терминология корпусной лингвистики еще не установилась. Во-первых, это естественно, учитывая ее недавнее происхождение. Во-вторых, корпусная лингвистика как отдельная ветвь лингвистики сложилась в США и в Великобритании. И соответственно, ее терминология складывалась и продолжает складываться в недрах английского языка. И, естественно, русская корпусная терминология строится на базе англоязычной. В качестве примера и образца приведем фрагмент будущего словаря-тезауруса по корпусной лингвистике (Приложение 2). Одновременно заметим, что методология корпусной лингвистики может быть применена и к ней самой. То есть необходимо составить корпус текстов по корпусной лингвистике и разрабатывать словарь непосредственно на живом текстовом материале. Некоторое число публикаций на русском языке, посвященных вопросам создания и использования корпусов, уже имеется. В приложениях 2 и 3 этот подход иллюстрируется на примере англоязычной терминологии. Что касается русского языка, то среди специалистов до сих пор нет единодушия в отношении главного термина: корпус. Каким должно быть множественное число от слова «корпус»? Как образуется соответствующее прилагательное? Словари допускают для разных значений этого существительного две формы множественного числа: кóрпусы и корпусá. Для значения «массив», которое имеет место в случае языковых корпусов, именительный падеж множественного числа должен быть «кóрпусы» и, соответственно, прилагательное «кóрпусный» (Большой толковый словарь русского языка, СПб., 1998). Однако анализ узуса специалистов пока свидетельствует в пользу форм «корпусá», «корпуснóй», «корпуснáя», которые используются заметно чаще, так что можно, видимо, с осторожностью сказать, что в настоящее время этот вопрос остается открытым.


 

2. Программа учебной дисциплины
«Корпусная лингвистика»

2.1. Организационно-методический раздел

Программа дисциплины составлена в соответствии с государ­ствен­ным образовательным стандартом высшего профессионального образования по направлению 021800 — Лингвистика.

Цель курса состоит в том, чтобы познакомить студентов с концепциями корпусной лингвистики, дать им возможность освоить основы корпусных технологий, приобрести навыки работы с корпусами.

Задачи курса:

§ ознакомить студентов с новой парадигмой в лингвистических исследованиях;

§ ознакомить студентов с историей корпусных исследований;

§ изучить языковые и программные средства корпусной лингвистики;

§ сформировать навыки работы с программными средствами и информационными ресурсами корпусной лингвистики;

§ сформировать навыки исследовательской работы по анали­зу языка на базе корпусных данных.

Место курса в профессиональной подготовке выпускника: курс рассчитан на детальное ознакомление с новыми методами лингвистических исследований. Даются специальные знания для тех, кто хочет специализироваться в данном направлении лингвистической науки.

Требования к уровню освоения содержания курса.

В результате обучения студент должен подробно знать:

§ основные понятия корпусных технологий,

§ основные типы корпусов,

§ понятие разметки,

§ основные стандарты разметки,

§ средства создания корпусов,

§ основные имеющиеся корпусы,

§ типы программных средств для работы с корпусами;

должен уметь:

§ создавать языковые корпусы,

§ работать с программами-менеджерами и конкордансерами,

§ осуществлять поиск и исследования на базе корпусов.

2.2. Содержание курса

Курс состоит из трех частей, которые могут изучаться как последовательно, так и каждая в отдельности:

1) Часть 1. Введение в корпусную лингвистику.

2) Часть 2. Создание корпусов.

3) Часть 3. Использование корпусов.

Де-факто все три части между собою связаны, так, например, методы создания корпусов определяются их назначением и типологией, которые рассматриваются в первой части. Языки запросов и возможности корпусных менеджеров во многом определяются разметкой, которая рассматривается в третьей части. И так далее.

2.3. Часть 1. Введение в корпусную лингвистику

2.3.1. Разделы:

1) Основные понятия корпусной лингвистики.

2) История создания лингвистических корпусов.

3) Типология корпусов.

Краткое содержание разделов

Раздел 1. Основные понятия корпусной лингвистики

Тема 1. Основные понятия и определения.

Тема 2. Лингвистические (языковые) и нелингвистические корпусы.

 

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...