Главная | Обратная связь | Поможем написать вашу работу!

1.6 Особенности работы с. Национальным корпусом русского языка

1. 6 Особенности работы с

Национальным корпусом русского языка

С развитием компьютерных технологий особое значение в области корпусной лингвистики начали играть параллельные многоязычные корпуса текстов в электронном формате. В частности, практика создания современных корпусов предусматривает разметку данных на уровне слова (например, разметку сем, частей речи, грамматических признаков и т. п. ), а также больших языковых единиц (например, разметку синтаксических групп, коммуникативное членение предложения, стилистических особенностей).

Именно национальный корпус русского языка (далее – НКРЯ) предназначен для обеспечения научных исследований лексики и грамматики языка, а также непрерывных процессов лексических изменений. Однако важнейшая задача корпуса – предоставление нужных справок о конкретной языковедческой отрасли (лексики, грамматика, стилистики, акцентологии, истории языка) [http: //www. ruscorpora. ru/old/search-main. html].

Изучением корпусов занимаются многие современные исследователи. Однако разработки касаются общих языковедческих (маркировочных, лексико-грамматических, коннотационных) признаков корпусов, без учета функциональных свойств и возможностей перевода тематических текстов. Вместе с тем, отсутствуют научные подтверждения о важности применения НКРЯ в многоязычном измерении, и перспективы создания новых текстовых блоков.

НКРЯ вмещает параллельные корпуса, в которых можно найти переводы для определенного слова или словосочетания на русский язык или с русского языка на другой. В настоящее время для поиска доступны: англо-русский, русско-английский, немецко-русский, украинско-русский, русско-украинский, украинско-российский, русско-белорусский и многоязычные параллельные корпуса.

Действующие системы машинного перевода ориентированы на конкретные пары языков и используют, как правило, переводные соответствия или на поверхностном уровне, или на промежуточном уровне между входным и выходным языком. Качество машинного перевода зависит от объема словаря, объема информации, прилагаемых к лексическим единицам. Современные аппаратные и программные средства дают возможность применять словари большого объема, вмещающие подробную грамматическую информацию. Информация может быть представлена как в декларативной (описательной), так и в процедурной (учитывающей нужды) форме.

В данном случае, национальный корпус русского языка – это большой, сбалансированный по составу электронный корпус текстов, ядром НКРЯ есть русскоязычные тексты. Также в НКРЯ входит параллельный корпус, который состоит из многоязычной части. Подразделениями НКРЯ являются:

1) основной корпус;

2) синтаксический корпус;

3) газетный корпус;

4) параллельный (официально-деловые, юридические, правовые блоки) корпус;

5) учебный корпус;

6) диалектный корпус;

7) поэтический корпус;

8) устный корпус;

9) акцентологический корпус;

10) мультимедийный корпус;

11) исторический корпус [Национальный корпус русского языка].

Прямой поиск в НКРЯ дает возможность точного перевода. Более сложный и специализированный лексико-грамматический поиск в корпусе осуществляется по грамматическому, семантическому и дополнительным (в частности, знаковым) уровням. Доступен поиск, по нескольким словам, с возможностью задать расстояние между ними. Создание своего подкорпуса для поиска предусматривает сужение метатекстовых признаков (автор и название текста, время создания текста, жанровые характеристики и т. д. ) [Чеснокова, 2018, с. 97].

Словотворческая разметка в НКРЯ рассматривается в двух вариантах, первый из которых – реализация в семантической разметке. Определение параметров словообразовательной разметки в этом случае проводится с выбором в форме «лексико-грамматический поиск» окна «семантические признаки» и дальнейшим выбором параметров группы «словообразование», доступных в данном окне. В этом виде разметки набор словообразовательных параметров соответствует следующим типам характеристик:

– морфологически-семантические словотворные признаки;

– разряд, который создает слова;

– лексико-семантический (таксономический) тип, создающий слова;

– обычный морфологический тип словообразования.

Данный вариант словообразовательной разметки доступен только в семантически размеченных корпусах НКРЯ:

1) основном;

2) газетном;

3) параллельном;

4) поэтическом;

5) устном;

6) акцентологическом;

7) мультимедийном.

Национальный корпус характеризуется представительностью, или сбалансированным составом текстов. Это означает, что корпус содержит по возможности все типы письменных и устных текстов, представленных в данном языке (художественные произведения разных жанров, газетные и журнальные статьи разной тематики, рекламу, специальные тексты, дневники, переписку), и что все эти тексты входят в корпус по возможности пропорциональности их доли в языке соответствующего периода.

Составители НКРЯ дифференцируют тексты корпуса следующим образом:

1) современная художественная проза разных жанров и направлений;

2) современная драматургия;

3) мемуарно-биографическая литература;

4) журнальная публицистика и литературная критика;

5) газетная публицистика и новости;

6) научные, научно-популярные и учебные тексты;

7) религиозные и религиозно-философские тексты;

8) производственно-технические тексты;

9) официально-деловые и юридические тексты;

10) бытовые тексты (в том числе тексты, не предназначенные для публикации: личная переписка, дневники и т. д. ) [Плунгян 2015].

В то же время, тексты НКРЯ представлены в определенной пропорции, отражающей их долю в общем массиве современных текстов. Так, доля художественных текстов (включая драматургию и мемуары) составляет не более 40% и все эти тексты входят в корпус по возможности пропорциональности их доле в языке соответствующего периода.

Таким образом, данные корпуса репрезентативно представляют письменные тексты, включая транскрипты устной речи, относящиеся только к институциональному общению, к публичным жанрам устной официальной коммуникации. Устная коммуникация может быть включена в состав НКРЯ в статусе самостоятельного подкорпуса.

Вместо этого лингвистические исследования, которые базируются на материале корпусов и сопоставлении полученных данных с данными национального корпуса русского языка, дают возможность выяснить природу ошибок и сферы формирования новых тенденций, связанных с развитием лексико-грамматической системы современного русского языка, ее связей с другими языками.

Функционал включает сортировку по статистическим мероприятиям, выгрузку данных онлайн и переход в НКРЯ (выдачу примеров, соответствующих избранным критериям). Ресурс обеспечивает развитие квантитативних корпусных исследований и становится базой для фундаментальных исследований в области русской грамматики. В 2010 году в составе Национального корпуса русского языка был открыт пилотный вариант мультимедийного русского корпуса (Мурка).

Из-за наличия у большинства корпусов алгоритмических погрешностей, необходимо применять практику ручной проверки результатов. Для оптимизации и ускорение процесса ручной проверки результатов, в НКРЯ создана специальная компьютерная программа – рабочее место постредактора [Тагабилева 2015].

Общий список разбит на равные части, каждая из которых проверяется отдельно разными участниками проекта. После первичной проверки отдельные отредактированные части собираются в единый массив для повторной проверки на предмет однообразия принятых относительно спорных случаев решений.

Программа обновляется каждые три года, зато, каждый год исследователи в области корпусной лингвистики, анализируя списки, решают сложные теоретические и практические задачи. Например, на низком уровне находится разработка автоматизации разметки суффиксов и корневых частей. К тому же, одним из ранее актуальных направлений работы является усовершенствование программы по отделению отдельных тем (например, юридических блоков, языка официальных документов ЕС) и стилистической принадлежности [Елена, 2010, с. 17].

Перспективы развития НКРЯ и других национальных корпусов, связаны с дальнейшей разработкой и углублением теории и практики перевода. Для развития теории важны результаты сопоставительного языкознания, общей теории перевода, корпусных разработок, оптимизации и совершенствования лингвистических алгоритмов.

Новые и более эффективные корпуса, которые бы прорабатывали тематические официально-деловые документы с необходимой словарной информацией, терминологизацией лексики, помогут повысить качество перевода лексических единиц.

В данной работе НКРЯ помогает найти лексико-семантические изменения в тематической группе слов «наименование предметов верхней одежды». Исследование ряда слов, в том числе иноязычных, помогает определить их семантику в современном русском языке и лексико-семантические изменения в тематической группе. Выделяются основные оппозиции, характеризующие специфику тематической группы. А когнитивные процессы, проявляющие себя в формировании состава тематической группы, ее структуре и функциях, влияют на аналогичные параметры сопредельных тематических групп, в частности обозначений цвета и расцветок одежды. Кроме того, использование НКРЯ дает возможность выявить дополнительные оттенки в семантике слов, тем самым расширяя и углубляя наши представления о русской языковой картине мира.

⇐ Предыдущая 1 2 3 4 567 8 9 10 Следующая ⇒

Воспользуйтесь поиском по сайту: