1.6 Особенности работы с. Национальным корпусом русского языка
1. 6 Особенности работы с Национальным корпусом русского языка
С развитием компьютерных технологий особое значение в области корпусной лингвистики начали играть параллельные многоязычные корпуса текстов в электронном формате. В частности, практика создания современных корпусов предусматривает разметку данных на уровне слова (например, разметку сем, частей речи, грамматических признаков и т. п. ), а также больших языковых единиц (например, разметку синтаксических групп, коммуникативное членение предложения, стилистических особенностей). Именно национальный корпус русского языка (далее – НКРЯ) предназначен для обеспечения научных исследований лексики и грамматики языка, а также непрерывных процессов лексических изменений. Однако важнейшая задача корпуса – предоставление нужных справок о конкретной языковедческой отрасли (лексики, грамматика, стилистики, акцентологии, истории языка) [http: //www. ruscorpora. ru/old/search-main. html]. Изучением корпусов занимаются многие современные исследователи. Однако разработки касаются общих языковедческих (маркировочных, лексико-грамматических, коннотационных) признаков корпусов, без учета функциональных свойств и возможностей перевода тематических текстов. Вместе с тем, отсутствуют научные подтверждения о важности применения НКРЯ в многоязычном измерении, и перспективы создания новых текстовых блоков. НКРЯ вмещает параллельные корпуса, в которых можно найти переводы для определенного слова или словосочетания на русский язык или с русского языка на другой. В настоящее время для поиска доступны: англо-русский, русско-английский, немецко-русский, украинско-русский, русско-украинский, украинско-российский, русско-белорусский и многоязычные параллельные корпуса.
Действующие системы машинного перевода ориентированы на конкретные пары языков и используют, как правило, переводные соответствия или на поверхностном уровне, или на промежуточном уровне между входным и выходным языком. Качество машинного перевода зависит от объема словаря, объема информации, прилагаемых к лексическим единицам. Современные аппаратные и программные средства дают возможность применять словари большого объема, вмещающие подробную грамматическую информацию. Информация может быть представлена как в декларативной (описательной), так и в процедурной (учитывающей нужды) форме. В данном случае, национальный корпус русского языка – это большой, сбалансированный по составу электронный корпус текстов, ядром НКРЯ есть русскоязычные тексты. Также в НКРЯ входит параллельный корпус, который состоит из многоязычной части. Подразделениями НКРЯ являются: 1) основной корпус; 2) синтаксический корпус; 3) газетный корпус; 4) параллельный (официально-деловые, юридические, правовые блоки) корпус; 5) учебный корпус; 6) диалектный корпус; 7) поэтический корпус; 8) устный корпус; 9) акцентологический корпус; 10) мультимедийный корпус; 11) исторический корпус [Национальный корпус русского языка]. Прямой поиск в НКРЯ дает возможность точного перевода. Более сложный и специализированный лексико-грамматический поиск в корпусе осуществляется по грамматическому, семантическому и дополнительным (в частности, знаковым) уровням. Доступен поиск, по нескольким словам, с возможностью задать расстояние между ними. Создание своего подкорпуса для поиска предусматривает сужение метатекстовых признаков (автор и название текста, время создания текста, жанровые характеристики и т. д. ) [Чеснокова, 2018, с. 97]. Словотворческая разметка в НКРЯ рассматривается в двух вариантах, первый из которых – реализация в семантической разметке. Определение параметров словообразовательной разметки в этом случае проводится с выбором в форме «лексико-грамматический поиск» окна «семантические признаки» и дальнейшим выбором параметров группы «словообразование», доступных в данном окне. В этом виде разметки набор словообразовательных параметров соответствует следующим типам характеристик:
– морфологически-семантические словотворные признаки; – разряд, который создает слова; – лексико-семантический (таксономический) тип, создающий слова; – обычный морфологический тип словообразования. Данный вариант словообразовательной разметки доступен только в семантически размеченных корпусах НКРЯ: 1) основном; 2) газетном; 3) параллельном; 4) поэтическом; 5) устном; 6) акцентологическом; 7) мультимедийном. Национальный корпус характеризуется представительностью, или сбалансированным составом текстов. Это означает, что корпус содержит по возможности все типы письменных и устных текстов, представленных в данном языке (художественные произведения разных жанров, газетные и журнальные статьи разной тематики, рекламу, специальные тексты, дневники, переписку), и что все эти тексты входят в корпус по возможности пропорциональности их доли в языке соответствующего периода. Составители НКРЯ дифференцируют тексты корпуса следующим образом: 1) современная художественная проза разных жанров и направлений; 2) современная драматургия; 3) мемуарно-биографическая литература; 4) журнальная публицистика и литературная критика; 5) газетная публицистика и новости; 6) научные, научно-популярные и учебные тексты; 7) религиозные и религиозно-философские тексты; 8) производственно-технические тексты; 9) официально-деловые и юридические тексты; 10) бытовые тексты (в том числе тексты, не предназначенные для публикации: личная переписка, дневники и т. д. ) [Плунгян 2015]. В то же время, тексты НКРЯ представлены в определенной пропорции, отражающей их долю в общем массиве современных текстов. Так, доля художественных текстов (включая драматургию и мемуары) составляет не более 40% и все эти тексты входят в корпус по возможности пропорциональности их доле в языке соответствующего периода.
Таким образом, данные корпуса репрезентативно представляют письменные тексты, включая транскрипты устной речи, относящиеся только к институциональному общению, к публичным жанрам устной официальной коммуникации. Устная коммуникация может быть включена в состав НКРЯ в статусе самостоятельного подкорпуса. Вместо этого лингвистические исследования, которые базируются на материале корпусов и сопоставлении полученных данных с данными национального корпуса русского языка, дают возможность выяснить природу ошибок и сферы формирования новых тенденций, связанных с развитием лексико-грамматической системы современного русского языка, ее связей с другими языками. Функционал включает сортировку по статистическим мероприятиям, выгрузку данных онлайн и переход в НКРЯ (выдачу примеров, соответствующих избранным критериям). Ресурс обеспечивает развитие квантитативних корпусных исследований и становится базой для фундаментальных исследований в области русской грамматики. В 2010 году в составе Национального корпуса русского языка был открыт пилотный вариант мультимедийного русского корпуса (Мурка). Из-за наличия у большинства корпусов алгоритмических погрешностей, необходимо применять практику ручной проверки результатов. Для оптимизации и ускорение процесса ручной проверки результатов, в НКРЯ создана специальная компьютерная программа – рабочее место постредактора [Тагабилева 2015]. Общий список разбит на равные части, каждая из которых проверяется отдельно разными участниками проекта. После первичной проверки отдельные отредактированные части собираются в единый массив для повторной проверки на предмет однообразия принятых относительно спорных случаев решений. Программа обновляется каждые три года, зато, каждый год исследователи в области корпусной лингвистики, анализируя списки, решают сложные теоретические и практические задачи. Например, на низком уровне находится разработка автоматизации разметки суффиксов и корневых частей. К тому же, одним из ранее актуальных направлений работы является усовершенствование программы по отделению отдельных тем (например, юридических блоков, языка официальных документов ЕС) и стилистической принадлежности [Елена, 2010, с. 17].
Перспективы развития НКРЯ и других национальных корпусов, связаны с дальнейшей разработкой и углублением теории и практики перевода. Для развития теории важны результаты сопоставительного языкознания, общей теории перевода, корпусных разработок, оптимизации и совершенствования лингвистических алгоритмов. Новые и более эффективные корпуса, которые бы прорабатывали тематические официально-деловые документы с необходимой словарной информацией, терминологизацией лексики, помогут повысить качество перевода лексических единиц. В данной работе НКРЯ помогает найти лексико-семантические изменения в тематической группе слов «наименование предметов верхней одежды». Исследование ряда слов, в том числе иноязычных, помогает определить их семантику в современном русском языке и лексико-семантические изменения в тематической группе. Выделяются основные оппозиции, характеризующие специфику тематической группы. А когнитивные процессы, проявляющие себя в формировании состава тематической группы, ее структуре и функциях, влияют на аналогичные параметры сопредельных тематических групп, в частности обозначений цвета и расцветок одежды. Кроме того, использование НКРЯ дает возможность выявить дополнительные оттенки в семантике слов, тем самым расширяя и углубляя наши представления о русской языковой картине мира.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|