Системы машинного перевода
Перевод – вид человеческой языковой деятельности, в результате которой текст на одном языке ставится в соответствие тексту на другом языке при обеспечении их смысловыми эквивалентами. Типы перевода по степени автоматизации: 1) Традиционный (ручной, выполненный человеком) 2) Автоматизированный а) Перевод, выполняемый ПК с помощью человека (ПК обращается за справками к человеку); б) Перевод, выполняемый человеком с помощью ПК: - В памяти ПК двуязычный словарь и текстовый редактор; - Системы ТМ (Translation Memory) – в их основе лежит принцип сбора и хранения фрагментов переведённых человеком текстов на 2 языках, они хранятся в специальном накопителе перевода и служат бесценным подспорьем при последующем выполнении переводов той же тематики. 3) Машинный (автоматический) – выполняемое ПК действие по преобразованию текста на одном языке в текст на другом языке при сохранении эквивалентности).
Первые теоретические разработки по машинному переводу относятся к 30-40-м, но практическое применение идея машинного перевода нашла в 50-е. Первый машинный перевод был выполнен в Джорджстаунском университете в 1954. В Москве первый машинный перевод был выполнен в 1955. Так как большинство слов имеют несколько значений, то основная трудность заключается именно в выборе нужного варианта, для чего человек использует контекст, жизненный опыт, который фактически невозможно формализовать и загрузить в ПК, => идеального машинного перевода быть не может и человек постоянно участвует в редактировании текста.
Типы систем МП: 1) На правилах языка (модель перевода человеком) а) Структуры систем МП, основанных на первой системе:
- В процессе морфемного анализа слов предложения исходного языка каждое слово получает наборы лексико-грамматических признаков (часть речи, род и т.д.), ПК формирует эти наборы с опорой на специализированные двуязычные словари; - Синтаксический анализ предложения исходного языка сводится к поиску основных членов предложения; - Синтаксический синтез заключается: a. В создании предложения переводного языка определённой синтаксической структуры, определяемой правилами языков; b. Замена слов исходного языка на их переводные эквиваленты из словарей. - Морфологический синтез каждого слова предполагаемого родного языка сводится к постановкам каждого слова в нужную форму, для чего ПК использует лексико-грамматические признаки слов переводного языка.
б) Успех СМП зависит от автоматических словарей. Для всех слов закодированного вида указываются грамматические признаки и лексико-семантическая информация. в) Используются два типа представления лексических единиц в автоматическом словаре: - В виде словоформ (словарь включает всевозможные лексические единицы и подаётся гнёздами); - В виде квазиосновы (числа, стоящие после, условно обозначают наборы суффиксов и окончаний, присоединяемых к основе для получения соответствующей формы, эти числа называются типами формообразования, а сами суффиксы и окончания – машинными окончаниями. г) Выбор типа лексической единицы зависит от: - Типа языка (для флективных рациональнее использовать квазиоснову, для языков аналитического типа - словоформу); - От объёма словаря и вычислительных ресурсов ПК; - От типа системы СМП (для информативного перевода применяют квазиосноу, для профессионального – словоформу).
д) Системы первой технологии опираются на готовые словари, для их разработки нужно много времени, а также для настройки системы для каждой тематики перевода:
- Подключение специализированных словарей; - Добавление незнакомых слов в пользовательский словарь; - Резервирование собственных имён; - Подключение баз ТМ; - Выбор подходящего вариативного перевода для многозначных слов и редактирование перевода.
е) Использование программ этой технологии даёт выигрыш только при переводе огромных массивов однородной документации с большим количеством повторений.
ж) Преимущества систем первой технологии: - Синтаксическая и морфологическая точность; - Стабильность и предсказуемость результатов; - Возможность настройки на предметную область.
з) Недостатки: - Трудоёмкость и длительность разработки; - Необходимость пополнения словарей; - «Машинный» акцент.
2) Системы второй технологии (основаны на поиске наиболее вероятного перевода с использованием данных из параллельных корпусов); а) Преимущества: - Легко построить при наличии двуязычного корпуса; - Перенос технологии на любые пары языков - Лексическая гладкость.
б) Недостатки: - Ограниченность параллельных корпусов и их качество; - Плохая справляемость с морфологией и синтаксисом; - Искажение информации.
Обе технологии обладают своими преимуществами и недостатками и не решили задачу по достижению качественного МП. Система Promt разработала «Гибридную технологию перевода». Такой перевод сохраняет преимущества традиционной технологии (формирование синтаксически связанного и грамматически правильного текста) и преимущества статистического метода (быстрое обучение, получение данных из параллельных корпусов в автоматическом режиме и гладкость текстов).
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|