Главная | Обратная связь | Поможем написать вашу работу!

Обработка естественного языка (ОЕЯ)

Область построения систем, обрабатывающих (или «перерабатыващих») естественный язык, точнее было бы назвать переработкой речи (текстов) на естественных языках. Эта область, в том виде, какой она приобрела в последние годы, занята построением и проверкой концепций (и технических их воплощений) общения с ЭВМ на естественном языке. В частности, сюда относится задача построения таких программ для ЭВМ, которые позволяют организовать диалог с ЭВМ. В отличие от задачи «распознавания устной речи», где решается проблема акустического распознавания сигналов, ОЕЯ занимается операциями более абстрактного, более символического порядка: операциями над значениями и логическим выводом, необходимыми для распознавания речи.

Объектом ОЕЯ обычно считается текст. В системе же, претендующей на перспективность, ставится задача не просто распознать этот текст, а выяснить те обычно скрытые движущие силы, которые его сформировали. Напомним, что текст в его становлении называют дискурсом.

Система обработки текста, по Фридману, решает две проблемы: 1) выясняет истоки информации, из которой «композиционным» путем может быть выведена конкретная семантическая информация для каждого отдельного предложения текста (т.е. выявляет семантику предложения исходя из структуры целого текста), и 2) устанавливает роль и функции этой информации высокого порядка в рамках целого дискурса.

Вообще говоря, система ОЕЯ должна: а) планировать высказывания, необходимые для достижения конкретных коммуникативных целей, что находится в зависимости от знаний, мнений и намерений пользователей такой системы, и б) распознавать в высказываниях пользователя те планы, которые могут быть сообщены в результате нескольких высказываний или которые, по замыслу пользователя, могут быть логически выведены из презумпций общающихся сторон (человека и ЭВМ). Один из возможных путей достижения этого – следующий цикл:

1. Рассмотреть текущее высказывание (предложение).

2. Основываясь на наклонении этого предложения (повествовательное, вопросительное, повелительное), приписать эффект высказывания намерению пользователя.

3. Используя алгоритмы распознавания, а также базу общих презумпций, вывести, если это возможно, каким образом наблюдаемые действия укладываются в план достижения цели, которую, как ожидается, преследует пользователь. Если этот план не может быть однозначно выявлен, выработать цель системы, направленную на вскрытие цели пользователя.

4. Выработать задачи системы для тех целей, которые пользователь намеревался активизировать в системе.

5. Используя частные (т.е. не общие) презумпции, определить препятствия, которые могут помешать осуществлению планов пользователя, а также пункты, в которых пользователю потребуется помощь.

6. Принять отрицания для некоторых из препятствий в качестве целей системы.

7. Пользуясь частными презумпциями, построить план достижений целей системы, особенно целей для преодоления препятствий для пользователя. В зависимости от этих целей план может включать в себя такие коммуникативные действия, как вопросы, проясняющие намерения пользователя.

8. Выполнить результирующую последовательность действий.

9. Перейти к пункту 1.

Разумеется, этот цикл не обладает статусом идеала: это скорее пример того, в каких терминах могут формулироваться общие планы построения системы обработки естественного языка. Более узко ставится проблема в том направлении, которое связано с именем Р.Шенка: 1) отображение предложений в их смысловое представление; 2) хранение в памяти и осуществление умозаключений относительно полученного смысла; 3) перевод смыслового представления на естественный язык. Основные режимы работы в этом направлении – перифразирование и умозаключение.

Необходимо учитывать то, что ОЕЯ с помощью ЭВМ («искусственная ОЕЯ») отлична от ОЕЯ человеком (т.е. «естественной ОЕЯ») в следующих отношениях:

а) последняя не может ограничиться анализом и синтезом вне контекста ситуации во всех ее деталях;

б) последняя не только преодолевает неоднозначности естественного языка, но и эксплуатирует их в своих целях.

Языковой процессор, разрабатываемый коллективом Р.Шенка, функционируя в интерактивном режиме, должен находить наиболее вероятную для данного предложения интерпретацию, а не просто выявлять все возможные способы истолкования предложений: человек обычно не замечает тех неоднозначностей в тексте, которые чересчур скрупулезная система обработки естественного языка способна, в принципе, выявить. Анализ происходит пословно, от начала к концу предложения, в результате однократного, а не многократного «прохода» по предложению: обычно же число проходов достигает пяти. Кроме того, система обработки естественного языка обладает знаниями о мире в той мере, какая необходима для решения проблем анализа.

Система ОЕЯ, разумеется, – не самоцель. Ее задачи упорядочены и определяют «уровни ОЕЯ». Так, неязыковым целям подчинены процедуры, направляющие любой вид ОЕЯ; этим процедурам, в свою очередь, подчинен уровень речевых актов (при интерпретации или порождении отдельных высказываний). Самый низкий уровень составляют процедуры собственно языковой обработки (языковой анализ).

Общими для предложенных систем ОЕЯ являются следующие компоненты: ЕЯ -> ФР -> ИНТ -> СОД -> БД. А именно, естественно-языковой вход (ЕЯ) переводится в форму репрезентации (ФР) знаний; интерпретатор (ИНТ) устанавливает связь между репрезентацией для положений дел в (ФР) и, посредством языка системы обработки данных (СОД), банком данных (БД). В рамках этих систем операции, связанные с обработкой текста («лингвистические вычисления» обладают различными свойствами; анализ проведенных на сегодняшний день разработок показывает скорее не то, в чем они состоят, а то, чем эти операции не являются: они работают не исключительно аддитивно, не исключительно одна за другой (последовательно), не исключительно на микроуровне и не статистическим образом.

История ОЕЯ

Предыстория ОЕЯ определена многими факторами, из которых можно выделить в особенности два: 1) попытки моделирования нейронов в виде логического устройства, связанные с именами МакКаллоу и Питтса; 2) зарождение «информационной» парадигмы – взгляда на числа и на текст как на то, что представляет общее понятие «информации» (Шеннон), обладающее количественными характеристиками, со всеми вытекающими последствиями для математической теории информации. Понятие «информативность» принадлежит указанной парадигме.

Собственно же историю ОЕЯ иногда представляют как состоящую из трех этапов:

1. Начало 1950-х – начало 1960-х годов. Идея «информации» привела к концепции «машинного перевода» как установления той информации, которая скрыта за предложением на естественном языке, и выражения ее на другом – целевом языке. Язык информационного содержания был назван «языком-посредником». На этом этапе была введена и идея эвристического поиска, а также языка программирования для решения задач ОЕЯ (наиболее популярным языком, начиная с этого времени, был ЛИСП, введенный и описанный впервые в работе.

2. «Эпоха обработки семантической информации» (примерно 1962-1973 гг.). Ее основные идеи: а) необходимо использовать ограниченные содержательные области для моделирования ОЕЯ; б) следует построить как можно больше систем для обработки ограниченных подъязыков, присвоив этим системам статус «экспертов» в таких областях, а затем объединить все эти системы в одну, в рамках «крупного эксперта», определяющего, какой из подчиненных должен начать работать на конкретном этапе обработки, при решении конкретной задачи – концепция «крупного переключения»; в) использование «ключевых слов», управляющих выбором конкретных действий по ходу обработки текста; г) перевод естественного языка на формальные языки (некоторые из формальных языков при этом обладают собственными исчислениями, типа исчисления предикатов формальной логики; имеются языки поиска в базе данных. Эту эпоху иногда называют эрой «инженерного подхода»: основной упор делался на решение конкретных (как правило, прикладных) задач, без попытки моделировать психологическую реальность.

Начало 1970-х годов ознаменовалось интересом к обработке семантической информации; появились даже первые ростки интереса ж «когнитивной науке» (названной в те же годы «когитологией»).

В результате исследований этой «эпохи» выяснилось: а) даже в очень простых ситуациях (использование языка гораздо более разнопланово, чем можно было бы ожидать; б) специализация той или иной системы ОЕЯ и перспектива расширения этой системы находятся в серьезном конфликте между собой; в) репрезентации для языковых выражений, используемые в рамках таких систем (скажем, формальные языки), весьма неточны и неадекватны выразительным способностям естественного языка; г) приходится поступиться очень многими типами выражений, реально используемых на естественном языке (в частности, выражениями для физических событий и действий, описаниями сцен, карт, путей, предписаниями; реальными разговорами, спорами, дебатами, обсуждениями, эмоционально окрашенными высказываниями и высказываниями об эмоциональных состояниях; метаописаниями теорий; поэтическим языком, юмором, иронией, ложью и т.п. – т.е. всем, что требует гораздо более богатого метаязыка, чем тот, который могут на сегодняшний день предоставить в наше распоряжение существующие нотации логики).

3. Современная эпоха (1970-1995 гг.). В это время в центре внимания находятся следующие проблемы: а) соотнесенность речевых актов, фокусов внимания и общих (для ЭВМ и человека) презумпций; б) использование «новаторского» потенциала языка (в частности, интерпретация метафор); в) постройте прикладных систем, понимающих естественный язык (а не просто его обрабатывающих), г) обработка высказываний о пространственных событиях; д) введение факторов «здравого смысла» в состав логического вывода систем ОЕЯ, в частности, учет степени правдоподобности при интерпретировании высказываний.

1 2 345

Воспользуйтесь поиском по сайту: