Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Исследования лингвистического текста




 

Первой задачей исследования лингвистического текста является составление каталога знаков текста, выявление аллофонов и т.п. При этом возникает вопрос: что же считать знаком текста? Для того чтобы сформулировать формальное понятие «знак текста», выясним, что мы обычно вкладываем в это понятие. Интуитивно мы предполагаем, что текст является последовательностью некоторых частей, причем» самые мелкие» части текста, из которых состоят другие конструкции текста (морфемы, словоформы, предложения), и есть знаки текста. Но эти «мелкие части» текста еще достаточно велики, чтобы появляться в тексте самостоятельно, без постоянного сопутствующего набора других таких же частей текста.

Знаком текста мы будем называть элемент такого разбиения всего текста, при котором будут выполняться два условия:

а) каждый элемент разбиения текста имеет самостоятельное распределение в тексте, т.е. появление знака в тексте не может однозначно предсказать появление в тексте соседних с ним других знаков;

б) если разбить текст на более мелкие части, то последние не обладают самостоятельным распределением (иначе говоря, при фактическом самом мелком разбиении текстана части каждый элемент разбиения должен иметь самостоятельное распределение в тексте).

Очевидно, что судить о распределении частей текста в нем самом можно достаточно надежно, если текст достаточно велик, т.е. если объем текста - общее число частей, на которое разбился весь текст, - на порядок больше числа различных частей текста.

Мы все время говорили «знак текста», считая, что нельзя поставить знак тождества между понятиями «знак текста» и «знак системы». В системе, например, текстов, написанных на русском языке, мы под знаком понимаем знаки русского алфавита. Но в небольшом тексте некоторые знаки могут встречаться только в паре, и тогда за знак текста нужно принять именно пару, хотя каждый из знаков пары может являться знаком системы текстов, т.е. иметь в ней самостоятельное распределение.

Данное выше определение знака текста как наиболее мелкой части текста, имеющей самостоятельное распределение, представляется разумным по следующим соображениям. В неизвестном тексте из-за весьма небольших объемов не всегда легко проверить самостоятельность распределения частей текста. Поэтому лучше, если есть колебания между более крупным и более мелким разбиениями текста, принять за знак элемент более крупного разбиения и проводить исследования текста, взяв за основу крупное разбиение. Если же исследование покажет, что появление одного и того же знака в тексте может оцениваться по-разному, если учитывать части знака, и что введение в рассмотрение более мелких частей помогает в изучении текста, то мы можем дополнительно изучить распределение мелких частей и более крупных. Если же идти от более мелкого разбиения к более крупному, то можно получить такое обилие данных, разобраться в котором затруднительно, и, кроме того, все то, что изучалось при более мелком разбиении, может оказаться излишним в случае, если знаком окажется элемент более крупного разбиения текста.

Для лингвистических текстов характерно линейное построение текстов в отличие, например, от живописных или музыкальных. Наличие в тексте конструкции, структуры означает, что между знаками или группами знаков текста имеются функциональные соотношения, которые и определяют конструкцию текста. Для лингвистических текстов характерно, что большинство этих функциональных соотношений имеет локальный характер, т.е. связи между элементами текста в большинстве случаев относятся к «близким» по последовательности элементам (самим знакам или группам знаков): элементы текста, связанные функциональными соотношениями, находятся в большинстве случаев недалеко друг от друга в тексте.

Система, с которой связан текст, задает не только конструкцию, способы построения текста, но и все виды, способы преобразования текста, или, как говорят, способы допустимых преобразований текста, после которых получается снова текст в той же системе.

Все ранее сказанное о тексте относится к тому, как он устроен, но не к его смыслу. Конечно, нельзя считать, что между текстом и конструктивно-функциональной структурой того же текста нет связи. Но это не такая связь, с помощью которой можно, зная одно (конструкцию или смысл), найти другое (смысл или конструкцию). Это - соответствие между двумя системами, одна из которых определяет конструктивные и функциональные свойства текстов, а другая - смысл и содержание заданных текстов и взаимоотношения между содержанием различных текстов. Большинство простейших морфологических преобразований слов и предложений мало меняют смысл преобразуемого объекта. Например, такие преобразования, как изменение слова по падежам, родам, по лицам или по временам, и сходные переходы от одних форм слова к другим мало меняют содержание самого слова. аналогичным образом ведут себя и такие элементарные преобразования предложения, как конверсия и изменение порядка следования, например существительного и согласованного определения к нему. Такое небольшое изменение смысла отличает элементарные преобразования, но уже для композиции элементарных преобразований (сложных, составных преобразований) это нехарактерно. Но, по-видимому, нет преобразований в языке, которые хоть в самой малой степени не затрагивали бы, не изменяли смысла преобразуемого объекта.

Из всего этого следует, что хотя и есть определенная коррелятивная зависимость между конструктивной и смысловой стороной текста, но нельзя по конструкции определить полностью смысл текста, и наоборот.

Подводя итоги, можно сказать, что лингвистический текст есть некоторая линейная последовательность знаков, построенная по правилам определенной системы, причем текст обладает смыслом, несводимым к правилам построения текста.

Задачи дешифровки касаются обоих аспектов, но исследование должно проводиться по этапам: на первых этапах нужно выяснить как можно полнее структуру исследуемого текста и построить, насколько возможно, формальную грамматику языка, на котором написан текст. Затем, используя и факты сравнительного языкознания, и дополнительные внетекстовые данные, нужно конкретизировать грамматику неизвестного языка и только затем переходить к изучению смысла текста.

В начале исследования предполагается, что неизвестный текст записан на некотором, пока для нас неизвестном, но естественном языке, предназначен для обмена информацией и не подвергался специальным преобразованиям типа зашифровки с целью затруднить чтение этого текста. Предполагается, что в тексте существует определенная структура связей, причем для большинства случаев связи в тексте проявляются на небольшом расстоянии и близкие по тексту элементы находятся в некотором соотношении. Поэтому основной метод - позиционная статистика. Так как исследуемые тексты часто бывают весьма небольших объемов, обычные статистические методы оказываются малоэффективными. Отсюда основной прием при проведении исследований - итеративный способ поиска решений. В этом случае ищется решение задачи лишь для наиболее достоверных элементов, затем полученное лишь для части интересующих случаев решение используется в следующей подзадаче, и решение этой следующей подзадачи, хотя бы и частичное, используется для уточнения решений подзадач предыдущих этапов. Такой способ важен еще и тем, что дает возможность получать данные одного уровня надежности.

Перейдем теперь к описанию конкретных задач, определяемых различными этапами исследования неизвестных текстов.

Одна из первых задач - разбиение непрерывного текста (написанного без пробелов) на отдельные блоки, соответствующие в основном словоформам. В проводимых работах использовался следующий прием. Выбиралась некоторая константа h, и рассматривались всевозможные отрезки текста, содержащие h знаков. Каждому такому отрезку текста сопоставлялось множество пересечений данного отрезка со всеми другими отрезками текста. Каждое пересечение снабжалось адресом. составлялся каталог всех пересечений в тексте, и выделялись наиболее частотные пересечения. Адреса давали возможность объединить два пересечения в одно, если они в тексте находились рядом. Такой метод позволял выделить в тексте устойчивые знакосочетания, обладающие переменными знаками при сохранении общей структуры знакосочетания. Отсюда появлялась возможность исследования не только структуры словоформы, но и синтаксической структуры текста.

Следующая задача - анализ морфологии слова. В эту задачу входят разбиение каждого блока на отдельные части и классификация их с целью выделения постоянных и переменных частей, соответствующих корневым и служебным морфемам.

Важной и необходимой задачей, сходной с предыдущей, является выяснение структуры предложения. На основе полученных данных можно ставить задачу о выявлении классов блоков как по морфологической, так и по синтаксической структуре. Иначе говоря, это, с одной стороны, выделение блоков, имеющих одинаковую постоянную часть, т.е. с одним корнем, а с другой - выделение блоков, имеющих один и тот же набор переменных частей. На основе самого текста отнести блоки к конкретным традиционным частям речи без дополнительной внетекстовой информации невозможно, хотя можно учитывать, например, что во многих языках для глагола характерны большее количество словоизменительных форм и большая сочетаемость с формами другого класса, а для существительных - малое количество словоизменительных форм и малая сочетаемость.

Для изучения морфологии очень важно составление прямых и обратных словарей, а также словарей, ориентированных по произвольному знаку в блоке.

Очень удобным инструментом является составление конкордансов. Выбираются как бы основные, нечто вроде координат, позиции в тексте и с помощью этих позиций характеризуется положение единицы. Например, если мы исследуем положение знака в тексте, а текст разбит на слова и предложения, то мы можем характеризовать положение знака номером предложения, номером слова и предложения и положением знака в слове - расстоянием от начала или конца. Аналогично можно говорить не только про знак, но и про морфему, нечто похожее будет при исследовании слова в предложении, в абзаце. Используя конкордансы, можно всегда выделить все сочетания заданной структуры.

При исследовании как структуры словоформы, как и синтаксической структуры текста удобно использовать прием, названный нами «окружением». В этом случае для каждого исследуемого элемента текста - это может быть знак текста, группа знаков и т.п. - указываются группы из n элементов текста, которые «окружают» в тексте слева и справа исследуемый элемент. Такие окружения позволяют выявить связи между исследуемым элементом и другими «близкими к нему» частями текста.

 

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...