Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Слова в словаре и слова в тексте




 

Одна из общих закономерностей словарного состава любого текста состоит в том, что некоторые слова в нем непременно часто повторяются. Что это за слова? В языках, где есть артикли, это, конечно, именно они. Но кроме артиклей часто повторяются предлоги, частицы, местоимения и союзы. В любом языке (мы оставляем вне рассмотрения языки с иероглифической письменностью) есть эквиваленты смыслов, выражаемых русскими И, Я, ОН, БЕЗ, НЕ, В, С, ЭТОТ, ТАМ и им подобными словами.

Первыми на это обратили внимание изобретатели скорописи, которая потом превратилась в стенографию. Стенографическая запись речи, не исчезнувшая и в эпоху магнитофона, основана именно на том, что чем чаще (в среднем) какое–либо слово встречается в тексте, тем упрощеннее значок, с помощью которого это слово фиксируется на письме. Чтобы разумно обосновать стенографические системы, специалисты по стенографии еще в конце XIX в. начали составлять так называемые частотные словари. Известен, например, немецкий словарь Ф. Кединга 1898 г., основанный на подсчетах по текстам общим объемом около 11 млн слов. Кединг включил сюда и парламентские дебаты, и тексты художественной литературы.

Со временем аналогичная задача для усовершенствования телефонии была поставлена известной телефонной компанией "Белл" — в ее лабораториях в 1930 г. был составлен первый частотный словарь устной речи. Частотные словари — это всегда списки слов, основанные на подсчетах по большим и представительным массивам текстов.

Еще в начале прошлого века необходимость облегчить изучение чужого языка была осознана как социально важная проблема. Естественно, что это случилось ранее всего там, где огромную массу населения составляли иммигранты, т. е. в США. Первым такой словарь в 1911 г. издал Р. Элдридж — это был список из 6 тыс. "общеупотребительных" английских слов, составленный им на базе обследования четырех американских газет. Позже аналогичных словарей вышло много.

Частотный словарь, как правило, представляет собой список слов, упорядоченных от частых слов к редким. Если мы проанализируем, что это за слова, то увидим достаточно любопытную закономерность. Первые 50 самых частых слов в любом частотном словаре — это слова неполнозначные.

Если взять классический текст на русском языке, допустим текст "Капитанской дочки" Пушкина, и, руководствуясь частотным словарем языка Пушкина, 50 самых частых слов в этом тексте пометить, то окажется, что мы тем самым пометили почти половину всех словоупотреблений (а если точно — 42,5%).

Конечно, иностранец, выучивший эти 50 самых частых слов, понять текст "Капитанской дочки" не сможет. Потому что вот какие слова в среднем в текстах Пушкина входят в первые 50 самых частых:

и, в, я, он, не, быть, на, с, что (союз, местоимение, частица), ты, мой, она, свой, но, к, весь, они, как (наречие, союз), тот, мы, о (предлог), вы, а, за, это, из, от, по, же (частица, союз), у, ли, один, который, бы, сказать, мочь (глагол), наш, твой, ни, для, так (частица, наречие, союз), себя, или, ваш, день, знать (глагол), еще, где, да, то (частица, союз, наречие).

И все же один вывод даже из этого списка можно сделать: по крайней мере, эти слова иностранцу имеет смысл просто выучить, чтобы не открывать так часто двуязычный словарь.

Среди следующих 50 слов, расположенных по убыванию частоты употребления, полнозначных слов будет больше. Но, поскольку полнозначные слова повторяются во много раз реже, нежели служебные, по мере продвижения от более частых слов к менее частым "покрытие" текста, т. е. число помеченных слов, будет расти все медленнее и медленнее.

Например, если рассмотреть все тексты Пушкина, вместе взятые, то, чтобы пометить в качестве "известных" около 60% всех словоупотреблений, придется взять уже 460 самых частых слов, а чтобы пометить как якобы "известные" около 70% словоупотреблений, потребуется уже 1022 самых частых слова.

Приведенные данные не являются феноменом именно пушкинских текстов. В среднем в любом языке, независимо от характера текста, сравнительно небольшая группа наиболее частых слов соответствует очень значительному числу словоупотреблений. Знание примерно 2500 наиболее частых слов позволяет считать "известными" примерно 70–80% всех словоупотреблений.

Таково типичное отношение между словником текста и текстом как линейной последовательностью слов. На этом свойстве текста основана идея рациональной минимизации учебного словаря. Что это значит? Во всех случаях, когда объем осваиваемого словаря неродного языка должен быть заведомо ограничен, имеет смысл включать в него прежде всего наиболее частые слова.

Однако словник — это всего лишь список слов, а слова многозначны. Это одна сторона дела.

С текстом тоже все обстоит не так просто. Текст действительно произносится и записывается как линейная последовательность составляющих его слов. Но это отнюдь не значит, что связный текст представляет собой линейную последовательность слов и связей между ними!

Собственно, вы это знаете еще из уроков русского языка в средней школе. Точнее сказать, вы это успели забыть после уроков в средней школе. Потому что почти все, кто изучает иностранный язык в высшем учебном заведении, совершают одну и ту же ошибку: пытаются читать и переводить текст линейно, слева направо.

Как если бы пример с "глокой куздрой" был прочно и навсегда забыт. А ведь он так поучителен! Ибо структура этой фразы проясняется только после многократного чтения с возвратами, прикидками и проверками разных гипотез о том, что бы могла значить та или иная морфема — ведь полнозначных слов в этой фразе нет. Какая уж тут линейность!

И все–таки имеет смысл выучить в качестве опорного словаря–минимума именно частые слова. Поскольку применительно к тексту в целом тогда и будет эффективным применение метода "глокой куздры".

Иначе говоря, здесь будет эффективно работать стратегия понимания текста как целого, "прошитого" разнообразными связями между составляющими его элементами.

Предлагаю вам в качестве экспериментального задания попытаться понять приведенный ниже текст "Случай с Оливером". Текст этот построен по принципу "глокой куздры", но с учетом "знания" 2500 самых частых русских слов. В 2500 самых частых входят лошадь, ехать, результат и прочие слова, которые в данном тексте присутствуют в своем, так сказать, натуральном облике. "Самые частые слова" определялись по данным частотного словаря Э. Штейнфельдт (1963). Слова более редкие заменены на квазислова с сохранением всех грамматических показателей, которые они имели в оригинальном тексте.

При чтении текста обратите внимание на следующее:

1. Не пытайтесь угадать корень неизвестного слова по приставкам и суффиксам — онкольный может означать желтый или круглый, а отнюдь не довольный или стекольный. Как можно более полно используйте информацию о грамматическом значении — оно везде тщательно сохранено.

2. Если в одном месте данного текста онкольный заменяет определенное слово исходного текста, то это верно для всего данного текста.

 

 

Случай с Оливером

Заглонитель Ланс Оливер чуть не погиб в результате наплочения турма. Он ехал ласкунно на лошади покровнательно от Мэнсфилда (Австралия) и увидел вахню турмов, в которой было кастожно 15 животных. Столенно, ничего бы и не случилось, если бы собака Оливера не начала корочить на вахню.

Один из турмов — старый, крупный лователь, выбатушенный корочением собаки, бросился за ней. Та отпешила скумановаться за лошадью, на которой сидел Оливер. Тогда турм бросился уже на Оливера. Он схватил подвешенца отмаленными твинами за плечи и вытолкнул его на землю.

Оливер вскочил на ноги и схватил турма, пытаясь подочевать ему обкаплюжиться на хвост и таким образом принять доланское положение. Турм подстоголками укивовых лап в ропли раскелепил на заглонителе лахту и толстый тарат. Наконец, Оливеру удалось зайти сзади турма и поклочить его. Однако он и сам не выландал на ногах и вместе с турмом покорновался по размежному плою горы кастожно 35 метров и упал в сорот. Шатировка продолжалась и в сороте, пока Оливер не слеменился схватить камень и обвичить несколько сильных ударов по голове турма. Турм был помотрен.

Рустуя кулировку с Оливером, мельбурнский падакователь Кэвенег заявил, что турмы, особенно старые лователи, наплочивают на человека, когда они, как говорится, доспонарены к стене и им некуда сополиться.

Я не помню, сказал Кэвенег, чтобы такие наплочения скамничались торцией человека, но имеется много случаев, когда турм обвичивает человеку серподины.

 

Оригинальный текст приведен на с. 218.

Прежде чем нетерпение и любопытство заставят вас заглянуть в конец книги, я сделаю некоторые замечания по сути понятого и непонятого вами.

Заметьте, что вам безразлично, что значит заглонителъ и падакователъ — профессию, должность или еще что–либо. Любопытно, хоть и не обязательно знать, что за животное — турм, но раз уж действие происходит в Австралии, а у турма такой хвост, что на него можно обкаплюжиться, то…

Что турм напал на Оливера и что Оливер победил турма — это очевидно; как победил — тоже понятно: Оливер несколько раз ударил животное по голове камнем. Значит, либо тяжело ранил, либо и вовсе убил.

Если несколько напрячься, то комментарии падакователя Кэвенега станут совсем прозрачными для понимания.

А теперь ответьте на следующий вопрос: что же помогло вам извлечь из текста, где вы поняли не все слова, такую существенную порцию смысла? Думаю, что вы согласитесь со мной, что это прежде всего способность анализировать грамматические значения, т. е. те значения, которые в русском языке выражаются обязательно.

Русский глагол в личной форме обязательно указывает на лицо и число, а если он стоит в прошедшем времени — то у него есть показатель, позволяющий определить еще и род; инфинитив глагола также маркирован.

Ясно, например, что обвинить — это глагол в инфинитиве, а обвичивает — тот же глагол в форме настоящего времени и притом несовершенного вида; обвичиватъ серподины — это сочетание глагол + прямое дополнение, причем дополнение выражено существительным во множественном числе. И так далее.

Значит, если вы хорошо знаете грамматику и понимаете примерно 70–75% словоупотреблений, ваши шансы понять в тексте главное весьма значительны. Вопрос в том, какие слова относятся к самым частым.

Если сделать следующий шаг, то этот же вопрос прозвучит так: что гарантирует нам, что слова, которые выше объявлены частыми, употребительны не только в одних каких–то текстах, но употребительны в среднем, более или менее в любом тексте "общего характера" — не в учебнике по геометрии, а в газете, журнале или детективном романе?

Конструируя текст "Случай с Оливером", мы "объявили" частыми слова, которые считаются таковыми согласно частотному словарю Штейнфельдт. Не входя в детали, добавим, что при определенных недостатках этот словарь относительно надежен в определении наиболее частых слов в текстах, которые еще не так давно читали в начальной школе.

Психолингвистика не занимается составлением частотных словарей, она ими пользуется. Но вопрос о том, как узнать, какие слова — частые, а какие — нет, может быть решен не только путем обращения к частотному словарю, основанному на анализе письменных текстов или записей устной речи. И вот здесь мы обращаемся к очень любопытной проблеме — проблеме наших знаний о языке, в частности знаний о степени употребительности тех или иных элементов речи.

Об этом мы будем говорить в следующей главе.

 

 

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...