Главная | Обратная связь | Поможем написать вашу работу!

Анализ данных и интерпретация

Введение

В работе дается пример подхода к изучению зависимостей между доходами домохозяйств и различных факторов, влияющих на наличие в домохозяйствах товаров длительного пользования. На основе первичных данных опроса RLMS за 2004 г. построены и разобраны регрессионные модели потребления ТДП от дохода и различных социально-экономических факторов, таких как: число членов семьи, число источников дохода, местность проживания. Для исследования этой зависимости построено несколько вариантов статистических моделей линейной регрессии с различными объясняющими переменными и показана модель, которая будет наиболее точно отражать эту зависимость. Для построения статистической модели использованы многомерные статистические методы, в частности модель множественной линейной регрессии. В качестве зависимой переменной в модели будет использоваться взвешенная сумма наличия предметов длительного пользования, а в качестве объясняющих переменных – те показатели, которые я указала выше.

Для выполнения работы использовались вычислительные, графические возможности и возможности по преобразованию данных профессионального статистического пакета SPSS для Windows 14.0.

Изучение того, чем и как владеют российские домохозяйства, представляет собой актуальную задачу, так как непосредственно характеризует обеспеченность (благосостояние) семей, уровень их бытового комфорта и т.д. По данным российских статистических органов, в 2004 году российские домохозяйства тратили на такую статью расходов, как «Предметы домашнего обихода, бытовая техника, уход за домом», от 2,8 до 8,3% всех потребительских расходов (причем этот процент он тем больше, чем больше доходы у домохозяйства). Т.е. первая цифра соответствует 20% населения с наименьшими доходами, а вторая – 20% населения с наибольшими. То есть, с ростом благосостояния эта задача становится еще более актуальной.

В статистическом сборнике владение ТДП представлено в числе единиц на 100 домохозяйств (автомобили – в числе единиц на 1000 человек населения). Это разумно, т.к. позволяет сопоставлять между собой цифры, которые относятся к разным регионам страны и к различным временным периодам, то есть, характеризовать динамику владения ТДП.

Варианты постановки задачи об обеспеченности ТДП исключительно многообразны. Если посмотреть в региональном разрезе (см. сборник «Регионы России»), обеспеченность сильно варьируется по регионам страны. Так, например, в Москве на 100 домохозяйств в 2004 году приходилось 52 персональных компьютера (и это число заметно прогрессировало за последние 10 лет). Тогда как в Северной Осетии – только 5. То же самое, скажем, с автомобилями (учет которых ведется в штуках на 1000 чел. населения). В Москве – 224,2 шт, в Брянской области – 77,2 (данные того же 2004 года).

Но рассмотрение всех этих цифр не скажет ничего о том, от каких факторов уровня домохозяйства зависит владение ТДП. Это и составляет предмет моего исследования. Я выбрала несколько таких показателей домохозяйства и посмотрела, как они связаны с показателем обеспеченности ТДП. При этом дело не сводилось просто к загрузке данных в SPSS, т.к. перед этим они нуждались в преобразованиях.

Сложность моей задачи заключается в том, что наличие тех или иных товаров, вообще говоря, не обязательно зависит от материального положения. Например, холодильник, есть почти у всех, но он может быть старый. А телевизор сейчас и вовсе доступен многим (особенно – самые простые и дешевые модели). Поэтому, если я изучаю зависимость обладания ТДП от дохода и прочих переменных, имеет смысл сконструировать индекс ТДП так, чтобы он был связан с текущим положением домохозяйства (а не обозначал «процветание» этого домохозяйства в прошлом, что, собственно, и обозначает старый холодильник). Поэтому я попыталась в различных вариантах индекса сопоставить стоимость разных видов ТДП (то есть, приписать разные веса, например, телевизору и квартире), а также учесть срок давности покупки этих ТДП. Ведь новая квартира – не одно и то же, что старый автомобиль. Затем я посмотрела, как «объясняют» в регрессионной модели выбранные мной независимые переменные три различные варианта индекса и сделала соответствующие выводы.

Пользуясь синтаксисом, который приведен в приложении, любой желающий может повторить проведенный мной анализ при наличии данных. Там представлен и расчет показателей, и регрессионный анализ.

Методы анализа данных

Делая выбор метода анализа данных, я остановила выбор именно на регрессионном анализе, поскольку он способен объяснить взаимосвязь между многими переменными и показать, как один показатель зависит от остальных. Это именно то, что требуется в моем случае, поскольку требуется объяснить владение ТДП различными характеристиками домохозяйств. После ознакомления с литературой, описывающий данный метод, мне представляется возможным сделать следующие методические замечания, которые касаются моей задачи.

1. Регрессионный анализ предназначен для моделирования поведения одной количественной переменной от других. Следовательно, индекс обеспеченности ТДП, который я строю, должен быть количественным (а не качественным: например, высокая/средняя/низкая обеспеченность).

2. Регрессионный анализ предполагает также использование числовых переменных в качестве независимых (объясняющих). Некоторые показатели, которые есть в базе данных (например, доход) уже удовлетворяют этому требованию. Но, например, местность проживания, которую я тоже хочу учесть, так как городские домохозяйства обычно обеспечены лучше сельских, является качественной. Поэтому для нее требуется специальное преобразование, которое сделает эту переменную двоичной.

3. Регрессионный анализ является многомерным статистическим методом, то есть, учитывает больше, чем 1 взаимосвязь между признаками. Коэффициенты регрессионной модели должны интерпретироваться по принципу «при прочих равных условиях», а не каждый в отдельности. То есть, например (забегая вперед), нельзя говорить, что каждый дополнительный член семьи обеспечивает рост индекса ТДП на 0,148. Это утверждение верно лишь при прочих равных условиях, т.е. для семей с таким же доходом, таким же числом источников дохода и т.д.

4. Заложенный в SPSS регрессионный анализ является «линейным», что позволяет определить общие закономерности, но может быть недостаточно точным, если суть взаимосвязей между изучаемыми мной признаками нелинейная. Это надо тоже учесть при подготовке выводов. Но нелинейные модели, конечно, достаточно сложны. С другой стороны, если заглянуть в научные журналы, особенно зарубежные, линейный регрессионный анализ используется сплошь и рядом.

5. Качество модели регрессионного анализа определяют с помощью показателя R2 (R-квадрат). Он варьируется от 0 до 1. «0» означает абсолютно бесполезную модель, «1» - идеальную. Он же имеет интерпретацию в процентах объяснения поведения зависимой переменной. Например, R2=0,09 означает, что модель объясняет поведение зависимой переменной на 9%. Надо, забегая вперед, сказать, что качество моих моделей оказалось не очень высоким. Но это тоже важный результат. Я проверила и доказала, что индекс ТДП слабо зависит от тех переменных, которые я выбрала.

6. Имеет смысл обращать на значимость коэффициентов регрессии и значимость модели в целом (это графы Sig. в SPSS). Эти значения, наоборот, должны быть маленькими. Они как бы показывают, надежность результатов. Потому что, например, на маленькой выборке результаты могут быть не очень надежными.

7. Необходимо обратить внимание на наличии специальных кодов, которые могут содержаться в переменных. Например, в анкете RLMS если респондент отказывался отвечать на вопрос о доходе, там вбивался код «99999». Важно избавиться от этих кодов перед началом моделирования, иначе SPSS посчитает 999999 за величину дохода семьи респондента в рублях. Что, конечно, исказит результаты.

8. Перед началом моделирования необходимо изучить простые распределения переменных (т.н. Descriptive Statistics – описательная статистика), которая скажет, какие вообще есть значения у этих переменных, как часто они встречаются, какой там минимум и максимум и проч. Все это позволит проверить, подходят ли данные для анализа.

Что касается методической литературы по регрессионному анализу, то она в избытке имеется на российском рынке. Взять хотя бы книгу Э. Сигела, где регрессионный анализ рассматривается в одной из глав достаточно подробно. Этот вид анализа рассматривается в общих чертах и в книгах по общей теории статистики, например. Все это доказывает, что данный вид анализа очень важен и практически полезен.

3. Описание исходных (вторичных) данных

Задачи эссе предполагают использование данных уровня домохозяйства для построения моделей. Такие данные собираются Госкомстатом России в рамках выборочных обследований, а также в рамках специальных проектов (например, «Российский мониторинг экономики и здоровья», RLMS). Данное исследование будет построено на данных выборочного опроса RLMS. Выборка репрезентирует население России.

Объем выборки 4711 домохозяйств. Данные собирались по формализованной анкете (опроснику). Данные содержат богатую базу для различного моделирования.

База данных, которая будет использоваться для моделирования, содержит много переменных. Наиболее интересующими для нас являются переменные, которые позволяют выявить наличие тех или иных ТДП, такие как наличие ПК, стиральной машины и т.д., а также переменные, которые могут влиять/определять наличие ТДП у домохозяйств. Доходы, количество человек в семье, число источников домохозяйства и проч.

Не все переменные будут представлены в анализе так, как они представлены в исходной базе данных. Дело в том, что некоторые переменные нуждаются в преобразовании, а некоторые – в вычислении заново. Так, например, данные о месте проживания домохозяйства я преобразовала в двоичную переменную город=1/село=0, тогда как исходная переменная содержала 4 градации (в части анализа это показано). Это выгодно, т.к. мне требовалось включить эту переменную в регрессионную модель, а это допускается лишь для количественных, или для двоичных переменных. А число источников доходов я вообще считала по нескольким переменным, где респонденту предлагался целый спектр источников доходов и предлагалось согласиться или не согласиться что очередной источник доходов используется семьей респондента.

Всего в вычислениях задействовано более 30 переменных. Это отражено в синтаксисе (см. приложение).

Пример самой базы данных представлен в следующей таблице:

Пример базы данных

Имя перем. Номер семьи	iid_h	Ic9.1a	Ic9.1b	…	indexTDP1	…
1	10101	1	8	…	0,51	…
2	10102	1	20	…	0,72	…
3	10103	1	24	…	0,54	…
4	10105	2		…	0	…
5	10107	1	6	…	1,11	…
6	10112	99		…	0	…
…	…	…	…	…	…	…

Это фрагмент данный в том формате, который отображается в SPSS. По горизонтали – семьи, по вертикали – переменные (показатели). Например, переменная iid_h – код семьи в 13-й волне (2004 год), ic9.1a – показатель того, есть ли в домохозяйстве холодильник (код 1), или нет (код 2), ic9.1b – содержит возраст холодильника, indexTDP1 – это уже рассчитанный мной индекс обеспеченности ТДП. Например, из тех семей, что есть в данном фрагменте, наиболее обеспеченной, вероятно, является семья №5.

Значения «99» для переменной ic9.1a не являются истинными ее значениями, а обозначают, что респондент отказался ответить на данный вопрос. Этот (и другие коды, означающие пропущенные значения), следует перед началом работы объявить пропущенными, чтобы программа исключала их из анализа.

Анализ данных и интерпретация

Для начала я проанализирую распределения тех переменных, которые я планирую использовать в регрессионных моделях. Это доход, число членов семьи, число источников дохода, городская/сельская местность, а также – показатели владения товарами длительного пользования.

12	Поделиться:

Воспользуйтесь поиском по сайту: