Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Анализ данных: предварительные этапы




Полевое редактирование —предварительное редактирование, которое строится таким образом, чтобы обнаружить наиболее бросающиеся в глаза пропуски и неточности данных.

Кодирование — это технический прием, с помощью которого данные распределяются по категориям.

Процесс кодирования осуществляется в три этапа:

(1) Устанавливаются категории или классы, к которым будут относиться ответы.

(2) Назначаются кодовые номера классов.

(3) Подготавливается книга кодов.

При назначении кодовых номеров необходимо:

1. Располагать только один символ в каждой колонке.

2. Использовать только числовые коды.

3. Использовать ровно столько колонок поля, назначаемого для переменной, сколько необходимо для полного охвата всех ее возможных значений.

4. Использовать одни и те же стандартные коды для обозначения «отсутствия информации».

5. В каждой записи кодировать идентификационный номер респондента.

Табулирование заключается просто в подсчете количества событий, которые попадают в различные категории.

Простая табуляция связана с расчетами единственной переменной.

В перекрестной табуляции одновременно обрабатываются две или более переменных.

Баннер —последовательный ряд перекрестных табуляций между каким-то критерием или зависимой переменной и несколькими, зачастую многочисленными, факторными переменными, оформленный в виде единой таблицы.

Стаб - з ависимая (результирующая) переменная или подлежащее объяснению явление обычно определяет название строк таблицы.

Предопределенные или факторные переменные определяют колонки таблицы, а каждое их значение называется баннерной точкой.


Столбец (цы) Номер вопроса Переменная Спецификация кодов
    Транспорт до места представления 1 = Пешком 4 = Иначе 2 = Машина 9 = Нет ответа 3 = Автобус
    Расстояние до места представления 1 = В пределах Медисона 2 = Менее 5 миль 3 = 6-10 миль 4 = Более 10 миль 9 = Нет ответа
    Время проживания в Медисоне/ столице штата Висконсин 1 == Здесь не живу 2 = Только что прибыл(а) 3 = 1-3 года 4 = 4-7 лет 5 = Дольше 9 = Нет ответа
    Уровень образования 1 = Неполная средняя школа 2 = Диплом средней школы 3 = Неполный колледж 4 = Диплом колледжа 5 = Неполная высшая школа 6 = Диплом высшей школы 7 = Более высокий 9 = Нет ответа
    Годовой доход домохозяйства 1 = Ниже 20 000 долларов 2=21 000-30 000 долларов 3 = 31000-40 000 долларов 4=41 000-50 000 долларов 5=более 50 000 долларов 6 – не могу сказать с уверенностью 7 – не желаю отвечать 9 – нет ответа

Анализ данных: оценка различий

С помощью критерия хи-квадрат проверяется гипотеза о принадлежности выборки к некоторой генеральной совокупности с известным распределением.

Применение данного критерия предполагает сравнение частот попадания элементов выборки в некоторые фиксированные интервалы с теоретическими вероятностями попадания в эти же интервалы значений всей совокупности.

Количество покупок
Соотношение, установленное для готовых завтраков Score
Малых Больших Семейных Всего
       
Соотношение, установленное для других марок готовых завтраков
       

Следует ли ожидать изменения спроса на готовые завтраки Score?

c=å[Oi-Ei]2/Ei

Oi - наблюдавшееся число событий в i- том интервале.

Ei – ожидаемое число событий в i- том интервале.

c = (240-200)2/200+(575-600)2/600+(385-400)2/400=9,6

При двух степенях свободы и уровне значимости a=0.05 табличное значение c = 5,99

9,6>5.99,

то есть полученный результат не является случайным, продажа Score будет идти иным образом, чем завтраки других марок.

Проверка по критерию Колмогорова—Смирнова подобна проверке по хи-квадрат, однако, применяется при упорядоченных данных.

Для проверки гипотезы о среднем подходит z-критерий, если дисперсия известна, и применяется t-критерий, если она неизвестна.

Анализ данных: методы исследования

Корреляционный анализ - для измерения степени близости взаимосвязи двух или более переменных.

Регрессионный анализ - для получения уравнения, связывающего переменную критерий с одной или более переменными-предикторами.

Коэффициентом корреляции измеряется мера близости взаимосвязи между Y и Х к линейной.

Множественный регрессионный анализ - для оценки единственной переменной-критерия используется несколько переменных-предикторов

Если переменные-предикторы коррелируют между собой, это свидетельствует о существовании мультиколлинеарности в задаче множественного регрессионного анализа.


Пример.

Данные по территориям для шариковых ручек

Территория Продажа (тыс. штук), Y Реклама (число показов в месяц), Х1 Число торговых представителей, Х2 Индекс эффективности оптовика, X3
  260,3      
  286,1      
  279,4      
  410,8      
  438,2      
  315,3      
  565,1      
  570,0      
  426,1      
  315,0 У    
  403,6      
  220,5      
  343,6      
  644,6      
  520,4      
  329,5      
  426,0      
  343,2      
  450,4      
  421,8      
  245,6      
  503,3      
  375.7      
  265,5      
  620,6      
  450,5      
  270,1      
  368,0      
  556,1      
  570,0      
  318,5      
  260,2      
  667,0      
  618,3      
  525,3      

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...