Анализ данных: предварительные этапы
Полевое редактирование —предварительное редактирование, которое строится таким образом, чтобы обнаружить наиболее бросающиеся в глаза пропуски и неточности данных. Кодирование — это технический прием, с помощью которого данные распределяются по категориям. Процесс кодирования осуществляется в три этапа: (1) Устанавливаются категории или классы, к которым будут относиться ответы. (2) Назначаются кодовые номера классов. (3) Подготавливается книга кодов. При назначении кодовых номеров необходимо: 1. Располагать только один символ в каждой колонке. 2. Использовать только числовые коды. 3. Использовать ровно столько колонок поля, назначаемого для переменной, сколько необходимо для полного охвата всех ее возможных значений. 4. Использовать одни и те же стандартные коды для обозначения «отсутствия информации». 5. В каждой записи кодировать идентификационный номер респондента. Табулирование заключается просто в подсчете количества событий, которые попадают в различные категории. Простая табуляция связана с расчетами единственной переменной. В перекрестной табуляции одновременно обрабатываются две или более переменных. Баннер —последовательный ряд перекрестных табуляций между каким-то критерием или зависимой переменной и несколькими, зачастую многочисленными, факторными переменными, оформленный в виде единой таблицы. Стаб - з ависимая (результирующая) переменная или подлежащее объяснению явление обычно определяет название строк таблицы. Предопределенные или факторные переменные определяют колонки таблицы, а каждое их значение называется баннерной точкой.
Анализ данных: оценка различий
С помощью критерия хи-квадрат проверяется гипотеза о принадлежности выборки к некоторой генеральной совокупности с известным распределением. Применение данного критерия предполагает сравнение частот попадания элементов выборки в некоторые фиксированные интервалы с теоретическими вероятностями попадания в эти же интервалы значений всей совокупности.
Следует ли ожидать изменения спроса на готовые завтраки Score? c=å[Oi-Ei]2/Ei Oi - наблюдавшееся число событий в i- том интервале. Ei – ожидаемое число событий в i- том интервале. c = (240-200)2/200+(575-600)2/600+(385-400)2/400=9,6 При двух степенях свободы и уровне значимости a=0.05 табличное значение c = 5,99 9,6>5.99, то есть полученный результат не является случайным, продажа Score будет идти иным образом, чем завтраки других марок. Проверка по критерию Колмогорова—Смирнова подобна проверке по хи-квадрат, однако, применяется при упорядоченных данных.
Для проверки гипотезы о среднем подходит z-критерий, если дисперсия известна, и применяется t-критерий, если она неизвестна. Анализ данных: методы исследования Корреляционный анализ - для измерения степени близости взаимосвязи двух или более переменных. Регрессионный анализ - для получения уравнения, связывающего переменную критерий с одной или более переменными-предикторами. Коэффициентом корреляции измеряется мера близости взаимосвязи между Y и Х к линейной. Множественный регрессионный анализ - для оценки единственной переменной-критерия используется несколько переменных-предикторов Если переменные-предикторы коррелируют между собой, это свидетельствует о существовании мультиколлинеарности в задаче множественного регрессионного анализа. Пример. Данные по территориям для шариковых ручек
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|