Способы организации выборки из ГС
Выборки м.б. (1) вероятностными (случайными) или (2) неслучайными:
1. Случайная выборка - при отборе элементов из генеральной совокупности используется таблица случайных чисел, либо:
2. Невероятностные (не случайные) выборки. Отбор элементов ген.совокупности делается не случайным образом, а по принципу удобства, типичности, равного представительства и т.д. Например,
Также выборки могут повторными (из генсовокупности один и тот же элемент может попасть в выборку несколько раз) и бесповторными (после отбора элементов в выборку, элемент исключается из дальнейшего использования в выборках)).
Размер выборки
Выборка должна быть репрезентативной, т.е. достоверно отражать всю генеральную совокупность. Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных генеральных совокупностей. Пример: - Выборка, целиком состоящая из москвичей, владеющих автомобилем, не репрезентирует все население Москвы. А Выборка из российских предприятий численностью до 100 человек не репрезентирует все предприятия России. Есть спец. приемы в статистике, чтобы выборка считалась репрезентативной - например, размер выборки рекомендуется брать не произвольным, а с учетом объема всей ген.совокупности. Одномерная выборка считается малой, если ее объем выборки не превышает 30 (n <= 30). Для многомерных выборок размерности k, при измерении k признаков, малая выборка – это когда n/k < 10). Выводы стат.анализа выборки с определенной погрешностью отражают свойства ген.совокупности. Например, о населении региона судят по нескольким сотням или тысячам опрошенным. От характеристик тех, кто попал в выборку, зависит результат общения стат. выводов обо всем населении региона – с определенной погрешностью.
До сбора данных, с учетом заранее заданной погрешности дальнейших расчетов надо правильно выбрать объем выборки n – его выясняют в зависимости от типа выборки, размера генеральной совокупности N, уровня достоверности (доверительной вероятности) полученного результата и целей (что именно собираются делать с выборкой[1]). При проведении исследований, которые определяют распространенность некоей характеристики в генеральной совокупности. Рассчет размера выборки необходим для того, чтобы полученные оценки имели желаемую степень достоверности. Обычно желательна 95%-ная степень достоверности. Это значит, что предельно допустимая вероятность ошибки в расчетах =5 %, а с 95%-ной вероятностью в доверительном интервале лежит реальное значение статического параметра генеральной совокупности, оцененного по результата стат.анализа выборки из генеральной совокупности.
Рекомендуемый объем выборки из ген.совокупности зависит от - типа выборки (повторная/бесповторная), - показателя ген.совокупности, который оценивается по выборке из ГК матожидание или дисперсия или доля элементов с определенным значением и т.п.), - способы отбора данных Г.С. в выборку (гнездовая, сплошная и т.д.)
Здесь[2]: N- размер генеральной совокупности (Г.С.), n – рекомендуемый размер выборки из Г.С., S (или SD, standard deviation) - стандартное отклонение выборки (для генеральной совокупности это среднеквадратичное отклонение σ (сигма)), ∆ - предельная ошибка оценки матожидания (среднего арифметического) или доли. Формула предельной ошибки: ∆ = t*mr где mr (standard error или стандартная ошибка средней) – т.н. ошибка репрезентативности. t – значение распределения Стьюдента в зависимости от допустимой (доверительной) вероятности, для простоты · для доверительного интервала 95 % используется t=2, · для доверительного интервала 99 % используется t=3 · и для доверительного интервала 68 % используется t=1.
Выборку в стат.анализе представляет числовой ряд. Бывают выборки 1-мерные и многомерные. 1) Ряды атрибутивные (содержат качественные значения)или вариационный (числовые значения), 2) Ряды динамики (временными рядами) отображают процесс во времени. Ряды динамики бывают: ü моментные (уровни рядов динамики могут относиться к определенным датам (моментам) времени) и ü интервальные (каждый элемент такого ряда - усредненные за период данные). 3) Панельные данные (1+2) - набор данных среза – но в динамике во времени) – это область многомерного стат.анализа.
Цензурированной выборкой называется выборка, элементами которой являются полные наработки[3] и неполные наработки (наработки до цензурирования)[4] или только значения наработки до цензурирования. Такие выборки характерны для показателей надежности объектов, достоверности обработки информации, защиты информации.
Смыкание рядов динамики.
При изучении явлений встречаются случаи, когда показатели, характеризующие данное явление, имеются в справочниках до какого-либо периода, а далее они или вообще не приводятся, или даются несопоставимыми с предшествующими данными (т.е. смыкаемые ряды неоднородны по кругу охватываемых объектов, по единице измерения). Например, в справочнике о внешней торговле опубликованы индексы (%) физического объема экспорта страны N:
В другом справочнике тоже опубликованы данные о физическом объеме экспорта этой же страны N:
Надо соединить их в 1 выборку – но сделать это простым соединением не получится, т.к. данные рядов несопоставимы: показатели первого ряда рассчитаны на базе 1995 г. и составляют 100%, а показатели второго ряда на базе 1997 г. и соответствуют тоже 100%. Чтобы показатели этих рядов стали сопоставимы, надо произвести смыкание рядов.
А) Для пересчета показателей второго ряда на базе 1995 года - определить коэффициент пересчета, который получают путем деления общего показателя первого ряда на общий показатель второго ряда, т.е. 153/100 = 1,53. Затем показатели второго ряда за 1998, 1999, 2000 годы умножают на этот коэффициент: 120 * 1,53 = 184; 156 *1,53 = 239; 176 * 1,53 = 269. Полученными таким путем показателями заполняем объединенный ряд (1995 г. = 100).
Б) Либо можно было взять в качестве базы элементы не первого ряда, в второго. Для пересчета показателей первого ряда на базе 1997 г. определяем коэффициент пересчета путем деления показателя 2-го ряда на показатель 1-го ряда: 100/153 = 0,6535. Затем показатели 1-го ряда за 1995 и 1996 г. умножаем на этот коэффициент, т.е. 100 * 0,6535 = 65,4; 139 * 0,6535 = 90,8. Полученными таким образом показателями заполняем объединенный ряд (1997=100).
О доверительном интервале Когда стат.показатели ген.совокупности считают (точнее, приближенно оценивают) по выборке, оценка содержит стат.погрешность. Окончательный вывод о значении стиат.показателя ген. совокупности должен выдаваться не как 1 число, а как интервальная оценка т.е. доверительный интервал, в который попадает неизвестное значение показателя ген.совокупности: PГ.С.? [Рвыб-ошибка; Рвыб+ошибка ]
Доверительный интервал – вычисленный на основе выборки интервал значений признака, который с известной вероятностью содержит оцениваемый параметр генеральной совокупности. Доверительный интервал является т.н. интервальной оценкой какого-либо стат.показателя Г.С., т.е. таким диапазоном значений вокруг выборочного показателя, в который с заранее заданной доверительной вероятностью (обычно 95%-ной из 100%, т.е. 0,95) попадает значение оцениваемого параметра генеральной совокупности. Другими словами, доверительный интервал с определенной вероятностью содержит неизвестное значение оцениваемой величины ГС. Чем шире интервал, тем больше стат.ошибка оценки стат.показателя Г.С.. Существуют разные методы определения доверительного интервала, например: · через медиану и среднеквадратическое отклонение; · через критическое значение t-статистики (коэффициент Стьюдента). Этапы разных способов расчета доверительного интервала для некоторого стат.показателя генеральной совокупности: 1. формируем выборку из генеральной совокупности (предварительно выяснив размер выборки); 2. обрабатываем ее статистическими методами: рассчитываем среднее значение, медиану, дисперсию и т.д.; 3. рассчитываем доверительный интервал двумя способами; 4. анализируем очищенные выборки и полученные доверительные интервалы. Этап 1. Выборка данных
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|