Очистка информации от засорения
При статистическом анализе информации принято считать, что результаты измерений подчиняются нормальному закону распределения. Однако на практике это не всегда верно. Наблюдаются отклонения как односторонние, так и двусторонние. Во избежание искажения значений характеристик распределения при обработке информации необходимо очистить ее от засорения случайными отклонениями. Метод выявления аномальных наблюдений и их удаления из совокупности при обработке многомерной статистической информации может привести к отбрасыванию слишком большого количества точек наблюдения. Известны более четко обоснованные методы обнаружения засорения: метод Смирнова–Граббса проверки максимального наблюдения, критерий Граббса для обнаружения одного экстремального наблюдения, критерий исключения нескольких грубых ошибок как обобщение критерия Граббса. Все они применяются к упорядоченной совокупности (вариационному ряду): (N 25). Для проверки максимального и минимального значений на наличие грубой ошибки используются критерии и ,
где , , . При N>25 экстремальные значения могут быть проверены по критерию S: , где – стандартное отклонение, определенное для всей выборки; – предполагаемый выброс. При Sрасч < Sкр гипотеза H0: – выброс отвергается, в противном случае экстремальное значение считается грубой ошибкой и из дальнейшего рассмотрения исключается. Критические значения критерия S определяются по таблице. При уровне значимости Sкр так зависит от объема выборки N: значениям N = 30; 50; 100; 1000 соответствуют Sкр = 2,929; 3,082; 3,283; 3,884. Парный корреляционный и регрессионный анализ удобно выполнять средствами Excel и надстройки «Пакет анализа» (в меню – Сервис– Анализ данных).
Для наглядности выполним статистический анализ совокупности таких показателей (Приложение 1): Y2, X4, X5, X6, X7, X8. Для проверки статистических данных на «засорение» необходимо выполнить следующие действия: – скопировать все значения показателя (например Y2) на чистый лист; – упорядочить их по возрастанию, для чего выделить весь столбец без заголовка и нажать на панели кнопку сортировки; – установить курсор под последним значением и ввести функцию Статистическая – СРЗНАЧ, а затем СТАНДОТКЛ, как показано ниже;
– вычислить значение статистики Sрасч по найденным характеристикам для наибольшего значения, которое нужно подставить в формулу вместо x1 и проверить гипотезу H0: наибольшее (последнее в столбце) значение – выброс; – если Sрасч > Sкр (0,05; 50) = 3,082, это значение является выбросом, и необходимо проверить предыдущее значение, только при этом следует заново определить среднее значение и стандартное отклонение, но уже исключив выброс, как это и выполнено в приведенной таблице; – проверку на выброс следует продолжать до первого значения, для которого гипотеза H0 окажется неправдоподобной, т.е. для которого значение Sрасч окажется меньше Sкр;
– такую же проверку необходимо выполнить и начиная с наименьшего (первого в столбце) значения, помня о том, что критерий S имеет двустороннюю критическую область, и поэтому следует рассматривать модуль Sрасч. Для приведенного примера два последних значения Y2 являются выбросами. Это следует из таблиц, приведенных выше. Правая таблица содержит результаты проверки, а левая – формулы, которые следует ввести в ячейки, чтобы эти результаты получить. Третье проверенное значение может быть оставлено, так как значение Sрасч близко к Sкр. Такие проверки необходимо выполнить для всех показателей. В итоге на новый лист следует перенести исходные статистические данные и исключить полностью каждую строку, в которой есть выброс хотя бы одного из показателей. Весь последующий статистический анализ проводить только по очищенным данным.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|