Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Очистка информации от засорения




При статистическом анализе информации принято считать, что результаты измерений подчиняются нормальному закону распределения. Однако на практике это не всегда верно. Наблюдаются отклонения как односторонние, так и двусторонние. Во избежание искажения значений характеристик распределения при обработке информации необходимо очистить ее от засорения случайными отклонениями. Метод выявления аномальных наблюдений и их удаления из совокупности при обработке многомерной статистической информации может привести к отбрасыванию слишком большого количества точек наблюдения. Известны более четко обоснованные методы обнаружения засорения: метод Смирнова–Граббса проверки максимального наблюдения, критерий Граббса для обнаружения одного экстремального наблюдения, критерий исключения нескольких грубых ошибок как обобщение критерия Граббса. Все они применяются к упорядоченной совокупности (вариационному ряду): (N 25).

Для проверки максимального и минимального значений на наличие грубой ошибки используются критерии

и ,

 

где , , .

При N>25 экстремальные значения могут быть проверены по критерию S:

,

где – стандартное отклонение, определенное для всей выборки;

– предполагаемый выброс.

При Sрасч < Sкр гипотеза H0: – выброс отвергается, в противном случае экстремальное значение считается грубой ошибкой и из дальнейшего рассмотрения исключается. Критические значения критерия S определяются по таблице. При уровне значимости Sкр так зависит от объема выборки N: значениям N = 30; 50; 100; 1000 соответствуют Sкр = 2,929; 3,082; 3,283; 3,884.

Парный корреляционный и регрессионный анализ удобно выполнять средствами Excel и надстройки «Пакет анализа» (в меню – Сервис– Анализ данных).

Для наглядности выполним статистический анализ совокупности таких показателей (Приложение 1): Y2, X4, X5, X6, X7, X8.

Для проверки статистических данных на «засорение» необходимо выполнить следующие действия:

– скопировать все значения показателя (например Y2) на чистый лист;

– упорядочить их по возрастанию, для чего выделить весь столбец без заголовка и нажать на панели кнопку сортировки;

– установить курсор под последним значением и ввести функцию Статистическая – СРЗНАЧ, а затем СТАНДОТКЛ, как показано ниже;

 

 

  A B
  236,7  
  264,8  
  267,3  
  355,6  
  526,6  
  598,1  
  =СРЗНАЧ(A2:A54) Ср.знач.
  =СТАНДОТКЛОН(A2:A54) Ст.откл.
  =(A54-A55)/A56 S расч
  =СРЗНАЧ(A2:A53) Ср.знач.1
  =СТАНДОТКЛОН(A2:A53) Ст.откл.1
  =(A53-A58)/A59 S расч.1
  =СРЗНАЧ(A2:A52) Ср.знач.2
  =СТАНДОТКЛОН(A2:A52) Ст.откл.2
  =(A52-A61)/A62 S расч.2
  A B
  236,7  
  264,8  
  267,3  
  355,6  
  526,6  
  598,1  
  113,1945 Ср.знач.
  116,937 Ст.откл.
  4,146726 S расч
  103,8694 Ср.знач.1
  96,14184 Ст.откл.1
  4,396947 S расч.1
  95,58059 Ср.знач.2
  76,05273 Ст.откл.2
  3,418936 S расч.2

 

 

– вычислить значение статистики Sрасч по найденным характеристикам для наибольшего значения, которое нужно подставить в формулу вместо x1 и проверить гипотезу H0: наибольшее (последнее в столбце) значение – выброс;

– если Sрасч > Sкр (0,05; 50) = 3,082, это значение является выбросом, и необходимо проверить предыдущее значение, только при этом следует заново определить среднее значение и стандартное отклонение, но уже исключив выброс, как это и выполнено в приведенной таблице;

– проверку на выброс следует продолжать до первого значения, для которого гипотеза H0 окажется неправдоподобной, т.е. для которого значение Sрасч окажется меньше Sкр;

– такую же проверку необходимо выполнить и начиная с наименьшего (первого в столбце) значения, помня о том, что критерий S имеет двустороннюю критическую область, и поэтому следует рассматривать модуль Sрасч.

Для приведенного примера два последних значения Y2 являются выбросами. Это следует из таблиц, приведенных выше. Правая таблица содержит результаты проверки, а левая – формулы, которые следует ввести в ячейки, чтобы эти результаты получить. Третье проверенное значение может быть оставлено, так как значение Sрасч близко к Sкр. Такие проверки необходимо выполнить для всех показателей. В итоге на новый лист следует перенести исходные статистические данные и исключить полностью каждую строку, в которой есть выброс хотя бы одного из показателей. Весь последующий статистический анализ проводить только по очищенным данным.

 

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...