Применение сингулярного разложения в задаче построения линейной регрессии.
Пусть в задаче подбора регрессионной зависимости Запишем сингулярное разложение матрицы
Воспользуемся теоремой Лоусона-Хенсона, чтобы ослабить эффекты плохой обусловленности матрицы
В задаче
Матрица Так как сингулярные числа располагаются по не возрастанию, компоненты решения с большими номерами находятся делением на малые сингулярные числа и могут иметь большие значения (малым сингулярным числам соответствуют малые собственные числа матрицы
Посмотрим, что произойдет, если мы удалим самые малые сингулярные числа и перейдем к задаче, в которой в матрице При этом мы переходим от решения МНК задачи подбора зависимости
Элементы решения
вектор решения задачи квадрат его нормы: так как Следовательно, норма Квадрат нормы невязки, отвечающий вектору
Естественно
Предположим, что матрица В этом случае решения В типичной ситуации заменяют малые - все элементы решения - все сингулярные числа - а норма невязки (6.11), отвечающая укороченному вектору решений, достаточно мала, т.е.
Итак, использование сингулярного разложения при решении задачи подбора зависимости y @ X·b по таблице наблюдений позволило: 1. формализовать процедуру выявления линейной связи между столбцами матрицы после замены в матрице матрица и вместо ‘сильной линейной’ связи столбцов операция приравнивания ( 2. указать правила выбора 3. найти решение минимальной длины 4. уменьшить полную среднеквадратическую ошибку вектора
Робастное оценивание
Робастным называют оценивание, устойчивое к возможным неверным предположениям о характере ошибок наблюдений и грубым промахам в наблюдениях. Грубые промахи (грубые ошибки, выбросы) в обрабатываемых данных встречаются довольно часто. Это может быть следствием не замеченных вовремя ошибок в измерительном тракте (сбои и отказы измерительных преобразователей, ошибки операторов). Бывают случаи, когда в обрабатываемый массив попадают и вовсе посторонние данные.
При ручном счете профессиональный статистик способен обнаружить и скорректировать подобные ошибки, однако автоматические компьютерные системы сбора, обработки и идентификации данных могут выдать абсолютно неверные результаты, если не принять специальных мер в процессе выработки решений. Загрязнение наблюдений выбросами приводит к тому, что основные предположения МНК нарушаются и ожидать хороших приближений, используя обычный МНК, не приходится. При наличии выбросов в данных следует отказаться от предположения о нормальном распределении ошибок наблюдений в пользу так называемых распределений с «тяжелыми хвостами». Для случайных величин, имеющих распределения с «тяжелыми хвостами» характерна высокая вероятность появления реализаций в областях, далеко расположенных от центра распределения. Нормальное распределение имеет «легкие хвосты». Вне интервала (-3s, 3s) находится всего лишь 0,27% распределения
Среди распределений с «тяжелыми хвостами» можно указать: 1. Распределение Тьюки:
где e - малая доля наблюдений с большой дисперсией или, другими словами, доля загрязнения основной выборки.
2. Распределение Коши
где x - центр распределения, a - характеристика рассеяния (масштаба). Отметим, что это распределение не имеет моментов. Итак, при наличии выбросов в наблюдениях: 1. нарушаются основные предположения МНК о распределениях ошибок: следствие этого – возможная смещенность и неэффективность оценок; 2. выводы теории МНК, основанные на нормальности ошибок (проверка гипотез, построение доверительных интервалов и т.д.), оказываются сомнительными.
Посмотрим, как влияют выбросы на результаты оценивания. Начнем с простейшей задачи определения «положения» выборочных данных. Обычно для таких целей используют выборочное среднее В случае, когда все
выборочное среднее а выборочная медиана Сравнение дисперсий этих оценок показывает, что При наличии выбросов в выборке эффективность оценок меняется. Рассмотрим пример: выборка {1.1, 0.9, 0.8, 1.2, 1.0} В этом случае: Теперь предположим, что последнее значение массива Для такого массива Оценка Итак, выборочная медиана устойчива к выбросу, а выборочное среднее нет.
Еще более чувствительна к выбросам оценка рассеяния (масштаба, стандартного отклонения): Сравним эту оценку с другой оценкой рассеяния – средним абсолютным отклонением: Известно, что Дж.Тьюки исследовал влияние степени засорения выборки на качество оценок Сравнение качества оценок проводилось на основе критерия АОЭ – ассимптотической относительной эффективности:
Результаты исследо- ваний приведены в таблице:
При отсутствии засорения (e=0) оценка При засорении e=0,05 оценка
Для количественной характеристики способности оценки противостоять действию выбросов вводят понятие пороговой точки. Пороговой точкой оценки называют ту долю выбросов в выборке, начиная с которой выбросы оказывают катастрофическое влияние на результаты оценивания. Так, для выборочной медианы - оценке положения данных пороговая точка равна 0,5, т.е., если в выборке окажется менее половины наблюдений с грубыми ошибками, это не приведет к серьезным отклонениям в значениях оценки.
Для выборочного среднего пороговая точка равна Поэтому из этих двух оценок положения ( Это повлекло за собой попытку создания оценок, совмещающих в себе высокую устойчивость и высокую эффективность. Такими оценками положения являются, например: 1. в упорядоченной по возрастанию выборке удаляется
2. В упорядоченной по возрастанию выборке пусть для примера формируют новую выборку
вычисляют Пороговая точка таких оценок равна
Примером оценки рассеяния (масштаба) выборки с пороговой точкой, равной 0,5 может быть МАО (медиана абсолютных отклоненийот медианы): Для нормально распределенных наблюдений E{MAO}=0,6345
Воспользуйтесь поиском по сайту: ![]() ©2015 - 2023 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|