Процедуры MatLab подбора регрессий.
Пакет прикладных программ MatLab содержит процедуры вычисления регрессий в двух разделах: Statistics Toolbox и Curve fitting Toolbox. В разделе Statistics Toolbox приведены следующие процедуры подбора линейных регрессий: b = regress(y,X) returns the least squares fit of y on X by solving the linear model for [b,bint,r,rint,stats] = regress(y,X) returns an estimate of [b,bint,r,rint,stats] = regress(y,X,alpha) gives 100(1 - alpha)% confidence intervals for bint and rint. For example, alpha = 0.2 gives 80% confidence intervals. X should include a column of ones so that the model contains a constant term. The F statistic and p value are computed under the assumption that the model contains a constant term, and they are not correct for models without a constant. The R -square value is one minus the ratio of the error sum of squares to the total sum of squares. This value can be negative for models without a constant, which indicates that the model is not appropriate for the data.
Раздел Curve fitting Toolbox. Curve fitting refers to fitting curved lines to data. The curved line comes from regression techniques, a spline calculation, or interpolation. The data can be measured from a sensor, generated from a simulation, historical, and so on. The goal of curve fitting is to gain insight into your data. The insight will enable you to improve data acquisition techniques for future experiments, accept or refute a theoretical model, extract physical meaning from fitted coefficients, and draw conclusions about the data's parent population. Parametric fitting produces coefficients that describe the data globally, and often have physical meaning. Fit your data using parametric models such as polynomials and exponentials, specify fit options such as the fitting algorithm and coefficient starting points, and evaluate the goodness of fit using graphical and numerical techniques Parametric fitting involves finding coefficients (parameters) for one or more models that you fit to data. The data is assumed to be statistical in nature and is divided into two components: a deterministic component and a random component. data = deterministic component + random component The deterministic component is given by the fit and the random component is often described as error associated with the data. data = fit + error The fit is given by a model that is a function of the independent (predictor) variable and one or more coefficients. The error represents random variations in the data that follow a specific probability distribution (usually Gaussian). The variations can come from many different sources, but are always present at some level when you are dealing with measured data. Systematic variations can also exist, but they can be difficult to quantify.
The fitted coefficients often have physical significance. For example, suppose you have collected data that corresponds to a single decay mode of a radioactive nuclide, and you want to find the half-life (T1/2) of the decay. The law of radioactive decay states that the activity of a radioactive substance decays exponentially in time. Therefore, the model to use in the fit is given by where Both Nonparametric fitting is useful when you want to fit a smooth curve through your data, and you are not interested in interpreting fitted coefficients. Fit your data using nonparametric fit types such as splines and interpolants.
4. Выбор матрицы плана при планировании экспериментов.
В основном точность оценивания по методу наименьших квадратов определяет матрица плана Пусть мы планируем эксперимент для определения линейной связи
Далее будем считать, что такое приведение выполнено и всегда: Для построения прямой, отражающей связь между переменными Разместим эти две точки т.е. Наблюдениям в этих точках соответствует матрица плана
Предложенный план эксперимента при двух наблюдениях Увеличим число наблюдений до 4 План А На интервале
Увеличение числа наблюдений вдвое, вдвое уменьшило дисперсии оценок параметров План Б1 На интервале
План Б2 На интервале
План Б3 На интервале Здесь оба параметра оцениваются с большей дисперсией, чем в лучшем пока варианте – плане А, кроме того появилась корреляция между оценками. План Б4 На интервале
Сближение точек наблюдения приводит к тому, что План Б5 На интервале
Итак, наилучшие в смысле малости дисперсий оценок параметров линейной модели результаты достигаются при размещении наблюдений по краям интервала допустимых значений Посмотрим, как следует размещать наблюдения, если планы сравнивать по дисперсии прогноза. Прогноз в точку Вычислим дисперсию прогноза в точки, расположенные как внутри, так и вне интервала В таблице приведены относительные вариации
Для планов - А, Б1, Б2, имеющих симметричное относительно нуля размещение точек наблюдений, дисперсия прогноза увеличивается c удалением точки прогноза от нуля. Наилучший прогноз в точку вне интервала наблюдений Итак, параметры линейной модели оцениваются с наибольшей точностью, если наблюдения располагать на краях интервала. Прогнозы за интервал наблюдения имеют меньшие дисперсии, если часть наблюдений выполнена в граничной точке, расположенной ближе к прогнозируемой точке. Планы экспериментов следует выбирать в зависимости от требований решаемых задач.
4.1 Ортогональная структура матрицы плана.
В задаче МНК
здесь Предположим, что матрица имеет ортогональные столбцы –
1. Если матриц плана, имеет ортогональные столбцы, все коэффициенты 2. Итак, если матрица плана имеет ортогональные столбцы, существенно упрощаются расчеты, связанные с вычислением оценок и проверкой гипотез типа Теорема Хоттелинга. Если матрица плана в задаче МНК Равенство достигается в случае, если матрица плана ортогональна. Итак, наилучшим планом в смысле малости дисперсий оценок компонент вектора
4.2 Понятие оптимального плана. В задаче МНК
Совокупность величин Здесь:
Качество выполняемых расчетов, связанных с МНК в значительной степени определяется матрицей В частности дисперсионная матрица МНК-оценок: Мы будем называть оптимальным план, минимизирующий (максимизирующий) некую функцию информационной матрицы
На множестве допустимых планов Задачу (4.3) поиска экстремума критерия Планы, в которых
Оптимальный план (4.4) доставляет минимум объему эллипсоида рассеяния НЛН – оценок параметров
Для всех упомянутых типов оптимальности структура планов такова, что опорные точки следует выбирать на границах области задания. (Ермаков СМ, Планирование эксперимента, стр51.)
Полиномиальная регрессия
В множественной регрессии регрессоры u0 = u0 (х, z) ... up = up (х, z) МНК накладывает определенные ограничения на эти функции. Для того чтобы существовала единственная МНК оценка Выбор регрессоров приводит к полиномиальной регрессии:
или в матричном виде для наблюдений где матрица плана: Если матрица
Оказывается, что эффекты плохой обусловленности матрицы Существуют и другие подходы, позволяющие проводить надежные вычисления Первый прием: приведение множества точек, в которых проводятся наблюдения Интервал
(Обратная замена: Второй прием заключается в выборе в качестве регрессоров функций
Воспользуйтесь поиском по сайту: ![]() ©2015 - 2025 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|