Главная | Обратная связь | Поможем написать вашу работу!

Многомерная статистическая модель

4.1.1. Система множества случайных величин

и ее статистические характеристики

Дальнейшим развитием двухмерной статистической модели служит многомерная статистическая модель, которая состоит из совокупности множества сопряженных случайных величин (называемых многомерными случайными векторами) и выражается матрицей свойств размером k ´ n:

, (4.1)

где n – число наблюдений; k – число свойств.

В основе многомерной статистической модели лежит гипотеза о том, что измеренные значения являются независимыми случайными величинами (векторами), т.е. строки матрицы можно располагать в любом порядке. Однако между столбцами матрицы связь может присутствовать. В ряде задач некоторые из измерений могут быть неслучайными величинами, например заранее заданными пространственными или временны́ми координатами, что не является препятствием для статистической обработки.

Для изображения множества случайных величин используется многомерное признаковое пространство, имеющее k осей. Каждое отдельное измерение (строка матрицы) изображается в таком пространстве точкой, а их совокупность, т.е. матрица (4.1), – облаком точек.

Многомерная статистическая модель имеет различные статистические характеристики, наиболее употребительными из которых являются средние значения случайных величин …, их дисперсии …, и среднеквадратичные отклонения s₁, s₂, …, s _k. Кроме того, часто используются матрицы ковариации и коэффициентов корреляции случайных величин. Напомним, что ковариация K_ij – это корреляционный смешанный момент двух случайных величин i и j. Матрица ковариации имеет симметричный вид:

(4.2)

В ней по диагонали расположены дисперсии случайных величин, а в остальных полях – корреляционные моменты. Матрица коэффициентов корреляции между свойствами (их называют парными коэффициентами корреляции) также имеет симметричный вид:

(4.3)

В матрице по диагонали находятся единицы, а в остальных полях – собственно коэффициенты корреляции. Методика расчета корреляционных моментов и коэффициентов корреляции такая же, как в двухмерной статистической модели. Данные матрицы коэффициентов корреляции могут быть представлены в виде графа связей (рис. 4.1). Для построения графа использованы результаты силикатного анализа горных пород. Чем больше коэффициент корреляции между компонентами, тем толще соединяющая их линия.

4.1.2. Множественная линейная регрессия. Коэффициент множественной корреляции

Во многих случаях возникает необходимость изучить зависимость одной случайной величины от множества других случайных величин. Многофакторная зависимость обычно выражается уравнением множественной линейной регрессии

y = a ₁ x ₁ + a ₂ x ₂ + ××× + a_kx_k + b, (4.4)

где x ₁, x ₂, …, x_k – свойства; a ₁, a ₂, …, a_k, b – постоянные коэффициенты.

Коэффициенты находят методом наименьших квадратов или через значения статистических характеристик. Результат не зависит от способа вычислений. По второму способу переменные x ₁, x ₂, …, x_k нормируют по формуле (2.24), т.е. заменяют величинами:

(4.5)

В результате замены уравнение (4.4) приобретет следующий вид:

, (4.6)

где величины А ₁, А ₂, …, А_k – нормированные коэффициенты регрессии.

Если в формулу (4.6) подставить нормированные значения (4.5), получим выражение множественного уравнения регрессии еще в одной форме:

(4.7)

Заметно сходство уравнений (3.12) и (4.7). В уравнении (4.7) находится несколько однотипных слагаемых, а вместо коэффициента корреляции r присутствуют нормированные коэффициенты регрессии А ₁, А ₂, …, А_k. Значения А ₁, А ₂, …, А_k находят путем решения системы линейных уравнений, составленной из коэффициентов корреляции:

(4.8)

Сравнение фактических у и расчетных у _рас значений по уравнению (4.7) дает отклонения d. Рассчитав дисперсию отклонений и дисперсию исходных данных , можно найти коэффициент множественной корреляции R, который характеризует степень зависимости свойства у от множества других случайных величин x ₁, x ₂, …, x_k:

. (4.9)

Значения R колеблются от нуля до единицы. Чем ближе R к единице, тем более сильная зависимость величины у от множества величин x ₁, x ₂, …, x_k. Кроме того, дисперсия отклонений позволяет рассчитать погрешность уравнения множественной регрессии (при вероятности q = 0,95 и коэффициенте вероятности t = 2), которая равна t s_d.