Главная | Обратная связь | Поможем написать вашу работу!

Расчет коэффициента корреляции

Номер пробы n	Содержание железа, %		Отклонения и их произведения
Номер пробы n	общего х	магнетитового y
1	52,0	45,7	14,9	16,6	222,01	275,56	247,34
2	49,4	45,4	12,3	16,3	151,29	265,69	200,49
3	34,5	28,4	-2,6	-0,7	6,76	0,49	1,82
4	41,5	36,6	4,8	7,5	232,04	56,25	36,00
5	36,5	22,1	-0,6	-7,0	0,36	49,00	4,20
6	22,7	10,9	-14,4	-18,2	207,36	331,24	282,08
7	42,3	27,5	5,2	-1,6	27,04	2,56	-8,32
8	20,0	10,3	-17,1	-18,8	292,41	353,44	321,48
9	23,9	17,3	-13,2	-11,8	174,24	139,24	155,76
10	23,8	16,0	-13,3	-13,1	176,89	171,61	174,23
11	33,2	23,8	-0,9	-5,3	15,21	28,09	20,67
12	61,8	55,8	24,7	26,7	610,09	712,89	659,49
13	63,7	57,3	26,6	28,2	707,56	795,24	750,12
14	22,1	15,2	-15,0	-13,9	225,00	193,21	208,50
15	50,0	45,7	12,9	16,6	166,41	275,56	214,14
16	43,4	35,4	6,3	6,3	39,69	39,69	39,69
17	37,0	29,6	-0,1	0,5	0,01	0,25	-0,05
18	28,6	20,7	-8,5	-8,4	72,25	70,56	71,40
19	23,5	13,4	-13,6	-15,7	184,96	246,49	213,52
20	32,0	24,7	-5,1	-4,4	26,01	19,36	22,44


Сумма	742,3	581,8	0,3	-0,2	3328,59	4026,42	3595,00
Среднее	37,1	29,1	-	-	166,43	201,32	179,75
Характеристики			-	-

По данным таблицы 3.1 имеем: = 37,1; = 29,1; = = 166,43; = 201,32; s _х = 12,90; s _у = 14,19; К_ху = 179,75; r = 179,75/(12,90×14,19) = 0,982. Вычисленный коэффициент корреляции r = 0,982 близок к единице, следовательно, связь между свойствами сильная и положительная. Чтобы убедиться в реальности связи, вычислим критерий Стьюдента по формулам (3.6):

Тот же критерий на основе нормального закона распределения:

В обоих случаях критерий t значительно больше трех, поэтому линейная связь между содержаниями железа общего и магнетитового доказана надежно.7

3.1.3. Уравнение линейной регрессии

Если между величинами х и у установлена линейная статистическая зависимость, то представляет интерес найти ее выражение в виде уравнения прямой линии у = ах + b (где а и b – коэффициенты). Такое уравнение называется уравнением регрессии. Если величина х неслучайная, то существует одно уравнение регрессии. Если обе величины (х и у) случайные, то имеется два уравнения регрессии и можно вычислять зависимости как у от х, так и х от у. Расчет уравнения сводится к определению наиболее вероятного значения у, когда известно значение х. Опуская вывод, запишем уравнение линейной зависимости через статистические характеристики:

. (3.12)

Аналогичный вид имеет второе уравнение зависимости х от у:

. (3.13)

Эти уравнения пересекаются в точке средних значений и . В уравнения входят пять статистических характеристик, рассмотренных в предыдущем подразделе.

Как указывалось, дисперсия случайной величины является характеристикой ее рассеяния около математического ожидания или среднего значения. Уравнение регрессии (3.12) позволяет определить еще одну остаточную дисперсию s_d, которая характеризует рассеяние значений случайной величины около линии регрессии:

(3.14)

где d _i – отклонения значений случайной величины у от линии регрессии.

Дисперсии и связаны между собой соотношением

. (3.15)

Разность между ними также является дисперсией, учтенной (поглощенной) уравнением регрессии. Она называется дисперсией тренда В некоторых публикациях ее называют дисперсией закономерной изменчивости, противопоставляя случайной остаточной дисперсии. Между тремя дисперсиями существует соотношение

, (3.16)

которое можно рассматривать как разложение дисперсии на две составляющие – закономерную и случайную. Если принять дисперсию за 100 %, то дисперсии тренда и остаточную можно выразить в процентах от нее.

Уравнение линейной регрессии позволяет решать несколько практических задач. Первое назначение уравнения описательное, потому что часто важен сам факт линейной зависимости и ее аналитическое выражение. Но наибольшая эффективность уравнения заключается в возможности прогнозирования значения одной случайной величины, если известно значение другой. Поскольку зависимость носит статистический характер, прогнозирование по уравнению (3.12) будет сопровождаться погрешностью t s_d или, учитывая формулу (3.15), погрешностью где t – коэффициент вероятности. Чем больше коэффициент корреляции по абсолютной величине, тем меньше погрешность прогнозирования. Для надежного прогнозирования необходимо использовать лишь такие зависимости, у которых коэффициент корреляции больше 0,87.

8 Пример 3.2. По условиям примера 3.1 необходимо рассчитать уравнение зависимости содержания железа магнетитового у от содержания железа общего х в руде.

По данным табл.3.1

или после раскрытия скобок у = 1,080 х – 11,0. При t = 2 погрешность прогнозирования по уравнению . Поэтому можно записать у = 1,080 х – 11,0 ± 5,4.

Из табл.3.1 имеем дисперсию = 201,32; остаточную дисперсию = 201,32(1 – 0,982²) = 7,18; дисперсию тренда = = 201,32 – 7,18 = 194,14. Приняв за 100 %, найдем, что дисперсия тренда составит 96,4 %, а остаточная дисперсия отклонений равна 3,6 % от общей дисперсии.

Линию полученного уравнения можно нанести на график (рис.3.2). Она пересечет ось абсцисс при значении х = 11,0/1,080 = 10,2 %, что указывает на вероятное среднее содержание железа в немагнитных минералах руды. В качестве второй точки для проведения линии регрессии можно использовать средние значения = 37,1 и = 29,1.

Отметим, что существует и второе уравнение зависимости х от у, оно имеет вид

или х = 0,893 у + 11,1, его погрешность 4,9. Линии обоих уравнений пересекаются в точке средних значений и .7

3.1.4. Двухмерное нормальное распределение.

Эллипс рассеяния

Облако точек на рис.3.1, как и во многих других случаях, в первом приближении имеет эллипсовидную форму. В ряде задач нужно знать параметры эллипса, охватывающего облако, и построить эллипс на чертеже.

Идеальный эллипс возникает в том случае, когда система двух случайных величин и каждая из них в отдельности подчиняются нормальному закону распределения. Но и при заметных отклонениях от него конфигурация облака может быть охарактеризована эллипсом рассеяния.

Двухмерное нормальное распределение системы двух случайных величин описывается формулой плотности вероятности

. (3.17)

В формулу входит пять статистических характеристик, рассмотренных выше. Если спроектировать облако точек на оси Ох и Оу и построить гистограммы частот величин х и у, то каждая из них подчиняется нормальному закону (рис.3.3):

Облако точек заключено внутри эллипса, выраженного уравнением

, (3.18)

где t – коэффициент вероятности.

Если t будет принимать другие значения, будут построены подобные эллипсы иного размера (рис.3.4).

В центре эллипса точки расположены гуще, к краям их плотность убывает. Вероятность попадания точек в эллипс при нормальном распределении с параметром (квантилью) t описывается формулой

. (3.19)

Для построения эллипса необходимо знать положение его центра, размеры осей (полуосей) и их ориентировку по отношению к осям координат.

Центр эллипса имеет координаты и . Эллипс характеризуется размером, формой и ориентировкой осей на плоскости. Размер эллипса возрастает при увеличении рассеяния точек, т.е. при возрастании дисперсий и . Форма эллипса зависит в основном от коэффициента корреляции r. Чем ближе он по модулю к единице, тем более узким и вытянутым оказывается эллипс. В пределе, при r = 1, эллипс вырождается в отрезок прямой линии. Ориентировка эллипса характеризуется углом поворота его осей по отношению к системе координат. Угол можно найти из уравнения

. (3.20)

Его решение дает два угла a₁ и a₂, отличающихся друг от друга на 90°. Чтобы найти полуоси эллипса, начало координат переносят в центр эллипса, в точку и поворачивают координатные оси на угол a₁ или a₂. Обозначим новые оси координат u и v, тогда уравнение эллипса (3.18) приобретает канонический вид:

(3.21)

откуда следует, что полуоси эллипса равны и .

Дисперсии разброса точек и в новой системе координат связаны с дисперсиями и соотношениями:

Сумма дисперсий при переносе и повороте координат не меняется. Она зависит от взаимного расположения точек в облаке и является инвариантом:

(3.22)

Таким образом, чтобы построить эллипс рассеяния, достаточно знать координаты его центра , угол поворота осей a₁ или a₂ и длину полуосей и .

3.1.5. Нелинейная регрессия. Метод наименьших квадратов

Зависимости между свойствами могут быть не только линейными, но и более сложными – нелинейными и многофакторными. Для обработки любых зависимостей существует эффективный метод наименьших квадратов. Суть метода состоит в том, что изучаемая зависимость аппроксимируется таким алгебраическим выражением (трендом), который дает наименьшее расхождение с наблюдаемыми значениями.

Пусть значения величины у нелинейно зависят от значений величины х (точки на рис.3.5). Нужно подобрать такую функцию f (x),в которой отклонения между фактическими y_i и расчетными (теоретическими) у _т = f (x) значениями будут наименьшими. Отклонения d _i = y_i – y _т могут быть положительными и отрицательными. Главный принцип метода заключается в требовании, чтобы сумма квадратов всех отклонений от линии зависимости была минимальной:

(3.23)

Вид аппроксимирующей функции f (x)должен быть задан либо на основании теоретических соображений (например, гиперболическая зависимость плотности руды от ее состава в примере 1.3), либо путем эмпирического подбора. Например, в качестве функции f (x) могут быть использованы полином порядка p: f (x) = = a ₀ + a ₁ x + a ₂ x ² + … + a_px^p; синусоида f (x) = a sin(bx + c);показательная функция f (x) = a e ^bx и др. В каждой функции присутствуют постоянные коэффициенты a, b, c (их число зависит от вида функции), значения которых заранее не известны и которые определяют положение кривой на графике (рис.3.5). Следовательно, и сумма квадратов отклонений также зависит от значений коэффициентов, т.е. является их функцией:

Чтобы найти минимум этой функции, нужно взять частные производные по неизвестным коэффициентам и приравнять их нулю:

(3.24)

В результате будет получена система уравнений, в которой число уравнений равно числу неизвестных. Решая эту систему, найдем искомые коэффициенты a, b, c …

Когда коэффициенты в функции f (x)определены, можно найти расчетные значения y _т = f (x) для каждого x_i и сравнить их с фактическими y_i, т.е. найти отклонения d _i = y_i – y _т. Далее вычисляют дисперсии отклонений:

(3.25)

и, наконец, определяют корреляционное отношение:

(3.26)

которое заключено в интервале от нуля до единицы (0 £ h £ 1) и характеризует степень нелинейной зависимости между величинами х и у. Чем ближе h к единице, тем сильнее зависимость. При h = 0 связь отсутствует.

Зная дисперсию исходных данных и дисперсию случайных отклонений , можно по их разности найти еще одну дисперсию которая характеризует изменчивость расчетных значений у _ти может быть названа закономерной. Приняв общую дисперсию за 100 %, можно найти соотношение между и в процентах.

Рассмотренная схема обработки данных применима к исследованию линейных и нелинейных, однофакторных и многофакторных зависимостей. В частном случае простой линейной зависимости y = ax + b использование метода наименьших квадратов дает уравнение регрессии (3.12), а корреляционное отношение по абсолютной величине совпадет с коэффициентом корреляции.

3.1.6. Применение метода наименьших квадратов

к параболической зависимости

Имеется нелинейная зависимость (рис.3.6). Требуется рассчитать нелинейную параболическую зависимость по методу наименьших квадратов. Уравнение параболы имеет вид

y = ax ² + bx + c. (3.27)

Следовательно, для каждой точки графика справедливо соотношение (см. рис.3.5)

Из этого выражения найдем отклонения d _i и сумму квадратов отклонений, которая является функцией y от неизвестных коэффициентов a, b, c:

y(a, b, c) =

Чтобы отыскать минимум функции y(a, b, c), необходимо найти частные производные от функции по неизвестным a, b, c и приравнять производные нулю:

После раскрытия скобок и преобразования получим систему трех уравнений с тремя неизвестными

(3.28)

Заметим, что Для удобства последующей записи введем смешанные начальные моменты:

Разделим левые и правые части всех уравнений системы (3.28) на n и запишем систему через смешанные начальные моменты:

am ₄₀ + bm ₃₀ + cm ₂₀ = m ₂₁;

am ₃₀ + bm ₂₀ + cm ₁₀ = m ₂₁; (3.29)

am ₂₀ + bm ₁₀ + c = m ₀₁.

Для того чтобы найти коэффициенты a, b, c в уравнении параболы (3.27), нужно вычислить все моменты, входящие в систему (3.29), и решить ее. Система уравнений (3.29) линейна относительно неизвестных a, b, c,что существенно облегчает расчеты. Нередко встречаются такие зависимости (например, гиперболические), которые приводят к сложной нелинейной системе, которую нельзя решить алгебраическим путем. Подобные системы решают методом последовательных приближений.

8 Пример 3.3. По простиранию рудного тела от произвольной точки отсчета на расстоянии х_i от нее измерена мощность y_i (рис.3.6, табл.3.2). Требуется рассчитать параболическую зависимость мощности линзообразного рудного тела.

Порядок расчета начальных моментов приведен в табл.3.2, последняя строка которой содержит данные, необходимые для составления системы уравнений (3.29):

33076 a + 2079 b + 139,5 c = 178,8;

2079 a + 139,5 b + 10,5 c = 15,61;

139,5 a + 10,5 c + c = 1,575.

Решая систему, найдем коэффициенты a = –0,0270; b = 0,532; c = = –0,242. Следовательно, уравнение аппроксимирующей параболы имеет вид

у _т = –0,0270 х ² + 0,532 х – 0,242.

Таблица 3.2

Предыдущая 4 5 6 7 8 9 101112 13 14 15 16 17 18 19 Следующая

Воспользуйтесь поиском по сайту: