Сравнение фактических и расчетных содержаний золота
|
|
Из табл.4.1 известны значения х 1 и х 2. Подставив их в полученное уравнение, найдем расчетные теоретические значения у рас. Сравнивая их с фактическими значениями у, получим отклонения d и дисперсию (табл.4.2). Далее найдем дисперсию значений y по формуле (2.14): =24,16. Это позволит рассчитать коэффициент множественной корреляции:
Полезно проанализировать рассчитанное уравнение регрессии. Коэффициент перед содержанием меди – положительный, а перед содержанием цинка – отрицательный. Первый коэффициент на порядок больше второго, следовательно, содержание меди оказывает более сильное влияние на содержание золота, чем на содержание цинка. Можно также рассчитать погрешность уравнения регрессии: 2sd = 3,4 г/т.7
4.1.3. Отбор информативных свойств в уравнении множественной линейной регрессии
Главное назначение уравнения множественной регрессии – прогнозирование значений одной случайной величины по множеству значений других случайных величин. Однако, как показано в примере 4.1, роль последних бывает различной, поэтому возникает необходимость выявить в уравнении информативные свойства, а неинформативные свойства исключить из расчета.
|
|
Отбор информативных факторов основан на анализе дисперсии отклонений с учетом степеней свободы m = k + 1, где k – количество свойств в уравнении множественной регрессии. Для этого вычисляется дисперсия с учетом степеней свободы:
(4.10)
При увеличении числа учитываемых случайных величин дисперсия вначале убывает, потом достигает минимума и далее начинает расти. Когда дисперсия достигнет минимума, информативные свойства определены. Дальнейшее увеличение числа случайных величин приведет к росту дисперсии и внесет искусственный «шум» в результаты прогнозирования по уравнению регрессии.
Информативные свойства определяют путем перебора сочетаний случайных величин. Вначале выбирают одну величину, которая имеет самый высокий парный коэффициент с прогнозируемой величиной у. Далее находят сочетание этой величины попарно со всеми остальными величинами, и каждый раз вычисляют дисперсию с учетом степеней свободы. Лучшим будет такое сочетание случайных величин, при котором дисперсия минимальна. Потом к двум найденным величинам добавляют третью, четвертую и т.д. до тех пор, пока дисперсия продолжает убывать. Когда дисперсия начнет возрастать, процесс отыскания информативных свойств прекращается.
8 Пример 4.2. Имеется 20 проб полиметаллической руды, проанализированных на пять компонентов (табл.4.3). Требуется изучить влияние первых четырех компонентов на содержание серебра, выступающего в роли функции у, и выбрать среди них наиболее информативные.
По исходным данным табл.4.3 вычислим статистические характеристики (табл.4.3 и 4.4). Дисперсия содержаний серебра = 2,7822 = 7,740. Содержания серебра имеют самый высокий коэффициент корреляции с содержанием свинца (r = 0,811), которое, очевидно, является наиболее информативным признаком. Дисперсия отклонений для содержаний серебра = 7,740(1 – 0,8112) = 2,649, с учетом степеней свободы дисперсия = 2,649·20/18 = 2,943.
|
|
Далее к ведущему фактору – содержанию свинца – поочередно присоединим содержания других компонентов и рассчитаем уравнения регрессии, а потом дисперсии отклонений:
содержания Pb и Cu = 1,170; = 1,376;
содержания Pb и Zn = 2,554; = 3,005;
содержания Pb и S = 2,269; = 2,669.
Наименьшая дисперсия имеет место для содержаний Pb и Cu, следовательно, медь является вторым по силе влияния фактором.
Таким же образом изучим тройные сочетания компонентов:
содержания Pb, Cu и Zn = 1,167; = 1,459;
содержания Pb, Cu и S = 1,127; = 1,409;
Третьим по силе влияния является содержание серы.
Таблица 4,3
|
|