Матрица коэффициентов корреляции
Рассчитаем последний вариант – совместное влияние четырех компонентов: содержания Pb, Cu, S и Zn = 1,127; = 1,503. Теперь можно сопоставить итоговые данные: содержание Pb = 2,943; содержания Pb и Cu = 1,376; содержания Pb,Cu и S = 1,409; содержания Pb,Cu,S и Zn = 1,503. Минимальная дисперсия отклонений с учетом степеней свободы достигается при учете содержаний Pb и Cu, которые и являются информативными. Содержания S и Zn являются неинформативными, их учитывать не следует. Окончательное уравнение множественной линейной регрессии имеет вид Ag = 1,923Pb + 1,074Cu + 2,871 ± 2,2. Коэффициент множественной корреляции R = 0,921. Установленная зависимость объясняется тем, что в природе серебро связано в основном со свинцом и медью, а не с цинком.7
4.2. Применение многомерной статистической модели в геологии
4.2.1. Анализ матрицы коэффициентов корреляции
Выше был приведен пример построения графа связей по значениям коэффициента корреляции (рис.4.1), который наглядно иллюстрирует характер взаимосвязей между свойствами и несет определенную геологическую информацию. Матрица коэффициентов корреляции может быть непосредственно использована для выделения групп взаимосвязанных свойств. 8 Пример 4.3. Имеется матрица коэффициентов корреляции между свойствами, рассчитанная по нескольким сотням групповых проб, взятых из железных руд и проанализированных на 19 компонентов (табл.4.5 на вклейке). Требуется выделить геохимические группы компонентов.
При беглом взгляде на таблицу трудно выявить какие-либо закономерности. Но если переставить компоненты местами, сгруппировав вместе элементы со значимыми положительными коэффициентами корреляции, то в матрице выявляется несколько взаимосвязанных групп компонентов, имеющих геологический смысл (табл.4.6 на вклейке). Внутри групп связи положительные, а между группами связи либо отсутствуют, либо отрицательные. Первую группу образуют железо, кобальт, сера, медь и никель. Это рудные компоненты одного (главного) этапа рудообразования. Вторая группа включает цинк, свинец и серебро. Они относятся ко второму наложенному этапу минерализации и ведут себя независимо от компонентов первой группы. Третья группа объединяет углекислоту, потери при прокаливании (ппп) и кальций. Они входят в состав известняков, которые замещены рудами. Четвертую группу слагают компоненты алюмосиликатных горных пород: кальций, марганец, кремний, алюминий, натрий, титан, калий, магний и фосфор, так как руда частично заместила силикатные породы. Кальций входит в обе группы, поскольку он присутствует и в карбонатах, и в силикатах. Таким образом, анализ матрицы коэффициентов корреляции позволяет выделить геохимические группы компонентов и содержит информацию о типах горных пород, замещенных железными рудами. Геохимические группы компонентов можно изобразить в виде графа связей, как на рис.4.1. Подобная группировка компонентов в корреляционной матрице может быть сделана во многих случаях и позволяет получать полезные геологические выводы. Нередко группы различных свойств частично перекрывают друг друга, что свидетельствует о сложности и многостадийности геологических процессов.7 4.2.2. Метод главных компонент
Одним из распространенных и эффективных способов обработки многомерных статистических данных является метод главных компонент*, суть которого заключается в линейном преобразовании исходных данных в независимые величины, несущие смысловую геологическую информацию.
Как отмечалось в подразделе 4.1.1, многомерные случайные величины изображают в многомерном признаковом пространстве облаком точек. Предполагается, что облако имеет форму, близкую к многомерному эллипсоиду. Преобразование исходных данных сводится к переносу и вращению системы координат в признаковом пространстве. Начало координат переносится в центр тяжести облака, а поворот осуществляется таким образом, чтобы оси многомерного эллипсоида совпали с осями координат. Оси эллипсоида ранжируются по длине, и та координатная ось, которая совпадает с наиболее длинной осью эллипсоида, называется первой, следующая по длине – второй и т.д. Новые координаты точек облака после переноса и вращения системы координат называются главными компонентами, которые и дали название методу. В процессе вращения сумма дисперсий остается постоянной, т.е. является инвариантом (она зависит только от взаимного расположения точек в облаке), но происходит перераспределение дисперсий. Максимальная дисперсия оказывается сосредоточенной в первых главных компонентах, которые и несут основную геологическую информацию. Минимальной дисперсией обладают последние компоненты. Они несут малую информацию, и ими можно пренебречь. Происходит как бы сворачивание информации в первых главных компонентах. Направляющие косинусы между осями старой и новой систем координат называются факторными нагрузками и часто имеют геологическое содержание. Поскольку свойства могут иметь различную физическую природу, возникает необходимость приведения значений случайных величин к одному масштабу, что существенно влияет на результаты вычислений. Обычно по осям координат откладывают нормированные случайные величины, вычисленные по формуле (2.24). Единицами нормирования свойств служат среднеквадратичные отклонения. Метод главных компонент широко распространен, но слабо освещен в литературе, поэтому подробно рассмотрим последовательность обработки исходных данных и геологическую интерпретацию результатов.
8 Пример 4.4. Имеется 20 проб магнетита, проанализированных на семь компонентов (табл.4.7). Требуется обработать данные по методу главных компонент.
По исходным данным вычислим средние значения, среднеквадратичные отклонения и составим матрицу коэффициентов корреляции между компонентами магнетита (табл.4.7 и 4.8). Следующая операция – отыскание собственных чисел и собственных векторов матрицы коэффициентов корреляции. Решение состоит в нахождении корней алгебраического уравнения степени k (k – число свойств) путем последовательных приближений. Собственные числа – это дисперсии главных компонент. Порядок вычисления первого собственного числа матрицы коэффициентов корреляции приведен в табл.4.9. Вначале запишем матрицу коэффициентов корреляции и найдем суммы коэффициентов по строкам. Суммы составляют вектор W, записанный справа от матрицы. Среди сумм найдем максимальную, она равна 3,236, все суммы разделим на нее и определим начальный вектор V (0,951; 0,760 …), который запишем в виде строки под матрицей. Далее найдем новые суммы путем построчного умножения членов матрицы на начальный вектор и суммирования произведений по строкам, что даст уточненный вектор W (первая итерация), записанный справа (2,627; 2,059 …). Снова отыщем максимальную сумму, равную 3,086, все суммы разделим на нее и получим второй уточненный вектор V (0,851; 0,667 …). Повторяя перечисленные операции, достигнем стабилизации вектора V. Операция закончена. Окончательные значения векторов приведены в последнем столбце и в последней строке таблицы. Максимальная сумма в векторе W дает первое собственное число l1 = 2,934. Это дисперсия первой главной компоненты. Естественно, что подобные расчеты выполняют на компьютере. Таблица 4.7 Состав магнетита, %
Далее необходимо умножить вектор V или W на такой множитель, чтобы сумма квадратов членов вектора была равна собственному числу l. Нетрудно определить, что к вектору V нужно применить множитель а к вектору W множитель В рассматриваемом примере Умножая все члены вектора V на множитель получим первый собственный вектор Ф1 (первую факторную нагрузку), Таблица 4.5
Матрица коэффициентов корреляции (r знач = 0,197)
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|