Операции с матрицами и многомерный анализ данных
Применение линейной алгебры в анализе данных будет проиллюстрировано на примере УФ-спектроскопии сложной смеси. В соответствии с законом Ламберта — Бера при данной частоте v полное поглощение образца, состоящего из l поглощающих компонентов, определяется как , где – молярный коэффициент поглощения компонента j, а – молярная концентрация компонента j. Если измерение проводится при п различных частотах, тогда единственное уравнение заменяется системой линейных уравнений С использованием матриц следующую систему линейных уравнений можно записать в виде: Для дальнейшего упрощения выражения запишем матрицу поглощения (А) как произведение матриц коэффициентов экстинкции () и концентрации (С): (A) = () (C) Следует отметить, что матричные расчеты и их компьютерное применение дали толчок быстрому развитию многомерного анализа данных.
Свойства сингулярной матрицы Матрица (X— Х)'(Х— ) — квадратная, симметричная и положительно определенная. Такие матрицы проявляют некоторые свойства, особенно полезные при анализе данных: · собственные значения, действительные, а также положительные или равные нулю; · число ненулевых собственных значений равняется рангу матрицы; · два собственных вектора, связанные с двумя различными собственными значениями ортогональны. В качестве иллюстрации этих свойств, а также чтобы показать их важность при анализе данных можно взять матрицу дисперсий-ковариаций и определим собственные значения матрицы методом наименьших квадратов. Решая уравнение, получаем два собственных значения: = 0 , что дает =1 и =0,6. Как , так и действительны и положительны. Ранг матрицы должен равняться 2, поскольку в системе существуют два ненулевых собственных значения. Компоненты собственных векторов, связанные с каждым из собственных значений, получаем из определения собственных векторов следующим образом:
для первого собственного значения
для второго собственного значения
Отметим, что два связанных с каждым из собственных значений вектора действительно ортогональны (т. е. их скалярное произведение равно нулю). В этих двух наборах векторов мы можем выбрать два нормированных вектора, которые соответственно составляют ортогональный базис:
Векторы и действительно аналогичны тем, которые определены в разделе 5.2.1, а координаты матрицы данных относительно этой точки отклика уже вычислены: (Y) = (X- ) (U)
Заключение
Факторные методы (в том числе связанные с использованием сингулярных матриц) ныне широко применяются для анализа данных в химии. Они в основном носят описательный характер и позволяют существенно сократить размерность массива данных при минимальной потере информации и возможности их графического представления. Хотя эти методы и не обладают возможностями моделирования, как регрессионный анализ, их можно применять для идентификации: · компонентов в многокомпонентных смесях, проанализированных посредством ультрафиолетового, инфракрасного и видимого излучения, флюоресценции, масс-спектрометрии, хроматографии (ФА); · реальных физических факторов, управляющих экспериментальными данными (целевой факторный анализ): · группы, к которой можно отнести новый объект в системе исходных групп, на которые был классифицирован первоначальный набор данных (ФДА). Известная мысль А.Пуанкере о том, что в конечном счёте главной задачей науки является экономия мысли и труда, со всей очевидностью проявилась в разработке в 80-90-х годах ХХ века компьютерных программ для упрощения расчетов, связанных с сингулярными матрицами.
Действительно, в настоящее время химик, желающий применить эти методы к собственным массивам данных, имеет возможность широкого выбора имеющихся в продаже программ для компьютеров. Множество программ было написано для больших, мини- и в последнее время — микрокомпьютеров. Однако нельзя упустить из виду, что хорошая интерпретация результатов невозможна без знания физико-химических моделей, которые позволяют правильно поставить эксперимент и получить необходимые данные. Следовательно, участие человека будет все еще незаменимо в извлечении полезной информации из распечаток (листингов) с численными результатами и графиками. Вмешательство химика происходит на различных стадиях: · при выборе исходных наборов данных, которые корректно представляют все множество исследуемых объектов; · выборе удовлетворительных методов преобразования данных; · поиске физического смысла абстрактных факторов; · интерпретации относительных положений объектов; · классификации. Применительно к ближайшему будущему можно выделить два основных параллельных направления развития приложений факторных методов в химии: первое, связано с развитием области применения; второе — с развитием программных средств и совершенствованием методик. Факторный анализ можно применять: · для завершения многокомпонентного анализа в частотной области, сравнения спектров и библиотечного поиска, улучшения методик хроматографического определения и т. д.; · анализа сложных промышленных процессов с большим количеством данных, для которых нельзя создать чистой фундаментальной модели. Факторный анализ этих наборов данных будет первой ступенью в моделировании указанных процессов; · изучения взаимосвязи структуры с физико-химическими свойствами, такими, как реакционная способность, биологическая активность органических, неорганических и биоорганических соединений; · рассмотрения химических процессов в окружающей среде с учетом географических и климатических особенностей регионов. С развитием программных средств и совершенствованием методик факторные методы будут становиться все проще для использования неспециалистами. Отметим здесь только некоторые тенденции:
· интеграция доступных программных средств со множеством вспомогательных программ представления данных, предварительной их обработки, факторного анализа, моделирования, решения задач оптимизации и распознавания образов. Эти средства будут поставлены на персональных компьютерах, что удобно для химиков. Более того, они станут частью автоматизированных систем сбора и обработки данных физико-химического анализа; · включение в программные средства модулей для проверки предположения о линейности при выборе исходных переменных как непосредственно по экспериментальным результатам, так и по выбранным соотношениям между переменными; · включение в программные средства модулей оценки погрешности факторных нагрузок, что поможет аналитику оценить реальность выявленных факторов. Целесообразна разработка статистических тестов для использования при решении об отнесении нового объекта к одной из групп; · использование одновременной обработки многопараметрических наборов данных, что позволит сопоставить методы многокомпонентного анализа, а при обработке массивов данных, зависящих от времени,— исследовать эволюцию химических процессов; · введение в программное обеспечение концепции искусственного интеллекта. Это поможет аналитику в интерпретации результатов, анализе геометрического представления объектов, а в дальнейшем — в автоматическом моделировании групп и кластеров объектов.
Список используемой литературы
1. ЭВМ помогает химии: Пер. с англ. /Под ред. Г. Вернена, М. Шанона.— Л.: Химия, 1990.— Пер. изд.: Великобритания, 1986. - 384 с. 2. Лоусон Ч., Хенсон Р. Численное решение задач метода наименьших квадратов/Пер, с англ. - М.: Наука. Гл. ред. физ.-мат. лит., 1986. - 232 с.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|