На каждом этапе подготовки модели для решения задачи предсказания или поиска решения проблемы используются конкретные методы обработки, анализа данных.
Методы ИАД, подробнее
Некоторые методы и техники анализа, применимые к Big Data: 1) Методы сбора и очистки данных (Data Mining, - «добыча данных» ): · методы категоризации данных (с целью уловить логику, общность в массиве данных), кластерный анализ; · смешение/объединение (data fusion), интеграция, фильтрация [6] данных - слияние разнородных и собираемых из разных источников данных в одну выборку, удобную для дальнейшей обработки методами анализа;
2) Методы глубинного анализа предварительно обработанных и структурированных (и неструктурированных) данных: · Методы статистического анализа предварительно структурированных числовых данных: A/B-тестирование [7], анализ временных рядов, в т.ч. регрессионный, факторный анализ и др. Для обработки и анализа данных статистическими методами есть ряд готовых программ, а также, инструмент (и язык) R - пакет статистического анализа. [8] · Пространственный анализ — использование топологической, геометрической и географической информации в данных; например, метод Сетевого анализа данных – метод решения оптимизационных задач (например, задача поиска кратчайшего или в ином смысле оптимального пути между точками) с использованием модели геометрической сети; позволяет найти взаимоотношения там, где классическая малополезна.
· Методы оптимизации, в том числе генетические алгоритмы (genetic algorithm) – последние используют для динамической оптимизации решений на основе массивов данных путем случайного перебора, вариации значений параметров с использованием механизмов, аналогичных естественному отбору в природе; · Нейросетевые методы. Например, машинное глубокое обучение нейронных сетей, чтобы в дальнейшем они могли обнаруживать в массивах данных неочевидные человеку закономерности и делать выводы о том, что происходит с объектом наблюдения (например, по действиям с номером банковской карты определять, что он злоумышленник и предпринимает мошеннические действия, или по разрозненным геоданным со спутниковых снимков или томографических снимкам тканей пациента видеть скрытые от глаз человека процессы, тенденции, делать прогноз, например, о развитии процесса (экологического, патологического, социально-экономического); · Методы нечеткого логического вывода.
Полезность методов интеллектуального анализа данных различна, например, для прогнозирования [9]: Сравнительный анализ методов прогнозирования
Методы ИАД для типовых видов интеллектуального анализа, используемых аналитиками и лицами, принимающими решения в бизнесе:
· Ранжирование - упорядочивание факторов по степени их влияния на целевой показатель. С каждым фактором связывается весовой коэффициент, дающий количественную оценку степени влияния на результат решения. · Сегментация – предварительное разделение области значений фактора на сегменты для проведения дальнейшего нисходящего анализа. Например, успешные показатели по продажам в целом могут скрыть от исследователя неудачи в некоторых регионах. Проведение сегментации по географическим районам позволит выявить, что успешные продажи имели место только в двух регионах, А и В. Последующий нисходящий анализ может показать, что объем продаж в регионе А зависит от затрат на рекламу, а в регионе В на него влияют главным образом сезонные колебания. · Профилирование наилучших достижений - выявление основных характеристик наиболее успешных регионов, филиалов, клиентов и т.д. для планирования дальнейшей деятельности компании. Данный вид анализа также используется в банках и страховых компаниях для оценки риска при выдаче кредитов. · Выявление ассоциаций - поиск ассоциированных групп значений факторов, т.е. значений, почти всегда появляющихся вместе (например, продажа ПК в большинстве случаев сопровождается продажей источника бесперебойного питания). Этот вид анализа в первую очередь необходим при планировании продаж, усовершенствовании работы складов, проведении рекламных компаний. · Выявление исключений - поиск элементов, выпадающих из общей картины. Появление подобных элементов может быть вызвано как ошибками в данных, которые следует исправить, так и необычными ситуациями в работе компании, требующими немедленного вмешательства со стороны руководства или оператора (смотря, в программе какого назначения реализован этот метод).
1. Группа традиционных методов решения оптимизационных задач — вариационные методы, методы исследования операций, включающие в себя различные виды математического программирования (линейное, нелинейное, дискретное, целочисленное), динамическое программирование, методы теории систем массового обслуживания. Программные реализации большинства этих методов входят в стандартные пакеты прикладных программ, например Math CAD и MatLab. 2. М етод «ближайшего соседа», который лег в основу таких программных продуктов, как Pattern Recognition Workbench или KATE tools. 3. Другой подход к выбору решения связан с построением последовательного логического вывода — дерева решений, в каждом узле которого эксперт осуществляет простейший логический выбор («да» — «нет»). В зависимости от принятого выбора, поиск решения продвигается по правой или левой ветви дерева и в конце концов приходит к терминальной ветви, отвечающей конкретному окончательному решению. Здесь процесс статистического обучения выведен за пределы программы. На основе деревьев решений разработаны такие программные продукты, как IDIS, С5.0 и SIPINA. 4. Методы визуализации данных и результатов их анализа, позволяющие наглядно отображать полученные выводы для создания у предметных экспертов и/или руководителей проектов единой картины ситуации. К программным продуктам, позволяющим формировать предварительные отчеты и визуализировать результаты, следует отнести системы Mineset и Impromptu (BI). В частности, система Mineset содержит в себе такие инструменты, как ландшафтный визуализатор, визуализаторы дисперсии, деревьев, правил и свидетельств.»[10]
Часто используются такие технологии ИАД: · Статические методы · Методы разведочного анализа данных; · нейронные сети, которые позволяют строить достоверные прогнозы, не уточняя конкретный вид тех зависимостей, на которых такой прогноз основан. Классический разведочный анализ данных применяютдля нахождения связей когда отсутствуют (или недостаточны) априорные представления о природе связей предназначена для подтверждения гтипотез о связях между переменными, например, "Имеется положительная корреляция между возрастом человека и его/ее нежеланием рисковать"). Методы разведочного анализа данных включают: 1. основные статистические методы, 2. методы многомерного анализа, предназначенные для отыскания закономерностей в многомерных данных, более сложные и специально разработанные; 3. графические методы. Пример отображения результатов многомерного разведочного анализа
Методы многомерного разведочного анализа для поиска закономерностей в многомерных данных: кластерный анализ, факторный анализ, анализ дискриминантных функций, многомерное шкалирование, логлинейный анализ, канонические корреляции, пошаговая линейная и нелинейная регрессия, анализ соответствий, анализ временных рядов, деревья классификации. · Дискриминантный анализ используется для принятия решения о том, какие переменные отличают (дискриминируют) две или более возникающие совокупности (группы). Например, какие переменные относят выпускника средней школы к одной из трех категорий: (1) поступающий в колледж, (2) поступающий в профессиональную школу или (3) отказывающийся от дальнейшего образования. Для этой цели исследователь может собрать данные о различных переменных, связанных с учащимися школы. Затем можно использовать дискриминантный анализдля определения того, какие переменные дают наилучшее предсказание выбора учащимися дальнейшего пути. · Кластерный анализ - различные алгоритмов классификации. Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. · Факторный анализ ставит целью сокращениечисла переменных и классификацию переменных - используется или как метод сокращения данных или как метод классификации. · Дисперсионный анализ ставит целью исследование значимости различия между средними. · Множественная регрессия ставит целью анализ связи между несколькими независимыми переменными
Классические стат. и графические методы анализа данных доступны в программных пакетах Statistica, SyStat, программах электронных таблиц, например, доступном и широко используемом табличном процессоре MS Excel.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|