Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

На каждом этапе подготовки модели для решения задачи предсказания или поиска решения проблемы используются конкретные методы обработки, анализа данных.

Методы ИАД, подробнее

 

Некото­рые методы и тех­ники ана­лиза, при­ме­нимые к Big Data:

1) Методы сбора и очистки данных (Data Mining, - «добыча данных» ):

· методы кате­го­ри­за­ции дан­ных (с целью уловить логику, общность в массиве данных), кла­стер­ный ана­лиз;

· сме­ше­ние/объединение (data fusion), инте­гра­ция, фильтрация [6] дан­ных - слияние разнородных и собираемых из разных источников данных в одну выборку, удобную для дальнейшей обработки методами анализа;

  • Обработка сигналов (signal processing, термин из радиотехники) - разделение информационных потоков, подавление шумов.
  • Визу­а­ли­за­ция результатов ана­лиза дан­ных (в виде рисун­ков, гра­фи­ков, схем и диа­грамм с исполь­зо­ва­нием, ани­ма­ции) для удобства восприятия пользователем-человеком.
  • Краудсорсинг (crowdsourcing) - категоризация и обогащение данных силами широкого, неопределённого круга лиц, вовлечение интернет-пользователей в сбор или обработку большого количества данных.

 

2) Методы глубинного анализа предварительно обработанных и структурированных (и неструктурированных) данных:

· Методы ста­ти­сти­че­ского ана­лиза предварительно структурированных числовых данных: A/B-тестирование [7], ана­лиз вре­мен­ных рядов, в т.ч. регрес­си­он­ный, факторный ана­лиз и др. Для обработки и анализа данных статистическими методами есть ряд готовых программ, а также, инструмент (и язык) R - пакет статистического анализа. [8]

· Про­стран­ствен­ный ана­лиз — исполь­зо­ва­ние топо­ло­ги­че­ской, гео­мет­ри­че­ской и гео­гра­фи­че­ской инфор­ма­ции в дан­ных; например, метод Сетевого анализа данных – метод решения оптимизационных задач (например, задача поиска кратчайшего или в ином смысле оптимального пути между точками) с использованием модели геометрической сети; позволяет найти взаимоотношения там, где классическая малополезна.

· Методы опти­ми­за­ции, в том числе гене­ти­че­ские алгоритмы (genetic algorithm) – последние используют для динамической оптимизации решений на основе массивов данных путем случайного перебора, вариации значений параметров с использованием механизмов, аналогичных естественному отбору в природе;

· Нейросетевые методы. Например, машин­ное глубокое обу­че­ние нейронных сетей, чтобы в дальнейшем они могли обнаруживать в массивах данных неочевидные человеку закономерности и делать выводы о том, что происходит с объектом наблюдения (например, по действиям с номером банковской карты определять, что он злоумышленник и предпринимает мошеннические действия, или по разрозненным геоданным со спутниковых снимков или томографических снимкам тканей пациента видеть скрытые от глаз человека процессы, тенденции, делать прогноз, например, о развитии процесса (экологического, патологического, социально-экономического);

· Методы нечеткого логического вывода.

 

 

Ос­нов­ные тех­но­ло­гии ин­тел­лек­ту­аль­но­го ана­ли­за данных

Тех­но­ло­гия До­сто­ин­ства Недо­стат­ки
Пра­ви­ла вывода Удоб­ны в тех слу­ча­ях, когда дан­ные свя­за­ны от­но­ше­ни­я­ми, пред­ста­ви­мы­ми в виде пра­вил "если то " При боль­шом ко­ли­че­стве пра­вил те­ря­ет­ся на­гляд­ность; не все­гда уда­ет­ся вы­де­лить от­но­ше­ния "если то "
Ней­рон­ные сети Удоб­ны при ра­бо­те с нели­ней­ны­ми за­ви­си­мо­стя­ми, за­шум­лен­ны­ми и непол­ны­ми данными "Чер­ный ящик": мо­дель не может объ­яс­нить вы­яв­лен­ные зна­ния; дан­ные обя­за­тель­но долж­ны быть пре­об­ра­зо­ва­ны к чис­ло­во­му виду
Нечет­кая логика Ран­жи­ру­ют дан­ные по сте­пе­ни бли­зо­сти к же­ла­е­мым ре­зуль­та­там; нечет­кий поиск в базах данных Тех­но­ло­гия новая, по­это­му сей­час из­вест­но огра­ни­чен­ное число спе­ци­а­ли­зи­ро­ван­ных приложений
Ви­зу­а­ли­за­ция Мно­го­мер­ное гра­фи­че­ское пред­став­ле­ние дан­ных, по ко­то­ро­му поль­зо­ва­тель сам вы­яв­ля­ет за­ко­но­мер­но­сти - об­раз­цы и от­но­ше­ния между данными Мо­де­ли не ис­пол­ня­ют­ся, и их ин­тер­пре­та­ция пол­но­стью за­ви­сит от аналитика
Ста­ти­сти­ка Есть боль­шое число ал­го­рит­мов и опыт их при­ме­не­ния в на­уч­ных и ин­же­нер­ных приложениях Боль­ше под­хо­дят для про­вер­ки ги­по­тез, чем для вы­яв­ле­ния новых за­ко­но­мер­но­стей в данных
К-бли­жай­ший сосед Вы­яв­ле­ние кла­сте­ров, об­ра­бот­ка це­лост­ных ис­точ­ни­ков данных Боль­шие за­тра­ты па­мя­ти, про­бле­мы с чувствительностью
Ин­те­гри­ро­ван­ные тех­но­ло­гии Можно вы­би­рать под­хо­ды, адек­ват­ные за­да­чам, или срав­ни­вать ре­зуль­та­ты при­ме­не­ния раз­ных подходов. Слож­ные сред­ства под­держ­ки; вы­со­кая стоимость; для каж­дой от­дель­но взя­той тех­но­ло­гии не все­гда ре­а­ли­зу­ет­ся наи­луч­шее ре­ше­ние
Генетические алгоритмы    

 

Полезность методов интеллектуального анализа данных различна, например, для прогнозирования [9]:

Сравнительный анализ методов прогнозирования

Методы прогнозирования Точность Трудоемкость Быстродействие Популярность
Нейронные сети высокая очень высокая очень низкое средняя
Генетический алгоритм средняя высокая низкое средняя
Метод опорных векторов средняя высокая среднее средняя
CART средняя высокая среднее средняя
Деревья решений низкая высокая высокое/ среднее высокая/ средняя
Экстраполяция временных рядов высокая высокая среднее низкая
Регрессионный анализ средняя низкая высокое средняя
Авторегрессия средняя низкая среднее средняя
Метод максимального правдоподобия низкая низкая/средняя высокое низкая


 

Ме­то­ды ИАД для ти­по­вых видов интеллектуального ана­ли­за, ис­поль­зу­е­мых ана­ли­ти­ка­ми и ли­ца­ми, при­ни­ма­ю­щи­ми ре­ше­ния в биз­не­се:

· Ран­жи­ро­ва­ние - упо­ря­до­чи­ва­ние фак­то­ров по сте­пе­ни их вли­я­ния на це­ле­вой по­ка­за­тель. С каж­дым фак­то­ром свя­зы­ва­ет­ся ве­со­вой ко­эф­фи­ци­ент, да­ю­щий ко­ли­че­ствен­ную оцен­ку сте­пе­ни влияния на результат решения.

· Сег­мен­та­ция – предварительное раз­де­ле­ние об­ла­сти зна­че­ний фак­то­ра на сег­мен­ты для про­ве­де­ния даль­ней­ше­го нис­хо­дя­ще­го ана­ли­за. На­при­мер, успеш­ные по­ка­за­те­ли по про­да­жам в целом могут скрыть от ис­сле­до­ва­те­ля неуда­чи в неко­то­рых ре­ги­о­нах. Про­ве­де­ние сег­мен­та­ции по гео­гра­фи­че­ским рай­о­нам поз­во­лит вы­явить, что успеш­ные про­да­жи имели место толь­ко в двух ре­ги­о­нах, А и В. По­сле­ду­ю­щий нис­хо­дя­щий ана­лиз может по­ка­зать, что объем про­даж в ре­ги­оне А за­ви­сит от за­трат на ре­кла­му, а в ре­ги­оне В на него вли­я­ют глав­ным об­ра­зом се­зон­ные колебания.

· Про­фи­ли­ро­ва­ние наи­луч­ших достижений - вы­яв­ле­ние ос­нов­ных ха­рак­те­ри­стик наи­бо­лее успеш­ных ре­ги­о­нов, фи­ли­а­лов, кли­ен­тов и т.д. для пла­ни­ро­ва­ния даль­ней­шей де­я­тель­но­сти ком­па­нии. Дан­ный вид ана­ли­за также ис­поль­зу­ет­ся в бан­ках и стра­хо­вых ком­па­ни­ях для оцен­ки риска при вы­да­че кредитов.

· Вы­яв­ле­ние ассоциаций - поиск ас­со­ци­и­ро­ван­ных групп зна­че­ний фак­то­ров, т.е. зна­че­ний, почти все­гда по­яв­ля­ю­щих­ся вме­сте (на­при­мер, про­да­жа ПК в боль­шин­стве слу­ча­ев со­про­вож­да­ет­ся про­да­жей ис­точ­ни­ка бес­пе­ре­бой­но­го пи­та­ния). Этот вид ана­ли­за в первую оче­редь необ­хо­дим при пла­ни­ро­ва­нии про­даж, усо­вер­шен­ство­ва­нии ра­бо­ты скла­дов, про­ве­де­нии ре­клам­ных компаний.

· Вы­яв­ле­ние исключений - поиск эле­мен­тов, вы­па­да­ю­щих из общей кар­ти­ны. По­яв­ле­ние по­доб­ных эле­мен­тов может быть вы­зва­но как ошиб­ка­ми в дан­ных, ко­то­рые сле­ду­ет ис­пра­вить, так и необыч­ны­ми си­ту­а­ци­я­ми в ра­бо­те ком­па­нии, тре­бу­ю­щи­ми немед­лен­но­го вме­ша­тель­ства со сто­ро­ны руководства или оператора (смотря, в программе какого назначения реализован этот метод).

 

1. Группа традиционных методов решения оптимизационных задач — вариационные методы, методы исследования операций, включающие в себя различные виды математического программирования (линейное, нелинейное, дискретное, целочисленное), динамическое программирование, методы теории систем массового обслуживания. Программные реализации большинства этих методов входят в стандартные пакеты прикладных программ, например Math CAD и MatLab.

2. М етод «ближайшего соседа», который лег в основу таких программных продуктов, как Pattern Recognition Workbench или KATE tools.

3. Другой подход к выбору решения связан с построением последовательного логического вывода — дерева решений, в каждом узле которого эксперт осуществляет простейший логический выбор («да» — «нет»). В зависимости от принятого выбора, поиск решения продвигается по правой или левой ветви дерева и в конце концов приходит к терминальной ветви, отвечающей конкретному окончательному решению. Здесь процесс статистического обучения выведен за пределы программы. На основе деревьев решений разработаны такие программные продукты, как IDIS, С5.0 и SIPINA.

4. Методы визуализации данных и результатов их анализа, позволяющие наглядно отображать полученные выводы для создания у предметных экспертов и/или руководителей проектов единой картины ситуации. К программным продуктам, позволяющим формировать предварительные отчеты и визуализировать результаты, следует отнести системы Mineset и Impromptu (BI). В частности, система Mineset содержит в себе такие инструменты, как ландшафтный визуализатор, визуализаторы дисперсии, деревьев, правил и свидетельств.»[10]

 

Часто используются такие технологии ИАД:

· Статические методы

· Методы разведочного анализа данных;

· нейронные сети, которые позволяют строить достоверные прогнозы, не уточняя конкретный вид тех зависимостей, на которых такой прогноз основан.

Классический разведочный анализ данных применяютдля нахождения связей когда отсутствуют (или недостаточны) априорные представления о природе связей предназначена для подтверждения гтипотез о связях между переменными, например, "Имеется положительная корреляция между возрастом человека и его/ее нежеланием рисковать").    Методы разведочного анализа данных включают:

1. основные статистические методы,

2. методы многомерного анализа, предназначенные для отыскания закономерностей в многомерных данных, более сложные и специально разработанные;

3. графические методы.

Пример отображения результатов многомерного разведочного анализа

 

 

Методы многомерного разведочного анализа для поиска закономерностей в многомерных данных: кластерный анализ, факторный анализ, анализ дискриминантных функций, многомерное шкалирование, логлинейный анализ, канонические корреляции, пошаговая линейная и нелинейная регрессия, анализ соответствий, анализ временных рядов, деревья классификации.

· Дискриминантный анализ используется для принятия решения о том, какие переменные отличают (дискриминируют) две или более возникающие совокупности (группы). Например, какие переменные относят выпускника средней школы к одной из трех категорий: (1) поступающий в колледж, (2) поступающий в профессиональную школу или (3) отказывающийся от дальнейшего образования. Для этой цели исследователь может собрать данные о различных переменных, связанных с учащимися школы. Затем можно использовать дискриминантный анализдля определения того, какие переменные дают наилучшее предсказание выбора учащимися дальнейшего пути.

· Кластерный анализ - различные алгоритмов классификации. Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними.

· Факторный анализ ставит целью сокращениечисла переменных и классификацию переменных - используется или как метод сокращения данных или как метод классификации.

· Дисперсионный анализ ставит целью исследование значимости различия между средними.

· Множественная регрессия ставит целью анализ связи между несколькими независимыми переменными

 

Классические стат. и графические методы анализа данных доступны в программных пакетах Statistica, SyStat, программах электронных таблиц, например, доступном и широко используемом табличном процессоре MS Excel.

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...