Главная | Обратная связь | Поможем написать вашу работу!

Методология анализа данных

Анализ данных - широкое понятие. Сегодня существуют десятки определений анализа данных – это исследования, связанные с обсчетом многомерной системы данных, имеющей множество параметров. В процессе анализа данных исследователь производит совокупность действий с целью формирования определенных представлений о характере явления, описываемого этими данными. Как правило, для анализа данных используются различные математические методы.

Анализ данных нельзя рассматривать только как обработку информации после её сбора. Анализ данных – это прежде всего проверки гипотез и решения задач исследователя.

Известное противоречие между ограниченными познавательными способностями человека и бесконечностью изучаемой Вселенной заставляет нас использовать модели и моделирование, тем самым упрощая изучение интересующих объектов, явлений и систем.

Слово модель (лат. modelium) означает «мера», «способ», «сходство с какой-то вещью».

Построение моделей является универсальным способом изучения окружающего мира. Это позволяет обнаруживать зависимости, прогнозировать, разбивать на группы и решать множество других задач. Основная цель моделирования в том, что модель должна достаточно хорошо отображать функционирование моделируемой системы.

Определение. Модель – это объект или описание объекта, системы для замещения (при определенных условия, предложениях, гипотезах) одной системы (т.е. оригинала) другой системой для лучшего определения оригинала или воспроизведения каких-либо свойств.

Определение. Моделирование – это универсальный метод получения, описания и использования знаний. Он используется в любой профессиональной деятельности.

По виду моделирования модели делятся на:

- эмпирические – на основе эмпирических фактов;

- теоретические – на основе математических описаний, законов;

- смешанные, полуэмпирические – полученные на основе эмпирических зависимостей и математических описаний.

Нередко теоретические модели появляются из эмпирических, например, многие законы физики были выведены вначале на эмпирических данных экспериментов.

Пример. Совокупность предприятий функционирует на рынке, обмениваясь товарами, сырьем, услугами, информацией. Если описать экономические законы, правила их взаимодействия на рынке с помощь математических отношений, например, система алгебраических уравнений, где неизвестными будут величины прибыли, получаемые от взаимодействия предприятий, а коэффициентами уравнения будут значения интенсивности таких взаимодействий, то получим математическую модель экономической системы, т.е. экономико-математическую модель системы предприятий на рынке.

Таким образом. Анализ данных тесно связан с моделирование.

Отметим важные свойства любой модели:

- упрощенность – модель отображает только существенные стороны объекта и, кроме того, должна быть проста для исследования или воспроизведения;

- конечность – модель отображает оригинал лишь в конечном числе его отношений, и, кроме того, ресурсы моделирования конечны;

- приблизительность – действительность отображается моделью грубо или приблизительно;

- адекватность – модель должна успешно описывать моделируемую систему;

- целостность – модель реализует некоторую систему (т.е. целое);

- замкнутость – модель учитывает и отображает замкнутую систему необходимых основных гипотез, связей и отношений;

- управляемость – модель должна иметь хотя бы один параметр, изменениями которого можно имитировать поведение моделируемой системы в различных условиях.

Модель в традиционном понимании представляет результат отображения одной структуры (изученной) на другую (малоизученную). Отображая физическую систему (объект) на математическую систему (например, математический аппарат уравнений), получим физико-математическую модель системы или математическую модель физической системы. Любая модель строится и исследуется при определенных допущениях, гипотезах. Делается это обычно с помощью математических выводов.

Пример. Рассмотрим экономическую систему. Расчет величины ожидаемого спроса S на будущий месяц (t+1) производится на основе формулы S(t+1)=[S(t)+S(t-1)+S(t-2)]/3, т.е. как среднее от продаж за предыдущие три месяца. Это простейшая математическая модель прогноза продаж. При построении этой модели были приняты следующие гипотезы: 1. Во первых, годовая сезонность в продажах отсутствует; 2. Во вторых, на величину продаж не влияют никакие внешние факторы: действия конкурентов, макроэкономическая ситуация и т.д.

Использовать такую модель легко, имея данные о продажах за предыдущие месяцы, по формуле мы получим прогноз на будущий месяц.

Такой подход к моделированию в литературе называют аналитическим.

Аналитический подход к методу моделирования базируется на том, что исследователи при изучении системы отталкиваются от модели (рис. 2) в этом случае аналитик по тем или иным соображениям выбирает подходящую модель. Как правило, это теоретическая модель, закон, известная зависимость, представленная чаще всего а функциональном виде (например, уравнение, связывающее выходной параметр y с входными воздействиями х1, х2…). Варьирование входными параметрами даст исследователю некоторый результат на выходе, который моделирует поведение системы в различных условиях.

Исследователь

Модель

данные

Результат

Рис. 7. Аналитический подход к моделированию.

Пример. Рассмотрим физическую систему. Тело массой m скатывается по наклонной плоскости с ускорением а, на которое воздействует сила F. Исследуя такие системы, Ньютон получил математическое соотношение: F=ma. Это математическая модель физической системы. При построении этой модели были приняты следующие гипотезы: 1. Поверхность идеальна (т.е. коэффициент трения равен 0); 2. Тело находится в вакууме (т.е. сопротивление воздуха равно 0); 3. Масса тела неизменна; 4. Тело движется с одинаковым постоянным ускорением в любой точке. При моделировании многих физических явлений мы используем закон Ньютона и делаем выводы.

Результат моделирования может соответствовать действительности, а может и нет. В последнем случае исследователю ничего не остается, как выбрать другую модель или другой метод ее исследования.

При аналитическом подходе модель не «подстраивается» под действительность, а мы пытаемся подобрать существующую аналитическую модель таким образом, чтобы она адекватно отражала реальность.

Модель всегда исследуется каким-либо методом (численным, качественным и т.п.). Поэтому выбор метода моделирования часто означает выбор модели.

При использовании традиционного, аналитического подхода к решению задач анализа в бизнесе неизбежно возникнут проблемы.

Основным фактором, определяющим неблагополучие в использовании аналитических методов для решения бизнес-задач, является соответствие между этими методами и реальностью, которые Ани призваны отражать. Существуют трудности, связанные с формализацией бизнес-процессов. Здесь факторы, определяющие явления, столь многообразны и многочисленны, их взаимосвязи так «переплетены», что почти никогда не удается создать модель, удовлетворяющую таким же условиям. Простое «наложение» известных аналитических методов, законов, зависимостей на изучаемую картину реальности не принесет успеха.

В сложности и слабой формализации бизнес-процессов главным образом «виноват» человеческий фактор, поэтому о характере закономерностей бывает трудно судить априори (а иногда и апостериори, после реализации какого-либо математического метода). С одинаковым успехом описывать эти закономерности могут различные модели. Использование разных методов для решения одной и той же задачи нередко приводит исследователя к противоположным выводам. Какой метод выбрать? Получить на подобный вопрос можно, лишь глубоко проанализировав как смысл решаемой задачи, так и свойство используемого математического аппарата.

Поэтому в последние годы получил распространение информационный подход к моделированию, ориентированный на использование данных. Его цель – освобождение аналитика от рутинных операций возможных сложностей в понимании применении современных математических методов.

В информационном подходе реальный объект рассматривается как «черный ящик», имеющий ряд входов и выходов, и моделируются некоторые связи между входами и выходами. Иными словами, известна лишь структура модели (например: нейронная сеть, линия регрессии), а сами параметры модели «подстраиваются» под данные, которые описывают поведение объекта. Для корректировки параметров модели используется обратная связь – отклонение результата моделирования от действительности, а процесс настройки модели часто носит итеративный (т.е. цикличный) характер (рис. 2).

исследователь

Модель

данные

Результат

Факт

Рис. 8. Информационный подход к моделированию

Таким образом, в информационном подходе отправной точкой являются данные, характеризующие исследуемый объект, и модель «подстраивается» под действительность. И если в аналитическом мы можем выбрать модель, даже не имея никаких экспериментальных данных, характеризующих свойств системы, и начать ее использовать, то в информационном подходе без данных невозможно построить модель, т.к. ее параметры полностью определяется ими.

Пример. В банковском риск-менеджменте широко известна модель Дюрана для расчета рейтинга кредитоспособности заемщика, которая получила распространение в 40-50-егг. ХХ вв. Дюран на основе собственного опыта разработал бальную модель для оценки заемщика по совокупности его имущественных и социальных параметров (возраст, пол, профессия и т.д.). Если у современного российского банка стоит задача рассчитать рейтинг заемщика, он может воспользоваться существующей моделью Дюрана. Однако, будет ли адекватной в современной российской действительности модель, разработанная в середине прошлого века на Западе? Естественно не будет, так как она никак не учитывает закономерности между современными заемщиками и дефолтностью по кредитам. Если же этот банк возьмет существующие собственные данные по кредитным историям и на их основе построит модель, рассчитывающую рейтинг клиента, то, вполне вероятно, получит работоспособную на практике модель расчета кредитного рейтинга клиента.

В первом случае, когда мы брали модель Дюрана, мы использовали аналитический подход. Во втором – информационный, но для построения модели нам понадобились данные - кредитные истории заемщиков банка.

Аналитические модели более универсальны, тогда как модели, полученные с помощью информационного подхода, учитывают специфику моделируемого объекта, явления. Для бизнес – процессов последнее качество очень важно, поэтому информационный подход лег в основу большинства современных промышленных технологий и методов анализа данных: KDD, Data Mining, машинное обучение,

С другой стороны, концепция «моделей от данных» требует тщательного подхода к качеству исходных данных, поскольку ошибочные, аномальные и зашумленные данные могут дать модели выводы, не имеющие никакого отношения к действительности, а значит, ввести исследователя в заблуждение. Поэтому в информационном моделировании важную роль играет консолидация данных, их отчистка и даже обогащение.

Модель, построенная на некотором множестве данных, описывающих реальной объект или систему, может оказаться неработающей на практике, поэтому в информационном моделировании применяют специальные приемы: разделение данных на обучающее и тестовое множества, оценка обучающей и обобщающей способностей модели, проверка предсказательной силы модели.

В дальнейшем под анализом данных будет пониматься именно информационный подход. Поскольку данные могут быть определены в различной форме, круг рассмотрения будет сужен областью структурированных данных. Инструментальной поддержкой процесса построения моделей на основе информационного подхода выступают современные технологии анализа данных KDD и Data Mining, а средством построения прикладных решений в области анализа – аналитические платформы.

Технология Data Mining

В англоязычной среде термин Data Mining имеет несколько определений и дословно переводится как «добыча данных» или «раскопка данных». Нередко рядом с Data Mining встречаются слова "обнаружение знаний в базах данных" (knowledge discovery in databases) и "интеллектуальный анализ данных". Их можно с некоторой степенью обобщения считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных.

Наиболее общее определение Data Mining можно сформулировать следующим образом.

Определение. Data Mining – это обнаружение в «сырых» данных ранее неизвестных нетривиальных, практически полезные и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Из определения следует, что Data Mining представляет собой технологию обнаружения знаний, а, следовательно, новой информации. К такой информации предъявляется ряд требований.

Информация, найденная в процессе применения методов Data Mining, должна быть нетривиальной и ранее неизвестной, например, средние продажи не являются таковыми. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других. Информация должна быть логически понятна и доступна для интерпретации.

Цель Data Mining состоит в выявлении скрытых правил и закономерностей в наборах данных. Дело в том, что человеческий разум сам по себе не приспособлен для восприятия больших массивов разнородной информации.

Современные технологии Data Mining (discovery-driven data mining) перелопачивают информацию с целью автоматического поиска шаблонов (паттернов), характерных для каких-либо фрагментов неоднородных многомерных данных. В отличие от оперативной аналитической обработки данных (online analytical processing, OLAP) в Data Mining бремя формулировки гипотез и выявления необычных (unexpected) шаблонов переложено с человека на компьютер. В постановке задачи Data Mining для специалистов нет ничего нового. Они на протяжении нескольких последних десятков лет решали подобные задачи ("поиск эмпирических закономерностей", "эвристический поиск в сложных средах", "индуктивный вывод" и т. п.). Но только сейчас общество в целом созрело для понимания практической важности и широты этих задач. Во-первых, в связи с развитием технологий записи и хранения данных сегодня на людей обрушились колоссальные потоки информационной руды в самых различных областях, которые без продуктивной переработки грозят превратиться в никому не нужные свалки. И, во-вторых, средства и методы обработки данных стали доступными и удобными, а их результаты понятными любому человеку.

Сферы применения

Сфера применения Data Mining ничем не ограничена — она везде, где имеются какие-либо данные. Но в первую очередь методы Data Mining сегодня, мягко говоря, заинтриговали коммерческие предприятия, развертывающие проекты на основе информационных хранилищ данных (Data Warehousing).

Опыт многих таких предприятий показывает, что отдача от использования Data Mining может достигать 1000%. Например, известны сообщения об экономическом эффекте, в 10—70 раз превысившем первоначальные затраты от 350 до 750 тыс. дол. [1]. Приводятся сведения о проекте в 20 млн. дол., который окупился всего за 4 месяца. Другой пример - годовая экономия 700 тыс. дол. за счет внедрения Data Mining в сети универсамов в Великобритании. Data Mining представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Деловые люди осознали, что с помощью методов Data Mining они могут получить ощутимые преимущества в конкурентной борьбе. Кратко охарактеризуем некоторые возможные бизнес-приложения Data Mining.

Розничная торговля

Предприятия розничной торговли сегодня собирают подробную информацию о каждой отдельной покупке, используя кредитные карточки с маркой магазина и компьютеризованные системы контроля. Вот типичные задачи, которые можно решать с помощью Data Mining в сфере розничной торговли:

- анализ покупательской корзины (анализ сходства) предназначен для выявления товаров, которые покупатели стремятся приобретать вместе. Знание покупательской корзины необходимо для улучшения рекламы, выработки стратегии создания запасов товаров и способов их раскладки в торговых залах.

- исследование временных шаблонов помогает торговым предприятиям принимать решения о создании товарных запасов. Оно дает ответы на вопросы типа "Если сегодня покупатель приобрел видеокамеру, то через какое время он вероятнее всего купит новые батарейки и пленку?"

- создание прогнозирующих моделей дает возможность торговым предприятиям узнавать характер потребностей различных категорий клиентов с определенным поведением, например, покупающих товары известных дизайнеров или посещающих распродажи. Эти знания нужны для разработки точно направленных, экономичных мероприятий по продвижению товаров. Достижения технологии Data Mining используются в банковском деле для решения следующих распространенных задач:

- выявление мошенничества с кредитными карточками.

- сегментация клиентов

- прогнозирование изменений клиентуры.

В области телекоммуникаций характерен растущий уровень конкуренции. Здесь методы Data Mining помогают компаниям более энергично продвигать свои программы маркетинга и ценообразования, чтобы удержать существующих клиентов и привлечь новых. В число типичных мероприятий входят следующие:

- анализ записей о подробных характеристиках вызовов

- выявление лояльности клиентов. Страхование

Страховые компании в течение многих лет накапливают большие объемы данных. Здесь большое поле деятельности для методов Data Mining:

- выявление мошенничества.

- разработка новых страховых продуктов.

- анализ риска. Другие приложения в бизнесе

Data Mining может применяться во множестве других областей:

Все отрасли могут воспользоваться методами Data Mining для выявления отдельных сегментов своей клиентуры. Data Mining дает предприятиям возможность учитывать намного больше параметров, чем это делалось на основе традиционных методах хранения неструктурированной информации;

- развитие автомобильной промышленности. При сборке автомобилей производители начинают учитывать требования каждого отдельного клиента, поэтому им нужны возможность прогнозирования популярности определенных характеристик и знание того, какие характеристики обычно заказываются вместе;

- политика гарантий. Производителям нужно предсказывать число клиентов, которые подадут гарантийные заявки, и среднюю стоимость заявок;

поощрение часто летающих клиентов. Авиакомпании могут обнаружить группу клиентов, которых данными поощрительными мерами можно побудить летать больше. Например, одна авиакомпания обнаружила категорию клиентов, которые совершали много полетов на короткие расстояния, не накапливая достаточно миль для вступления в их клубы, поэтому она таким образом изменила правила приема в клуб, чтобы поощрять число полетов так же, как и мили.

Основные методы и задачи Data Mining

Data Mining – это не один, а совокупность большого числа различных методов обнаружения знаний. Все задачи, решаемые методами Data Mining, можно условно разбить на пять классов:

Классификация – это установление зависимости дискретной выходной переменной от входных переменных.

Регрессия – это установление зависимости непрерывной выходной переменной от входных переменных.

Кластеризация – это группировка объектов (наблюдений, событий) на основе данных, описывающих свойства объектов. Объекты внутри кластера должны быть «похожими» друг на друга и отличаться от других, которые вошли в другие кластеры.

Ассоциация – выявление закономерностей между связанными событиями. Примеров такой закономерности служит правило, указывающее, что из события Х следует событие Y. Такие правила называются ассоциативными. Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее называют анализом рыночной корзины (market basket analysis).

Последовательные шаблоны – установление закономерностей между связанными во времени событиями. Примером такой закономерности служит правило, указывающее, что из события Х спустя время t последует событие Y.

Можно говорить еще о задаче анализа отклонений – выявление наиболее нехарактерных шаблонов, например, при анализе мошеннических схем.

Классификация отличается от задачи регрессии тем, что в классификации на выходе присутствует переменная дискретного вида, называемая классом. Решение задачи классификации сводится к определению объекта по его входным характеристикам, при этом множество классов, к которым может быть отнесен объект, известно заранее. В задаче регрессии выходной переменной является непрерывное поле – множество действительных чисел, например, сумма продаж К задаче регрессии сводится, в частности, прогнозирование временного ряда на основе исторических данных.

Кластеризация отличается от классификации тем, что выходная переменная не требуется, а число кластеров, в которое необходимо сгруппировать все множество данных, может быть неизвестным. Выходом кластеризации является не готовый ответ (например – плохо/удовлетворительно/хорошо), а группы похожих объектов – кластеров. Кластеризация указывает только на «схожесть» объектов и не более того, для объяснения образовавшихся кластеров необходима их дополнительная интерпретация.

Перечислим наиболее известные применения этих задач в экономике.

Классификация используется в случае, если заранее известны классы отнесения объектов, например отнесение нового товара к той или иной товарной группе, отнесение клиента к какой-либо категории. При кредитовании это отнесение клиента по каким-то признакам к одной из групп риска.Кластеризация может использовать для сегментации и построения профилей клиентов. При достаточно болом количестве клиентов становится трудно подходить к каждому индивидуально, поэтому их удобно объединить в группы – сегменты с однородными признаками. Выделять сегменты по географическому расположению. После кластеризации можно узнать, какие именно сегменты являются наиболее активными, какие приносят наибольшую прибыть, выделить характерные для них признаки. Эффективность работы с клиентами повышается за счет учета их персональных предпочтений.

Регрессия используется для установления зависимостей в факторах. Например, в задаче прогнозирования зависимой величины являются объемы продаж, а факторами, влияющими на эту величину, могут быть предыдущие объемы продаж, изменение курса валют, активность конкурентов и т.д. Или, например, при кредитовании физических лиц вероятность возврата кредита зависит от личных характеристик человека, сферы его деятельности, наличия имущества.

Ассоциации помогают выявлять совместно приобретаемые товары. Это может быть полезно для более удобного размещения товара на прилавках, стимулирования продаж. Тогда человек, купивший пачку спагетти, не забудет купить к ней бутылочку соуса.

Последовательные шаблоны могут быть использованы при планировании продаж или предоставлении услуг. Они похожи на ассоциации, но в анализе добавляется временной показатель, т.е. важна последовательность совершения операций. Например, если заемщик взял потребительский кредит, то с вероятностью 60% через полгода он оформит кредитную карту.

Ассоциации и последовательные шаблоны иногда объединяют в одну задачу, называемую анализом связей (link analisys).

Для решения вышеперечисленных задач используются различные методы и алгоритмы Data Mining. Ввиду того, что Data Mining развивался и развивается на стыке таких дисциплин, как математика, статистика, теория информации, машинное обучение, теория баз данных, вполне закономерно, что большинство алгоритмов и методов Data Mining были разработаны на основе различных методов из этих дисциплин.

В общем случае не принципиально, каким именно алгоритмом будет решаться одна из пяти задач Data Mining, главное иметь метод решения для каждого класса задач. На сегодня наиболее распространение в Data Mining получили методы машинного обучения: деревья решений, нейронные сети, ассоциативные правила и т.д.

Определение. Машинное обучение (англ.: Machine Learning) – обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться на данных.

Общая постановка задачи обучения следующая. Имеется множество объектов (ситуаций) и множество возможных ответов (откликов, реакций). Существует некоторая зависимость между ответами и объектами, но она не известна. Известна только конечная совокупность прецедентов – пар вида «обьект-ответ», называемая обучающей выборкой. На основе этих данных требуется восстановить зависимость, т.е. построить модель, способную для любого объекта выдать достаточно точный ответ. Для измерения точности ответов определенным образом вводится критерий качества. Ниже приводится схема, которая иллюстрирует некоторые популярные бизнес-задачи, которые решаются алгоритмами DM.

Бизнес-решения

· Анализ событий · Анализ рыночной корзины · Стимулирование спроса

· Маркетинговая сегментация · Профайлинг · Анализ аварий

· Анализ рисков · Скоринг · Прогнозирование

· Почтовые рассылки · Борьба с мошенничеством · Оптимизация

Ассоциация

Последовательные шаблоны

Кластеризация

Классификация

Регрессия

Сферическая кластеризация

Нейронные сети

Деревья решений

Анализ последовательностей

Рис. 9. Схема, иллюстрирующая некоторые популярные бизнес-задачи, которые решаются алгоритмами DM.

Технология KDD

Несмотря на большое количество разнообразных бизнес-задач почти все они могут решаться по единой методике. Эта методика, зародившаяся в 1989 г., получила название Knowledge Discovery in Databases – извлечение знаний из баз данных. Она описывает не конкретный алгоритм или математический аппарат, а последовательность действий, которую необходимо выполнить для построения модели (извлечения знания). Методика не зависит от предметной области, это набор атомарных операций, и, комбинируя их, можно получить нужное решение. KDD включает в себя этапы подготовки данных, выбора информативных признаков, очистки, построения моделей, постобработки и позволяющие обнаруживать закономерности и знания (рис. 12).

Источники данных

Выборка данных

Источники данных

Очистка

Источники данных

Трансформация

Источники данных

Data Mining

Источники данных

Интерпретация

Источники данных

Рис. 10 Этапы KDD

Knowledge Discovery in Databases (KDD) – это процесс получения из данных знаний в виде зависимостей, правил, моделей и состоящий, как правило, из следующих этапов: отбор, очистка, трансформация, моделирование и интерпретация полученных результатов.

Кратко рассмотрим последовательность шагов, выполняемых на каждом

Выборка данных. Первым шагом в анализе является получение исходной выборки. На основе этих данных и строятся модели. Здесь необходимо активное участие экспертов для выдвижения гипотез и отбора факторов, влияющих на анализируемый процесс. Желательно, чтобы данных были уже собраны и консолидированы. Крайне необходимо наличие удобных механизмов подготовки выборки: запросы, фильтрация данных и сэмплинг. Чаще всего в качестве источника рекомендуется использовать специализированное хранилище данных, агрегирующее всю необходимую для анализа информацию.

Очистка данных. Реальные данные для анализа редко бывают хорошего качества. Необходимость предварительной обработки при анализе данных возникает независимо от того, какие технологии и алгоритмы используются. Более того, эта задача может представлять самостоятельную ценность в областях, не имеющих непосредственного отношения к анализу данных. К задачам очистки данных относятся: заполнение пропусков, поиск аномалий, сглаживание, обнаружение дубликатов и противоречий и прочие.

Трансформация данных. Этот шаг необходим для тех методов, которые нуждаются в том, чтобы исходные данные были в каком-то определенном виде. Дело в том, что различные алгоритмы анализа требуют специальным образом подготовленные данные, например, для прогнозирования необходимо преобразовать временной ряд при помощи скользящего окна или вычислить агрегированные показатели. К задачам трансформации данных относятся: скользящее окно, приведение типов, выделение временных интервалов, квантование, сортировка, группировка и прочие.

Data Mining. На этом шаге строятся аналитические модели.

Интерпретация. В случае, когда извлеченные знания непрозрачны для пользователя, должны существовать методы постобработки, позволяющие привести их к интерпретируемому виду. Для оценки качества полученной модели нужно использовать как формальные методы оценки, так и знания аналитика. Именно аналитик может сказать, насколько применима полученная модель к реальным данным. Полученные модели являются, по сути, формализованными знаниями эксперта, а следовательно их можно тиражировать. Найденные знания должны быть применимы и на новых данных с некоторой степенью достоверности.

Пример. Пусть требуется получить прогноз объемов продаж на следующий месяц. Имеется сеть магазинов розничной торговли. Первым шагом будет сбор истории продаж в каждом магазине и объединение ее в общую выборку данных. Следующий шагом будет предобработка собранных данных: их группировка по месяцам, сглаживание кривой продаж, устранение факторов, слабо влияющих на объемы продаж. Далее следует построить модель зависимости объемов продаж от выбранных факторов. Имея ее, можно получить прогноз, подав на вход модели историю продаж. Зная прогнозное значение, его можно использовать, например, в приложениях оптимизации для лучшего размещения товара на складе.

Нередко KDD отождествляют с Data Mining. Более правильно считать Data Mining шагом процесса KDD.

Подавляющее большинство бизнес-задач сводится к процессу KDD. Фактически ранее были описаны базовые блоки, из которых собирается практически любое бизнес-решение.

В KDD и Data Mining нет ничего принципиально нового. Специалисты в различных областях человеческого знания на протяжении нескольких последних десятков лет решали подобные задачи. Однако, в последние несколько лет интеллектуальная составляющая бизнеса стала возрастать, и для распространения технологий KDD и Data Mining создались все необходимые и достаточные условия. Предпосылками к этому явилось следующее:

1. Развитие технологий автоматизированной обработки информации создало основу для учета сколь угодно большого количества факторов и достаточного объема дынных.

2. Возникла проблема острой нехватки специалистов с высокой квалификацией в области статистики и анализа данных. Это потребовало создания технологий обработки и анализа, доступных для специалистов любого профиля за счет применения методов визуализации и самообучающихся алгоритмов.

3. Возникла объективная потребность в тиражировании знаний. Полученные в процессе KDD и Data Mining результаты являются формализованным описанием некоего процесса, а, следовательно, поддаются автоматической обработке и повторения на новых данных.

4. На рынке появились программные продукты, поддерживающие технологии KDD и Data Mining, - аналитические платформы. С их помощью стало возможным создавать полноценные аналитические решения.

Лабораторные работы

Приведем перечень лабораторных работ и рекомендации к их выполнению.

Лабораторная работа 1. Тема «Подготовка и первичное исследование данных с использованием» процедуры очистки.

Рекомендации к выполнению:

Выбрать объект исследования Составить таблицу признаков (основных характеристик) объекта исследования.На основании имеющихся информационных источников создать базу данных.Провести процедуру очистки данных с целью выявления аномалий, шумов и так далее. Провести анализ результатов очистки данных. Рекомендации к выполнению: - количество исследуемых признаков должно быть не менее пятнадцати. Признаки должны быть представлены различными типами шкал, а именно номинальной, порядковой и количественной шкалой измерения;- по каждой характеристике должно быть представлено не менее 50 измерений;- для создания базы данных и проведения процедуры очистки данных использовать программно - аналитическую платформу Deductor.

Лабораторная работа 2. Тема «Агрегирование и консолидация данных»

Результат консолидации находится в области-назначения. Таблица консолидации создается путем применения функции обработки к исходным значениям. Области-источники могут находиться на различных листах или рабочих книгах. В консолидации может участвовать до 255 областей-источников. Существуют следующие варианты консолидации данных:

с помощью формул, где используются ссылки; по расположению данных дляодинаково организованных областей-источников (фиксированное расположение); по категориям для различающихся по своей структуре области данных; с помощью сводной таблицы; консолидация внешних данных.

Лабораторная работа 3. Тема «OLAP – технология»

Лабораторная работа 4 Тема «KDD - технологи извлечения и анализа данных»

Литература

1. Дейт К. Дж. Введение в системы баз данных = Introduction to Database Systems. — 8-е изд. — М.: «Вильямс», 2006. — 1328 с.

2. Когаловский М. Р. Перспективные технологии информационных систем. — М.: ДМК Пресс; Компания АйТи, 2003.— 288 с.

3. Когаловский М. Р. Энциклопедия технологий баз данных.— М.: Финансы и статистика, 2002.— 800 с

4. Цикритзис Д., Лоховски Ф. Модели данных = D. Tsichritzis, F. Lochovsky. Data Models. Prentice Hall, 1982. — М.: Финансы и статистика, 1985.— 344с.

5. М.В.Гончаров - Справочное руководство по основам информатики и вычислительной техники -М осква: Финансы и статистика, 1995

Учебное издание

Подготовлено к изданию РИО БИК СФУ

Подписано в печать 2012 г. Формат 60x84/16 Бумага офсетная.

Печать плоская Усл. печ. л. Уч.-изд. л. Тираж 70 экз. Заказ 6545 Редакционно-издательский отдел Библиотечно-издательского комплекса Сибирского федерального университета 660041, г. Красноярск, пр. Свободный, 79 Тел/факс (391) 206-21-49. E-mail rio@sfu-kras.ru

http: / / rio.sfu-kras.ru

Отпечатано Полиграфическим центром Библиотечно-издателвского комплекса Сиб<

⇐ Предыдущая 2 3 4 5 6 7 8 9 1011

Воспользуйтесь поиском по сайту: