Главная | Обратная связь
МегаЛекции

Что такое Data Mining?




Хранение форм OLAP-отчетов

Опыт показывает, недостаточно предоставить пользователям большой куб, состоящий из множества измерений и фактов. Почему?

Во-первых, в каждый момент времени человеку нужен вполне определенный отчет, например, «Продажи за прошедший квартал по регионам», «Динамика продаж товара А». Даже использование мощного инструментария не избавляет от потерь времени на получение подобных отчетов из общего куба, содержащего все записи о продажах в различных разрезах.

Во-вторых, некоторые алгоритмы вычисления итогов описываются сложными формулами, а пользователь может не обладать достаточной квалификацией для их задания.

В-третьих, OLAP-отчет может содержать в себе специфическую экономическую методику, которая заключается в известном автору отчета способе расчета итогов, расположения измерений и начальных условий сортировки.

В-четвертых, во многих случаях понять данные проще, глядя не на таблицу с цифрами, а на диаграмму. Для настройки OLAP-диаграммы иногда требуется иметь неплохое пространственное воображение, поскольку гиперкуб с множеством измерений нужно отобразить как набор фигур или линий в принципиально трехмерном рисунке. Количество свойств современных графических компонентов исчисляется тысячами, поэтому предварительная настройка диаграммы или графика для OLAP-отчета может отнять много времени.

В-пятых, как и для любого другого отчета, для OLAP-отчета немаловажным является его эффектное оформление, включающее в себя настройку заголовков и подписей, цветов и шрифтов.

Таким образом, для комфортной работы пользователя OLAP-отчет должен содержать в себе предопределенный набор прикладных метаданных, описывающих алгоритмы агрегации, предварительные условия фильтрации и сортировки, заголовки и комментарии, правила визуального оформления.

Место выполнения вычислений

Существует два варианта расположения OLAP-машины — вычислительного ядра любой OLAP-системы — на центральном сервере или на стороне клиента.

Два с лишним десятилетия назад, когда появились первые OLAP-системы, персональные компьютеры имели ничтожно малую вычислительную мощность. Единственным работоспособным вариантом тогда была клиент-серверная архитектура с тонким клиентом, выполняющим запросы и необходимые вычисления на стороне сервера. Укоренившееся с тех пор представление о том, что Desktop OLAP обладает недостаточной мощностью, совершенно устарело. Напротив, современный ПК имеет в сотни раз большую вычислительную мощность, чем сервер, обслуживавший сотни пользователей OLAP-системы, скажем, десять лет назад.

Допустим, в организации есть 100 пользователей OLAP-системы, у каждого из которых установлен рядовой ПК с 2-гигагерцевым процессором и 256 Мбайт оперативной памяти. Совокупная стоимость подобного парка компьютеров — 200 тыс. долл. Для обеспечения эквивалентной мощности единственный сервер, вероятно, будет стоить не меньше миллиона долларов, между тем, 200 тыс. долл. за пользовательские компьютеры все равно придется заплатить.

Еще одним аргументом против клиент-серверной технологии является тот факт, что при следовании ей у информации есть владелец, она не является отчуждаемым, свободно распространяемым ресурсом.

Высокая мощность современных персональных компьютеров и постоянный рост этой мощности позволяют создавать эффективные системы с OLAP-машиной, расположенной на стороне клиента.

Доставка OLAP-отчета до конечного пользователя

Современный потребитель информации мобилен. Современный бизнес глобален, предприятия объединяются в холдинги, корпорации расширяют свои филиальные сети. Корпоративные потребители информации находятся в разных городах, а часто и разных странах, но нуждаются в постоянном доступе к актуальной информации.

Создатели многих OLAP-продуктов, реагируя на эти потребности, позволяют доставить отчет не только до пользователя локальной сети предприятия, но и до удаленного пользователя. Для этого применяется два основных подхода:

· удаленный доступ к базе данных по IP-протоколу или через Web-интерфейс;

· распространение локальных кубов - многомерных баз данных, хранящихся в одном файле.

Главное достоинство первого подхода состоит в том, что все пользователи видят один и тот же экземпляр актуальных данных. Но есть и недостатки: во время сбоев или обслуживания сервера пользователи не могут выпускать отчеты даже по данным за прошлые периоды; пользователь может передать отчет другому пользователю только как фиксированный файл в формате HTML, Excel и т.п. или как бумажную копию.Второй способ имеет массу достоинств: возможность работы в автономном режиме; независимость от центрального сервера; полное использование вычислительной мощности парка персональных компьютеров компании; возможность широкого распространения информации (пользователь, получивший микрокуб, может передать его другому пользователю, используя различные способы доставки — электронную почту, магнитные носители и т.д.).

Недостаток классического локального куба состоит в том, что он не содержит прикладных метаданных, и одновременно с ним нужно передавать либо клиентскую программу, разработанную исключительно для работы с этим файлом, либо набор дополнительных файлов, в которых находятся описания форм отчетов. Это требует от пользователя относительно высокого уровня квалификации и сдерживает распространение данной технологии.

До недавних пор особняком стояла программа MS Excel. Внутри одного файла Excel — «Книги» — может содержаться база данных в виде плоской денормализованной таблицы и настроенный на эту таблицу OLAP-отчет (PivotTable — «сводная таблица»). Такой OLAP-отчет легко распространять, он не требует высокой квалификации для использования, и все OLAP-отчеты могут быть прочитаны универсальной программой — MS Excel. Однако электронная таблица имеет ряд ограничений: можно обрабатывать не более 64000 записей, существует опасность порчи отчета, PivotTable имеет небольшую функциональность. Тем не менее, Excel завоевал огромную популярность именно как самодостаточный контейнер данных и форм их представления. OLAP-отчеты должны быть доступны удаленному пользователю. В зависимости от конкретной задачи требуются как системы с удаленным доступом к единой многомерной базе данных, так и локальные многомерные базы данных, содержащие пользовательские метаданные.

Data Mining – Технологии интеллектуального анализа данных

В.А.Дюк,Санкт-Петербургский институт информатики и автоматизации РАН
Литература

Что такое Data Mining?

Data Mining переводится как "добыча" или "раскопка данных". Нередко рядом с Data Mining встречаются слова "обнаружение знаний в базах данных" (knowledge discovery in databases) и "интеллектуальный анализ данных". Их можно считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных.

До начала 90-х годов, казалось, не было особой нужды переосмысливать ситуацию в этой области. Все шло своим чередом в рамках направления, называемого прикладной статистикой (см. например, [1]). Теоретики проводили конференции и семинары, писали внушительные статьи и монографии, изобиловавшие аналитическими выкладками.

Вместе с тем, практики всегда знали, что попытки применить теоретические экзерсисы для решения реальных задач в большинстве случаев оказываются бесплодными. Но на озабоченность практиков до поры до времени можно было не обращать особого внимания — они решали главным образом свои частные проблемы обработки небольших локальных баз данных.

И вот прозвенел звонок. В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Что делать с этой информацией? Стало ясно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.

Специфика современных требований к такой переработке следующие:

  • Данные имеют неограниченный объем
  • Данные являются разнородными (количественными, качественными, текстовыми)
  • Результаты должны быть конкретны и понятны
  • Инструменты для обработки сырых данных должны быть просты в использовании

Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, откровенно спасовала перед лицом возникших проблем. Главная причина — концепция усреднения по выборке, приводящая к операциям над фиктивными величинами (типа средней температуры пациентов по больнице, средней высоты дома на улице, состоящей из дворцов и лачуг и т.п.). Методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining) и для “грубого” разведочного анализа, составляющего основу оперативной аналитической обработки данных (online analytical processing, OLAP).

В основу современной технологии Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборке и виде распределений значений анализируемых показателей. Примеры заданий на такой поиск при использовании Data Mining приведены в табл. 1.

Таблица 1. Примеры формулировок задач при использовании методов

OLAP и Data Mining

 

OLAP Data Mining
Каковы средние показатели травматизма для курящих и некурящих? Встречаются ли точные шаблоны в описаниях людей, подверженных повышенному травматизму?
Каковы средние размеры телефонных счетов существующих клиентов в сравнении со счетами бывших клиентов отказавшихся от услуг телефонной компании)? Имеются ли характерные портреты клиентов, которые, по всей вероятности, собираются отказаться от услуг телефонной компании?
Какова средняя величина ежедневных покупок по украденной и не украденной кредитной карточке? Существуют ли стереотипные схемы покупок для случаев мошенничества с кредитными карточками?

Важное положение Data Mining — нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные (unexpected) регулярности в данных, составляющие так называемые скрытые знания (hidden knowledge). К обществу пришло понимание, что сырые данные (raw data) содержат глубинный пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки (рис.1).

Рисунок 1. Уровни знаний, извлекаемых из данных

В целом технологию Data Mining достаточно точно определяет Григорий Пиатецкий-Шапиро — один из основателей этого направления:

Data Mining — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Кому это нужно?

Сфера применения Data Mining ничем не ограничена — она везде, где имеются какие-либо данные. Но в первую очередь методы Data Mining сегодня, мягко говоря, заинтриговали коммерческие предприятия, развертывающие проекты на основе информационных хранилищ данных (Data Warehousing). Опыт многих таких предприятий показывает, чтоотдача от использования Data Mining может достигать 1000%. Например, известны сообщения об экономическом эффекте, в 10–70 раз превысившем первоначальные затраты от 350 до 750 тыс. дол. [3]. Известны сведения о проекте в 20 млн. дол., который окупился всего за 4 месяца. Другой пример — годовая экономия 700 тыс. дол. за счет внедрения Data Mining в сети универсамов в Великобритании.

Data Mining представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Деловые люди осознали, что с помощью методов Data Mining они могут получить ощутимые преимущества в конкурентной борьбе. Кратко охарактеризуем некоторые возможные бизнес-приложения Data Mining [2].





©2015- 2017 megalektsii.ru Права всех материалов защищены законодательством РФ.