Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Назначение OLAP-систем




Основное назначение OLAP-систем - поддержка аналитической деятельности, т. е. произвольных (часто используется термин ad-hoc) запросов пользователей-аналитиков. Если системы регламентированной отчетности отвечают на вопросы типа «сколько было продано товара?» или «какова прибыль за последний месяц», то OLAP призван дать ответы, скажем, на вопросы «насколько надо увеличить расходы на рекламу, чтобы прибыль выросла на 15%?», или «какие продукты будут в пятерке лучших по показателю прибыльности из наиболее продаваемых в Нижнем Новгороде?». Цель OLAP-анализа - проверка возникающих гипотез. Далее мы рассмотрим технологии, позволяющие эффективно выполнять подобного рода запросы.

Все самое интересное с точки зрения OLAP-анализа начинается с применения этих немногих физических сущностей и функциональности, поддерживаемой клиентскими средствами. Простая, но достаточно важная операция над кубом данных - срез и вращение куба, т. е. фиксация одного или нескольких значений размерностей и просмотр показателя по другим. Современные интерфейсы позволяют пользователю реализовывать срезы и вращения на уровне drag-and-drop - с помощью мышки менять на экране местами размерности, столбцы со строками и т. д. Тем самым пользователь получает возможность анализировать показатель с различных точек зрения - товара или региона. Данные размерностей можно просматривать по различным уровням иерархии (например, время по кварталам и месяцам), а можно задавать и более сложные условия выборки или даже отдельные значения. Многие программные средства позволяют накладывать условия на анализируемый показатель, т. е. выбирать только значения показателя выше заданного (например объем продаж более $150 000), или же минимальные и максимальные значения в каждом регионе отмечать отдельным цветом. Безусловно, наряду с табличным представлением поддерживается и графическое, со всеми возможными видами графиков - столбчатых, диаграмм, точками и линиями на координатной оси, двух и трехмерных. Любая операция вращения и среза данных выполняется моментально, перепостроение графика занимает доли секунды.

Наиболее интересные и сложные возможности анализа данных заключаются в прогнозировании и выявлении тенденций. Подобные вычисления основаны на построении функции экстраполяции на базе имеющегося (определяемого пользователем) набора исходных данных. Прогнозирование всегда существенно зависит от особенностей предметной области, поэтому универсальных алгоритмов экстраполяции не существует. Различные инструменты создания аналитических приложений содержат несколько алгоритмов, основанных на линейном, экспоненциальном тренде и учете сезонных колебаний. В ряде систем (например, Oracle Express) помимо этого предлагается мощный математический аппарат, позволяющий создавать собственные алгоритмы на основе известных законов, но не более того. Таким образом, точность прогноза реально определяется разработчиком системы. На практике использование прогнозирования максимально просто - пользователь задает интервал времени, на которое производится расчет. В виде таблицы или диаграммы отображается значение анализируемого показателя, известное для заданного интервала времени, и нажатием кнопки или вызовом функции меню вычисляются значения этого показателя на будущее.

Другая интересная возможность OLAP-систем заключается в определении начальных условий по заданному желаемому результату. Примером такого запроса может служить приведенный в начале данного раздела вопрос «на сколько надо увеличить расходы на рекламу, чтобы объем продаж увеличился на 15%?». Другим не менее распространенным видом аналитических запросов является анализ по принципу «что, если?». В этом случае аналитик имеет возможность менять значения показателей или размерностей, чтобы проследить зависимость от них результата.

Современные OLAP-системы поддерживают многопользовательскую работу. Что же будет, если все вдруг начнут менять исходные данные? На самом деле изменения выполняются в отдельном адресном пространстве пользовательского приложения; реально исходные данные при этом не меняются. Для того чтобы внести изменения, пользователь должен обладать эксклюзивными правами. На это есть определенные технологические причины, зависящие от архитектуры аналитических систем и их взаимосвязи с хранилищами данных.

Вместе с базовой концепцией существуют три типа OLAP — OLAP со многими измерениями:

Multidimensional OLAP — MOLAP,

реляционный OLAP (Relational OLAP —ROLAP),

гибридный OLAP (Hybrid OLAP — HOLAP).

MOLAP — это классическая форма OLAP, так что её часто называют просто OLAP. Она использует суммирующую БД, специальный вариант процессора пространственных БД и создаёт требуемую пространственную схему данных с сохранением как базовых данных, так и агрегатов. ROLAP работает напрямую с реляционным хранилищем, факты и таблицы с измерениями хранятся в реляционных таблицах, и для хранения агрегатов создаются дополнительные реляционные таблицы. HOLAP использует реляционные таблицы для хранения базовых данных и многомерные таблицы для агрегатов. Особым случаем ROLAP является ROLAP реального времени (Real-time ROLAP — R-ROLAP). В отличие от ROLAP в R-ROLAP для хранения агрегатов не создаются дополнительные реляционные таблицы, а агрегаты рассчитываются в момент запроса. При этом многомерный запрос к OLAP-системе автоматически преобразуется в SQL-запрос к реляционным данным.

Каждый тип хранения имеет определённые преимущества, хотя есть разногласия в их оценке у разных производителей. MOLAP лучше всего подходит для небольших наборов данных, он быстро рассчитывает агрегаты и возвращает ответы, но при этом генерируются огромные объёмы данных. ROLAP оценивается как более масштабируемое решение, использующее к тому же наименьшее возможное пространство. При этом скорость обработки значительно снижается. HOLAP находится посреди этих двух подходов, он достаточно хорошо масштабируется и быстро обрабатывается. Архитектура R-ROLAP позволяет производить многомерный анализ OLTP-данных в режиме реального времени.

Сложность в применении OLAP состоит в создании запросов, выборе базовых данных и разработке схемы, в результате чего большинство современных продуктов OLAP поставляются вместе с огромным количеством предварительно настроенных запросов. Другая проблема — в базовых данных. Они должны быть полными и непротиворечивыми.

Data Mining - системы

Data Mining, или, в устоявшемся переводе, извлечение знаний, стоит несколько обособленно в среде аналитических систем. Системы класса Data Mining наиболее сложны в реализации и решают широкий класс задач, связанных с выявлением скрытых взаимосвязей в данных. Если OLAP занимается проверкой возникающих у аналитика гипотез, то Data Mining помогает формулировать эти гипотезы в том случае, когда аналитик не до конца представляет цель своего запроса и соответственно не может четко определить его. Класс прикладных задач для Data Mining потенциально очень широк - от маркетинговых исследований и оценки надежности клиентов (например, для биллинговых систем) до проверки существования связей между физическими и юридическими лицами.

Интеллектуальный анализ данных (англ. Data Mining) — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Подразделяется на задачи классификации, моделирования и прогнозирования и другие.

Английский термин «Data Mining» не имеет однозначного перевода на русский язык (добыча данных, вскрытие данных, информационная проходка, извлечение данных/информации) поэтому в большинстве случаев используется в оригинале. Наиболее удачным непрямым переводом считается термин «интеллектуальный анализ данных» (ИАД).

Задачи решаемые ИАД

1. Классификация — отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов.

2. Кластеризация — разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга.

3. Сокращение описания — для визуализации данных, лаконизма моделей, упрощения счета и интерпретации, сжатия объемов собираемой и хранимой информации.

4. Ассоциация — поиск повторяющихся образцов. Например, поиск «устойчивых связей в корзине покупателя» — вместе с пивом часто покупают орешки.

5. Прогнозирование

6. Анализ отклонений — Например, выявление нетипичной сетевой активности позволяет обнаружить вредоносные программы.

7. Визуализация

В литературе можно встретить еще ряд классов задач. Базовыми задачами являются первые три. Остальные задачи сводятся к ним тем или иным способом. Также можно использовать сводные задачи под основу

Методы Data Mining разделяются на:

статистические (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов);

кибернетические (искусственные нейронные сети, эволюционное программирование, генетические алгоритмы, ассоциативная память, нечеткая логика, деревья решений, системы обработки экспертных знаний).

В основе систем Data Mining лежит математический аппарат, базирующийся на алгоритмах систем искусственного интеллекта. Создание приложений начинается с оценки предметной области и выявления алгоритмов, дающих наиболее точные результаты для рассматриваемой задачи. Затем следует настройка и "обучение" алгоритмов, т. е. их прогонка на каком-то количестве (иногда на сотнях и тысячах) наборов исходных данных с заранее известными результатами. Прогонка, как правило, проводится в несколько этапов с дальнейшей настройкой алгоритмов до достижения требуемой точности. Существенную роль играет анализ и интерпретация полученных результатов.

Визуальные инструменты Data Mining позволяют проводить анализ данных предметными специалистами (аналитиками), не владеющими соответствующими математическими знаниями.

Современные системы Data Mining обладают полнофункциональным графическим интерфейсом, поддерживающим все стадии разработки приложения и развитым пользовательским интерфейсом, упрощающим применение системы и интерпретацию результатов. Однако от аналитиков, использующих Data Mining, требуется глубокое знание предметной области, владение математическим аппаратом и высокая квалификация пользователей программного обеспечения. Среди подобных инструментов наиболее известны Darwin компании Thinking Machines, ныне входящей в Oracle Corporation, и Intelligent Miner for Data корпорации IBM. В последнее время намечается тенденция к интеграции возможностей Data Mining в серверы баз данных. Так, например, корпорация Microsoft реализовала некоторые алгоритмы в версии своей СУБД SQL.

 

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...