Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Импорт данных и способы визуализации




Введение

В экономике целью сбора, обработки и анализа информации является установление закономерностей развития рынка, определение направлений изменение цен для успешного развития бизнеса и повышение его конкурентоспособности. Как правило, работой по анализу информации занимаются эксперты и аналитики, которые, применяя различные методы обработки, подготавливают информацию к пригодному для анализа виду. Затем результаты, полученные экспертами, поступают к руководителям отделов и менеджерам для принятия решений.

Существуют различные механизмы анализа данных, которые являются универсальными и применяются в различных предметных областях. В данном пособии мы рассмотрим механизмы анализа данных, реализованных в аналитической платформе Deductor, разработанной компанией BaseGroup (www.basegroup.ru). Deductor предназначен для создания прикладных решений в сфере анализа данных. В данной платформе реализованы механизмы, позволяющие пройти все этапы создания аналитической системы: от хранения информации до разнообразных способов ее визуализации после соответствующей обработки (моделирование, прогнозирование, кластеризация, поиск закономерностей и многие другие технологии обнаружения знаний (Knowledge Discovery in Databases) и добычи данных (Data Mining).

Deductor состоит из пяти частей: Deductor Warehouse – хранилище данных, консолидирующий информацию из различных источников, Deductor Studio – аналитическая приложение, содержащее инструменты импорта, обработки, визуализации и экспорта данных, Deductor Viewer – рабочее место конечного пользователя, Deductor Server для удаленной аналитической обработки, Deductor Client для доступа к серверу аналитической обработки.

В данном пособии мы рассмотрим версию Deductor 5.1 (Academic) (далее Deductor), хотя есть и более поздние версии Deductor 5.2, объясняется это тем, что в компьютерных классах установлена именно эта версия.

Анализ данных с помощью Deductor начинается с импорта данных. Импорт осуществляется из различных форматов хранения данных, таких как Virual Warehouse, Deductor Warehouse, Excel, Access, Interbase, Oracle, Текстовый формат, и из форматов 1С: Предприятие версии 7.7 и 1С: Предприятие версии 8.х.

Все примеры разбиты на соответствующие группы в зависимости от цели, которую нужно достичь. После импорта данных может понадобиться так называемая предварительная обработка «сырых» данных, которая позволит преобразовать их к пригодному для анализа виду (заполнение пропусков, удаление аномалий, сглаживание и т.д.). Группа инструментов преобразования данных позволяет настроить данные по усмотрению аналитика (фильтрует, дискретизирует, группирует, и т.д.). Набор инструментов анализа данных, позволяет выявить зависимость одних факторов от других, значимость влияния факторов на результат, найти сезонность во временных рядах, выявить противоречивые данные, а также построить модель прогноза и получить желаемый результат. (в этом предложении нет глагола, который указывает на действие)

Импорт данных и способы визуализации

Импорт данных из различных форматов является первым шагом в процессе анализа информации. Импортированные данные могут быть обработаны различными инструментами Deductor, полученные новые данные также могут быть в свою очередь опять обработаны. Результаты обработки можно просмотреть различными способами, используя методы визуализации и экспортировать в наиболее популярные форматы.

Рисунок 1. Схема функционирования Deductor Studio

В дальнейшем под сценарием будем понимать последовательность действий, которые необходимо провести для анализа данных. Под действиями подразумевается очистка от шумов и аномальных явлений, преобразование данных, построение моделей, при этом действия можно комбинировать произвольным образом, дабы достичь наилучшего результата.

Общий вид окна приложения Deductor ничем не отличается от тех, которые нам хорошо знакомы: строка заголовка, строка меню, панель инструментов и собственно рабочая область, которая разделена на две части. В левой части располагается область сценариев, которая в свою очередь имеет соответствующую панель инструментов, а в правой отображаются данные в том или ином состоянии.

Построение сценария в Deductor начинается с вызова мастера импорта , который располагается на панели инструментов Сценарии, или выбрать соответствующую команду из контекстного меню, вызываемого в любой области панели Сценарии.

В диалоговом окне мастера импорта нужно выбрать из списка тип импортируемого формата и для перехода к следующему шагу щелкнуть по кнопке «Далее». Для различных источников данных количество шагов необходимых для импорта файла с тем или иным форматом разное.

Далее на втором шаге указываем путь к файлу с помощь кнопки .

На третьем шаге для текстового файла требуется настроить поля (начать импорт со строки 1, символом-разделителем является в данном случае запятая, разделитель целой и дробной части ) и т.д.

Важным этапом импорта является этап, на котором нужно настроить поля импортируемого файла. В строке имя столбца можно переименовать столбец для дальнейшего удобства работы.

Далее каждому полю присваивается соответствующий тип, если это необходимо:

- логический – данные в этом поле принимают значения 0 и 1 (ложь или истина);

- дата/время – данные типа дата/время;

- вещественный – числа с плавающей точкой;

- целый – значения данного поля целочисленные;

- строковый – данные в виде строки символов.

После указывается вид данных:

- непрерывный – значения поля могут принимать любое значение в рамках своего типа (как правило, непрерывными являются числовые значения);

- дискретный – данные в столбце могут принимать ограниченное число значений (обычно дискретный характер носят строковый переменные).

К указанию типа и вида данных нужно отнестись внимательно, поскольку ошибка может привести к потере данных. Например, если в поле хранятся данные с плавающей точкой, а вид данных зададим «целый», то после импорта, в таблице все значения данного поля окажутся пустыми и появится сообщение об ошибке при преобразовании данных.

Затем, если это необходимо, нужно настроить назначение столбца:

- используемое – поле будет использоваться в процедурах обработки данных;

- первичный ключ – поле используется в качестве первичного ключа;

- входное – поле таблицы, построенное на основе таблицы, которое будет являться входным полем для нейронной сети, дерева решений и т.д.;

- выходное – поле таблицы, построенное на основе таблицы, которое будет являться выходным – целевым полем для нейронной сети, дерева решений и т.д.;

- информационное – в данном поле находится вспомогательная информация, которая не обрабатывается, но ее полезно иногда отобразить;

- измерение – поле будет использоваться в качестве измерения в многомерной модели данных;

- факты – значения поля будут использованы в качестве фактов в многомерной модели данных;

- транзакция – поле, содержащее идентификатор событий, происходящих совместно (одновременно). Например, номер чека, по которому приобретены товары. Тогда покупка товара – это событие, а их совместное приобретение по одному чеку – транзакция.

- элемент – поле, содержащее элемент транзакции (событие).

На следующем шаге, нажатием кнопки «Пуск», запускается сам процесс импорта данных с настроенными параметрами. В строке «Название процесса» отображается этап процесса импорта данных, выполняемый в текущий момент. Процесс импорта отображается с помощью строки «Процент выполнения текущего процесса».

Если процесс импорта данных остановился, значит, возникли проблемы при доступе к источнику данных. В данном случае появится диалоговое окно с сообщением об ошибке и, исходя из текста, можно вернуться на необходимое количество шагов назад и попробовать внести соответствующие изменения. В случае возникновения ошибок, несвязанных с Deductor, необходимо внести должные изменения в исходный файл, сохранённый до его загрузки в Deductor. Также остановить процесс импорта можно с помощью кнопки «Стоп». После этого появляется возможность вернуться на предыдущие шаги процесса импорта для проверки и изменения параметров. Далее процесс импорта может быть запущен заново или отменен. Если импорт данных был завершен успешно, то в строке «Название процесса» появится сообщение «Успешное завершение». С помощью кнопки «Пауза» можно приостановить процесс импорта на определенное время. Следующий шаг позволяет выбрать метод визуализации.

При способе отображения - «Таблица», все поля выборки выводятся в отдельном столбце, они озаглавлены именами столбцов, если не были определены названия столбцов. В таблице имеется панель инструментов с помощь, которой можно:

- управление конфигурациями (позволяет сохранить этапы обработки текущего файла);

- настройка полей (позволяет в зависимости от типа данных применять особый формат, а также изменять их размер и способ выравнивания);

- способ отображения (вывод данных в виде таблицы или формы);

- показать онлайн статистику (отображает статистику импортированных данных);

- фильтрацию (осуществляет выбор записей в таблице по заданному условию);

- экспорт таблицы (осуществить экспорт данных в один из доступных форматов).

Визуализация «Таблица» доступна для любого инструмента обработки.

«Статистика» представляет основные характеристики текущей выборки данных (минимум, максимум, среднее, стандартное отклонение, сумма, сумма квадратов, количество уникальных значений, количество пустых значений). Данный вид отображения доступен для любого инструмента обработки.

Визуализация «Диаграмма» позволяет отображать результаты обработки в графическом виде, где показывается зависимость значений одного поля от другого.

При настройке параметров диаграммы можно выбрать поля данных, которые должны отображаться на диаграмме, назначить для них определенный цвет, определить тип диаграммы, а также настроить отображение подписей и значений по оси X. Для отображения того или иного поля на диаграмме нужно установить флажок напротив соответствующего поля. Чтобы выбрать тип диаграммы нужно воспользоваться значком и в списке выбрать тот или иной вариант (столбчатая диаграмма, непрерывные линии, линии, точки, диаграмма с областями, круговая диаграмма, лепестковая диаграмма). Выбрав в списке «Подписи по X» определяется поле, заголовок которого будет использоваться в качестве подписи по горизонтальной оси. Флажок «Значения по X» позволяет сделать доступным список, в котором можно выбрать поле, значения которого будут отображаться по горизонтальной оси.

С помощью кнопок на панели инструментов в окне построенной диаграммы или в контекстном меню, вызываемом для поля диаграммы, доступны следующие действия:

– 3-х мерный вид – отображает данные в виде объемных столбцов или линий, что в ряде случаев улучшает наглядность диаграммы;

– ориентация меток – позволяет выбрать ориентацию меток;

– показать оси – включает или выключает отображение осей;

– легенда – позволяет показать или скрыть легенду;

– тип меток – позволяет включить или выключить отображение меток для каждого элемента диаграммы:

o скрыть метки – метки не отображаются;

o значение – отображается собственно значение, отображаемое элементом диаграммы;

o проценты – выводится процентное соотношение данного элемента к итоговому результату;

o метки – выводятся подсказки, необходимые для понимания смысла того или иного элемента;

o метка, процент – одновременно выводятся и метки и проценты;

o метка, знаение – одновременно выводятся и метки и знаения;

o процент, итог – одновременно выводятся и процентное отношение элемента ко всему итоговому результату и сам этот результат;

o метка, процент, итог – одновременно отображаются метка, процентное соотношение и итог;

o координата Х – выводится координата столбца по оси X;

– отображать поля – позволяет пользователю выбрать поля, отображаемые на диаграмме;

– нормализация – приведение всех графиков к одному масштабу;

– перенести первый график на задний план – перемещает первый столбец в серии на последнее место, при повторном нажатии последнее место займет второй столбец и т.д.;

– выберите вид графика – выбирается один из доступных видов графика (столбчатая диаграмма, непрерывные линии, линии, точки, диаграмма с областями);

– детализация – позволяет детализировать тот или иной выбранный участок графика в нижней части окна в виде таблицы;

– экспорт таблицы (осуществить экспорт данных в один из доступных форматов).

«Гистограмма» показывает график разброса показателей в отличие от диаграммы, она отображает количество значений, попавших в заданный интервал, а не сами значения. По виду гистограммы можно оценить распределение данных, если столбцы примерно одинаковы, то можно сказать, что распределение носит равномерный характер, когда же имеется ярко выраженный максимум, то, по всей видимости, это нормальное распределение. Методы создания и работы с гистограммой аналогичны методам создания и работы с диаграммами.

«Куб» является распространенным методом многомерного представления данных, получивших название OLAP (On-Line Analyzing Process). Данные представлены в виде многомерных кубов, называемых также OLAP-кубами, или гиперкубами. Данные, организованные в OLAP-кубах, представляются в виде кросс-таблицы, которое является удобным средством визуализации многомерных данных и получения необходимых форм отчетов. Кросс-таблица строится на основе многомерного представления в виде OLAP-куба и содержит измерения и факты, определенные при построении куба. Основное преимущество кросс-таблицы в том, что ее структура не является жестко закрепленной. Манипулируя заголовками измерений, аналитик может добиться, чтобы кросс-таблица выглядела наиболее информативно. В платформе Deductor есть возможность строить на основе кросс-таблицы кросс-диаграмму, которая привязана к кросс-таблицы и будет автоматически перестраиваться в соответствии с любыми изменениями кросс-таблицы.

Для получения на основе текущей выборки данных кросс-таблицы необходимо выполнить:

- настройка назначений полей куба (имя столбца, тип данных, назначение и вид данных);

- настройка измерений (распределить из доступных измерений поля по строкам и столбцам);

- настройка фактов (выбор полей, которые будет отображаться в качестве фактов в кросс-таблице с соответствующей агрегацией)

После построения кросс-таблицы доступна панель инструментов, с помощью которой выполнимы следующие операции:

– управление конфигурациями (позволяет сохранить этапы обработки текущего файла);

– настройка размещения измерений;

– настройка фактов – здесь можно выбрать факты для отображения в кросс-таблице, а также выбрать функцию агрегации для каждого факта;

– селектор – фильтрация записей в кросс-таблице, по значениям фактов, которое может выполняться отдельно по каждому измерению;

– сортировка значений измерений;

– настройка форматов отображения... – открывает окно «Настройка форматов отображения измерений и фактов», в котором можно настроить параметры отображения значений измерений и фактов в кросс-таблице;

– транспонирование – выполняет транспонирование кросс-таблицы, в результате чего измерения, располагавшиеся в столбцах, будут находиться в строках и наоборот;

– показывать итоги – сокрытие/отображение итогов: везде, в колонках, в строках, нигде.

– положение фактов – позволяет выбрать одну из 2-х позиций положения фактов:

– в колонках – заголовки фактов расположены горизонтально над таблицей значений фактов.

– в строках – заголовки фактов расположены вертикально слева от таблицы значений фактов. Такое положение фактов удобно использовать при большом количестве фактов.

– выравнивание ширины колонок – позволяет выбрать один из следующих способ выравнивания ширины колонок с фактами в кросс-таблице:

– равная ширина фактов – включает режим, при котором изменение ширины одной колонки приводит к тому, что ширина всех колонок, относящихся к одному факту, становится равной ширине изменяемой колонки;

– равная ширина колонок – включает режим, при котором изменение ширины одной колонки приводит к тому, что ширина всех колонок становится равной ширине изменяемой колонки;

– произвольная ширина – включает режим, при котором ширина всех колонок с фактами независимы;

– детализация – открывает окно «Таблица», в котором компактно отображается вся информация, связанная с выделенной ячейкой или ячейками кросс-таблицы. Это особенно удобно при работе с большими массивами данных, когда кросс-таблица занимает большую площадь. В таблицу детализации входят все измерения, факты и столбцы, помеченные как информационные при настройке назначения полей;

– отображать кросс-диаграмму – во включенном режиме слева от кросс-таблицы отображается кросс-диаграмма;

– возможность экспорта данных в доступные форматы: MS Excel, MS Word, HTML формат; · Экспорт в - экспортировать полученный отчет в MS Excel.

Диаграмма, построенная на основе кросс-таблицы, называется, кросс-диаграммой, и представляет с собой точное соответствие текущему состоянию кросс-таблицы и при любых ее изменениях меняется соответственно.

В окне кросс-диаграммы имеется панель инструментов подобная той, которая имеется в окне диаграммы, но с дополнительными функциями:

– ограничения – открывает окно с информацией об ограничениях на отображаемую информацию (если кнопка имеет синий цвет – ограничения не превышены, если красный, то на кросс-диаграмме размещена не вся информация)

– транспонирование – аналогично операции транспонирования таблицы;

Вместе с тем визуализация кросс-диаграмма не содержит кнопки «Нормализация» и «Перенести первый график на задний план».

Если процесс импорта данных в Deductor прошел успешно, тогда на панели инструментов Сценарии доступны кнопки – – Мастер визуализации..., – Мастер обработки, – Мастер экспорта и – Удалить узел. Каждая кнопка вызывает соответствующее диалоговое окно, за исключением команды «Удалить узел».

С помощью кнопки «Мастер визуализации...» мы можем добавить и настроить тот или иной визуализатор, о чем было подробно изложено выше.

Диалоговое окно «Мастер экспорта» позволяет экспортировать данные в доступные форматы (Microsoft Excel, Microsoft Word, HTML, TEXT, DBF и т.д.).

Команда «Удалить узел» позволяет после выделения удалить тот или иной узел.

Обработка данных

«Мастер обработки» позволяет применять к импортированным данным необходимый инструмент обработки.

«Мастер обработки» содержит следующие инструменты обработки:

ü Очистка данных

- парциальная (парциальный – частичный, отдельный, составляющий часть чего-нибудь.) предобработка (восстановление пропущенных данных, редактирование аномальных значений, спектральная обработка (сглаживание данных));

- факторный анализ (понижение размерности входных факторов);

- корреляционный анализ (устранение незначащих факторов);

- дубликаты и противоречия (с помощью данного инструмента можно выявить дубликаты и противоречия в исходной выборке данных);

- фильтрация (данный инструмент позволяет отфильтровать выборку по необходимому условию, а остальные данные скрыть);

ü Трансформация данных

- настройка набора данных (изменение парметров источниа данных);

- скользящее окно (Обработка данных методом скользящего окна применяется при предварительной обработки данных в задачах прогнозирования, когда на вход анализатора (например, нейронной сети) требуется подавать значения нескольких смежных отсчетов исходного набора данных. Термин "скользящее окно" отражает сущность обработки - выделяется некоторый непрерывный отрезок данных, называемый окном, а окно, в свою очередь, перемещается, "скользит", по всему исходному набору данных.

В результате будет получена выборка, где в каждой записи будет содержаться поле, соответствующее текущему отсчету (оно будет иметь то же имя, что и в исходной выборке), а слева и справа от него будут расположены поля, содержащие отсчеты, смещенные от текущего отсчета в прошлое и в будущее соответственно.
Следовательно, обработка методом скользящего окна имеет два параметра: глубина погружения - количество отсчетов в "прошлое" и горизонт прогнозирования - количество отсчетов в "будущее".

Необходимо отметить, что для граничных положений окна (конец и начало исходной выборки) будут формироваться неполные записи: вначале исходной выборки будут формироваться пустые значения для "прошлых" отсчетов, а в конце - для "будущих". В зависимости от конкретной ситуации пользователь может включать такие неполные записи в результирующую выборку или исключать их.);

- дата и время (позволяет изменять временную шкалу данных с целью оптимизации для дальнейшей обработки. Например, пусть для временного ряда, который задан по дням, требуется построить прогноз, но не подробный - по дням, а более общий - по неделям. Очевидно, что если подать на вход прогнозирующей модели (нейронной сети, линейной модели) данные по дням, то и прогноз будет по дням. Если же предварительно преобразовать данные к недельным интервалам, то и прогноз будет по неделям. Кроме этого, дата может быть преобразована в число или строку, если это необходимо для дальнейшей обработки.);

- квантование (происходит распределение значений непрерывных данных по конечному числу интервалов заданной длины);

- сортировка (сортировка данных);

- слияние – объединение данных из двух таблиц по ключевым полям;

- замена – замена значений по таблице подстановки,, которая содержит пары, состоящие из исходного значения и выходного значения, например, <кр> - <красный>, <зел> - <зеленый>, <син> - <синий> или <зима> - <январь>, <весна> - <апрель>, <лето> - <июль>, <осень> - <октябрь>. Для каждого значения исходного набора данных ищется соответствие среди исходных значений таблицы подстановок. Если соответствие найдено, то значение меняется на соответствующее выходное значение из таблицы подстановок. Если значение не найдено в таблице, оно может быть либо заменено значением, указанным для замены <по умолчанию>, либо оставлено без изменений (если такое значение не указано).

Кроме того, замену данных можно использовать для замены пустых значений на какое-то определенное значение.

- группировка (позволяет уменьшить число записей исходной выборки, за счет объединения записей с одинаковыми данными, не утратив при этом информативности);

- разгруппировка данных – восстанавливает выборку, к которой была применена операция группировки.

ü Data Mining

- автокорреляция (определение степени статистической зависимости между различными значениями (отсчетами) случайной последовательности в исходном поле выборке данных. В процессе автокорреляционного анализа рассчитываются коэффициенты корреляции (мера взаимной зависимости) для двух значений выборки, находящихся друг от друга на определенном количестве отсчетов, называемые также лагом. Совокупность коэффициентов корреляции по всем лагам представляет собой автокорреляционную функцию ряда (АКФ): R(t)=corr(X(t),X(t+k)), где k>0 - целое число (лаг));

- линейная регрессия (построение линейной регрессионной модели данных, позволяющая прогнозирования целевой переменной);

- логистическая регрессия – строит бинарную логистическую регресионную модель. Логистическая регрессия – это разновидность множественной регрессии. С помощью логистической регрессии можно оценивать вероятность того, что событие наступит для конкретного испытуемого (больной/здоровый, возврат кредита/дефолт и т.д.). Логистическая регрессия описывается уравнением:

P=a1*x1+a2*x2+...+an*xn + a0, P=1/(1+exp(-y)) - логистическая функция.

В результате работы данного компонента строится бинарная логистическая регрессионная модель. Полученную в результате модель можно использовать для прогнозирования целевой бинарной переменной.

- нейронная сеть (выполняет обработку данных с помощью многослойной нейронной сети. В этом режиме Мастер обработки позволяет сконструировать нейронную сеть с заданной структурой, определить ее параметры и обучить с помощью одного из доступных в системе алгоритмов обучения. В результате будет получен эмулятор нейронной сети, который может быть использован для решения задач прогнозирования, классификации, поиска скрытых закономерностей, сжатия данных и многих других приложений);

- дерево решений (позволяет решать задачи отнесения какого-либо объекта (строчки набора данных) к одному из заранее известных классов);

- карта Кохонена - выполняет кластеризацию данных. Алгоритм функционирования самоорганизующихся карт (Self Organizing Maps - SOM) Кохонена представляет собой один из вариантов кластеризации многомерных векторов - алгоритм проецирования с сохранением топологического подобия);

- ассоциативные правила (обнаружение зависимостей между связанными событиями. Ассоциативные правила позволяют находить закономерности между связанными событиями. Примером такого правила, служит утверждение, что покупатель, приобретающий «Хлеб», приобретет и «Молоко» с вероятностью 75%. Впервые эта задача была предложена для поиска ассоциативных правил для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют анализом рыночной корзины (market basket analysis);

- пользовательская модель - задание модели вручную по формулам. Пользовательская модель позволяет создавать аналитические модели на основании формул и экспертных оценок. Такая возможность требуется в тех случаях, когда объем исходной выборки мал, либо ее качество недостаточно для того, чтобы обучить нейронную сеть. В этом случае можно воспользоваться хорошо известными простыми моделями, задающимися с помощью формул. Примером такой модели может служить скользящее среднее или модель авторегрессии.

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...