Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Выявление дубликатов и противоречий




В Deductor существует инструмент обработки данных - «Дубликаты и противоречия», позволяющий выявлять дубликаты и противоречия.

В наборе данных часто встречаются ситуации, когда для одинаковых входных факторов существуют различные выходные факторы, что очень затрудняет процесс прогнозирования. В данном случае мы имеем дело с противоречием, потому что непонятно, какой выходной фактор использовать. Также для одинаковых выходных факторов могут соответствовать одинаковые выходные факторы, которые создают избыточность информации в данных. Тот или иной случай нередкость, соответственно возникает необходимость выявлять противоречия и дубликаты.

Данный мастер обработки определяет в наборе данных входные факторы и выходные факторы. Далее выявляет записи, для которых одинаковым входным полям соответствуют одинаковые (дубликаты) или разные (противоречия) выходные поля. После этого создаются два дополнительных поля «Дубликаты» и «Противоречия», принимающие значения «правда «или «ложь».

Разберем механизм определения дубликатов и противоречий на примере умножения данных. В исходном файле содержится результат умножения двух целых множителей в диапазоне от 1 до 10. Искомая таблица содержит поля: «Аргумент1», «Аргумент2» – аргументы; «Произведение», «Произведение с противоречиями» – произведения аргументов, содержащие противоречия. В столбце «Произведение» находится 100 строк с результатом умножения (1*1 до 10*10), причем «Произведение с противоречиями» содержит неверные результаты в некоторых строках. Следующие 50 записей дублируют первые 50. В результате мы имеем файл, в котором содержатся строки с одинаковыми входными значениями, но с различными выходными факторами и строки с одинаковыми входными и выходными значениями. Данные содержат противоречия и дубликаты - необходимо их обнаружить.

После импорта данных из текстового файла просмотрим их в режиме таблицы.

Запустим в мастере обработки инструмент «Дубликаты и противоречия» и на втором шаге мастера настроим назначение полей. Укажем в качестве входных полей «Аргумент1» и «Аргумент2», а выходным — поле «Произведение с противоречиями».

Следующий шаг предполагает запуск процесса обработки.

После завершения работы мастера обработки просмотрим результат в виде таблицы.

В столбцах «Дубликаты» и «Противоречия» содержится искомая информация о дубликатах и противоречиях, которую аналитик может отсортировать по своему усмотрению, вызвав с помощью кнопки на панели инструментов окно настройки фильтрации.

Например, для просмотра только дубликатов, в качестве условия выбираем «=», а условие на значение указываем «True» для соответствующего столбца. В результате получим таблицу только с дубликатами.

Аналогично можно отфильтровать и для противоречий.

Автокорреляция

Для прогноза и анализа временного ряда важным фактором является определение его сезонности. Автокорреляция подразумевает под собой нахождение зависимости значения одной величины от другой. Если их корреляция равна единице, то величины прямо зависимы друг от друга, если нулю – то нет, если минус единице, то зависимость обратная. Исходя из того, что линейная автокорреляция определяет зависимость между одной и той же величиной, но в разное время данный механизм используется для определения периодичности (сезонности) при обработке временных рядов.

Перед аналитиком стоит задача по месячному объему продаж за определенный период времени определить, есть ли сезонность, если есть, то какая. Импортируем файл «Trade.txt», в котором располагаются поля для обработки: «Период» – год и месяц продаж, «Количество» – количество продаж за месяц.

Импортируя данные из текстового файла и в качестве визуализатора выберем диаграмму.

В данном виде из диаграммы трудно определить сезонность объема продаж. Воспользуемся инструментом «Автокорреляция» из мастера обработки и перейдем на второй шаг мастера. В настройке полей укажем, что поле «Дата (Год + месяц)» является неиспользуемым, а поле «Количество» используемым (для того чтобы определить сезонность объема продаж). Допустим, если сезонность есть, то в рамках одного года. Зададим количество отсчетов равным 15 (ищем зависимость от месяца, двух, ….., пятнадцати назад). Установим флажок «Включить поле отсчетов набор данных», необходимый для более удобной интерпретации автокорреляционного анализа.

На следующем шаге запустим процесс обработки.

После окончания обработки результаты удобно анализировать в виде таблицы и в виде диаграммы. После обработки получены два столбца - «Лаг» (в результате установленного флажка «Включить поле отсчетов в набор данных») и «Количество» – результат автокорреляции.

На диаграмме видно, что корреляция равна единице – значит, значение зависит само от себя. Потом зависимость убывает, и затем наблюдается пик зависимости от данных двенадцать месяцев назад, что говорит о наличии сезонности.

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...