Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Неупорядоченные данные.




Такого рода данные нужны для задач, где временной фактор не имеет значения, например, оценка кредитоспособности, диагностика, сегментация потребителей. В таких случаях ситуация считается статичной и поэтому информация о том, что одно событие произошло раньше другого, значения не имеет. Для неупорядоченных данных каждому столбцу соответствует фактор, а в каждую строку заносится пример (ситуация, прецедент). Упорядоченность строк не требуется. Не допускается наличие группировок, итогов и прочее – нужна обычная таблица.

Количество примеров (прецедентов) должно быть значительно больше количества факторов. В противном случае высока вероятность, что случайный фактор окажет серьезное влияние на результат. Если нет возможности увеличить количество данных, то придется уменьшить количество анализируемых факторов, оставив наиболее значимые. Практика работы с нейронными сетями выработала правило: в таблице количество строк (примеров) должно быть хотя бы в 3 раза больше числа столбцов (факторов).

Желательно, чтобы данные покрывали как можно больше ситуаций реального процесса и пропорции различных примеров (прецедентов) должны примерно соответствовать реальному процессу.

Необходимо понимать, что система не может знать о чем-либо, что находится за пределами собранных для анализа данных. Например, если при создании системы диагностики больных подавать только сведения о больных, то система не будет знать о существовании в природе здоровых людей. И соответственно, любой человек с ее точки зрения будет обязательно чем-то болен.

Таким образом, для того чтобы получить качественный прогноз, нужно собрать максимум информации об исследуемом процессе, описывающей его с разных сторон. Проблема заключается в том, что обычно в системах оперативного учета большей части этой информации просто нет, а та, что есть, искаженная и (или) неполная. Лучшим вариантом в этом случае будет создание хранилища данных, куда бы с определенной заданной периодичностью поступала вся необходимая информация, предварительно систематизированная и отфильтрованная.

Хранилище данных – это специальным образом систематизированная информация из разнородных источников (базы данных учетных систем компании, маркетинговые данные, мнения клиентов, исследования конкурентов и т.п.), необходимая для обработки с целью принятия стратегически важных решений в деятельности компании.

В чем отличие хранилища от базы данных? В первую очередь в том, что их создание и эксплуатация преследуют различные цели. База данных играет роль помощника в оперативном управлении организации. Это каждодневные задачи получения актуальной информации: бухгалтерской отчетности, учета договоров и т.д. В свою очередь хранилище данных консолидирует всю необходимую информацию для осуществления задач стратегического управления в среднесрочном и долгосрочном периоде. Например, продажа товара и выписка счета производятся с использованием базы данных, а анализ динамики продаж за несколько лет, позволяющий спланировать работу с поставщиками, — с помощью хранилища данных[10].

Эффективная архитектура хранилища данных должна быть организована таким образом, чтобы быть составной частью информационной системы управления предприятием. Обычно данные копируются в хранилище из оперативных баз данных и других источников согласно определенному расписанию.

OLAP (On-Line Analytical Processing) является ключевым компонентом организации хранилищ данных. Эта технология основана на построении и визуализации многомерных кубов данных с возможностью произвольного манипулирования информации, содержащейся в кубе. Это позволяет представить информацию для анализа в любом разрезе.

 

 

Поделиться:





Читайте также:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...