Сбор и систематизация данных.
Одно из необходимых действий на этом этапе - задание способа представления данных. Как правило, выбирают один из 4-х видов – число, строка, дата, логическая переменная (да/нет). Определить способ представления, т.е. формализовать, некоторые данные просто – например, объем продаж в рублях, - это определенное число. Но довольно часто возникают ситуация, когда непонятно как представить фактор. Чаще всего такие проблемы возникают с качественными характеристиками. Например, наобъемы продаж влияет качество товара. Качество – это довольно сложное понятие, но если этот показатель действительно важен, то нужно придумать способ его формализации. Например, определять качество по количеству брака на тысячу единиц продукции, либо экспертно оценивать, разбив на несколько категорий – отлично/хорошо/удовлетворительно/плохо. Далее, необходимо оценить стоимость сбора нужных для анализа данных. Дело в том, что некоторые данные легко доступны, например, их можно извлечь из существующих информационных систем. Но есть информация, которую не просто собрать, например, сведения о конкурентах. Поэтому необходимо оценить, во что обойдется сбор данных. Чем больше будет данных для анализа, тем лучше, отбросить их можно на следующих этапах работ – это легче, чем собрать новые сведения. Однако сбор данных не является самоцелью. Если информацию получить легко, то, естественно, следует ее собрать. Если данные получить сложно, то необходимо соизмерить затраты на ее сбор и систематизацию с ожидаемыми результатами. Есть несколько методов сбора, необходимых для анализа данных: 1. Получение из учетных систем. Обычно, в учетных системах есть различные механизмы построения отчетов и экспорта данных, поэтому извлечение нужной информации их них, чаще всего, относительно несложная операция.
2. Получение сведений из косвенных данных. О многих показателях можно судить по косвенным признакам и этим нужно воспользоваться. Например, можно оценить реальное финансовое положение жителей определенного региона следующим образом. В большинстве случаев имеется несколько товаров, предназначенных для выполнения одной и той же функции, но отличающихся по цене: товары для бедных, средних и богатых. Если получить отчет о продажах товара в интересующий регион и проанализировать пропорции, в которых продаются товары для бедных, средних и богатых, то можно предположить, что чем больше доля дорогих изделий из одной товарной группы, тем более состоятельны в среднем жители данного региона. 3. Использование открытых источников. Большое количество данных присутствует в открытых источниках, таких как статистические сборники, отчеты корпораций, опубликованные результаты маркетинговых исследований и прочее. 4. Проведение собственных маркетинговых исследований и аналогичных мероприятий по сбору данных. Это может быть достаточно дорогостоящим мероприятием, но, в любом случае, такой вариант сбора данных возможен. 5. Ввод данных «вручную», когда данные заносятся по различного рода экспертным оценкам сотрудниками организации. Этот наиболее трудоемкий метод. Стоимость сбора информации различными методами существенно отличается по цене и необходимому для этого времени, поэтому нужно соизмерять затраты с результатами. Возможно, от сбора некоторых данных придется отказаться, но факторы, которые эксперты оценили как наиболее значимые следует собрать обязательно, несмотря на стоимость этих работ, либо вообще отказаться от анализа. Модель, не учитывающая значимые факторы, не представляет практической ценности.
Собранные данные нужно преобразовать к единому формату, например, Excel, текстовой файл с разделителями, либо любая СУБД. Данные обязательно должны быть унифицированы, т.е. одна и та же информация везде должна описываться одинаково. Обычно проблемы с унификацией возникают при сборе информации из разнородных источников. В этом случае унификация является серьезной задачей. Очень часто в аналитических приложениях сосредотачивают усилия на механизмах анализа данных, не уделяя должного внимания задачам предобработки и очистки данных. Хотя именно плохое качество исходных данных является одной из самых серьезных и распространенных проблем. Очевидно, что некорректные исходные данные приводят к некорректным выводам. А в связи с тем, что в большинстве случаев источником информации для аналитических систем является хранилище данных, в котором аккумулируются сведения из множества разнородных источников, острота проблемы существенно возрастает. Для анализируемых процессов различной природы данные должны быть подготовлены специальным образом. Остановимся подробнее на двух типах данных: упорядоченных и неупорядоченных.
Читайте также: Воспользуйтесь поиском по сайту: ©2015 - 2025 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|