Предварительный анализ данных.
Известно значений случайной величины Х – , , … . Для удобства последующего анализа эти значения обычно сортируют по возрастающей, в электронных таблицах эта операция выполняется практически мгновенно. В случае если выборка большая, а случайная величина дискретная, то в выборке может оказаться большое число повторяющихся значений, и в этом случае выборку удобнее представить в виде двух рядов чисел: и где: – значения случайной величины; – число повторений каждого i-го значения. Второй вариант представления выборки дискретной случайной величины – рассчитать вероятность появления i-го значения случайной величины по формуле: и представить выборку в виде , . Основной частью предварительного анализа данных является построение гистограммы случайной величины по данным выборки. Гистограмма – это столбчатая диаграмма по горизонтальной оси которой нанесены обычно равномерные интервалы случайной величины, а по вертикальной – число попаданий случайной величины в эти интервалы. В случае если полученная гистограмма имеет более одной вершины (рис 5, а), то это является сигналом того, что исходные данные представляют собой выборку не одной случайной величины, а являются суммой двух выборок двух разных случайных величин. Например, вместо перекрестных данных одного и того же класса имеются данные об объектах принадлежащих двум разным классам, или данные о состоянии объекта прогнозирования в прошлом относятся к двум его разным состояниям – до каких либо структурных изменений и после этих изменений. Во всех подобных случаях в прогнозирование будет введена существенная ошибка, поскольку объект принадлежит к какому-то одному классу или находится в конкретном состоянии (после изменения) а не оба (до и после изменения). По этому при наличии у гистограммы более одной вершины исходные данные должны быть тщательно проанализированы на предмет удаления из них данных, не имеющих отношения к объекту прогнозирования.
Заслуживают тщательного внимания и выбросы на гистограмме (рис5, б), особенно если эти выбросы расположены на некотором расстоянии от основной фигуры гистограммы. Данные соответствующие выбросам полезно детально изучить так как они обычно сигнализируют о наличии сбоев в изучаемом процессе или иных отклонений от обычного хода дел, включая случаи злоупотреблений, воровства и т.д. И наконец, внешний вид гистограммы позволяет приближенно судить о характере распределения случайной величины. В случае если гистограмма напоминает симметричную одновершинную фигуру, то дальнейшая работа по прогнозированию может быть выполнена в предположении, что случайная величина имеет нормальное распределение работы с которым наиболее проста в виду хорошей теоретической изученности этого распределения и разнообразности разработанных для него приемов и методов обработки. В случае если это не так (рис 5, в), то необходимо воспользоваться каким либо другим специальным распределением, что обычно усложняет задачу анализа. Рис 5. Гистограммы случайных величин.
Следует отметить, что визуальный анализ исходных данных по внешнему виду гистограммы является приближенным, так как, во-первых, внешний вид гистограммы может существенно изменяться при изменении числа интервалов на гистограмме, во-вторых, отсутствуют числовые критерии для диагностики того или иного предположения. Существуют более надежные статистические методы проверки обсуждавшихся выше предположений, но они требуют больших (обычно более 50 – 100 точек) выборок, что редко встречается в практике прогнозирования и специальных методов обработки. Визуальный анализ позволяет с минимальными затратами или получить результат или выявить те случаи когда требуются специальная статистическая обработка. По этому с учетом простоты построения гистограмм в электронных таблицах, следует считать, что он обязателен при построении прогноза.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|