Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Пример анализа данных с использованием MS Excel




Цель работы

Ознакомиться с основными статистическими понятиями. Получить практические навыки по анализу данных с использованием Minitab for Windows и MS Excel.

 

Теоретическая часть

Общие понятия о средней

Большое распространение в статистике имеют средние величины. Средние величины характеризуют качественные показатели коммерческой деятельности: издержки обращения, прибыль, рентабельность и др.

Средняя - это один из распространенных приемов обобщений. Правильное понимание сущности средней определяет ее особую значимость в условиях рыночной экономики, когда средняя через единичное и случайное позволяет выявить общее и необходимое, выявить тенденцию закономерностей экономического развития.

Средняя величина - это обобщающий показатель, в котором находят выражение действия общих условий, закономерностей изучаемого явления.

Статистические средние рассчитываются на основе массовых данных правильно статистически организованного массового наблюдения (сплошного и выборочного). Однако статистическая средняя будет объективна и типична, если она рассчитывается по массовым данным для качественно однородной совокупности (массовых явлений).

При помощи средней происходит как бы сглаживание различий в величине признака, которые возникают по тем или иным причинам у отдельных единиц наблюдения.

Средняя величина является отражением значений изучаемого признака, следовательно, измеряется в той же размерности, что и этот признак.

Каждая средняя величина характеризует изучаемую совокупность по какому-либо одному признаку. Чтобы получить полное и всестороннее представление об изучаемой совокупности по ряду существенных признаков, в целом необходимо располагать системой средних величин, которые могут описать явление с разных сторон.

Существуют различные средние: средняя арифметическая; средняя геометрическая; средняя гармоническая; средняя квадратическая; средняя хронологическая.

Средняя арифметическая простая равна сумме отдельных значений признака, деленной на число этих значений.

Отдельные значения признака называют вариантами и обозначают через х (); число единиц совокупности обозначают через n, среднее значение признака - через . Следовательно, средняя арифметическая простая равна:

По данным дискретного ряда распределения видно, что одни и те же значения признака (варианты) повторяются несколько раз. Число одинаковых значений признака в рядах распределения называется частотой или весом и обозначается символом n.

 

 

Полученная формула называется средней арифметической взвешенной.

Статистический материал в результате обработки может быть представлен не только в виде дискретных рядов распределения, но и в виде интервальных вариационных рядов с закрытыми или открытыми интервалами.

Исчисление средней (математического ожидания) по сгруппированным данным производится по формуле:

 

 

где - математическое ожидание;

х – значение величины Х;

р(х) – вероятность.

Средняя арифметическая обладает рядом свойств:

1 От уменьшения или увеличения частот каждого значения признака х в n раз величина средней арифметической не изменится.

2 Общий множитель индивидуальных значений признака может быть вынесен за знак средней:

3 Средняя суммы (разности) двух или нескольких величин равна сумме (разности) их средних:

4 Если х = с, где с - постоянная величина, то .

5 Сумма отклонений значений признака Х от средней арифметической х равна нулю.

 

Мода и медиана

Характеристиками вариационных рядов, наряду со средними, являются мода и медиана.

Мода - это величина признака (варианта), наиболее часто повторяющаяся в изучаемой совокупности. Для дискретных рядов распределения модой будет значение варианта с наибольшей частотой.

Для интервальных рядов распределения с равными интервалами мода определяется по формуле:

 

где - начальное значение интервала, содержащего моду;

- величина модального интервала;

- частота модального интервала;

- частота интервала, предшествующего модальному;

- частота интервала, следующего за модальным.

Медиана - это вариант, расположенный в середине вариационного ряда. Если ряд распределения дискретный и имеет нечетное число членов, то медианой будет варианта, находящаяся в середине упорядоченного ряда (упорядоченный ряд - это расположение единиц совокупности в возрастающем или убывающем порядке).

 

Показатели вариации

Различие индивидуальных значений признака внутри изучаемой совокупности в статистике называется вариацией признака.

Она возникает в результате того, что его индивидуальные значения складываются под совокупным влиянием разнообразных факторов, которые по-разному сочетаются в каждом отдельном случае.

Средняя величина — это абстрактная, обобщающая характеристика признака изучаемой совокупности, но она не показывает строения совокупности, которое весьма существенно для ее познания. Средняя величина не дает представления о том, как отдельные значения изучаемого признака группируются вокруг средней, сосредоточены ли они вблизи или значительно отклоняются от нее. В некоторых случаях отдельные значения признака близко примыкают к средней арифметической и мало от нее отличаются. В таких случаях средняя хорошо представляет всю совокупность. В других, наоборот, отдельные значения совокупности далеко отстают от средней, и средняя плохо представляет всю совокупность.

Колеблемость отдельных значений характеризуют показатели вариации.

Термин "вариация" произошел от латинского variatio –“изменение, колеблемость, различие”. Однако не всякие различия принято называть вариацией. Под вариацией в статистике понимают такие количественные изменения величины исследуемого признака в пределах однородной совокупности, которые обусловлены перекрещивающимся влиянием действия различных факторов. Различают вариацию признака: случайную и систематическую.

Анализ систематической вариации позволяет оценить степень зависимости изменений в изучаемом признаке от определяющих ее факторов. Например, изучая силу и характер вариации в выделяемой совокупности, можно оценить, насколько однородной является данная совокупность в количественном, а иногда и качественном отношении, а следовательно, насколько характерной является исчисленная средняя величина. Степень близости данных отдельных единиц хi к средней измеряется рядом абсолютных, средних и относительных показателей.

Для характеристики колеблемости признака используется ряд показателей. Наиболее простой из них - размах вариации.

Размах вариации - это разность между наибольшим () и наименьшим () значениями вариантов.

 

 

Чтобы дать обобщающую характеристику распределению отклонений, исчисляют среднее линейное отклонение d, которое учитывает различие всех единиц изучаемой совокупности.

Среднее линейное отклонение определяется как средняя арифметическая из отклонений индивидуальных значений от средней, без учета знака этих отклонений:

 

.

 

Если данные наблюдения представлены в виде дискретного ряда распределения с частотами, среднее линейное отклонение исчисляется по формуле средней арифметической взвешенной:

 

 

Основными обобщающими показателями вариации в статистике являются дисперсии и среднее квадратическое отклонение.

Дисперсия - это средняя арифметическая квадратов отклонений каждого значения признака от общей средней. Дисперсия обычно называется средним квадратом отклонений и обозначается . В зависимости от исходных данных дисперсия может вычисляться по средней арифметической простой или взвешенной:

— дисперсия простая;

— дисперсия взвешенная.

Среднее квадратическое отклонение представляет собой корень квадратный из дисперсии и обозначается S:

— среднеквадратическое отклонение простое;

— среднеквадратическое отклонение взвешенное.

Среднеквадратическое отклонение - это обобщающая характеристика абсолютных размеров вариации признака в совокупности. Выражается оно в тех же единицах измерения, что и признак (в метрах, тоннах, процентах, гектарах и т.д.).

Среднее квадратическое отклонение является мерилом надежности средней. Чем меньше среднее квадратическое отклонение, тем лучше средняя арифметическая отражает собой всю представляемую совокупность.

Вычислению среднего квадратического отклонения предшествует расчет дисперсии.

Свойства дисперсии.

1 Уменьшение или увеличение весов (частот) варьирующего признака в определенное число раз дисперсии не изменяет.

2 Уменьшение или увеличение каждого значения признака на одну и ту же постоянную величину А дисперсии не изменяет.

3 Уменьшение или увеличение каждого значения признака в какое-то число раз к соответственно уменьшает или увеличивает дисперсию в раз, а среднее квадратическое отклонение - в к раз.

4 Дисперсия признака относительно произвольной величины всегда больше дисперсии относительно средней арифметической на квадрат разности между средней и произвольной величиной: . Если А равна нулю, то приходим к следующему равенству: , т.е. дисперсия признака равна разности между средним квадратом значений признака и квадратом средней.

Каждое свойство при расчете дисперсии может быть применено самостоятельно или в сочетании с другими.

Для характеристики меры колеблемости изучаемого признака исчисляются показатели колеблемости в относительных величинах. Они позволяют сравнивать характер рассеивания в различных распределениях (различные единицы наблюдения одного и того же признака в двух совокупностях, при различных значениях средних, при сравнении разноименных совокупностей). Расчет показателей меры относительного рассеивания осуществляют как отношение абсолютного показателя рассеивания к средней арифметической, умножаемое на 100%.

1 Коэффициент осцилляции отражает относительную колеблемость крайних значений признака вокруг средней.

 

 

2 Относительное линейное отклонение характеризует долю усредненного значения абсолютных отклонений от средней величины.

 

 

3 Коэффициент вариации.

 

Учитывая, что среднеквадратическое отклонение дает обобщающую характеристику колеблемости всех вариантов совокупности, коэффициент вариации является наиболее распространенным показателем колеблемости, используемым для оценки типичности средних величин. При этом исходят из того, что если V больше 40 %, то это говорит о большой колеблемости признака в изучаемой совокупности.

 

Практическая часть

Постановка задачи

Провести анализ данных о ежемесячной норме прибыли по каталогу «Standart and poors 500» (табл. 1). Сгруппировать данные и провести их анализ. Построить графики и диаграммы. Сделать выводы.

 

Таблица 1 - Ежемесячная норма прибыли по каталогу «Standart and poors 500»

  2004 г. 2005 г. 2006 г. 2007 г.
январь 3,20 4,87 4,13 4,07
февраль 4,10 3,24 2,65 5,51
март 3,39 3,36 2,70 2,50
апрель 3,79 4,89 3,03 3,75
май 3,12 3,45 4,80 3,79
июнь 4,23 3,70 3,69 4,91
июль 3,78 5,47 3,82 4,39
август 3,94 3,94 4,91 3,85
сентябрь 3,90 3,65 5,25 3,73
октябрь 2,86 2,55 3,67 2,98
ноябрь 3,71 3,64 4,82 4,49
декабрь 3,26 2,42 3,75 5,58

 

Пример анализа данных с использованием MS Excel

1 Ввести данные в MS Excel

2 Определить среднее значение нормы прибыли, для чего в MS Excel воспользоваться функцией СРЗНАЧ В результате будет получено значение средней нормы прибыли (3,86)

3 Определить моду совокупности используя функцию МОДА и медиану с помощью функции МЕДИАНА. По представленным данным мода 3,79, медиана - 3,77.

4 Определить размах вариации используя функции МАКС и МИН. В результате размах данных равен 3,16.

5 Определить среднее линейное отклонение используя функцию СРОТКЛ. Среднее отклонение 0.62.

6 Определить дисперсию и среднее квадратическое отклонение, используя функции ДИСП и СТЕПЕНЬ. В результате дисперсия равна 0,656, среднеквадратическое отклонение – 0,81.

7 Определить коэффициент осцилляции, относительное линейное отклонение и коэффициент вариации используя формулы, представленные в п.2.3.

- коэффициент осцилляции 81,89%;

- относительное линейное отклонение – 16,07%

- коэффициент вариации – 20,99%

8 Построить графики нормы прибыли во времени и точечную диаграмму воспользовавшись Мастером диаграмм MS Excel (рис. 1-2)

Рис.1. Изменение нормы прибыли во времени

Рис.2. Изменение нормы прибыли во времени

 

9 Построить интервальный ряд по исходным данным (таб.1), для этого воспользуемся формулой Сначала определяем длину интервала по формуле:

L = (хmax – xmin)/k,

где k – число выделенных интервалов (5).

L = 0,63

Тогда интервалы:

2,42-3,05; 3,05-3,68; 3,68-4,31; 4,31-4,94; 4,94-5,58

 

Построим таблицу распределения используя функцию MS Excel СЧЕТЕСЛИ

 

Таблица 2. Интервальный ряд

Интервал Середина интервала Частота
2,42-3,05 2,65  
3,05-3,68 3,3  
3,68-4,31 3,95  
4,31-4,94 4,6  
4,94-5,58 5,25  
Итого    

 

10 По полученным данным построить гистаграмму распределения (рис. 3).

Рис. 3. Гистограмма распределения для нормы прибыли

 

9 Для проверки: выбрать пункт меню СервисàАнализ данныхàОписательная статистика, где ввести исходный диапазон

8 Сделать выводы

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...