Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Эмпирическая функция распределения, гистограмма

 

Поскольку неизвестное распределение можно описать, например, его функцией распределения , построим по выборке «оценку» для этой функции.

Определение 1.

Эмпирической функцией распределения, построенной по выборке объема , называется случайная функция , при каждом равная

 

 

Напоминание: Случайная функция

 

 

называется индикатором события . При каждом это — случайная величина, имеющая распределение Бернулли с параметром . почему?

Иначе говоря, при любом значение , равное истинной вероятности случайной величине быть меньше , оценивается долей элементов выборки, меньших .

Если элементы выборки , , упорядочить по возрастанию (на каждом элементарном исходе), получится новый набор случайных величин, называемый вариационным рядом:

 

 

Здесь

 

Элемент , , называется -м членом вариационного ряда или -й порядковой статистикой.

Пример 1.

Выборка:

Вариационный ряд:

 

Рис. 1. Пример 1

 

Эмпирическая функция распределения имеет скачки в точках выборки, величина скачка в точке равна , где — количество элементов выборки, совпадающих с .

Можно построить эмпирическую функцию распределения по вариационному ряду:

 

 

Другой характеристикой распределения является таблица (для дискретных распределений) или плотность (для абсолютно непрерывных). Эмпирическим, или выборочным аналогом таблицы или плотности является так называемая гистограмма.

Гистограмма строится по группированным данным. Предполагаемую область значений случайной величины (или область выборочных данных) делят независимо от выборки на некоторое количество интервалов (не обязательно одинаковых). Пусть , , — интервалы на прямой, называемые интервалами группировки. Обозначим для через число элементов выборки, попавших в интервал :

 

 (1)

 

На каждом из интервалов строят прямоугольник, площадь которого пропорциональна . Общая площадь всех прямоугольников должна равняться единице. Пусть — длина интервала . Высота прямоугольника над равна

 

 

Полученная фигура называется гистограммой.

Пример 2.

Имеется вариационный ряд (см. пример 1):

 

 

Разобьем отрезок на 4 равных отрезка. В отрезок попали 4 элемента выборки, в — 6, в — 3, и в отрезок попали 2 элемента выборки. Строим гистограмму (рис. 2). На рис. 3 — тоже гистограмма для той же выборки, но при разбиении области на 5 равных отрезков.

 

Рис. 2. Пример 2   Рис. 3. Пример 2

 

 

Замечание 1.

В курсе «Эконометрика» утверждается, что наилучшим числом интервалов группировки («формула Стерджесса») является .

Здесь — десятичный логарифм, поэтому , т.е. при увеличении выборки вдвое число интервалов группировки увеличивается на 1. Заметим, что чем больше интервалов группировки, тем лучше. Но, если брать число интервалов, скажем, порядка , то с ростом гистограмма не будет приближаться к плотности.

Справедливо следующее утверждение:

Если плотность распределения элементов выборки является непрерывной функцией, то при так, что , имеет место поточечная сходимость по вероятности гистограммы к плотности.

Так что выбор логарифма разумен, но не является единственно возможным.


Заключение

 

Математическая (или теоретическая) статистика опирается на методы и понятия теории вероятностей, но решает в каком-то смысле обратные задачи.

Если мы наблюдаем одновременно проявление двух (или более) признаков, т.е. имеем набор значений нескольких случайных величин — что можно сказать об их зависимости? Есть она или нет? А если есть, то какова эта зависимость?

Часто бывает возможно высказать некие предположения о распределении, спрятанном в «черном ящике», или о его свойствах. В этом случае по опытным данным требуется подтвердить или опровергнуть эти предположения («гипотезы»). При этом надо помнить, что ответ «да» или «нет» может быть дан лишь с определенной степенью достоверности, и чем дольше мы можем продолжать эксперимент, тем точнее могут быть выводы. Наиболее благоприятной для исследования оказывается ситуация, когда можно уверенно утверждать о некоторых свойствах наблюдаемого эксперимента — например, о наличии функциональной зависимости между наблюдаемыми величинами, о нормальности распределения, о его симметричности, о наличии у распределения плотности или о его дискретном характере, и т.д.

Итак, о (математической) статистике имеет смысл вспоминать, если

· имеется случайный эксперимент, свойства которого частично или полностью неизвестны,

· мы умеем воспроизводить этот эксперимент в одних и тех же условиях некоторое (а лучше — какое угодно) число раз.


Список литературы

 

1. Баумоль У. Экономическая теория и исследование операций. – М.; Наука, 1999.

2. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1995.

3. Боровков А.А. Математическая статистика. М.: Наука, 1994.

4. Корн Г., Корн Т. Справочник по математике для научных работников и инженеров. - СПБ: Издательство «Лань», 2003.

5. Коршунов Д.А., Чернова Н.И. Сборник задач и упражнений по математической статистике. Новосибирск: Изд-во Института математики им. С.Л.Соболева СО РАН, 2001.

6. Пехелецкий И.Д. Математика: учебник для студентов. - М.: Академия, 2003.

7. Суходольский В.Г. Лекции по высшей математике для гуманитариев. - СПБ Издательство Санкт-петербургского государственного университета. 2003

8. Феллер В. Введение в теорию вероятностей и ее приложения. - М.: Мир, Т.2, 1984.

9. Харман Г., Современный факторный анализ. — М.: Статистика, 1972.


[1] Харман Г., Современный факторный анализ. — М.: Статистика, 1972.

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...