Главная | Обратная связь | Поможем написать вашу работу!

А) Сначала надо определиться с числом групп.

(При чрезмерно широких интервалах группировки нельзя получить детальной картины распределения, поэтому возникает опасность упустить важные закономерные подробности формы распределения, а при группировке со слишком малым шагом каждый элемент приобретает чрезмерное большой вклад в поведение или свойства группы.)

· В случае многомерных выборок для разбиения на группы (кластеры), если неизвестно по какому принципу наилучшим образом разбить данные на группы - могут использоваться методы кластерного анализа (метод K-средних, EM-алгоритм, агломеративная (иерархическая или дивизионная) кластеризация и деревья классификации, DBSCAN-алгоритм, классифицирующие предварительно обученные нейросети). Некоторые из этих методов (например, деревья классификации) могут дать и оптимальное количество групп разбиения, если нужное число групп заранее неизвестно.

· Если выборки одномерная, и признак классификации известен, определяют оптимальное число групп исходя из целей или по правилу Стерджеса и т.п. Оптимальное число интервалов k исходя только из объема выборки n определяется одним из следующих способов:

1) по формуле Стерджеса:

2) либо по таблице:

Размер выборки, n	Рекомендуемое число интервалов группировки, k
25—40	5—6
40—60	6—8
60—100	7—10
100—200	8—12
Больше 200	10—15

Обычно интервалы классификации берут с одинаковым шагом по формуле: , где h – ширина интервалов, x_макс и х_мин — максимальное и минимальное значение элемента выборки по таблице исходных данных (предварительно удобно упорядочить данные по возрастанию).

Длина интервалов: может оказаться дробным числом. Правила округления h:

ü Если интервал имеет один знак ДО запятой, то полученное значение округляется до десятых (0,88 = 0,9; 8,715 = 8,7)

ü Если величина интервала имеет два знака ДО запятой, то полученное значение округляется до целых (11,11 = 11; 29,98 = 30)

ü Если h получилось трех- и более- значным числом, то интервал принимают кратным 50 или 100

Размечаем границы групп (границы интервалов группировки), начиная с 1-го по принципу: н ижняя граница первого интервала выбирается так, чтобы минимум выборки приходился на середину первого интервала группировки: _.( для нижней границу X_Н_i первого интервала_).

Далее к этой величине прибавляем h, 2h, 3h, …, kh – и получаем НГ всех интервалов (групп).

Б) Распределяем исходные элементы выборки по группам, - кто куда попадает. Если какой то из элементов выборки попадает точно на границу интервалов группировки, экспериментатор решает, к какой группе отнести такие пограничные значения.

После того, как все элементы выборки разбиты на группы, начинается анализ групповых статистических величин, чтобы от исходной выборки составить новую выборку, состоящую из усредненных значений каждой группы:

- считаем середину каждого i-го интервала:

- Считаем частот ы n_i каждой группы – количество элементов выборки, попавших в каждую из групп. Сумма n_i по всем группам должна совпасть с размером исходной выборки n.

- Вычисляем накопленн ые частот ы n_xi для каждой из групп. Это число, полученное последовательным суммированием частот в направлении от первого интервала до последнего.

- Вычисляем относительную частоту f_iкаждой группы (отношение частоты группы к объему выборки). f_i показывают долю (удельный вес) каждой группы в выборке.

- Вычисляем накопленн ые относительные частост и F_i, по формуле _.Сумма всех частостей всегда равна 1.

Заносим для каждой из k групп полученные статистические характеристики в таблицу – Это будет новый сгруппированный ряд данных:

Номер интервала

№ п/п	Среднедушевой денежный доход, тыс. руб. в месяц	Численность населения
		всего, млн. человек	в % к итогу
1. 2. 3. 4. 5. 6. 7. 8.	До 3000 3000–6000 6000–9000 … … … … 45000 и более	3,4 22,4 34,5 28,7 21,6 12,6 9,8 15,4	2,3 15,2 23,3 19,4 14,6 8,3 6,6 10,3