Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Гистограммы и столбиковые диаграммы




Гистограммы: распределение данных

 

Гистограмма — это графическое изображение данных, которое дает визуальное представление многих основных свойств набора данных в целом и позволяет ответить на следующие вопросы:

Первый. Какие значения типичны для этого набора данных?

Второй. Как различаются между собой значения?

Третий. Сконцентрированы ли данные вокруг некоторого типичного значения?

Четвертый. Какой характер имеет эта концентрация данных? В частности, одинаков ли характер «затухания» для малых и больших значений данных?

Пятый. Есть ли в этом наборе такие значения, которые настолько сильно отличаются от остальных, что требуют специальной обработки?

Шестой. Можно ли сказать, что это в целом однородный набор или отчетливо наблюдается наличие групп, которые необходимо анализировать отдельно?

Многие стандартные методы статистического анализа требуют, чтобы набор данных был приблизительно нормально распределенным. Вы узнаете, как распознать эту, похожую на колокол, форму и как преобразовать данные, если они не удовлетворяют этому требованию.

Набор данных

Набор данных простейшего вида - это последовательность чисел, представляющих некоторое свойство (единственная статистическая переменная), измеренное для каждого из рассматриваемых объектов (для каждой элементарной единицы). Последовательность чисел можно представить в нескольких, на первый взгляд сильно различающихся формах. Помочь отличить результаты измерений (значения) от частот может ответ на вопрос: “Что представляют собой элементарные единицы, для которых проводились измерения?”

Пример. Размер домохозяйства.

Размер домохозяйства, (кол-во чел.) Число домохозяйств, (частота)
   
  Итого 2071

 

Гистограмма демонстрирует частоты в виде диаграммы из столбиков, которые расположены над числовой осью и показывают, насколько часто различные значения встречаются в наборе данных. По горизонтальной оси откладывают измеренные значения из набора данных (выраженные в долларах, количестве людей, милях на галлон и других единицах измерения), по вертикальной - частоту встречаемости этих значений. Высоты прямоугольников соответствуют частотам значений, самый высокий столбик соответствует наиболее часто встречающемуся значению из набора данных, а самый низкий - значению, которое встречается реже всех.

 

Пример. Процентные ставки ссуды под залог недвижимости

Кредитор Процентная ставка
. . . 7,000 6,875 6,875 6,750 6,875 7,250 6,875 7,000 6,875 7,000 7,250 7,000 . . . 6,250 5,875 7,000

Теперь опишем общий подход к интерпретации гистограмм и одновременно выясним, что говорит нам о рассматриваемых процентных ставках этот конкретный график.

Числа на горизонтальной оси в нижней части рисунка указывают на значения процентных ставок, выраженные в процентах. Числа на вертикальной оси показывают частоту встречаемости каждой процентной ставки.

Таким образом, вы имеете графическое изображение характера изменения процентных ставок, которое показывает, какие значения встречаются наиболее часто, какие - наименее часто, а какие ставки вообще не предлагаются.

Что можно узнать о процентных ставках из этой гистограммы?

1. Размах (диапазон) значений: Размах процентных ставок составляет больше одной процентной единицы от наименьшего значения (около 5,8%) до наибольшего значения (около 7,3%) — это соответственно левая и правая границы гистограммы.

2. Типичные значения. Ставки размером от 6,8% до 7,1% встречаются чаще всего (обратите внимание, на высокие столбики в этой части диаграммы).

3. Рассеяние. Типичная разница ставок для различных финансовых организаций составляет приблизительно 0,5% (умеренно высокие столбики отстоят друг от друга по горизонтальной оси приблизительно на 0,5 процентных единиц).

4. Общая конфигурация данных. Большинство организаций сосредоточены правее середины диапазона (здесь самые высокие столбики), и немного организаций предлагают либо очень низкие, либо очень высокие ставки (короткие столбики справа и слева).

5. Характерные особенности. Вероятно, вы заметили, что на гистограмме в. этом примере пропущена область от 6,1 до 6,3. По-видимому, ни одна компания не предлагает ставку в этом интервале. Это обусловлено тем, что, как правило, указывают ставки, кратные 1/8 процента (например, 6,5%; 6,625%; 6,75%; 6,875% и 7%).

 

Гистограммы и столбиковые диаграммы

 

Гистограммаэто столбиковая диаграмма частот, а не данных. Высота каждого столбика на гистограмме показывает, как часто указанное на горизонтальной оси значение встречается в наборе данных. Это дает визуальное представление о местах повышенной и пониженной концентрации данных. Каждый столбик на гистограмме может представлять много значений данных (фактически высота столбика точно отражает количество значений набора данных, которые принадлежат соответствующему диапазону). Это отличает гистограмму от столбиковой диаграммы фактических значений данных, где каждому определенному значению соответствует свой столбик. Также обратите внимание, что у гистограммы числа на горизонтальной оси всегда имеют содержательную интерпретацию, а у столбиковой диаграммы - не обязательно.

Рассмотрим размер типичной начальной заработной платы в разных областях промышленности выпускников Южно-Калифорнийского университета (USC), получивших 1996 году степень магистра управления бизнесом (MBA). Соответствующие данные приведены в табл.

 

 

Отрасль Заработная плата, дол.
Аэрокосмическая Автомобильная Банковское дело Компьютеры Консультации Потребительские товары Электроника Энергетика Индустрия развлечений Финансовые услуги Инвестиции Недвижимость Розничная торговля  

 

 

 

 

 

Сравните гистограмму значений данных и столбиковую диаграмму. Обратите внимание, что столбики на гистограмме показывают количество отраслей в каждом из диапазонов заработной платы, а столбики на столбиковой диаграмме - фактическое значение заработной платы в конкретной отрасли.

ВНИМАНИЕ!

При ручном построении гистограмм вначале определяют величину интервала по формуле

i = R/m,

где R – размах колебания (варьирования) признака, R = xmax – xmin, xmax, xmin, - соответственно, максимальное и минимальное значения признака в совокупности, m - число групп.

Число групп приближенно определяется по формуле Стерджесса

m = 1 + 3,322 lg n,

где n - общее число единиц совокупности. Полученную по этой формуле величину округляют до целого большего числа.

Пример. Урожайность в районе.

Урожайность, ц/га Интервал, ц/га Число хозяйств (частота)
  10-15 15-20 20-25 25-30 30-35 35-40 40-45 45-50 50-55  

 

 

 

 

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...