Теория вероятностей и математическая статистика – основной инструментарий для прикладной статистики
Стр 1 из 6Следующая ⇒ Математическая статистика Случайная величина – переменная величина, принимающая одно из возможных значений в зависимости от случайных обстоятельств. Случайная величина считается полностью заданной своим распределением, если указан закон, по которому можно вычислить вероятность попадания случайной величины в любое подмножество ее возможных значений. Распределение вероятностей – совокупность всех возможных значений случайной величины и соответствующих им вероятностей. Случайная величина называется дискретной, если она принимает конечное или счетной число значений. Дискретная величина задается с помощью ряда распределения – функции, ставящей в соответствие каждому возможному значению случайной величины определенную вероятность. Таким образом, ряд распределения - это конечное или счетное множество пар элементов:
Так как случайная величина Х примет обязательно какое-нибудь из своих значений Обычно ряд распределения удобно изображать в виде таблицы, где в верхней строке указаны возможные значения Х= Полигоном (многоугольником) распределения называется графическое изображение ряда распределения. Для того чтобы построить полигон распределения необходимо отложить возможные значения случайной величины Множество значений непрерывной случайной величины несчетно и обычно представляет собой некоторый промежуток, конечный или бесконечный. Непрерывная величина принимает возможные значения, заполняющие сплошь заданный интервал, причем для любого х из этого интервала существует предел:
Функция
Плотность распределения обладает следующими свойствами: 1) 2) Для любых 3) Интеграл по всей числовой прямой от плотности распределения вероятностей равен 1, т.е. 4) Вероятность того, что непрерывная случайная величина примет конкретное значение, равна 0, т.е. График плотности распределения носит название кривой распределения. Функцией распределения F(x) случайной величины Х, принимающей любое действительное значение x, называется вероятность того, что случайная величина Х приимет значение меньшее чем х, то есть Для дискретной случайной величины функция F(x) вычисляется по формуле:
где суммирование осуществляется по всем значениям i, для которых Для непрерывной случайной величины интегральный закон выражается формулой: Функцией распределения F(x) обладает следующими свойствами: 1) 2) 3) 4) 5) График функции распределения F(x) для непрерывных случайных величин называется интегральной кривой распределения. Числовые характеристики случайных величин. Функция распределения дает полную информацию о законе распределения случайной величины. Однако часто бывает достаточно знать одну или несколько числовых характеристик случайной величины, дающих наглядное представление о ней, например, некоторое «среднее» число, вокруг которого группируются значения случайной величины (центр группирования распределения), и ту или иную характеристику вариации значений случайной величины (степень рассеивания ее значений).
Основной характеристикой центра группирования случайной величины в генеральной совокупности является ее математическое ожидание. Выборочным аналогом математического ожидания является среднее значение Математическое ожидание М(х) дискретной случайной величины определяется по формуле: Если случайная величина Х непрерывна и
в тех случаях, когда существует интеграл Приведем без доказательств основные свойства математического ожидания. 1. Математическое ожидание постоянной равно этой постоянной, т.е. если с – постоянная, то М(Х)=с. 2. Постоянную величину можно выносить за знак математического ожидания, т.е. если Х – случайная величина, а с – постоянная, то М(сХ)=с*М(Х). 3. Математическое ожидание суммы случайных величин равно сумме математических ожиданий этих случайных величин, т.е. если определены МХ и МY, то определено математическое ожидание М(Х+Y), причем М(Х+Y)= МХ+ МY. Это свойство верно как для зависимых, так и независимых случайных величин. 4. Математическое ожидание произведения независимых случайных величин равно произведению математических ожиданий этих случайных величин, т.е. если Х и Y – независимые случайные величины, то М(ХY)= МХ* МY. Модальное значение (или просто мода) Мо случайной величины определяется как такое возможное значение исследуемого признака, при котором значение плотности вероятности Медиана Ме исследуемого признака определяется как его средневероятное значение, т.е. такое значение, которое обладает следующим свойством: вероятность того, что случайная величина окажется больше Ме, равна вероятности того, что она окажется меньше. Для обладающих непрерывной плотностью случайных величин выполняется условие:
и медиану можно определить как такое значение
Характеристики вариации уточняют представление о распределении вероятностей случайной величины. Они дают представление о степени рассеивания случайной величины относительно центра группирования. Наиболее часто используемыми характеристиками вариации являются дисперсия случайной величины и ее среднеквадратическое отклонение. Дисперсией случайной величины Х называется число DX, равное математическому ожиданию квадрата отклонения случайной величины от своего математического ожидания: Если известен закон распределения случайной величины Х, то для дискретной и непрерывной случайных величин дисперсию можно вычислить соответственно по формулам:
где В качестве меры рассеивания случайной величины наряду с дисперсией используют среднеквадратическое отклонение Среднеквадратическое отклонение случайной величины выражается в тех же единицах, что и сама случайная величина и ее математическое ожидание. Приведем без доказательств основные свойства дисперсии. Свойства среднеквадратического отклонения непосредственно вытекают из соответствующих свойств дисперсии. 1) Дисперсия постоянной с равна нулю: D(c)=0. 2) Дисперсия произведения случайной величины Х на постоянную с равна произведению дисперсии случайной величины Х на квадрат постоянной: 3) Если случайные величины X и Y независимы, то дисперсия их суммы равна сумме их дисперсий: 4) Дисперсия случайной величины Х не изменится, если к ней прибавить постоянную с, т.е. Моменты случайной величины обобщают понятия математического ожидания и дисперсии.
Моментом k – порядка называется математическое ожидание k –й степени отклонения случайной величины Х от некоторой постоянной с. Если в качестве с берется нуль, моменты называют начальными, то есть
Если с=М(Х), то моменты называются центральными, то есть
Таким образом, математическое ожидание – ни что иное, как первый начальный момент, а дисперсия – второй центральный момент. Существует формула, связывающая центральные моменты с начальными:
Для первых четырех моментов эта формула дает следующие равенства:
Формула В теории и практических приложениях используют две числовые характеристики случайной величины, основанные на центральных моментах третьего и четвертого порядков соответственно – коэффициент асимметрии Коэффициентом асимметрии случайной величины Х называется число, равное отношению третьего центрального момента к кубу среднеквадратического отклонения случайной величины Х: Коэффициент асимметрии случайной величины, закон распределения которой симметричен относительно математического ожидания, равен нулю, поскольку в этом случае Вкачестве характеристики большей или меньшей степени «сглаженности» плотности или многоугольника распределения по сравнению с нормальной плотностью используют понятие эксцесса. Эксцессом случайной величины Х называется число, равное разности отношения четвертого центрального момента к четвертой степени среднеквадратического отклонения случайной величины и числа 3:
Эксцесс нормального закона распределения вероятностей равен нулю. Если распределение вероятностей случайной величины Х одномодально и плотность распределения В математической статистике широко используются понятия q-квантилей Квантилью уровня q (или q-квантилью) непрерывной случайной величины Х,обладающей непрерывной функцией распределения F(x), называется такое возможное значение
Очевидно, чем больше заданное значение q (0< q<1), тем больше будет и соответствующая величина квантили Для дискретной случайной величины функция q -квантиль определяется как любое число Под Q-процентной точкой (0< Q <100) случайной величины Х понимается такое ее возможное значение
Для дискретной случайной величины это определение корректируется аналогично тому, как это делалось при определении квантилей. Между квантилями и процентами точками существует следующее соотношение: Нормальное распределение (закон Гаусса) занимает центральное место в теории и практике статистических исследований. Распределение задается плотностью:
где Кривая нормального распределения симметрична относительно прямой, параллельной оси ординат и проходящей через точку Логарифмически-нормальное распределение (логнормальное распределение) – распределение положительной случайной величины, логарифм которой распределен по нормальному закону. Таким образом, если случайная величина Х распределена по нормальному закону, то случайная величина Плотность вероятности задается следующим выражением:
Математическое ожидание и дисперсия определяются по следующим формулам:
где Биномиальное распределение – распределение вероятностей дискретной случайной величины X=m, принимающей значение 0,1,2,…, n и задаваемой функцией вероятностей:
где
Параметрами распределения являются величины n и р. Математическое ожидание и дисперсия задаются следующим образом:
Равномерное распределение – распределение вероятностей непрерывной случайной величины на каком-либо отрезке
Математическое ожидание и дисперсия соответственно равны:
Контрольные вопросы и задачи 1.1. Даны случайные величины X и Y, причем Х=5Y+6. Дисперсия случайной величины Y равна D(Y). Выберите правильное значение D(X): 1) D(Y) 2) 5D(Y) + 6 3) 25 D(Y) 4) D(Y) 1.2. Известно, что M(X)=6, M(Y)=7. Определите М(XY). 1.3. Если эксцесс больше нуля, то: 1) вариационный ряд имеет более крутую вершину по сравнению с нормальной кривой; 2) вариационный ряд имеет более пологую вершину по сравнению с нормальной кривой. 1.4. В результате расчетов определены выборочное среднеквадратическое отклонение s =0,031 и выборочные моменты 1.5. Даны начальные моменты 1.6. Медиана является: 1) 0,25 –квантилью 2) 0,5 –квантилью 3) 0,75 -квантилью
Статистическое оценивание
В самом общем смысле статистическое оценивание параметров можно рассматривать как совокупность методов, позволяющих делать научно обоснованные выводы о числовых параметрах генеральной совокупности по случайной выборке из нее. Генеральной совокупностью называют множество результатов всех мыслимых наблюдений, которые могут быть получены при данном комплексе условий. Выборочной совокупностью (выборкой) называют множество результатов, случайно отобранных из генеральной совокупности. Задачи математической статистики практически сводятся к обоснованному суждению об объективных свойствах генеральной совокупности по результатам случайной выборки. Любая функция θ (Х1 , Х2,…, Хn) от результатов наблюдения Х1 , Х2,…, Хn случайной величины Х называется статистикой. Статистика Все статистики и статистические оценки являются случайными величинами: при переходе от одной выборки к другой (даже в рамках одной и той же генеральной совокупности) конкретные значения статистической оценки будут подвержены неконтролируемому разбросу. Параметры генеральной совокупности есть постоянные величины. Методы статистического оценивания состоят из двух больших разделов: точечное оценивание параметров и интервальное оценивание. Точечной оценкой называют некоторую функцию результатов наблюдения θ (Х1 , Х2,…, Хn), значение которой принимается за наиболее приближенное в данных условиях к значению параметра θ генеральной совокупности. Точечная оценка должна отвечать требованиям состоятельности, несмещенности и эффективности. Существуют следующие основные методы точечного оценивания случайных величин: метод максимального (наибольшего) правдоподобия; метод моментов; метод наименьших квадратов. Метод максимального правдоподобия. В соответствии с этим методом оценка L(Х1 , Х2,…, Хn; где L – функция правдоподобия. Если переписать функцию L в виде L = тогда логарифм этой функции L = есть логарифмическая функция максимального правдоподобия. Функция максимального правдоподобия максимизирует количественную оценку Метод моментов. Метод моментов заключается в приравнивании определенного количества выборочных моментов к соответствующим теоретическим (т.е. вычисленным с использованием функции f (X, Метод наименьших квадратов используется в регрессионном анализе для нахождения оценок параметров уравнения регрессии. Метод состоит в том, чтобы определить оценку неизвестного параметра из решения следующей задачи:
где xi – результаты выборочных наблюдений. Можно показать, что данный функционал достигает своего минимума при таком значении В случае линейных связей, когда наблюдения содержат лишь случайные ошибки (без систематических), оценки, полученные методом наименьших квадратов, являются несмещенными линейными функциями от наблюденных значений. Если ошибки наблюдения независимы и подчиняются нормальному распределению, оценки, полученные данным методом, являются также эффективными. Несмещенность. Оценка Выполнение требования несмещенности гарантирует отсутствие систематической ошибки в оценке параметра. Разность М Оценканазывается асимптотически несмещенной, если ее смещенность исчезает при условии n
Эффективность. Эффективной оценкой Данное выше определение опирается на понятие абсолютной эффективности. Несмещенная оценка Var где M Очевидно, что для абсолютно эффективной оценки неравенство (2.7) превращается в равенство. Можно также ввести понятие относительной эффективности. Для двух несмещенных оценок var( Мерой эффективности оценки служит средняя квадратическая ошибка, задаваемая следующей формулой: σ = М{( Оценку
Cостоятельность. Оценка P В теории доказывается, что средняя арифметическая Выборочная дисперсия
где дробь Законы распределения выборочных характеристик Распределение Пирсона (
имеет распределение Математическое ожидание и дисперсия ( Распределение Стьюдента (
имеет Математическое ожидание и дисперсия ( Распределение Фишера-Снедекора. Пусть имеется две независимые случайные величины X и Y, подчиняющиеся нормальному закону распределения. Произведены две независимые выборки объемами
имеет F -распределение с F -распределение не зависит от неизвестных параметров Математическое ожидание и дисперсия ( Интервальной оценкой называют доверительный интервал ( Р( | ||||||||||||||
|
|