Шпоры по Мат.Стат-ки

Автор: | 21.03.2017


Предметизадачиматематическойстатистики. Генеральная совокупность и выборочный метод

Математическая статистика- это раздел математики, посвященный методом сбора, анализа и обработки результатов статистических данных наблюдений для научных и практических целей.

Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным-контролируемый размер детали.

Иногда проводят сплошное исследование, т.е. обследуют каждый объект относительно нужного признака. На практике сплошное обследование применяется редко. Например, если совокупность содержит очень большое число объектов, то провести сплошное обследование физически невозможно. Если обследование объекта связано с его уничтожением или требует больших материальных затрат, то проводить сплошное обследование не имеет смысла. В таких случаях случайно отбирают из всей совокупности ограниченное число объектов (выборочную совокупность) и подвергают их изучению.

 Основная задача математической статистики заключается в исследовании всей совокупности по выборочным данным в зависимости от поставленной цели, т.е. изучение вероятностных свойств совокупности: закона распределения, числовых характеристики т.д. для принятия управленческих решений в условиях неопределенности.

Виды выборок

Генеральная совокупность – это совокупность объектов, из которой производится выборка.

Выборочная совокупность (выборка) – это совокупность случайно отобранных объектов.

Объем совокупности – это число объектов этой совокупности. Объем генеральной совокупности обозначается N, выборочной– n.

Пример: Если из 1000 деталей отобрано для обследования 100 деталей, то объем генеральной совокупности N = 1000, а объем выборки n = 100.

При  составлении выборки можно поступить двумя способами: после того, как объект отобран и над ним произведено наблюдение, он может быть возвращен либо не возвращен в генеральную совокупность. Т.о. выборки делятся на повторные и бесповторные.








Статистические ряды распределения и статистические таблицы

Статистические ряды распределения

В результате обработки и систематизации первичных данных статистического наблюдения получают группировки, называемые рядами распределения.

Статистические ряды распределения  представляют собой упорядоченное расположение единиц изучаемой совокупности на группы по группировочному признаку.

Различают атрибутивные и вариационные ряды распределения.

Атрибутивный – это ряд распределения, построенный по качественным признакам. Он характеризует состав совокупности по различным существенным признакам.

По количественному признаку строится вариационный ряд распределения. Он состоит из частоты (численности) отдельных вариантов или каждой группы вариационного ряда. Данные числа показывают, на сколько часто встречаются различные варианты (значения признака) в ряду распределения. Сумма всех частот определяет численность всей совокупности.

Численности групп выражаются в абсолютных и относительных величинах. В абсолютных величинах выражается числом единиц совокупности в каждой выделенной группе, а в относительных величинах–в виде долей, удельных весов, представленных в процентах к итогу.

В зависимости от характера вариации признака различают дискретные и интервальные вариационные ряды распределения. В дискретном вариационном ряде распределения группы составлены по признаку, изменяющемуся дискретно и принимающему только целые значения.

В интервальном вариационном ряде распределения группировочный признак, составляющий основание группировки, может принимать в определенном интервале любые значения.

Вариационные ряды состоят из двух элементов: частоты и варианты.

Вариантой называют отдельное значение варьируемого признака, которое он принимает в ряду распределения.

Частота – это численность отдельных вариант или каждой группы вариационного ряда. Если частоты выражены в долях единицы или в процентах к итогу, то их называют частостями.

Правила и принципы построения интервальных рядов распределения строятся по аналогичным правилам и принципам построения статистических группировок. Если интервальный вариационный ряд распределения построен с равными интервалами, частоты позволяют судить о степени заполнения интервала единицами совокупности. Для проведения сравнительного анализа заполненности интервалов определяют показатель, который будет характеризовать плотность распределения.

Плотность распределения – это отношение числа единиц совокупности к ширине интервала.

Графическое изображение рядов распределения

Анализ рядов распределения можно проводить на основе их графического изображения. Линейчатые и круговые диаграммы строятся для отображения структуры совокупности.

Применяются вместе с диаграммами и такие линии, как полигон, кумулята, огива, гистограмма. При изображении дискретных вариационных рядов используется полигон.

Полигон – ломаная кривая, строится на основе прямоугольной системы координат, когда по оси Х откладываются значения признака, а по оси У–частоты.

Гладкая кривая, соединяющая точки – это эмпирическая плотность распределения.

Кумулята – ломаная кривая, строящаяся на основе прямоугольной системы координат, когда по оси Х откладываются значения признака, а по оси У–накопленные частоты.

Для дискретных рядов на оси откладываются сами значения признака, а для интервальных–середины интервалов.

На основе гистограмм можно строить диаграммы накопленных частот с последующим построением интегральной эмпирической функции распределения.

 

3Распределения СВаспределение Пирсона. 

РаспределениеПирсона — непрерывное распределение вероятностей, плотность вероятности которого является решением дифференциального
уравнения {\displaystyle {\frac {df(x)}{dx}}={\frac {a_{1}x+a_{0}}{b_{0}+2b_{1}x+b_{2}x^{2}}}f(x)}, где числа {\displaystyle a_{0},a_{1},b_{0},b_{1},b_{2}}являются параметрами распределения. Частными случаями распределения Пирсона являются бета распределение (распределениеПирсона I типа), гамма-распределение  (распределениеПирсона III типа),   распределение Стьюдента  (распределениеПирсона VII типа),  показательное распределение  (распределение Пирсона X типа),  нормальное распределение  (распределение Пирсона XI типа). Распределения Пирсона широко используются в математической статистике при сглаживании распределений эмпирических данных. Для аппроксимации распределения вероятностей опытных данных численными методами вычисляют их первые четыре момента, а за тем на их основе вычисляют параметры распределения Пирсона. С помощью нормального распределения определяются три распределения, которые в настоящее время часто используются при статистической обработке данных. В дальнейших разделах книги много раз встречаются эти распределения.

Распределение Пирсона  (хи - квадрат) –распределение случайной величины

где случайные величины X1, X2,…, Xn независимы и имеют одно и тоже распределение N(0,1). При этом число слагаемых, т.е. n, называется «числом степеней свободы» распределения хи–квадрат.


4. РаспределенияСВ. РаспределениеСтьюдента

Распределе́ние Стью́дента-   это одно параметрическое семейство абсолютно непрерывных распределений. Названо в честь Уильяма Сили Госсета, который первым опубликовал работы, посвящённые этому распределению, под псевдонимом«Стьюдент».

Распределение Стьюдента играет важную роль в некоторых широко используемых системах статистического анализа. Пример такой системы, t-критерий Стьюдента для оценки статистического значения разницы между двумя выборочными средними, построения доверительных интервалов разницы между двумя доверительными средними, а также в линейном регрессионном анализе. Распределение Стьюдента так же появляется в байесовском анализе данных, распределенных по нормальному закону.

Распределение Стьюдента может быть использовано для оценки того, насколько вероятно, что истинное среднее находится в каком-либо заданном диапазоне.

График плотности распределения Стьюдента, как инормального распределения, является симметричными колоколо-образным, но с более тяжелыми хвостами, из-за этого, величины с распределением Стьюдента чаще сильно отличаются от математического ожидания.

Распределение Стьюдента —частный случай обобщенного гиперболического распределения.

Распределение t Стьюдента–этораспределениеслучайнойвеличины

где случайные величины U и X независимы, U имеет распределение стандартное нормальное распределение N(0,1), а X – распределение хи–квадрат с n степенями свободы. При этом  n называется«числом степеней свободы»распределения Стьюдента.

Распределение Стьюдента было введенов 1908 г. английским статистиком В. Госсетом, работавшем на фабрике, выпускающей пиво. Вероятностно-статистические методы использовались для принятия экономических и технических решений на этой фабрике, поэтому ее руководство запрещало
В. Госсету публиковать научные статьи под своим именем. Таким способом охранялась коммерческая тайна, «ноу-хау» в виде вероятностно-статистических методов, разработанных В. Госсетом. Однако они мел возможность публиковаться под псевдонимом «Стьюдент». История Госсета - Стьюдента показывает, что еще сто лет назад менеджерам Великобритании была очевидна большая экономическая эффективность вероятностно-статистических методов.

В настоящее время распределение Стьюдента–одно из наиболее известных распределений среди используемых при анализе реальных данных. Его применяют при оценивании математического ожидания, прогнозного значения и других характеристик с помощью доверительных интервалов, по проверке гипотез о значениях математических ожиданий, коэффициентов регрессионной зависимости.

 

5. Распределения СВ. Распределение Фишера

.Распределение Фишера–это распределение случайной величины где случайные величины  Х1 и Х2  независимы и имеют распределения хи–квадрат с числом степеней свободы k1 и k2 соответственно. При этом пара (k1, k2) – пара «чисел степеней свободы» распределения Фишера, а именно, k1 – число степеней свободы числителя, а k2 – число степеней свободы знаменателя. Распределение случайной величины  F названо в честь великого английского статистика Р.Фишера, активно использовавшего его в своих работах.

Распределение Фишера используют при проверке гипотез об адекватности модели в регрессионном анализе, о равенстве дисперсий и в других задачах прикладной статистики.

 Распределения случайных величин и функции распределения. Распределение числовой случайной величины–это функция, которая однозначно определяет вероятность того, что случайная величина принимает заданное значение или принадлежит к некоторому заданному интервалу.

 Первое–если случайная величина принимает конечное число значений. Тогда распределение задается функцией Р(Х = х) ,  ставящей каждому возможному значению х случайной величины Х вероятность того, что Х = х.

 Второе–если случайная величина принимает бесконечно много значений. Это возможно лишь тогда, когда вероятностное пространство, на котором определена случайная величина, состоит из бесконечного числа элементарных событий. Тогда распределение задается набором вероятностей P(a <X <b) для всех пар чисел a, b таких, что a<b. Распределение может быть задано с помощью т.н. функции распределения F(x) = P(X<x), определяющей для всех действительных х вероятность того, что случайная величина Х принимает значения, меньшие х. Ясно, что

P(a <X <b) = F(b) – F(a).

Это соотношение показывает, что как распределение может быть рассчитано по функции распределения, так и, наоборот, функция распределения–по распределению.

 Используемые в вероятностно-статистических методах принятия решений и других прикладных исследованиях функции распределения бывают либо дискретными, либо непрерывными, либо их комбинациями.

 Дискретные функции распределения соответствуют дискретным случайным величинам, принимающим конечное число значений или же значения из множества, элементы которого можно перенумеровать натуральными числами (такие множества в математике называются четными). Их график имеет вид ступенчатой лестницы.

 

6 Основными точечными характеристиками погрешностей измерений являются математическое ожидание и дисперсия

Математическое ожидание погрешности измерений М(Х) есть неслучайная величина, относительно которой рассеиваются другие значения погрешностей при повторных измерениях. Как числовая характеристика погрешности М(Х) показывает на смещенность результатов измерения относительно истинного значения измеряемой величины.

 где  j (х)  - плотность распределения вероятности погрешности.

Дисперсия погрешности D (Х) характеризует степень рассеивания (разброса) отдельных значений погрешности относительно математического ожидания

Чем меньше дисперсия, тем меньше разброс, тем точнее выполнены измерения. Следовательно, дисперсия может служить характеристикой точности проведенных измерений. Однако дисперсия выражается в единицах погрешности в квадрате. Поэтому в качестве числовой характеристики точности измерений используют среднее квадратическое отклонение

Оценку параметра назовем точечной, если она выражается одним числом. Любая точечная оценка, вычисленная на основании опытных данных, является их функцией и поэтому сама должна представлять собой случайную величину с распределением, зависящим от распределения исходной случайной величины, от самого оцениваемого параметра и от числа опытов n.

К точечным оценкам предъявляется ряд требований, определяющих их пригодность для описания самих параметров.

1.Оценка называется  состоятельной,  если при увеличении числа наблюдений она приближается (сходится по вероятности) к значению оцениваемого параметра.

2.Оценка называется  несмещенной,  если ее математическое ожидание равно оцениваемому параметру.

3. Оценка называется  эффективной, если ее дисперсия меньше дисперсии любой другой оценки данного параметра.

 На практике не всегда удается удовлетворить одновременно все эти требования, однако выбору оценки должен предшествовать ее критический анализ со всех перечисленных выше точек зрения.

Существует несколько методов определения оценок. Наиболее распространен метод максимального правдоподобия, теоретически обоснованный математиком Р.Фишером. Идея метода заключается в следующем. Вся получаемая в результате многократных наблюдений информация об истинном значении измеряемой величины и рассеивании результатов сосредоточена в ряде наблюдений Х1, Х2, . . . , Хn, где n - число наблюдений. Их можно рассматривать как n независимых случайных величин с одной и той же дифференциальной функцией распределения
rх (х; Q; ). Вероятность Рi получения в эксперименте некоторого результата Хi, лежащего в интервале хi ±Dх, где - некоторая малая величина, равная соответствующему элементу вероятности Рi   = (хi; Q; ) .

Независимость результатов наблюдений позволяет найти априорную вероятность появления одновременно всех экспериментальных данных, т. е. всего ряда наблюдений Х1, Х2, . . . , Хn как произведение этих вероятностей

 

 7 Интервальные оценки числовых характеристик СВ. Схема построения интервальных оценок параметров распределения и числовых характеристик СВ

Оценки неизвестных параметров бывают двух видов - ТОЧЕЧНЫЕ И ИНТЕРВАЛЬНЫЕ. 
 ТОЧЕЧНАЯ ОЦЕНКА - оценка имеющая конкретное числовое значение. Например, среднееарифметическое:

    X = (x1+x2+...+xn)/n, где: X - среднееарифметическое (точечная оценка МО)
     
x1,x2,...xn - выборочные значения; n - объем выборки. 
ИНТЕРВАЛЬНАЯ ОЦЕНКА - оценка представляемая интервалом значений, внутри которого с задаваемой исследователем вероятностью находится истинное значение оцениваемого параметра. Интервал в интервальной оценке называется ДОВЕРИТЕЛЬНЫМИНТЕРВАЛОМ, задаваемая исследователем вероятность называется  ДОВЕРИТЕЛЬНОЙВЕРОЯТНОСТЬЮ.  В практике статистических вычислений применяются стандартные значения доверительной вероятности: 0,95, 0,98 и 0,99 (95%, 98% и 99% соответственно). Например, интервальная оценка МО(3,8) при доверительной вероятности 0,95. Это означает, что МО лежит в пределах от 3 до 8 с вероятностью 0,95, следовательно вероятность того, что МО меньше 3 или больше 8 не превышает 0,05. 
     Очевидно, что
чем выше доверительная вероятность, тем выше точность оценки, но шире доверительный интервал. Отсюда следует - для непрерывных случайных величин вероятность того, что точечная оценка (ширина доверительного интервала равна 0) совпадет с любым заданным значением или оцениваемым параметром равна 0. 
    Таким образом, точечная оценка имеет смысл лишь тогда, когда приведена характеристика рассеяния этой оценки (дисперсия). В противном случае она может служить лишь в качестве исходных данных для построения интервальной оценки.

 

8  Построение доверительного интервала для математического ожиданияСВ, имеющей нормальный закон распределения с известным среднеквадратическим отклонением. 

Пусть случайная величинаимеет нормальное распределение: .

Известно значениеи задана доверительная вероятность (надежность) . Требуется построить доверительный интервал для параметрапо выборочному среднему.

Чтобы подчеркнуть случайный характеробозначим его.

Примем без доказательства, что если случайная величинараспределена нормально, то и выборочное среднее, найденное по независимым наблюдениям, также распределено нормально.

Параметры распределениятаковы: ; .

   Из теории вероятности известна формула для нормально распределенной случайной величины:

, где - функцияЛапласа, значение которой в точке
Учитывая, чтоимеет нормальное распределение можно записать

или, где

Из последнего равенства по таблице Лапласа находим .

Тогдаи доверительный интервал

покрывает с надежностьюматематическое ожидание.

 

 

 

 

 

 

 

 

 

Построение доверительного интервала для математического ожидания СВ, имеющей нормальный закон распределения с неизвестным среднеквадратическим отклонением. Пусть случайная величинаимеет нормальное распределение: , причем - неизвестно, - задана.
Еслинеизвестна, то пользуются оценкой.

Введем случайную величину , где- исправленное среднееквадратическое отклонение случайной величины, вычисленное по выборке: ;
Случайная величинаимеет распределение Стьюдента сстепенью свободы.

Тогда доверительный интервал для оценкиимеет вид:

, где- выборочное среднее;

- исправленное среднееквадратическое отклонение;

- находим по таблице квантилей распределения Стьюдента в зависимости от числа степеней свободы и доверительной вероятности.

 

10 Построение доверительного интервала для среднеквадратического отклонения СВ, имеющей нормальное распределения. 

1.Если неизвестно, то доверительный интервал для оценкиимеет вид:где- объем выборки; - исправленное среднееквадратическое отклонение: , , - квантили- распределения, определяемые по таблицеприи, .

11 Статистическаяпроверкапараметрическихгипотез. Статистический критерий значи-мости. Ошибки, совершаемые при проверке статистических гипотез. 
Статистической гипотезой называется всякое высказывание о генеральной совокупности (случайной величине), проверяемое по выборке (то есть по результатам наблюдений).


Примеры статистических гипотез:

-математическое
ожидание случайной величины равно конкретному числовому значению;

- генеральная совокупность распределена по нормальному закону.
Гипотезы могут быть параметрические (гипотезы о параметрах распределения известного вида) и непараметрические (гипотезы о виде неизвестного распределения).

Различают гипотезы простые, содержащие только одно предположение, и сложные, содержащие более одного предположения.

Например, гипотеза - простая; а гипотеза :, ( где) – сложная гипотеза, потому что она состоит из бесконечного множества простых гипотез.
Процедура сопоставления гипотезы с выборочными данными называется проверкой гипотезы. Для проверки гипотез используют аналитические и статистические методы.

Классический метод проверки гипотез

В соответствии с поставленной задачей и на основании выборочных данных формулируется (выдвигается) гипотеза, которая называется основной или нулевой. Одновременно с выдвинутой гипотезой, рассматривается противоположная ей гипотеза, которая называется конкурирующей или альтернативной.

Для проверки нулевой гипотезы вводят специально подобранную случайную величину, распределение которой известно и называют ее критерием.

Поскольку гипотезадля генеральной совокупности принимается по выборочным данным, то она может быть ошибочной. При этом возможны ошибки двух родов.

Ошибка первого рода состоит в том, что отвергается гипотеза, когда она на самом деле верна.

Ошибка второго рода состоит в том, что отвергается альтернативная гипотеза, когда она на самом деле верна.

1) Для определения вероятности ошибки первого рода вводится параметр:

 

- вероятность того, что будет принята гипотеза, при условии, чтоверна.
Величинуназывают уровнем значимости. Обычновыбирают в пределах.

2) Вероятность ошибки второго рода определяется параметром:

 

- вероятность того, что будет принята гипотеза, при условии, чтоверна.

Величину, то есть недопустимость ошибки второго рода (отвергнуть неверную и принять верную гипотезу) называют мощностью критерия.

 

 

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

26 + = 35