Разпределенията в математическата статистика се характеризират с множество статистически параметри. Оценяването на неизвестни параметри на разпределението въз основа на различни примерни данни позволява да се конструират разпределения на случайна променлива.

Намерете статистическа оценка на неизвестен параметър на разпределение - намерете функция от наблюдавани случайни променливи, която ще даде приблизителна стойност на оценения параметър.

Статистическите оценки могат да бъдат класифицирани като безпристрастни, пристрастни, ефективни и последователни.

Определение 1

Безпристрастна оценка-- статистическа оценка $Q^*$, която за всяка стойност на размера на извадката има математическо очакване, равно на оценения параметър, т.е.

Определение 2

Пристрастна оценка-- статистическа оценка $Q^*$, която за всяка стойност на размера на извадката има математическо очакване, което не е равно на оценения параметър, т.е.

Определение 4

Последователна оценка-- статистическа оценка, при която с размер на извадката, клонящ към безкрайност, вероятността клони към изчисления параметър $Q.$

Определение 5

Последователна оценка-- статистическа оценка, при която, тъй като размерът на извадката клони към безкрайност, дисперсията на безпристрастната оценка клони към нула.

Общи и примерни средни стойности

Определение 6

Обща авария-- средно аритметични стойностипопулационен вариант.

Определение 7

Примерна средна стойност-- опция средно аритметично на стойностите извадкова популация.

Стойностите на общата и извадкова средна стойност могат да бъдат намерени по следните формули:

  1. Ако стойностите на опция $x_1,\ x_2,\dots ,x_k$ имат съответно честоти $n_1,\ n_2,\dots ,n_k$, тогава
  1. Ако стойностите на опция $x_1,\ x_2,\dots ,x_k$ са различни, тогава

С това понятие е свързано понятието отклонение от средното. Тази стойност се намира по следната формула:

Средното отклонение има следните свойства:

    $\sum(n_i\left(x_i-\overline(x)\right)=0)$

    Средното отклонение е нула.

Общи, примерни и коригирани отклонения

Друг от основните параметри е концепцията за обща и извадкова дисперсия:

Обща вариация:

Примерно отклонение:

Общите и примерните стандартни отклонения също се свързват с тези понятия:

За да се оцени общата дисперсия, се въвежда концепцията за коригирана дисперсия:

Въвежда се и концепцията за коригирано стандартно отклонение:

Пример за решение на проблем

Пример 1

Съвкупността се определя от следната таблица на разпределение:

Фигура 1.

Нека намерим за него общата средна стойност, общата дисперсия, общото стандартно отклонение, коригираната дисперсия и коригираното стандартно отклонение.

За да разрешим този проблем, първо правим таблица за изчисление:

Фигура 2.

Стойността $\overline(x_в)$ (извадково средно) се намира по формулата:

\[\overline(x_in)=\frac(\sum\limits^k_(i=1)(x_in_i))(n)\]

\[\overline(x_in)=\frac(\sum\limits^k_(i=1)(x_in_i))(n)=\frac(87)(30)=2,9\]

Нека намерим общата дисперсия, използвайки формулата:

Общо стандартно отклонение:

\[(\sigma )_в=\sqrt(D_в)\приблизително 1,42\]

Коригирана дисперсия:

\[(S^2=\frac(n)(n-1)D)_в=\frac(30)(29)\cdot 2,023\приблизително 2,09\]

Коригирано стандартно отклонение.

Разпределението на случайна променлива (разпределение на популацията) обикновено се характеризира с редица числени характеристики:

  • за нормално разпределение N(a, σ) е математическото очакване a и стандартното отклонение σ;
  • за равномерно разпределение R(a,b) е границите на интервала, в който се наблюдават стойностите на тази случайна променлива.
Такива числени характеристики, обикновено неизвестни, се наричат параметри на населението . Оценка на параметъра - съответната числена характеристика, изчислена от извадката. Оценките на параметрите на населението попадат в два класа: точкаИ интервал.

Когато резултатът се определя от едно число, той се извиква точкова оценка. Точкова оценка, като функция на пробата, е случайна променлива и варира от проба на проба с повтарящи се експерименти.
Точковите оценки имат изисквания, на които трябва да отговарят, за да бъдат „доброкачествени“ във всеки смисъл. това неразместен, ефективностИ богатство.

Интервални оценкисе определят от две числа - краищата на интервала, който покрива оценявания параметър. За разлика от точковите оценки, които не дават представа колко далеч може да бъде оцененият параметър от тях, интервалните оценки ни позволяват да установим точността и надеждността на оценките.

Като точкови оценки на математическото очакване, дисперсията и стандартното отклонение се използват характеристиките на извадката, съответно средната стойност на извадката, дисперсията на извадката и стандартното отклонение на извадката.

Свойство на безпристрастна оценка.
Желателно изискване за оценка е липсата на систематична грешка, т.е. при многократно използване вместо параметъра θ неговата оценка, средната стойност на апроксимационната грешка е нула - това е свойство на безпристрастна оценка.

Определение. Една оценка се нарича безпристрастна, ако нейното математическо очакване е равно на истинската стойност на оценения параметър:

Средната аритметична извадка е безпристрастна оценка на математическото очакване, а дисперсията на извадката - предубедена оценка на общата дисперсия г. Безпристрастната оценка на общата дисперсия е оценката

Свойство на последователност на оценката.
Второто изискване за оценка - нейната последователност - означава, че оценката се подобрява с увеличаване на размера на извадката.

Определение. Степен се нарича последователен, ако се сближава по вероятност към оценения параметър θ като n→∞.


Конвергенцията във вероятността означава, че при голям размер на извадката вероятността от големи отклонения на оценката от истински смисълмалък

Свойство за ефективна оценка.
Третото изискване ви позволява да избирате най-добър рейтингот няколко оценки на един и същ параметър.

Определение. Един безпристрастен оценител е ефективен, ако има най-малката дисперсия сред всички безпристрастни оценители.

Това означава, че ефективна оценкаима минимална дисперсия спрямо истинската стойност на параметъра. Обърнете внимание, че не винаги съществува ефективна оценка, но от две оценки обикновено е възможно да се избере по-ефективната, т.е. с по-малко отклонение. Например, за неизвестен параметър a на нормална популация N(a,σ), както средната аритметична извадка, така и медианата на извадката могат да се приемат като безпристрастна оценка. Но дисперсията на медианата на извадката е приблизително 1,6 пъти по-голяма от дисперсията на средната аритметична стойност. Следователно по-ефективна оценка е средната аритметична извадка.

Пример №1. Намерете безпристрастна оценка на дисперсията на измерванията на някаква случайна променлива с помощта на едно устройство (без систематични грешки), резултатите от измерването на което (в mm): 13,15,17.
Решение. Таблица за изчисляване на показатели.

х|x - x av |(x - x ср.) 2
13 2 4
15 0 0
17 2 4
45 4 8

Обикновено средно аритметично(безпристрастна оценка на математическото очакване)


дисперсия- характеризира мярката за дисперсия около нейната средна стойност (мярка за дисперсия, т.е. отклонение от средната - предубедена оценка).


Безпристрастен оценител на дисперсията- последователна оценка на дисперсията (коригирана дисперсия).

Пример №2. Намерете безпристрастна оценка на математическото очакване на измерванията на определена случайна променлива от едно устройство (без систематични грешки), резултатите от измерването на което (в mm): 4,5,8,9,11.
Решение. m = (4+5+8+9+11)/5 = 7,4

Пример №3. Намерете коригираната дисперсия S2 за размер на извадката от n=10, ако дисперсията на извадката е D = 180.
Решение. S 2 = n*D/(n-1) = 10*180/(10-1) = 200

) проблеми на математическата статистика.

Нека приемем, че има параметрично семейство от вероятностни разпределения (за простота ще разгледаме разпределението на случайни променливи и случая на един параметър). Ето числов параметър, чиято стойност е неизвестна. Изисква се да се оцени въз основа на наличната извадка от стойности, генерирани от това разпределение.

Има два основни вида оценки: точкови оценкиИ доверителни интервали.

Точкова оценка

Точковата оценка е вид статистическа оценка, при която стойността на неизвестен параметър се апроксимира с отделно число. Тоест, необходимо е да се уточни функцията на извадката (статистика)

,

чиято стойност ще се счита за приближение на неизвестната истинска стойност.

Общите методи за конструиране на точкови оценки на параметри включват: метод на максималното правдоподобие, метод на моментите, метод на квантила.

По-долу са някои свойства, които точковите оценки могат или не могат да имат.

Богатство

Едно от най-очевидните изисквания за точкова оценка е, че може да се очаква да бъде сравнително добро приближение до истинската стойност на параметъра, дадена достатъчно големи стойностиразмер на извадката. Това означава, че оценката трябва да се сближава с истинската стойност при . Това свойство за оценка се нарича богатство. Тъй като ние говорим заза случайни величини, за които има различни видовеконвергенция, тогава това свойство може да бъде точно формулирано по различни начини:

Когато просто използвате термин богатство, тогава обикновено имаме предвид слаба консистенция, т.е. конвергенция във вероятността.

Условието за съгласуваност е практически задължително за всички оценки, използвани в практиката. Оценките за отказ се използват изключително рядко.

Безпристрастност и асимптотична безпристрастност

Оценката на параметъра се нарича безпристрастен, ако неговото математическо очакване е равно на истинската стойност на оценения параметър:

.

По-слабо състояние е асимптотичен безпристрастен, което означава, че математическото очакване на оценката се сближава с истинската стойност на параметъра с увеличаване на размера на извадката:

.

Безпристрастността е препоръчително свойство за оценки. Неговото значение обаче не трябва да се надценява. Най-често съществуват безпристрастни оценки на параметрите и след това се опитват да вземат предвид само тях. Възможно е обаче да има статистически проблеми, при които не съществуват безпристрастни оценки. Повечето известен примере следното: разгледайте разпределението на Поасон с параметър и поставете проблема за оценка на параметъра. Може да се докаже, че няма безпристрастен оценител за този проблем.

Сравнение на рейтинги и ефективност

За сравняване на различни оценки на един и същ параметър се използва следният метод: изберете някои рискова функция, който измерва отклонението на оценката от истинската стойност на параметъра, като за най-добър се счита този, за който тази функция приема по-малка стойност.

Най-често математическото очакване на квадрата на отклонението на оценката от истинската стойност се разглежда като функция на риска

За безпристрастни оценки това е просто дисперсията.

Има долна граница на тази рискова функция, наречена Неравенство на Крамър-Рао.

(Безпристрастни) оценители, които постигат тази долна граница (т.е. имащи възможно най-малката дисперсия), се наричат ефективен. Наличието на ефективна оценка обаче е доста силно изискване за задачата, което не винаги е така.

По-слабо състояние е асимптотична ефективност, което означава, че съотношението на дисперсията на безпристрастната оценка към долна граница Cramer-Rao има тенденция към единство при .

Имайте предвид, че при достатъчно широки допускания за изследваното разпределение, методът на максималната вероятност дава асимптотично ефективна оценка на параметъра и ако съществува ефективна оценка, тогава тя дава ефективна оценка.

Достатъчна статистика

Статистиката се нарича достатъчноза параметъра, ако условното извадково разпределение при условие, че не зависи от параметъра за всички.

Важността на концепцията за достатъчна статистика се определя от следното одобрение. Ако е достатъчна статистика и е безпристрастна оценка на параметъра, тогава условното очакване също е безпристрастна оценка на параметъра и неговата дисперсия е по-малка или равна на дисперсията на първоначалната оценка.

Спомнете си, че условното очакване е случайна променлива, която е функция на . По този начин, в класа на безпристрастните оценки е достатъчно да се разгледат само тези, които са функции на достатъчна статистика (при условие, че такава статистика съществува за даден проблем).

Оценката на (безпристрастния) ефективен параметър винаги е достатъчна статистика.

Можем да кажем, че достатъчната статистика съдържа цялата информация за оценявания параметър, която се съдържа в извадката.

Конспект на лекцията:

    Понятие за оценка

    Свойства на статистическите оценки

    Методи за намиране на точкови оценки

    Интервална оценка на параметрите

    Доверителен интервал за математическото очакване с известна дисперсия на нормално разпределена популация.

    Хи-квадрат разпределение и t-разпределение на Стюдънт.

    Доверителен интервал за математическото очакване на случайна променлива, която има нормално разпределение с неизвестна дисперсия.

    Доверителен интервал за стандартното отклонение на нормално разпределение.

препратки:

    Вентцел, Е.С. Теория на вероятностите [Текст] / E.S.Вентцел. – М.:

    висше училище

    , 2006. – 575 с.

Гмурман, В.Е. Теория на вероятностите и математическа статистика [Текст] / V.E. Гмурман. - М.: Висше училище, 2007. - 480 с.

Кремер, Н.Ш. Теория на вероятностите и математическа статистика [Текст] / Н.Ш.
Кремер - М: ЕДИНСТВО, 2002. – 543 с. P.1. Понятие за оценкаРазпределения като биномно, експоненциално и нормално са семейства от разпределения, които зависят от един или повече параметри. Например експоненциално разпределение с плътност на вероятността зависи от един параметър λ, нормално разпределение

- от два параметъра
м и σ. От условията на разглеждания проблем обикновено става ясно за кое семейство разпределения говорим. Въпреки това, конкретните стойности на параметрите на това разпределение, които са включени в изразите на интересните за нас характеристики на разпределението, остават неизвестни. Следователно е необходимо да се знае поне приблизителната стойност на тези количества.Нека законът за разпределение на генералната съвкупност се определя до стойностите на параметрите, включени в нейното разпределение
, някои от които може да са известни. Една от задачите
от произволна извадка, така че стойността на тази функция да е приблизително равна на оценения неизвестен параметър θ . функция наречен статистикапараметър θ .

Статистически оценка(в бъдеще просто оценка) параметър θ Теоретичното разпределение се нарича неговата приблизителна стойност, в зависимост от данните за избор.

Степен е случайна променлива, защото е функция на независими случайни променливи
; Ако направите друга проба, тогава функцията, най-общо казано, ще приеме различна стойност.

Има два вида оценки: точкови и интервални.

Спотсе нарича резултат, определен от едно число. При малък брой наблюдения тези оценки могат да доведат до груби грешки. За избягването им се използват интервални оценки.

Интервале оценка, която се определя от две числа - краищата на интервала, в който се съдържа прогнозната стойност с дадена вероятност θ .

С. 2 Свойства на статистическите оценки

Размер
наречен точност на оценката. Колкото по-малко
, толкова по-добре, толкова по-точно се определя неизвестният параметър.

Оценката на всеки параметър е подчинена на редица изисквания, на които той трябва да отговаря, за да бъде „близо“ до истинската стойност на параметъра, т.е. да бъде в известен смисъл „доброкачествена“ оценка. Качеството на оценката се определя чрез проверка дали тя притежава свойствата на безпристрастност, ефективност и последователност.

Степен параметър θ наречен неразместен(без систематични грешки), ако математическото очакване на оценката съвпада с истинската стойност θ :

. (1)

Ако равенството (1) не е валидно, тогава оценката наречен разместен(със системни грешки). Това отклонение може да се дължи на грешки в измерването, грешки в броенето или неслучайния характер на извадката. Систематичните грешки водят до надценяване или подценяване.

За някои проблеми в математическата статистика може да има няколко безпристрастни оценки. Обикновено се предпочита този с най-малко разпръскване (дисперсия).

Степен наречен ефективен, ако има най-малката дисперсия сред всички възможни безпристрастни оценки на параметри θ .

Нека г() е минималната дисперсия и
– отклонение на всяка друга безпристрастна оценка параметър θ . Тогава ефективността на оценката равно на

. (2)

Това е ясно
. Колкото по-близо
до 1, толкова по-ефективна е оценката . Ако
при
, тогава оценката се извиква асимптотично ефективна.

Коментирайте: Ако резултатът предубеден, тогава малката му дисперсия не показва малката грешка. Вземайки, например, като оценка на параметъра θ някакво число , получаваме оценка дори с нулева дисперсия. В този случай обаче грешката (грешка)
може да бъде толкова голям, колкото искате.

Степен наречен заможен, ако с увеличаване на размера на извадката (
) оценката се сближава по вероятност с точната стойност на параметъра θ , т.е. ако за някой

. (3)

Валидност на оценката параметър θ означава, че с растежа празмер на извадката качество на оценката се подобрява.

Теорема 1. Средната стойност на извадката е безпристрастна и последователна оценка на математическото очакване.

Теорема 2. Коригираната дисперсия на извадката е безпристрастна и последователна оценка на дисперсията.

Теорема 3. Емпиричната функция на разпределение на извадка е безпристрастна и последователна оценка на функцията на разпределение на случайна променлива.

Статистически оценки на параметрите на населението. Статистически хипотези

ЛЕКЦИЯ 16

Нека е необходимо да се изследва количествена характеристика на генерална съвкупност. Нека приемем, че от теоретични съображения е възможно да се установи какъв вид разпространение има характеристиката. Това повдига проблема с оценката на параметрите, които определят това разпределение. Например, ако е известно, че изследваната характеристика се разпределя в общата съвкупност според нормален закон, тогава е необходимо да се оцени (приблизително да се намери) математическото очакване и стандартното отклонение, тъй като тези два параметъра напълно определят нормалното разпределение . Ако има основания да се смята, че характеристиката има разпределение на Поасон, тогава е необходимо да се оцени параметърът, чрез който се определя това разпределение.

Обикновено при разпределение изследователят има само примерни данни, например стойности на количествена характеристика, получена в резултат на наблюдения (по-нататък наблюденията се приемат за независими). Изчисленият параметър се изразява чрез тези данни.

Разглеждане като стойности на независими случайни променливи , можем да кажем, че намирането на статистическа оценка на неизвестен параметър на теоретично разпределение означава намиране на функция от наблюдавани случайни променливи, която дава приблизителна стойност на оценения параметър. Например, както ще бъде показано по-долу, за да оцените математическото очакване на нормално разпределение, използвайте функцията (средната аритметична стойност на наблюдаваните стойности на атрибута):

.

така че статистическа оценкаНеизвестен параметър на теоретично разпределение се нарича функция на наблюдаваните случайни променливи. Извиква се статистическа оценка на неизвестен параметър на съвкупността, записан като едно число точка. Помислете за следните точкови оценки: пристрастни и безпристрастни, ефективни и последователни.

За да могат статистическите оценки да предоставят „добри“ приближения на оценените параметри, те трябва да отговарят на определени изисквания. Нека посочим тези изисквания.

Нека има статистическа оценка на неизвестен параметър от теоретичното разпределение. Да приемем, че при вземане на проби от обема е намерена оценка. Нека повторим експеримента, тоест ще извлечем друга извадка със същия размер от общата съвкупност и ще използваме нейните данни, за да намерим оценка и т.н. Повтаряйки експеримента много пъти, получаваме числата , които най-общо казано ще се различават един от друг. По този начин оценката може да се счита за случайна променлива, и числата – като възможните му значения.

Ясно е, че ако оценката дава приблизителна стойност с излишък, тогава всяко число, намерено от примерните данни, ще бъде по-голямо от истинската стойност. Следователно в този случай математическата (средната стойност) на случайната променлива ще бъде по-голяма от , т.е. Очевидно, ако дава приблизителна стойност с недостатък, тогава .


Следователно използването на статистическа оценка, чието математическо очакване не е равно на оценения параметър, води до систематични (със същия знак) грешки. Поради тази причина е естествено да се изисква математическото очакване на оценката да бъде равно на оценения параметър. Въпреки че спазването на това изискване като цяло няма да елиминира грешките (някои стойности са по-големи от, а други по-малки от), грешки с различни знаци ще се появяват еднакво често. Спазването на изискването обаче гарантира невъзможността за получаване на систематични грешки, тоест елиминира системните грешки.

Безпристрастенсе нарича статистическа оценка (грешка), чието математическо очакване е равно на оценения параметър за произволен размер на извадката, т.е.

Разместенисе нарича статистическа оценка, чието математическо очакване не е равно на оценения параметър за какъвто и да е размер на извадката, т.е.

Въпреки това би било грешка да се приеме, че безпристрастната оценка винаги осигурява добро приближение на оценявания параметър. Наистина, възможните стойности могат да бъдат широко разпръснати около тяхната средна стойност, тоест дисперсията може да бъде значителна. В този случай оценката, получена от данните на една извадка, например, може да се окаже много далеч от средната стойност и следователно от самия оценен параметър. Така, приемайки за приблизителна стойност, ще направим голяма грешка. Ако изисквате дисперсията да е малка, тогава възможността за голяма грешка ще бъде изключена. Поради тази причина статистическата оценка е предмет на изискването за ефективност.

Ефективене статистическа оценка, която (за даден размер на извадката) има най-малката възможна вариация.

Заможенте наричат ​​статистическа оценка, която клони по вероятност към оценения параметър, тоест равенството е вярно:

.

Например, ако дисперсията на безпристрастна оценка при клони към нула, тогава такава оценка също се оказва последователна.

Нека разгледаме въпроса кои характеристики на извадката оценяват най-добре общата средна стойност и дисперсия по отношение на безпристрастност, ефективност и последователност.

Нека изследваме дискретна генерална съвкупност по отношение на някаква количествена характеристика.

Средно общообразователносе нарича средно аритметично на стойностите на характеристиката на генералната съвкупност. Изчислява се по формулата:

§ – ако всички стойности на характеристиката на генералната съвкупност от обем са различни;

§ – ако стойностите на характеристиката на генералната съвкупност имат съответно честоти и . Тоест общата средна стойност е среднопретеглена стойност на атрибути с тегла, равни на съответните честоти.

Коментирайте: нека общата популация на тома съдържа обекти с различни стойности на атрибута. Нека си представим, че един обект е избран на случаен принцип от този набор. Вероятността например обект със стойност на характеристика да бъде извлечен очевидно е равна на . Всеки друг обект може да бъде извлечен със същата вероятност. По този начин стойността на характеристика може да се разглежда като случайна променлива, чиито възможни стойности имат еднакви вероятности, равни на . В този случай не е трудно да се намери математическото очакване:

Така че, ако разгледаме изследваната характеристика на генералната съвкупност като случайна променлива, тогава математическото очакване на характеристиката е равно на общата средна стойност на тази характеристика: . Ние получихме това заключение, като взехме предвид, че всички обекти в общата съвкупност имат различни значениязнак. Същият резултат ще се получи, ако приемем, че генералната съвкупност съдържа няколко обекта с същата стойностзнак.

Обобщавайки получения резултат към генерална съвкупност с непрекъснато разпределение на характеристиката, определяме общата средна стойност като математическото очакване на характеристиката: .

Нека се извлече извадка от обем, за да се проучи общата съвкупност по отношение на количествена характеристика.

Примерна средна стойностсе нарича средно аритметично на характерните стойности на извадката. Изчислява се по формулата:

§ – ако всички стойности на характеристиката на обема на пробата са различни;

§ – ако стойностите на характеристиката на извадковата съвкупност имат съответно честоти и . Тоест средната извадка е среднопретеглена стойност на атрибути с тегла, равни на съответните честоти.

Коментирайте: Средната стойност на извадката, намерена от данните на една извадка, очевидно е определено число. Ако вземете други проби със същия размер от същата популация, средната стойност на извадката ще се променя от проба на проба. По този начин средната стойност на извадката може да се разглежда като случайна променлива и следователно можем да говорим за разпределенията (теоретични и емпирични) на средната стойност на извадката и числените характеристики на това разпределение, по-специално математическото очакване и дисперсията на извадката разпространение.

Освен това, ако общата средна стойност е неизвестна и се изисква да се оцени с помощта на извадкови данни, тогава средната извадка, която е безпристрастна и последователна оценка, се приема като оценка на общата средна стойност (предлагаме да докажете това твърдение сами). От горното следва, че ако се намерят извадкови средни за няколко извадки с достатъчно голям обем от една и съща генерална съвкупност, тогава те ще бъдат приблизително равни една на друга. Това е имота стабилност на извадковите средни стойности.

Обърнете внимание, че ако дисперсиите на две популации са еднакви, тогава близостта на средните стойности на извадката до общите средни стойности не зависи от съотношението на размера на извадката към размера на генералната съвкупност. Зависи от размера на извадката: колкото по-голям е размерът на извадката, толкова по-малко средната стойност на извадката се различава от общата средна стойност. Например, ако 1% от обектите са избрани от една популация и 4% от обектите са избрани от друга популация и обемът на първата извадка се окаже по-голям от втория, тогава средната стойност на първата извадка ще се различава по-малко от съответната обща средна от втората.