) problémy matematickej štatistiky.

Predpokladajme, že existuje parametrická rodina rozdelení pravdepodobnosti (pre jednoduchosť budeme uvažovať rozdelenie náhodných premenných a prípad jedného parametra). Tu je číselný parameter, ktorého hodnota nie je známa. Je potrebné ho odhadnúť na základe dostupnej vzorky hodnôt generovaných týmto rozdelením.

Existujú dva hlavné typy hodnotenia: bodové odhady A intervaly spoľahlivosti.

Bodový odhad

Bodový odhad je typ štatistické vyhodnotenie, v ktorom je hodnota neznámeho parametra aproximovaná samostatným číslom. To znamená, že je potrebné špecifikovať funkciu vzorky (štatistiky)

,

ktorých hodnota sa bude považovať za aproximáciu neznámeho skutočný význam.

Medzi bežné metódy konštrukcie bodových odhadov parametrov patria: metóda maximálnej pravdepodobnosti, metóda momentov, kvantilová metóda.

Nasledujú niektoré vlastnosti, ktoré bodové odhady môžu alebo nemusia mať.

Bohatstvo

Jednou z najzrejmejších požiadaviek na bodový odhad je, že sa dá očakávať, že ide o primerane dobrú aproximáciu skutočnej hodnoty parametra, ak je dostatočne veľké hodnoty veľkosť vzorky. To znamená, že odhad by mal konvergovať k skutočnej hodnote pri . Táto vlastnosť hodnotenia sa nazýva bohatstvo. Pretože hovoríme o o náhodných premenných, pre ktoré existujú odlišné typy konvergencia, potom môže byť táto vlastnosť presne formulovaná rôznymi spôsobmi:

Keď sa len používa výraz bohatstvo, vtedy väčšinou máme na mysli slabú konzistenciu, t.j. konvergencia v pravdepodobnosti.

Podmienka konzistencie je prakticky povinná pre všetky odhady používané v praxi. Odhady porúch sa používajú veľmi zriedkavo.

Nezaujatosť a asymptotická nezaujatosť

Odhad parametra sa nazýva nezaujatý, ak sa jeho matematické očakávanie rovná skutočnej hodnote odhadovaného parametra:

.

Slabší stav je asymptotický nezaujatý, čo znamená, že matematické očakávanie odhadu konverguje k skutočnej hodnote parametra, keď sa veľkosť vzorky zvyšuje:

.

Nezaujatosť je odporúčaná vlastnosť pre odhady. Jeho význam však netreba preceňovať. Najčastejšie existujú nestranné odhady parametrov a potom sa snažia brať do úvahy len ich. Môžu sa však vyskytnúť štatistické problémy, pri ktorých neexistujú nestranné odhady. Väčšina slávny príklad je nasledovné: zvážte Poissonovo rozdelenie s parametrom a položte problém odhadu parametra . Dá sa dokázať, že pre tento problém neexistuje žiadny objektívny odhad.

Porovnanie hodnotenia a účinnosti

Na porovnanie rôznych odhadov toho istého parametra sa používa nasledujúca metóda: vyberte niektoré riziková funkcia, ktorý meria odchýlku odhadu od skutočnej hodnoty parametra a za najlepší sa považuje ten, pre ktorý táto funkcia nadobúda menšiu hodnotu.

Najčastejšie sa za rizikovú funkciu považuje matematické očakávanie druhej mocniny odchýlky odhadu od skutočnej hodnoty.

Pre nestranné odhady je to jednoducho rozptyl.

Existuje dolná hranica tejto rizikovej funkcie, tzv Cramer-Rao nerovnosť.

(Nezaujaté) odhady, pre ktoré je dosiahnutá táto dolná hranica (t. j. s čo najmenším rozptylom), sa nazývajú efektívne. Existencia efektívneho odhadu je však dosť silnou požiadavkou na úlohu, čo nie je vždy prípad.

Slabší stav je asymptotická účinnosť, čo znamená, že pomer rozptylu neskresleného odhadu k nižší limit Cramer-Rao inklinuje k jednote na .

Všimnite si, že za pomerne širokých predpokladov týkajúcich sa študovaného rozdelenia, metóda maximálnej pravdepodobnosti dáva asymptoticky efektívne hodnotenie a ak existuje efektívny odhad, potom dáva efektívny odhad.

Dostatočná štatistika

Štatistiky sú tzv dostatočné pre parameter , ak podmienené rozdelenie odberu vzoriek za predpokladu , nezávisí od parametra pre všetkých .

Dôležitosť konceptu dostatočnej štatistiky určuje nasledovné schválenie. Ak je dostatočná štatistika a je nezaujatým odhadom parametra, potom podmienené očakávanie je tiež nezaujatým odhadom parametra a jeho rozptyl je menší alebo rovný rozptylu pôvodného odhadu.

Pripomeňme, že podmienené očakávanie je náhodná premenná, ktorá je funkciou . V triede nezaujatých odhadov teda stačí brať do úvahy len tie, ktoré sú funkciami dostatočnej štatistiky (za predpokladu, že takáto štatistika pre daný problém existuje).

(Nezaujatý) odhad efektívneho parametra je vždy dostatočnou štatistikou.

Dá sa povedať, že dostatočná štatistika obsahuje všetky informácie o odhadovanom parametri, ktoré sú obsiahnuté vo vzorke.

Osnova prednášky:

    Koncepcia hodnotenia

    Vlastnosti štatistických odhadov

    Metódy zisťovania bodových odhadov

    Odhad intervalového parametra

    Interval spoľahlivosti pre matematické očakávanie so známym normálne rozdeleným rozptylom populácia.

    Chí-kvadrát rozdelenie a Studentovo t-rozdelenie.

    Interval spoľahlivosti pre matematické očakávanie náhodnej premennej, ktorá má normálne rozdelenie s neznámym rozptylom.

    Interval spoľahlivosti pre štandardnú odchýlku normálneho rozdelenia.

Bibliografia:

    Wentzel, E.S. Teória pravdepodobnosti [Text] / E.S. Wentzel. – M.: absolventská škola, 2006. – 575 s.

    Gmurman, V.E. Teória pravdepodobnosti a matematická štatistika [Text] / V.E. Gmurman. - M.: Vyššia škola, 2007. - 480 s.

    Kremer, N.Sh. Teória pravdepodobnosti a matematická štatistika [Text] / N.Sh. Kremer - M: UNITY, 2002. – 543 s.

P.1. Koncepcia hodnotenia

Rozdelenia ako binomické, exponenciálne a normálne sú rodiny rozdelení, ktoré závisia od jedného alebo viacerých parametrov. Napríklad exponenciálne rozdelenie s hustotou pravdepodobnosti závisí od jedného parametra λ, normálneho rozdelenia
- z dvoch parametrov m a σ. Z podmienok skúmaného problému je zvyčajne jasné, o ktorej rodine distribúcií hovoríme. Špecifické hodnoty parametrov tohto rozdelenia, ktoré sú zahrnuté vo vyjadreniach distribučných charakteristík, ktoré nás zaujímajú, však zostávajú neznáme. Preto je potrebné poznať aspoň približnú hodnotu týchto veličín.

Nech je zákon rozdelenia všeobecnej populácie určený až do hodnôt parametrov zahrnutých v jeho rozdelení
, z ktorých niektoré môžu byť známe. Jednou z úloh matematickej štatistiky je nájsť odhady neznámych parametrov zo vzorky pozorovaní
od bežnej populácie. Odhad neznámych parametrov pozostáva z konštrukcie funkcie
z náhodnej vzorky tak, že hodnota tejto funkcie sa približne rovná odhadovanému neznámemu parametru θ . Funkcia volal štatistiky parameter θ .

Štatistické hodnotenie(v budúcnosti jednoducho hodnotenie) parameter θ Teoretické rozdelenie sa nazýva jeho približná hodnota v závislosti od údajov výberu.

stupeň je náhodná premenná, pretože je funkciou nezávislých náhodných premenných
; Ak vytvoríte ďalšiu vzorku, funkcia bude mať vo všeobecnosti inú hodnotu.

Existujú dva typy odhadov: bodový a intervalový.

Spot sa nazýva skóre určené jedným číslom. Pri malom počte pozorovaní môžu tieto odhady viesť k hrubým chybám. Aby sa im zabránilo, používajú sa intervalové odhady.

Interval je odhad, ktorý je určený dvoma číslami - koncami intervalu, v ktorom je odhadnutá hodnota s danou pravdepodobnosťou obsiahnutá θ .

P. 2 Vlastnosti štatistických odhadov

Veľkosť
volal presnosť hodnotenia. Menej
, čím lepšie, tým presnejšie je určený neznámy parameter.

Posúdenie akéhokoľvek parametra podlieha viacerým požiadavkám, ktoré musí spĺňať, aby sa „priblížil“ skutočnej hodnote parametra, t.j. byť v určitom zmysle „benígnym“ hodnotením. Kvalita odhadu je určená kontrolou, či má vlastnosti nestrannosti, efektívnosti a konzistentnosti.

stupeň parameter θ volal nevysídlený(bez systematických chýb), ak sa matematické očakávanie odhadu zhoduje so skutočnou hodnotou θ :

. (1)

Ak neplatí rovnosť (1), potom odhad volal premiestnený(so systematickými chybami). Toto skreslenie môže byť spôsobené chybami merania, chybami v počítaní alebo nenáhodnou povahou vzorky. Systematické chyby vedú k preceňovaniu alebo podceňovaniu.

Pre niektoré problémy v matematickej štatistike môže existovať niekoľko nezaujatých odhadov. Zvyčajne sa dáva prednosť tomu, ktorý má najmenší rozptyl (disperzia).

stupeň volal efektívne, ak má najmenší rozptyl spomedzi všetkých možných nezaujatých odhadov parametra θ .

Nechaj D() je minimálny rozptyl a
– rozptyl akéhokoľvek iného nestranného odhadu parameter θ . Potom účinnosť odhadu rovná

. (2)

To je jasné
. Bližšie
na 1, tým je hodnotenie efektívnejšie . Ak
pri
, potom sa volá odhad asymptoticky účinné.

Komentujte: Ak skóre zaujatý, potom malosť jeho rozptylu nenaznačuje malosť jeho chyby. Vezmime si napríklad ako odhad parametra θ nejaké číslo , dostaneme odhad aj s nulovým rozptylom. V tomto prípade však chyba (chyba)
môžu byť také veľké, ako chcete.

stupeň volal bohatý, ak s rastúcou veľkosťou vzorky (
) odhad konverguje v pravdepodobnosti k presnej hodnote parametra θ , t.j. ak pre niekoho

. (3)

Platnosť posudku parameter θ znamená, že s rastom n veľkosť vzorky kvalita hodnotenia sa zlepšuje.

Veta 1. Priemer vzorky je nezaujatý a konzistentný odhad matematického očakávania.

Veta 2. Opravený rozptyl vzorky je nezaujatý a konzistentný odhad rozptylu.

Veta 3. Empirická distribučná funkcia vzorky je nezaujatý a konzistentný odhad distribučnej funkcie náhodná premenná.

Distribúcia náhodnej premennej (distribúcia populácie) je zvyčajne charakterizovaná množstvom číselných charakteristík:

  • pre normálne rozdelenie N(a, σ) je matematické očakávanie a a smerodajná odchýlka σ;
  • pre rovnomerné rozdelenie R(a,b) sú hranice intervalu, v ktorom sa pozorujú hodnoty tejto náhodnej premennej.
Takéto číselné charakteristiky, zvyčajne neznáme, sa nazývajú parametre populácie . Odhad parametrov - zodpovedajúca číselná charakteristika vypočítaná zo vzorky. Odhady parametrov populácie spadajú do dvoch tried: bod A interval.

Keď je skóre určené jedným číslom, volá sa bodový odhad. Bodový odhad ako funkcia vzorky je náhodná premenná a mení sa od vzorky k vzorke s opakovanými experimentmi.
Bodové odhady majú požiadavky, ktoré musia spĺňať, aby boli „benígne“ v akomkoľvek zmysle. Toto nevysídlený, efektívnosť A bohatstvo.

Intervalové odhady sú určené dvoma číslami - koncami intervalu, ktorý pokrýva odhadovaný parameter. Na rozdiel od bodových odhadov, ktoré nedávajú predstavu o tom, ako ďaleko od nich môže byť odhadovaný parameter, intervalové odhady nám umožňujú určiť presnosť a spoľahlivosť odhadov.

Ako bodové odhady matematického očakávania, disperzie a štandardnej odchýlky sa používajú charakteristiky vzorky, v tomto poradí, priemer vzorky, rozptyl vzorky a štandardná odchýlka vzorky.

Vlastnosť nestranného odhadu.
Žiaducou požiadavkou na posúdenie je absencia systematickej chyby, t.j. pri opakovanom použití namiesto parametra θ jeho odhadu je priemerná hodnota aproximačnej chyby nulová - to je vlastnosť nestranného odhadu.

Definícia. Odhad sa nazýva nestranný, ak sa jeho matematické očakávanie rovná skutočnej hodnote odhadovaného parametra:

Aritmetický priemer vzorky je nezaujatý odhad matematického očakávania a rozptylu vzorky - neobjektívny odhad všeobecného rozptylu D. Nezaujatý odhad všeobecného rozptylu je odhad

Vlastnosť konzistentnosti hodnotenia.
Druhá požiadavka na odhad – jeho konzistentnosť – znamená, že odhad sa zlepšuje s rastúcou veľkosťou vzorky.

Definícia. stupeň sa nazýva konzistentný, ak v pravdepodobnosti konverguje k odhadovanému parametru θ ako n→∞.


Konvergencia pravdepodobnosti znamená, že pri veľkej veľkosti vzorky je pravdepodobnosť veľkých odchýlok odhadu od skutočnej hodnoty malá.

Vlastnosť efektívneho odhadu.
Tretia požiadavka vám umožňuje vybrať najlepší odhad z niekoľkých odhadov toho istého parametra.

Definícia. Nezaujatý odhad je účinný, ak má najmenší rozptyl medzi všetkými nezaujatými odhadmi.

To znamená, že efektívny odhad má minimálny rozptyl vzhľadom na skutočnú hodnotu parametra. Všimnite si, že nie vždy existuje efektívny odhad, ale z dvoch odhadov je zvyčajne možné vybrať ten efektívnejší, t.j. s menším rozptylom. Napríklad pre neznámy parameter a normálnej populácie N(a,σ) možno ako nezaujatý odhad brať ako aritmetický priemer vzorky, tak aj medián vzorky. Ale rozptyl mediánu vzorky je približne 1,6-krát väčší ako rozptyl aritmetického priemeru. Preto je efektívnejší odhad výberový aritmetický priemer.

Príklad č.1. Nájdite neskreslený odhad rozptylu meraní niektorej náhodnej veličiny pomocou jedného zariadenia (bez systematických chýb), ktorého výsledky merania (v mm): 13,15,17.
Riešenie. Tabuľka na výpočet ukazovateľov.

X|x - x priem |(x - x priemer) 2
13 2 4
15 0 0
17 2 4
45 4 8

Jednoduchý aritmetický priemer(nezaujatý odhad matematického očakávania)


Disperzia- charakterizuje mieru rozptylu okolo svojej priemernej hodnoty (miera rozptylu, t.j. odchýlka od priemeru - skreslený odhad).


Nestranný odhad rozptylu- konzistentný odhad rozptylu (opravený rozptyl).

Príklad č.2. Nájdite neskreslený odhad matematického očakávania meraní určitej náhodnej veličiny jedným zariadením (bez systematických chýb), ktorého výsledky merania (v mm): 4,5,8,9,11.
Riešenie. m = (4+5+8+9+11)/5 = 7,4

Príklad č.3. Nájdite korigovaný rozptyl S2 pre veľkosť vzorky n = 10, ak je rozptyl vzorky D = 180.
Riešenie. S2 = n*D/(n-1) = 10*180/(10-1) = 200

je vysídlená O. s. na rozptyl, keďže ; ako nezaujatý O. s. pre s 2 zvyčajne preberajú funkciu


pozri tiež Nestranný odhad.

Pre mieru presnosti nezaujatého O. s. a za parameter sa najčastejšie berie disperzia Da.

O. s. s najmenším rozptylom je tzv. najlepší. V uvedenom príklade je aritmetický priemer (1) najlepší O.S. Ak však náhodné premenné X i odlišný od normálneho, potom O. s. (1) nemusí byť najlepší. Napríklad, ak výsledky pozorovaní X i rovnomerne rozložené v intervale ( b, c), potom najlepší O.s. pre matematiku. očakávania a=(b+c)/2 bude polovičný súčet extrémnych hodnôt

(3)

Ako charakteristika pre porovnávanie presnosti rôznych O. s. aplikovať účinnosť – odchýlky najlepší odhad a tento nezaujatý odhad. Napríklad, ak výsledky pozorovaní X i sú rozdelené rovnomerne, potom sa rozptyly odhadov (1) a (3) vyjadria vzorcami

A (4)

Keďže odhad (3) je najlepší, účinnosť odhadu (1) v tomto prípade je

O veľké množstvá pozorovania zvyčajne vyžadujú, aby vybraný O. s. tendenciu pravdepodobnosti k skutočnej hodnote parametra A, t.j. tak, že pre každé e > 0

taký O. s. volal konzistentný (príklad konzistentného O. s, - ľubovoľný, ktorého rozptyl má tendenciu k nule; pozri tiež Dôsledné hodnotenie). Pretože dôležitá úloha v tomto prípade smeruje k limitu, potom sú asymptoticky najlepšie asymptoticky účinné operačné systémy, teda také operačné systémy, pre ktoré pri

Napríklad, ak sú rovnomerne normálne rozdelené, potom O. s. (2) je asymptoticky efektívny odhad pre neznámy parameter, pretože pri rozptyle odhadu a rozptylu najlepšieho odhadu sú asymptoticky ekvivalentné:

a okrem toho,

Zásadný význam pre teóriu O. s. a jej aplikáciami je skutočnosť, že O. s. pretože parameter a je zdola obmedzený určitou hodnotou (túto hodnotu navrhol R. Fischer charakterizovať množstvo informácií o neznámom parametri a obsiahnutých vo výsledkoch pozorovaní). Napríklad, ak sú nezávislé a identicky rozdelené s hustotou pravdepodobnosti p(x; A).a ak - O. s. pre určitú funkciu g(a) na parametri a, potom v širokej triede prípadov

Zavolá sa funkcia b(a). posunutie a nazýva sa hodnota inverzná k pravej strane nerovnosti (5). množstvo informácií (podľa Fishera) o funkcii g(a) , obsiahnuté v dôsledku pozorovaní. Najmä ak a je nezaujatý O. s. parameter A, to,

a množstvo informácií nIa v tomto prípade úmerne počtu pozorovaní (funkcia I(a.) sa nazýva množstvo informácií obsiahnutých v jednom pozorovaní).

Hlavné podmienky, za ktorých platia nerovnosti (5) a (6), sú hladkosť odhadu a ako funkcia Xi, a tiež na súbore parametrov týchto bodov X, kde p( x, a)=0. Posledná podmienka nie je splnená napríklad pri rovnomernom rozdelení, a preto rozptyl O. s. (3) nespĺňa nerovnosť (6) [podľa (4) je tento rozptyl rádovo n -2, pričom podľa nerovnosti (6) nemôže byť o niečo vyšší ako n-1].

Nerovnice (5) a (6) platia aj pre diskrétne rozdelené náhodné premenné X i je potrebné definovať iba informáciu I(a). p(x; A).nahradiť pravdepodobnosťou udalosti (X=x).

Ak je rozptyl nezaujatého O. s. a* pre parameter а sa zhoduje s pravou stranou nerovnosti (6), potom je to najlepší odhad. Opačné tvrdenie je vo všeobecnosti nepravdivé: rozptyl najlepších O. s. môže prekročiť . Ak však , potom je rozptyl najlepšieho odhadu asymptoticky ekvivalentný pravej strane (6), t.j. Pomocou množstva informácií (podľa Fishera) sa teda dá určiť asymptotická. účinnosť nezaujatého O. s. a za predpokladu

Zvlášť plodný je informačný prístup k teórii O. ovplyvňuje, kedy hustotu (v diskrétnom prípade - ) spoločného rozdelenia náhodných premenných možno reprezentovať ako súčin dvoch funkcií h( x 1, x 2,..., x n).[y( x 1, x 2,..., x n);A] , od ktorých prvá nezávisí A, a druhý predstavuje hustotu distribúcie určitej náhodnej premennej Z=y(X 1, X 2,...,X str), volal dostatočné štatistiky alebo komplexné štatistiky.

Jedna z najbežnejších metód na nájdenie bodu O. s. - momentová metóda. Podľa tejto metódy je teoretická rozdelenie v závislosti od neznámych parametrov sa umiestni do diskrétnej vzorky, ktorá je určená výsledkami pozorovaní X i a predstavuje rozdelenie pravdepodobnosti imaginárnej náhodnej premennej naberajúcej hodnoty s rovnakými pravdepodobnosťami rovnými 1/n (rozdelenie vzoriek možno považovať za bodový O. systém pre teoretické rozdelenie). Ako O. s. na momenty teoreticky. distribúcie majú zodpovedajúce momenty distribúcie vzoriek; napríklad pre matematiku očakávania a rozptyl s 2 metóda momentov dáva nasledovné OS: (1) a výberový rozptyl (2). Neznáme parametre sú zvyčajne vyjadrené (presne alebo približne) ako funkcie niekoľkých teoretických momentov. distribúcie. Nahradenie teoretických v týchto funkciách. momenty sú selektívne, získajú sa požadované O.s. Táto metóda, ktorá často vedie v praxi k relatívne jednoduché výpočty, dáva spravidla O. s. nízka asymptotická účinnosť (pozri vyššie príklad odhadu matematického očakávania rovnomerného rozdelenia).

Iná metóda hľadania O. s., teoreticky pokročilejšia. uhly pohľadu,- metóda maximálnej pravdepodobnosti, alebo metóda maximálnej pravdepodobnosti. Podľa tejto metódy uvažujeme pravdepodobnostnú funkciu L(a), ktorá je funkciou neznámeho parametra a a získa sa ako výsledok nahradenia hustoty spoločnej distribúcie argumentov x i samotnými náhodnými premennými X i; Ak X i - nezávislé a identicky rozdelené s hustotou pravdepodobnosti p(x; A), To

(Ak X i sú rozdelené diskrétne, potom v definícii pravdepodobnostnej funkcie L treba hustotu nahradiť pravdepodobnosťami udalostí). Ako O. s. maximálna pravdepodobnosť pre neznámy parameter sa považuje za hodnotu, ktorú dosiahne L(a). najvyššia hodnota(zároveň namiesto L, tzv logaritmická funkcia dôveryhodnosť ; v dôsledku monotónnosti logaritmu sa maximálne body funkcií L(a) a l(a) zhodujú). Príklady O. s. odhady maximálnej pravdepodobnosti sú najmenších štvorcov metóda.

Hlavnou výhodou O. s. maximálna pravdepodobnosť je taká istá všeobecné podmienky tieto odhady sú konzistentné, asymptoticky účinné a približne normálne rozdelené.

Uvedené vlastnosti znamenajú, že ak a je O.s. maximálna pravdepodobnosť teda

(ak sú X nezávislé, potom ). Pre distribučnú funkciu normalizovaných O. s. existuje obmedzujúci vzťah

Výhody O. s. maximálna pravdepodobnosť odôvodňuje výpočtovú prácu pri hľadaní maxima funkcie L (alebo l) . V niektorých prípadoch je výpočtová práca výrazne znížená v dôsledku nasledujúcich vlastností: po prvé, ak a* je taký operačný systém, pre ktorý sa (6) zmení na rovnosť, potom operačný systém. maximálna pravdepodobnosť je jedinečná a zhoduje sa s a*; po druhé, ak existuje Z, potom O. s. funkcia maximálnej pravdepodobnosti je Z.

Nech je napríklad nezávislý a rovnako normálne rozdelený tak, že

Preto

Súradnice a = a 0 a s= s 0 maximálnych bodov funkcie I( A, s).spĺňajú sústavu rovníc


Teda, a teda aj v tomto prípade O. s. (1) a (2) sú odhady maximálnej pravdepodobnosti a najlepšie O.s. parameter A, normálne distribuovaný (, ), a je asymptoticky účinný O.S. parameter s 2 , distribuované približne normálne pre veľké hodnoty (). Oba odhady sú nezávislou dostatočnou štatistikou.

Ďalší príklad, v ktorom

Táto hustota uspokojivo opisuje distribúciu jednej zo súradníc častíc, ktoré dosiahli plochú obrazovku a vyleteli z bodu umiestneného mimo obrazovky (a - súradnica projekcie zdroja na obrazovku sa považuje za neznámu). Pre zadané rozdelenie, matik. očakávanie neexistuje, pretože zodpovedajúce sa rozchádza. Preto nález O. s. Pre metódu momentov je to nemožné. Formálne použitie ako O. s. aritmetický priemer (1) nemá význam, pretože je v tomto prípade rozdelený s rovnakou hustotou p(x; a) ako každý jednotlivý výsledok pozorovania. Na odhad môžete využiť skutočnosť, že príslušné rozdelenie je symetrické podľa bodu x=a a preto, A - medián teoretický distribúcie. Mierna úprava spôsobu momentov, ako O. s. na prijatie tzv. výberový medián m, hrana pri je nezaujatá O. s. pre a, a ak je veľké, potom m je približne normálne rozdelené s disperziou


V rovnakom čase

preto, a teda, podľa (7) asymptotické. účinnosť sa rovná . Aby teda m bolo rovnako presné O. s. pre a, ako aj odhad maximálnej pravdepodobnosti pre a, je potrebné zvýšiť počet pozorovaní o 25 %. Ak sú náklady na experiment vysoké, potom by sa na určenie malo použiť O.s. a v tomto prípade je definovaný ako rovnica

Ako prvú aproximáciu vyberte 0 =u a potom to vyriešte postupnými aproximáciami pomocou vzorca

pozri tiež Bodový odhad.

Intervalové odhady. Intervalový odhad je tzv. Takýto OS je geometricky reprezentovateľný ako množina bodov patriacich do priestoru parametrov. Interval O. s. možno považovať za bod O. s. Táto množina závisí od výsledkov pozorovaní, a preto je náhodná; preto každý interval O. s. pravdepodobnosť je uvedená do korešpondencie, v ktorej tento odhad „pokryje“ neznámy parametr. bod. Takáto pravdepodobnosť vo všeobecnosti závisí od neznámych parametrov; preto ako charakteristiku spoľahlivosti intervalu O. s. brať dôveru - najmenšia možná hodnota zadanej pravdepodobnosti. Uspokojivá štatistika. závery umožňujú získať len tie intervalové O. strany, ktorých koeficient spoľahlivosti sa blíži k jednotke.

Ak sa odhaduje jeden parameter a, potom interval O. s. zvyčajne existuje určitá (b, g).(tzv.), ktorej koncové body (b a g sú funkciami výsledkov pozorovania; koeficient spoľahlivosti co je v tomto prípade definovaný ako pravdepodobnosti súčasného výskytu dve udalosti (b< a} и (g >a), vypočítané pre všetky možné hodnoty parametra a:


Ak sa stred takéhoto intervalu berie ako bod O. s. pre parameter a, potom s pravdepodobnosťou nie menšou ako 0 možno konštatovať, že tento O. s. nepresahuje polovicu dĺžky intervalu. Inými slovami, ak sa budeme riadiť špecifikovaným pravidlom pre odhad absolútnej chyby, potom sa k chybnému záveru dostane v priemere menej ako prípady. Pri fixnom koeficiente spoľahlivosti c sú najvýhodnejšie najkratšie intervaly spoľahlivosti, pre ktoré matematické dĺžka čakania dosahuje najnižšia hodnota.

Ak rozdelenie náhodných premenných X i závisí len od jedného neznámeho parametra A, potom sa konštrukcia intervalu spoľahlivosti zvyčajne vykonáva pomocou nejakého druhu bodu O. s. A. Pre väčšinu prakticky zaujímavých prípadov je distribučná funkcia rozumne zvoleného O.s. a závisí monotónne od parametra A. Za týchto podmienok nájsť interval O. s. nasleduje v F(x; A)nahradiť x= a . a určiť korene a 1 = a 1(a, w) a a 2 = a 2 (a, w).

(9) kde

[pre spojité rozvody]. Body so súradnicami a obmedzte interval spoľahlivosti koeficientom spoľahlivosti w. Samozrejme, takto skonštruovaný interval jednoduchým spôsobom, sa v mnohých prípadoch môže líšiť od optimálneho (najkratšieho). Ak je však a asymptoticky účinný O.S. pre a, potom pri dostatočne veľkom počte pozorovaní takýto interval O. s. sa prakticky nelíši od optimálneho. To platí najmä pre O. s. maximálna pravdepodobnosť, pretože je distribuovaný asymptoticky normálne (pozri (8)). V prípadoch, keď sú rovnice (9) ťažké, interval O. s. vypočítané približne pomocou bodu O. s. maximálna pravdepodobnosť a pomer (8):

Kde X - koreň rovnice

Ak , potom skutočný koeficient spoľahlivosti intervalového odhadu má tendenciu k w. Vo viac všeobecný prípad rozdelenie výsledkov pozorovania X i- závisí od viacerých parametrov a, b,.... Za týchto podmienok sa vyššie uvedené pravidlá pre konštrukciu intervalov spoľahlivosti často ukážu ako nepoužiteľné, keďže rozdelenie bodu O. s. a , závisí spravidla nielen od a, ale aj od iných parametrov. Avšak v praxi zaujímavé prípady O. s. a môže byť nahradená takouto funkciou z výsledkov pozorovania X i a neznámy parameter i, rozdelenie nezávisí (alebo „takmer nezávisí“) od všetkých neznámych parametrov. Príkladom takejto funkcie je normalizovaná O. s. maximálna pravdepodobnosť; ak menovateľ obsahuje argumenty a, b,... nahradiť ich odhadmi maximálnej pravdepodobnosti a, b,. . . , potom limitné rozdelenie zostane rovnaké ako vo vzorci (8). Preto približné intervaly spoľahlivosti pre každý parameter samostatne možno zostaviť takto: rovnaké, ako v prípade jedného parametra.

Ako je uvedené vyššie, ak sú ,... nezávislé a identicky normálne rozdelené náhodné premenné, potom s 2 sú najlepšie náhodné premenné. pre parametre a a s 2 v tomto poradí. Distribučná funkcia O. s. vyjadrené vzorcom


a preto závisí nielen od a, ale aj od s. Zároveň sa distribúcia tzv Študentov t-pomer


nezávisí od a alebo s, a

kde konštanta je zvolená tak, aby platila rovnosť . Teda interval spoľahlivosti

zodpovedá koeficientu spoľahlivosti

Rozdelenie odhadu s 2 závisí len od s 2 a distribučná funkcia O. s. s 2 je dané vzorcom

kde konštanta D n-1 je určená podmienkou (tzv. -distribúcia s n-1 stupňami voľnosti).

Keďže pravdepodobnosť monotónne rastie s rastúcim s, potom zostrojiť intervalový O. systém. platí pravidlo (9). Teda ak x 1 a x 2 sú korene rovníc a =, potom interval spoľahlivosti

zodpovedá koeficientu spoľahlivosti w. Z toho najmä vyplýva, že interval spoľahlivosti pre relatívnu chybu je daný nerovnosťami

Podrobné tabuľky Funkcie rozdelenia študentov a rozdelenia sú dostupné vo väčšine učebníc matematiky. štatistiky.

Doteraz sa predpokladalo, že distribučná funkcia výsledkov pozorovania je známa až do hodnôt niekoľkých parametrov. V aplikáciách sa však často vyskytuje prípad, keď funkcia distribúcie nie je známa. V tejto situácii môžu byť na odhad parametrov užitočné takzvané parametre. neparametrické štatistické metódy(t. j. metódy, ktoré nezávisia od pôvodného rozdelenia pravdepodobnosti). Povedzme napríklad, že chcete odhadnúť teoretický medián. spojité rozdelenie nezávislých náhodných premenných X 1, X 2,..., X p(pre symetrické rozdelenia sa zhoduje s matematickým očakávaním, ak, samozrejme, existuje). Nech Y 1 sú rovnaké hodnoty X i ale usporiadané vzostupne. Potom ak k- celé číslo vyhovujúce nerovnostiam n/2, To

Teda - interval O. s. pre vozidlá faktor spoľahlivosti w=w n,k. To platí pre akékoľvek spojité rozdelenie náhodných premenných Xi.

Vyššie bolo poznamenané, že rozdelenie vzoriek je bod O. s. pre neznáme teoretické distribúcie. Okrem toho funkcia distribúcie vzoriek Fn(x).- nezaujatý O. s. pre funkciu teoretickú distribúcie F(x) . V rovnakom čase, ako je znázornené A. N. Kolmogorov, rozdelenie štatistík

nezávisí od neznámeho teoretického rozdelenie a smeruje k limitnému rozdeleniu K(y) , tzv Kolmogorovova distribúcia. Teda ak y - riešenie rovnice K(y) = w, potom s pravdepodobnosťou w môžeme konštatovať, že funkcie sú teoretické. rozdelenie F(y).je úplne „prekryté“ pásikom uzavretým medzi grafmi funkcií (rozdiel medzi predlimitným a limitným rozdelením štatistiky l n je prakticky nevýznamný). Takýto interval O. s. volal dôveryhodná zóna. pozri tiež Intervalový odhad.

Štatistické odhady v teórii chýb. Teória chýb je odvetvie matematickej štatistiky venované numerickému určovaniu neznámych veličín z výsledkov meraní. Kvôli náhodnej povahe chýb merania a možno aj náhodnej povahe skúmaného javu nie sú všetky takéto výsledky rovnaké: pri opakovaných meraniach sa niektoré z nich vyskytujú častejšie, iné menej často.

Teória chýb je založená na matematike. Podľa strihu sa pred skúsenosťami súčet všetkých mysliteľných výsledkov meraní interpretuje ako súbor hodnôt určitej náhodnej premennej. Dôležitú úlohu preto zohráva O. s. Závery teórie chýb sú štatistické. . Význam a obsah takýchto záverov (ako v skutočnosti závery O.

Za predpokladu, že výsledok merania X je náhodná premenná, rozlišujú sa tri hlavné typy chýb merania: systematické, náhodné a hrubé (kvalitatívne opisy takýchto chýb sú uvedené v čl. Teória chýb). V tomto prípade je chyba pri meraní neznámej veličiny anaz. X-a, matematika. očakávanie tohto rozdielu E( Ha)=b volal systematická chyba (ak b = 0, potom hovoria, že merania sú bez systematických chýb) a rozdiel d = X- a-b volal náhodná chyba . Ak sú teda uvedené nezávislé merania hodnoty a, ich výsledky možno zapísať vo forme rovnosti

kde a a b sú konštanty, a d i- náhodné premenné. Vo všeobecnejšom prípade

kde b i- nezávislý od d i náhodné premenné, ktoré sa rovnajú nule s pravdepodobnosťou veľmi blízkou jednej (preto je akákoľvek iná hodnota nepravdepodobná). Hodnota b i volal omyl.

Úlohou hodnotenia (a odstraňovania) systematicky chyby väčšinou presahujú rámec matematiky. štatistiky. Výnimkou sú tzv. štandardná metóda, podľa ktorej sa na odhad b vykoná séria meraní známej veličiny a (v tejto metóde b- odhadovaná hodnota a - systematicky známa. chyby), ako aj umožnenie systematického hodnotenia. nezrovnalosti medzi niekoľkými sériami meraní.

Hlavnou úlohou teórie chýb je nájsť O.s. pre neznámu veličinu a a posúdenie presnosti merania. Ak systematicky chyba bola odstránená (b=0) a pozorovania neobsahujú hrubé chyby, potom podľa (10) X i=a+d i a preto sa v tomto prípade úloha hodnotenia redukuje na nájdenie v tom či onom zmysle optimálneho operačného systému. pre matematiku. očakávania identicky rozdelených náhodných premenných Xi. Ako sa ukázalo v predchádzajúcich častiach, typ takýchto O. s. (bod alebo interval) výrazne závisí od distribučného zákona náhodných chýb. Ak je tento zákon známy s presnosťou niekoľkých neznámych parametrov, potom sa na odhad môže použiť napríklad metóda maximálnej pravdepodobnosti; v opačnom prípade by sa malo najprv vychádzať z výsledkov pozorovaní X i nájsť O.s. pre neznámu funkciu rozdelenia náhodných chýb d i(„neparametrický“ interval O.S. takejto funkcie je uvedený vyššie). V praxi v práci si často vystačia s dvoma O. s. a (pozri (1) a (2)). Ak d i sú rozdelené rovnako normálne, potom tieto O. s. najlepší; v iných prípadoch môžu byť tieto hodnotenia neúčinné.

Prítomnosť hrubých chýb komplikuje úlohu odhadu parametra a. Zvyčajne je podiel pozorovaní, v ktorých je malý, a matematický. čakanie na nenulové |b i| výrazne presahuje (hrubé chyby vznikajú v dôsledku náhodného nesprávneho výpočtu, nesprávneho odčítania údajov merací prístroj a tak ďalej.). Výsledky meraní obsahujúce hrubé chyby sú často jasne viditeľné, pretože sa výrazne líšia od ostatných výsledkov meraní. Za týchto podmienok je najvhodnejším spôsobom identifikácie (a eliminácie) hrubých chýb priama analýza meraní, starostlivá kontrola nemennosti podmienok všetkých experimentov, zaznamenávanie výsledkov „do dvoch rúk“ atď. Štatistické. metódy identifikácie hrubých chýb by sa mali používať iba v pochybných prípadoch.

Najjednoduchší príklad takéto metódy sú štatistické. identifikovanie jedného pozorovania, ktoré vyniká, keď môže byť ktorékoľvek z nich podozrivé Y1 = min X 1, alebo Yp = maxX i(predpokladá sa, že v rovnosti (11) b=0 a zákon rozdelenia hodnôt d i slávny). Aby sa zistilo, či je predpoklad o prítomnosti jednej hrubej chyby oprávnený, pre pár Y1, Y n vypočítajte spoločný interval O. s. (dôvera), veriť všetkým b i rovná nule. Ak tento O. s. "pokryje" bod súradnicami ( Y1, Y n), potom by sa podozrenie na hrubú chybu malo považovať za štatisticky nepodložené; v opačnom prípade sa hypotéza o prítomnosti hrubej chyby musí považovať za potvrdenú (v tomto prípade sa odmietnuté pozorovanie zvyčajne zahodí, pretože štatisticky nie je možné spoľahlivo odhadnúť veľkosť hrubej chyby z jedného pozorovania).

Po preštudovaní tejto kapitoly bude študent vedieť,že vzorku možno považovať za empirickú analógiu všeobecnej populácie, že pomocou výberových údajov možno posudzovať vlastnosti všeobecnej populácie a hodnotiť jej charakteristiky, základné zákony rozloženia štatistických odhadov, byť schopný vytvárať bodové a intervalové odhady parametrov populácie pomocou metódy momentov a maximálnej pravdepodobnosti, vlastné spôsoby určenia presnosti a spoľahlivosti získaných odhadov.

Typy štatistických odhadov

O parametroch bežnej populácie vieme, že objektívne existujú, ale nie je možné ich priamo určiť, pretože všeobecná populácia je buď nekonečná, alebo nadmerne veľká. Otázka preto môže smerovať len k posúdeniu týchto charakteristík.

Predtým sa zistilo, že pre vzorku extrahovanú zo všeobecnej populácie je možné pri splnení podmienok reprezentatívnosti určiť charakteristiky, ktoré sú analogické charakteristikám všeobecnej populácie.

cjp Definícia 8.1. Približné hodnoty distribučných parametrov zistené zo vzorky sa nazývajú odhady parametrov.

Označme odhadnutý parameter náhodnej premennej (všeobecnej populácie) ako 0 a jej odhad získaný pomocou vzorky ako 0.

Skóre 0 je náhodná premenná, pretože každá vzorka je náhodná. Odhady získané pre rôzne vzorky sa budú navzájom líšiť. Preto budeme 0 považovať za funkciu v závislosti od vzorky: 0 = 0 (X in).

ShchR Definícia 8.2. Štatistické hodnotenie je tzv bohatý, ak má tendenciu pravdepodobnosti k odhadovanému parametru:

Táto rovnosť znamená, že udalosť 0=0 sa stáva spoľahlivou, pretože veľkosť vzorky narastá donekonečna.

Príkladom môže byť relatívna frekvencia nejakej udalosti A,čo je konzistentný odhad pravdepodobnosti tejto udalosti v súlade s Poissonovou vetou (pozri vzorec (6.1), časť 1).

Definícia 8.3.Štatistický odhad je považovaný za efektívny, ak má najmenší rozptyl pre rovnakú veľkosť vzorky.

Zvážte hodnotenie M x matematické očakávanie M x náhodná premenná X. Ako taký odhad zvolíme X. Nájdime matematické očakávanie náhodnej premennej X.

Najprv urobme dôležité vyhlásenie: vzhľadom na to, že všetky náhodné premenné X, pochádzajú z rovnakej populácie X,čo znamená, že majú rovnaké rozdelenie ako X, dá sa napísať:

Teraz poďme nájsť M(X in):


Výberový priemer je teda štatistický odhad matematického očakávania náhodnej premennej. Tento odhad je konzistentný, pretože v súlade s dôsledkom Čebyševovej vety konverguje v pravdepodobnosti k matematickému očakávaniu (6.3).

Zistili sme, že v posudzovanom prípade sa matematické očakávanie nami zvoleného odhadu (náhodná premenná) rovná samotnému odhadovanému parametru. Odhady s touto nehnuteľnosťou zaujímajú osobitné miesto v matematickej štatistiky, nazývajú sa nezaujaté.

Definícia 8.4.Štatistický odhad © sa nazýva nestranný, ak sa jeho matematické očakávanie rovná odhadovanému parametru

Ak táto požiadavka nie je splnená, odhad sa nazýva neobjektívny.

Výberový priemer je teda nezaujatým odhadom očakávanej hodnoty.

Poďme analyzovať odchýlku rozptylu vzorky D, ak sa zvolí ako odhad všeobecného rozptylu Dx. Aby sme to urobili, skontrolujme, či je splnená podmienka (8.2)?):


Transformujme každý z dvoch výsledných výrazov:

Tu bola použitá rovnosť M(X.) = M(X2), spravodlivé z rovnakého dôvodu ako (8.1).

Pozrime sa na druhý termín. Použitie vzorca na druhú P podmienky, ktoré dostaneme


Berúc do úvahy opäť rovnosť (8.1), ako aj skutočnosť, že X a X sú nezávislé náhodné premenné, píšeme

a nakoniec dostaneme:

Získané výsledky dosadíme do (8.3)

Po transformácii dostaneme

Môžeme teda konštatovať, že rozptyl vzorky je premiestnený odhad všeobecného rozptylu.

S prihliadnutím na získaný výsledok sme si dali za úlohu skonštruovať odhad všeobecného rozptylu, ktorý by splnil nestrannú podmienku (8.2). Ak to chcete urobiť, zvážte náhodnú premennú

Je ľahké vidieť, že pre toto množstvo je splnená podmienka (8.2):

Všimnite si, že rozdiely medzi rozptylom vzorky a korigovaným rozptylom vzorky sa pri väčších veľkostiach vzorky stanú nevýznamnými.

Pri výbere odhadov charakteristík náhodných veličín je dôležité poznať ich presnosť. V niektorých prípadoch je potrebná vysoká presnosť a niekedy stačí hrubý odhad. Napríklad pri plánovaní prestupného letu je pre nás dôležité čo najpresnejšie poznať plánovaný čas príletu do nadväzujúceho bodu. V inej situácii, keď sme napríklad doma a čakáme na kuriéra s tovarom, ktorý sme si objednali, pre nás nie je dôležitá vysoká presnosť času jeho príchodu. V oboch prípadoch je náhodnou veličinou čas príchodu a charakteristikou náhodnej veličiny, ktorá nás zaujíma, je priemerný čas cesty.

Existujú dva typy hodnotení. V prvom prípade je úlohou získať konkrétnu číselnú hodnotu parametra. V inom prípade sa určí interval, do ktorého s danou pravdepodobnosťou spadá pre nás zaujímavý parameter.