Het verband dat bestaat tussen willekeurige variabelen van verschillende aard, bijvoorbeeld tussen de X-waarde en de Y-waarde, is niet noodzakelijk een gevolg van de directe afhankelijkheid van de ene variabele van de andere (de zogenaamde functionele relatie). In sommige gevallen zijn beide grootheden afhankelijk van een hele reeks verschillende factoren die beide grootheden gemeen hebben, waardoor aan elkaar gerelateerde patronen worden gevormd. Wanneer een verband tussen willekeurige variabelen wordt ontdekt met behulp van statistieken, kunnen we niet beweren dat we de oorzaak van de voortdurende verandering in parameters hebben ontdekt, maar zagen we slechts twee onderling samenhangende gevolgen.

Kinderen die bijvoorbeeld meer Amerikaanse actiefilms op tv kijken, lezen minder. Kinderen die meer lezen, leren beter. Het is niet zo eenvoudig om te bepalen wat de oorzaken en wat de gevolgen zijn, maar dit is niet de taak van statistieken. Statistieken kunnen alleen een hypothese naar voren brengen over de aanwezigheid van een verband, onderbouw dit met cijfers. Als er inderdaad een verband is, wordt gezegd dat de twee willekeurige variabelen gecorreleerd zijn. Als een toename van een willekeurige variabele gepaard gaat met een toename van de tweede willekeurige variabele, wordt de correlatie direct genoemd. Bijvoorbeeld het aantal gelezen pagina's per jaar en de gemiddelde score (performance). Als daarentegen een toename van de ene waarde gepaard gaat met een afname van een andere, spreekt men van een inverse correlatie. Bijvoorbeeld het aantal actiefilms en het aantal gelezen pagina's.

De onderlinge relatie van twee willekeurige variabelen wordt correlatie genoemd, correlatieanalyse stelt u in staat om de aanwezigheid van een dergelijke relatie te bepalen, om te beoordelen hoe nauw en significant deze relatie is. Dit alles is gekwantificeerd.

Hoe te bepalen of er een correlatie is tussen de waarden? In de meeste gevallen is dit te zien op een gewone grafiek. U kunt bijvoorbeeld voor elk kind in onze steekproef de waarde X i (aantal pagina's) en Y i (gemiddelde score van de jaarlijkse beoordeling) bepalen en deze gegevens vastleggen in de vorm van een tabel. Bouw de X- en Y-assen en plot vervolgens de hele reeks punten in de grafiek, zodat elk van hen een specifiek paar coördinaten (X i , Y i) uit onze tabel heeft. Omdat we het in dit geval moeilijk vinden om te bepalen wat als oorzaak en wat als gevolg kan worden beschouwd, maakt het niet uit welke as verticaal en welke horizontaal is.


Als de grafiek eruitziet als a), dan duidt dit op de aanwezigheid van een directe correlatie, als het lijkt op b) - de correlatie is omgekeerd. Gebrek aan correlatie
Met behulp van de correlatiecoëfficiënt kunt u berekenen hoe nauw het verband tussen de waarden bestaat.

Stel dat er een correlatie is tussen de prijs en de vraag naar een product. Het aantal gekochte eenheden goederen, afhankelijk van de prijs van verschillende verkopers, wordt weergegeven in de tabel:

Het is duidelijk dat we te maken hebben met een inverse correlatie. Om de dichtheid van de verbinding te kwantificeren, wordt de correlatiecoëfficiënt gebruikt:

We berekenen de coëfficiënt r in Excel, met behulp van de functie f x en vervolgens statistische functies, de functie CORREL. Op de prompt van het programma voeren we met de muis twee verschillende arrays (X en Y) in de twee corresponderende velden in. In ons geval bleek de correlatiecoëfficiënt r = - 0,988 te zijn. Opgemerkt moet worden dat hoe dichter de correlatiecoëfficiënt bij 0 ligt, hoe zwakker de relatie tussen de waarden. De nauwste relatie met directe correlatie komt overeen met een coëfficiënt r dichtbij +1. In ons geval is de correlatie omgekeerd, maar ook heel dichtbij, en de coëfficiënt ligt dicht bij -1.

Wat kan worden gezegd over willekeurige variabelen waarvan de coëfficiënt een tussenwaarde heeft? Als we bijvoorbeeld r=0,65 krijgen. In dit geval stellen statistieken ons in staat om te zeggen dat twee willekeurige variabelen gedeeltelijk aan elkaar gerelateerd zijn. Laten we zeggen 65% van de impact op het aantal aankopen had prijs, en 35% - andere omstandigheden.

En er moet nog een belangrijke omstandigheid worden genoemd. Omdat we het hebben over willekeurige variabelen, is er altijd de mogelijkheid dat het verband dat we hebben opgemerkt een willekeurige omstandigheid is. Bovendien is de kans om een ​​verband te vinden waar er geen is, bijzonder hoog als er weinig punten in de steekproef zijn, en bij het evalueren heb je geen grafiek gemaakt, maar eenvoudig de waarde van de correlatiecoëfficiënt op een computer berekend. Dus als we slechts twee verschillende punten in een willekeurige steekproef achterlaten, is de correlatiecoëfficiënt gelijk aan +1 of -1. Van de cursus meetkunde op school weten we dat je altijd een rechte lijn door twee punten kunt trekken. Om de statistische significantie van het gevonden verband te beoordelen, is het handig om de zogenaamde correlatiecorrectie te gebruiken:

Terwijl de taak van correlatieanalyse is om vast te stellen of deze willekeurige variabelen gerelateerd zijn, is het doel van regressieanalyse om deze relatie te beschrijven met een analytische afhankelijkheid, d.w.z. met behulp van een vergelijking. We zullen het eenvoudigste geval beschouwen, wanneer de verbinding tussen punten op de grafiek kan worden weergegeven door een rechte lijn. De vergelijking van deze rechte is Y=aX+b, waarbij a=Yav.-bXav.,

Wetende dat we de waarde van de functie kunnen vinden door de waarde van het argument op die punten waar de waarde van X bekend is, maar Y niet. Deze schattingen zijn erg nuttig, maar ze moeten met voorzichtigheid worden gebruikt, vooral als de relatie tussen de hoeveelheden niet te nauw is.

We merken ook op dat uit een vergelijking van de formules voor b en r blijkt dat de coëfficiënt niet de waarde van de helling van de rechte lijn geeft, maar alleen het feit van het bestaan ​​van een verbinding laat zien.

Het bedrijf heeft 10 mensen in dienst. Tabel 2 toont gegevens over hun werkervaring en

maandelijks salaris.

Bereken op basis van deze gegevens

  • - de waarde van de steekproefcovariantieschatting;
  • - de waarde van de Pearson-correlatiecoëfficiënt van de steekproef;
  • - evalueer de richting en sterkte van de verbinding volgens de verkregen waarden;
  • - Bepaal hoe legitiem de stelling dat dit bedrijf het Japanse managementmodel hanteert, dat erin bestaat dat hoe meer tijd een werknemer in dit bedrijf doorbrengt, hoe hoger zijn salaris zou moeten zijn.

Op basis van het correlatieveld kan men (voor de algemene bevolking) veronderstellen dat de relatie tussen alle mogelijke waarden van X en Y lineair is.

Om de regressieparameters te berekenen, bouwen we een rekentabel.

Steekproef betekent.

Voorbeeldafwijkingen:

De geschatte regressievergelijking ziet er als volgt uit:

y = bx + a + e,

waarbij ei respectievelijk de waargenomen waarden (schattingen) van de fouten ei, a en b zijn, de schattingen van de parameters b en in het regressiemodel dat moet worden gevonden.

Gebruik LSM (kleinste kwadraten) om de parameters b en c te schatten.

Stelsel van normaalvergelijkingen.

a?x + b?x2 = ?y*x

Voor onze gegevens heeft het stelsel vergelijkingen de vorm

  • 10a + 307b = 33300
  • 307 a + 10857 b = 1127700

We vermenigvuldigen de vergelijking (1) van het systeem met (-30,7), we krijgen een systeem dat we oplossen met de methode van algebraïsche optelling.

  • -307a -9424,9 b = -1022310
  • 307 a + 10857 b = 1127700

We krijgen:

1432.1b = 105390

Waar b = 73,5912

Nu vinden we de coëfficiënt "a" uit vergelijking (1):

  • 10a + 307b = 33300
  • 10a + 307 * 73.5912 = 33300
  • 10a = 10707,49

We krijgen empirische regressiecoëfficiënten: b = 73,5912, a = 1070,7492

Regressievergelijking (empirische regressievergelijking):

y = 73,5912 x + 1070,7492

covariantie.

In ons voorbeeld is de relatie tussen kenmerk Y en factor X hoog en direct.

Daarom kunnen we gerust stellen dat hoe meer tijd een werknemer in een bepaald bedrijf werkt, hoe hoger zijn salaris.

4. Statistische hypothesen testen. Bij het oplossen van dit probleem is de eerste stap het formuleren van een toetsbare hypothese en een alternatieve.

Controle van de gelijkheid van algemene aandelen.

Op twee faculteiten is onderzoek gedaan naar de prestaties van studenten. De resultaten voor de varianten zijn weergegeven in Tabel 3. Kun je stellen dat beide faculteiten hetzelfde percentage excellente studenten hebben?

eenvoudig rekenkundig gemiddelde

We testen de hypothese over de gelijkheid van de algemene aandelen:

Laten we de experimentele waarde van Student's criterium vinden:

Aantal vrijheidsgraden

f \u003d nx + ny - 2 \u003d 2 + 2 - 2 \u003d 2

Bepaal de waarde van tkp volgens de verdelingstabel van de student

Volgens de studententabel vinden we:

Ttabl(f;b/2) = Ttabl(2;0.025) = 4.303

Volgens de tabel met kritische punten van de verdeling van de student op een significantieniveau b = 0,05 en een bepaald aantal vrijheidsgraden, vinden we tcr = 4,303

Omdat tobs > tcr, dan wordt de nulhypothese verworpen, de algemene aandelen van de twee steekproeven zijn niet gelijk.

Controleren van de uniformiteit van de algemene verdeling.

De universiteitsdirectie wil weten hoe de populariteit van de Faculteit der Geesteswetenschappen in de loop van de tijd is veranderd. Het aantal aanvragers dat zich heeft aangemeld voor deze faculteit is geanalyseerd in relatie tot het totale aantal aanvragers in het betreffende jaar. (Gegevens worden gegeven in Tabel 4). Als we het aantal aanvragers beschouwen als een representatieve steekproef van het totale aantal afgestudeerden van het jaar, kan dan worden gesteld dat de interesse van schoolkinderen voor de specialiteiten van deze faculteit niet verandert in de tijd?

Optie 4

Oplossing: Tabel voor het berekenen van indicatoren.

Interval middelpunt, xi

Cumulatieve frequentie, S

Frequentie, fi/n

Om de distributiereeksen te evalueren, vinden we de volgende indicatoren:

gewogen gemiddelde

Het variatiebereik is het verschil tussen de maximale en minimale waarden van het attribuut van de primaire reeks.

R = 2008 - 1988 = 20 Verspreiding - karakteriseert de spreidingsmaat rond zijn gemiddelde waarde (spreidingsmaat, d.w.z. afwijking van het gemiddelde).

Standaarddeviatie (gemiddelde steekproeffout).

Elke waarde van de reeks wijkt gemiddeld 6,32 . af van de gemiddelde waarde van 2002,66

Het testen van de hypothese over de uniforme verdeling van de algemene bevolking.

Om de hypothese over de uniforme verdeling van X te testen, d.w.z. volgens de wet: f(x) = 1/(b-a) in het interval (a,b) is het nodig:

Schat de parameters a en b - de uiteinden van het interval waarin de mogelijke waarden van X werden waargenomen, volgens de formules (de * geeft de schattingen van de parameters aan):

Vind de kansdichtheid van de geschatte verdeling f(x) = 1/(b* - a*)

Vind theoretische frequenties:

n1 = nP1 = n = n*1/(b* - a*)*(x1 - a*)

n2 = n3 = ... = ns-1 = n*1/(b* - a*)*(xi - xi-1)

ns = n*1/(b* - a*)*(b* - xs-1)

Vergelijk empirische en theoretische frequenties met behulp van de Pearson-test, uitgaande van het aantal vrijheidsgraden k = s-3, waarbij s het aantal initiële bemonsteringsintervallen is; als echter een combinatie van kleine frequenties, en dus de intervallen zelf, is gemaakt, dan is s het aantal resterende intervallen na de combinatie. Laten we de schattingen van de parameters a* en b* van de uniforme verdeling zoeken met de formules:

Laten we de dichtheid van de veronderstelde uniforme verdeling vinden:

f(x) = 1/(b* - a*) = 1/(2013,62 - 1991,71) = 0,0456

Laten we de theoretische frequenties vinden:

n1 = n*f(x)(x1 - a*) = 0,77 * 0,0456 (1992-1991,71) = 0,0102

n5 = n*f(x)(b* - x4) = 0,77 * 0,0456(2013,62-2008) = 0,2

ns = n*f(x)(xi - xi-1)

Aangezien de Pearson-statistiek het verschil tussen de empirische en theoretische verdelingen meet, geldt hoe groter de waargenomen waarde Kobs, hoe sterker het argument tegen de hoofdhypothese.

Daarom is het kritieke gebied voor deze statistiek altijd rechtshandig: ) kan aanzienlijk verschillen van de overeenkomstige kenmerken van het oorspronkelijke (niet-vervormde) schema (, n) normaal schema (, m) vermindert altijd de absolute waarde van de regressiecoëfficiënt Ql in relatie (B. 15), en verzwakt ook de mate van strakheid van de relatie tussen um (dwz vermindert de absolute waarde van de correlatiecoëfficiënt r).

Invloed van meetfouten op de waarde van de correlatiecoëfficiënt. Laten we een schatting maken van de mate van nabijheid van de correlatie tussen de componenten van een tweedimensionale normale willekeurige variabele (, TJ), maar we kunnen ze alleen waarnemen met enkele willekeurige meetfouten, respectievelijk es en e (zie het diagram van de afhankelijkheid D2 in de inleiding). Daarom zijn de experimentele gegevens (xit i/i), i = 1, 2,. .., n, zijn praktisch voorbeeldwaarden van de vervormde tweedimensionale willekeurige variabele (, r)), waarbij =

Methode R.a. bestaat uit het afleiden van een regressievergelijking (inclusief een schatting van zijn parameters), met behulp waarvan de gemiddelde waarde van een willekeurige variabele wordt gevonden als de waarde van een andere (of andere in het geval van meervoudige of multivariate regressie) bekend is. (Daarentegen wordt correlatieanalyse gebruikt om de sterkte van de relatie tussen willekeurige variabelen te vinden en uit te drukken71.)

In de studie van de correlatie van tekens die niet samenhangen met een consistente verandering in de tijd, verandert elk teken onder invloed van vele willekeurig genomen oorzaken. In de reeks van dynamiek wordt er gedurende de tijd van elke reeks een verandering aan toegevoegd. Deze verandering leidt tot de zogenaamde autocorrelatie - de invloed van veranderingen in de niveaus van vorige reeksen op volgende. Daarom toont de correlatie tussen de niveaus van tijdreeksen correct de nauwheid van de relatie tussen de fenomenen die in de tijdreeksen worden weerspiegeld, alleen als er geen autocorrelatie is in elk van hen. Bovendien leidt autocorrelatie tot een vertekening van de gemiddelde kwadratische fouten van de regressiecoëfficiënten, wat het moeilijk maakt om betrouwbaarheidsintervallen voor de regressiecoëfficiënten te bouwen en hun significantie te controleren.

De theoretische en steekproefcorrelatiecoëfficiënten gedefinieerd door de relaties (1.8) en (1.8), respectievelijk, kunnen formeel worden berekend voor elk tweedimensionaal observatiesysteem; het zijn metingen van de mate van strakheid van de lineaire statistische relatie tussen de geanalyseerde kenmerken. Alleen in het geval van een gezamenlijke normale verdeling van de bestudeerde willekeurige variabelen en u, heeft de correlatiecoëfficiënt r echter een duidelijke betekenis als kenmerk van de mate van nauwheid van het verband daartussen. In dit geval bevestigt met name de verhouding r - 1 een puur functionele lineaire relatie tussen de onderzochte grootheden, en de vergelijking r = 0 geeft hun volledige wederzijdse onafhankelijkheid aan. Bovendien vormt de correlatiecoëfficiënt, samen met de gemiddelden en varianties van willekeurige variabelen en TJ, die vijf parameters die uitgebreide informatie verschaffen over

Regressie analyse

De resultaten van het experiment verwerken volgens de methode

Bij het bestuderen van de werkingsprocessen van complexe systemen heeft men te maken met een aantal gelijktijdig werkende stochastische variabelen. Om het mechanisme van verschijnselen, oorzaak-en-gevolgrelaties tussen de elementen van het systeem, enz. te begrijpen, proberen we de relatie van deze grootheden vast te stellen op basis van de ontvangen waarnemingen.

In wiskundige analyse wordt bijvoorbeeld de afhankelijkheid tussen twee grootheden uitgedrukt door het concept van een functie

waarbij elke waarde van de ene variabele overeenkomt met slechts één waarde van de andere. Deze afhankelijkheid heet functioneel.

De situatie met het concept van afhankelijkheid van willekeurige variabelen is veel gecompliceerder. Tussen willekeurige variabelen (willekeurige factoren) die het proces van functioneren van complexe systemen bepalen, bestaat in de regel meestal zo'n relatie waarin, bij verandering van de ene variabele, de verdeling van een andere verandert. Zo'n verbinding heet stochastisch, of waarschijnlijkheid. In dit geval is de grootte van de verandering in de willekeurige factor ja, overeenkomend met de verandering in de waarde x, kan worden opgesplitst in twee componenten. De eerste heeft te maken met verslaving. ja van x, en de tweede met de invloed van "eigen" willekeurige componenten ja en x. Als de eerste component ontbreekt, dan zijn de willekeurige variabelen ja en x zijn onafhankelijk. Als het tweede onderdeel ontbreekt, dan: ja en x functioneel afhankelijk zijn. In aanwezigheid van beide componenten bepaalt de verhouding ertussen de sterkte of dichtheid van de relatie tussen willekeurige variabelen ja en x.

Er zijn verschillende indicatoren die bepaalde aspecten van de stochastische relatie kenmerken. Dus een lineair verband tussen willekeurige variabelen x en ja bepaalt de correlatiecoëfficiënt.

waar zijn de wiskundige verwachtingen van willekeurige variabelen X en ja.

– standaarddeviaties van willekeurige variabelen x en ja.


De lineaire probabilistische afhankelijkheid van willekeurige variabelen ligt in het feit dat als een willekeurige variabele toeneemt, de andere de neiging heeft toe te nemen (of af te nemen) volgens een lineaire wet. Als willekeurige variabelen x en ja zijn verbonden door een strikte lineaire functionele afhankelijkheid, bijvoorbeeld,

y=b 0 +b 1 x 1,

dan is de correlatiecoëfficiënt gelijk aan ; waarbij het teken overeenkomt met het teken van de coëfficiënt b 1.Als de waarden x en ja verbonden zijn door een willekeurige stochastische afhankelijkheid, dan varieert de correlatiecoëfficiënt binnen

Benadrukt moet worden dat voor onafhankelijke willekeurige variabelen de correlatiecoëfficiënt gelijk is aan nul. De correlatiecoëfficiënt als indicator van de afhankelijkheid tussen willekeurige variabelen heeft echter ernstige nadelen. Ten eerste, van de gelijkheid R= 0 impliceert geen onafhankelijkheid van willekeurige variabelen x en ja(met uitzondering van willekeurige variabelen die onderworpen zijn aan de wet van de normale verdeling, waarvoor: R= 0 betekent tegelijkertijd de afwezigheid van enige afhankelijkheid). Ten tweede zijn de extreme waarden ook niet erg nuttig, omdat ze niet overeenkomen met een functionele afhankelijkheid, maar alleen met een strikt lineaire.



Volledige afhankelijkheidsbeschrijving ja van x, en bovendien uitgedrukt in exacte functionele relaties, kan worden verkregen door de voorwaardelijke verdelingsfunctie te kennen.

Opgemerkt moet worden dat in dit geval een van de waargenomen variabelen als niet-willekeurig wordt beschouwd. Gelijktijdig de waarden van twee willekeurige variabelen vastleggen x en ja, bij het vergelijken van hun waarden, kunnen we alle fouten alleen toeschrijven aan de waarde ja. De waarnemingsfout is dus de som van zijn eigen willekeurige fout van de hoeveelheid ja en uit de matchingfout die voortvloeit uit het feit dat met de waarde ja niet helemaal dezelfde waarde komt overeen x die daadwerkelijk heeft plaatsgevonden.

Het vinden van de voorwaardelijke verdelingsfunctie blijkt in de regel echter een zeer moeilijke taak te zijn. De eenvoudigste manier om de relatie tussen x en ja met een normale verdeling ja, omdat het volledig wordt bepaald door de wiskundige verwachting en variantie. In dit geval, om de afhankelijkheid te beschrijven: ja van x je hoeft geen voorwaardelijke verdelingsfunctie te bouwen, maar geef gewoon aan hoe, bij het wijzigen van de parameter x de wiskundige verwachting en variantie van de waardeverandering ja.

Zo komen we tot de noodzaak om slechts twee functies te vinden:

Afhankelijkheid van conditionele variantie D van parameter x wordt genoemd schodastichesky afhankelijkheden. Het kenmerkt de verandering in de nauwkeurigheid van de observatietechniek met een verandering in de parameter en wordt vrij zelden gebruikt.

Afhankelijkheid van de voorwaardelijke wiskundige verwachting m van x wordt genoemd regressie, het geeft de ware afhankelijkheid van de hoeveelheden x en Bij, verstoken van alle willekeurige lagen. Daarom is het ideale doel van elke studie van afhankelijke variabelen het vinden van een regressievergelijking, en de variantie wordt alleen gebruikt om de nauwkeurigheid van het resultaat te beoordelen.

Directe interpretatie van de term correlatie - stochastisch, waarschijnlijk, mogelijk verbinding tussen twee (paar) of meerdere (meerdere) willekeurige variabelen.

Er werd hierboven gezegd dat als voor twee SW's ( x en ja) we hebben de gelijkheid P(XY) =P(X) P(Y), dan de hoeveelheden x en ja onafhankelijk beschouwd. Nou, wat als dat niet zo is!?

De vraag is tenslotte altijd belangrijk - en hoe sterk is de ene SW afhankelijk van de andere? En het punt is niet inherent aan de wens van mensen om iets noodzakelijkerwijs in een numerieke dimensie te analyseren. Het is nu al duidelijk dat systeemanalyse continue berekeningen betekent, dat het gebruik van een computer ons dwingt om mee te werken nummers, geen concepten.

Om een ​​mogelijke relatie tussen twee willekeurige variabelen numeriek te evalueren: ja(met gemiddelde MijnSy) en - x(met gemiddelde M x en standaarddeviatie S x) is het gebruikelijk om de zogenaamde correlatiecoëfficiënt

Rxy = . {2 - 11}

Deze coëfficiënt kan waarden aannemen van -1 tot +1 - afhankelijk van de dichtheid van de relatie tussen deze willekeurige variabelen.

Als de correlatiecoëfficiënt nul is, dan: x en ja genaamd ongecorreleerd . Er is meestal geen reden om ze als onafhankelijk te beschouwen - het blijkt dat er in de regel niet-lineaire relaties zijn van grootheden waaronder Rxy = 0, hoewel de hoeveelheden van elkaar afhankelijk zijn. Het omgekeerde is altijd waar - als de waarden onafhankelijk , dan Rxy = 0 . Maar als de module Rxy= 1, dat wil zeggen, er is alle reden om de aanwezigheid aan te nemen lineair communicatie tussen ja en x. Daarom praten ze vaak over lineaire correlatie bij gebruik van deze methode voor het schatten van de verbinding tussen CB's.

We merken een andere manier op om de correlatie tussen twee willekeurige variabelen te beoordelen - als we de producten van de afwijkingen van elk van hen optellen van de gemiddelde waarde, dan is de resulterende waarde

C xy \u003d S (X - M x)· (J-mijn)

of covariantie hoeveelheden x en ja onderscheidt twee indicatoren van de correlatiecoëfficiënt : Ten eerste, middeling(gedeeld door het aantal waarnemingen of paren x, ja) en ten tweede, rantsoenering door te delen door de bijbehorende standaarddeviaties.

Een dergelijke beoordeling van de verbanden tussen willekeurige variabelen in een complex systeem is een van de beginfasen van systeemanalyse, dus hier komt de kwestie van vertrouwen in de conclusie over de aan- of afwezigheid van verbanden tussen twee SW's in al zijn scherpte naar voren.

In moderne methoden van systeemanalyse wordt dit meestal gedaan. Op gevonden waarde R bereken de hulpwaarde:

W = 0,5 Ln[(1+R)/(1-R)]{2 - 12}

en de kwestie van het vertrouwen in de correlatiecoëfficiënt wordt teruggebracht tot betrouwbaarheidsintervallen voor de willekeurige variabele W, die worden bepaald door standaardtabellen of formules.

In sommige gevallen van systeemanalyse is het nodig om het probleem van relaties tussen meerdere (meer dan 2) willekeurige variabelen of het probleem van meerdere correlatie.

Laat x, ja en Z- willekeurige variabelen, volgens waarnemingen waarover we hun gemiddelde hebben vastgesteld M x, Mijn,mz en standaarddeviaties S x, S , S z .

Dan kan men vinden gekoppeld correlatie coëfficiënten Rxy, R xz , R yz volgens bovenstaande formule. Maar dit is duidelijk niet genoeg - we zijn tenslotte in elk van de drie fasen gewoon de aanwezigheid van een derde willekeurige variabele vergeten! Daarom is het in gevallen van meervoudige correlatieanalyse soms nodig om te zoeken naar de zogenaamde. privaat correlatiecoëfficiënten - bijv. wiebelscore Z voor communicatie tussen x en ja geproduceerd met behulp van de coëfficiënt

Rxy.z = {2 - 13}

En ten slotte kunnen we de vraag stellen - wat is de relatie tussen deze SV en de totaliteit van de rest? Het antwoord op dergelijke vragen wordt gegeven door de coëfficiënten meerdere correlaties R x.yz , R y.zx , Rz.xy , de formules voor het berekenen die volgens dezelfde principes zijn gebouwd - rekening houdend met de verbinding van een van de hoeveelheden met alle andere in het totaal.

Je kunt niet veel aandacht besteden aan de complexiteit van het berekenen van alle beschreven indicatoren van correlaties - de programma's om ze te berekenen zijn vrij eenvoudig en zijn in kant-en-klare vorm beschikbaar in veel PPP's van moderne computers.

Het volstaat om het belangrijkste te begrijpen - als we in de formele beschrijving van een element van een complex systeem, een reeks van dergelijke elementen in de vorm van een subsysteem of, ten slotte, het systeem als geheel, beschouwen verbindingen tussen zijn afzonderlijke delen, dan kan en moet de mate van nabijheid van deze verbinding in de vorm van de invloed van de ene SW op de andere worden beoordeeld op het niveau van correlatie.

Concluderend merken we nog iets op - in alle gevallen van systeemanalyse op correlatieniveau worden beide willekeurige variabelen met een paarcorrelatie of alle met een meervoudige correlatie als "gelijk" beschouwd - dat wil zeggen, we hebben het over de wederzijdse invloed van ZW op elkaar.

Dit is niet altijd het geval - heel vaak de kwestie van verbindingen ja en x wordt in een ander vlak geplaatst - een van de grootheden is afhankelijk (functie) van de andere (argument).