Kriteeriumi piirangud. Pearsoni hii-ruut test


Kontingentsitabelite statistilised testid – hii-ruut test

Risttabelite statistiliste testide hankimiseks klõpsake dialoogiboksis Risttabelid nuppu Statistika.... Avaneb dialoogiaken Crosstabs: Statistics (vt joonis 11.9).

Riis. 11.9:

Selle dialoogiboksi märkeruudud võimaldavad valida ühe või mitu kriteeriumi.

    hii-ruut test ( X 2)

    Korrelatsioonid

    Muutujate ühenduvuse mõõdikud nominaalsel skaalal

    Järjekorraskaalaga seotud muutujate seotuse mõõdikud

    Intervallskaala muutujate ühenduvuse meetmed

    Kapa koefitsient ( To)

    Riski mõõt

    McNemari test

    Cochrane'i ja Mantel-Haenszeli statistika

Neid teste käsitletakse kahes järgmises jaotises ja tänu sellele, et hii-ruut testil on suur tähtsus statistilises andmetöötluses on sellele pühendatud eraldi osa.

hii-ruut test ( X 2)

Hii-ruuttesti läbiviimisel kontrollitakse kahe muutuja vastastikust sõltumatust situatsioonitabelis ja tänu sellele kaudselt selgitatakse mõlema muutuja sõltuvust. Kaks muutujat loetakse teineteisest sõltumatuks, kui vaadeldavad sagedused (f o) lahtrites langevad kokku eeldatavate sagedustega (f e).

Hii-ruuttesti tegemiseks SPSS-i abil toimige järgmiselt.

    Valige käsumenüüst Analüüsi kirjeldava statistika risttabeleid...

    Kasutage nuppu Lähtesta võimalike sätete kustutamiseks.

    Liigutage muutujat seks stringide loendisse ja muutujasse psüühika- veergude loendisse.

    Klõpsake nuppu Rakud...(Rakud). Märkige dialoogiboksis lisaks vaikimisi vaadeldud märkeruudule ka ruudud Oodatud ja Standarditud. Kinnitage oma valik nupuga Jätka.

    Klõpsake nuppu Statistika...(Statistika). Avaneb ülalkirjeldatud dialoogiboks Crosstabs: Statistics.

    Märkige ruut Chi-ruut. Klõpsake nuppu Jätka ja peamises dialoogiboksis klõpsake nuppu OK.

Saate järgmise situatsioonitabeli.

Sugu * Vaimne seisund Kontingentsitabel

Vaimne seisund Kokku
Äärmiselt ebastabiilne Ebastabiilne Säästev Väga stabiilne
Põrand Naine Count 16 18 9 1 44
Eeldatav arv 7,9 16,6 17,0 2,5 44,0
Std. Jääk 2,9 ,3 -1,9 -.9
Mees Count 3 22 32 5 62
Eeldatav arv 11,1 23,4 24,0 3,5 62,0
Std. Jääk -2,4 -,3 1,6 ,8
Kokku Count 19 40 41 6 106
Eeldatav arv 19,0 40,0 41,0 6,0 106,0

Lisaks kuvatakse eelvaate aknas hii-ruuttesti tulemused:

Chi-ruut testid

Väärtus df Asymp. Sig. (kahepoolne)
(Asümptootiline tähtsus (kahepoolne))
Pearsoni Chi-ruut
(Pearson Chi-ruut)
22.455 (a) 3 ,000
Tõenäosuse suhe
(tõenäosuse suhe)
23,688 3 ,000
Lineaarne-lineaarne assotsiatsioon
(Lineaarne-lineaarne suhe)
20,391 1 ,000
N kehtivatest juhtumitest
(Kehtivate juhtumite arv)
106

A. 2 rakku (25,0%) on eeldatav arv väiksem kui 5. Minimaalne eeldatav arv on 2,49 (2 rakku (25%) on eeldatav sagedus väiksem kui 5. Minimaalne eeldatav sagedus on 2,49.)

Hii-ruuttesti arvutamiseks kasutatakse kolme erinevat lähenemisviisi:

  • Pearsoni valem;
  • tõenäosuse korrigeerimine;
  • Mantel-Haenszeli test.
  • Kui situatsioonitabelis on neli välja (2 x 2 tabelit) ja eeldatav tõenäosus on väiksem kui 5, siis lisaks Fisheri täpne test.

Tavaliselt kasutatakse hii-ruuttesti arvutamiseks Pearsoni valemit:

Siin arvutatakse kõigi situatsioonitabeli väljade standardiseeritud jääkide ruutude summa. Seetõttu annavad kõrgema standardiseeritud jääkväärtusega väljad suurema panuse hii-ruuttesti arvväärtusesse ja seega ka märkimisväärne tulemus. Vastavalt jaotises 8.9 toodud reeglile näitab standardiseeritud jääk 2 (1,96) või rohkem olulist erinevust vaadeldava ja oodatava sageduse vahel tabeli lahtris.

Vaadeldavas näites annab Pearsoni valem hii-ruuttesti maksimaalse olulise väärtuse (lk<0,0001). Если рассмотреть стандартизованные остатки в отдельных полях таблицы сопряженности, то на основе вышеприведенного правила можно сделать вывод, что эта значимость в основном определяется полями, в которых переменная psüühika on tähendus "äärmiselt ebastabiilne". Naistel on see väärtus oluliselt suurenenud ja meestel vähenenud.

Täitmise korrektsus Hii-ruuttesti määravad kaks tingimust:

  • eeldatavad sagedused< 5 должны встречаться не более чем в 20% полей таблицы;
  • ridade ja veergude summad peavad alati olema suuremad kui null.

Vaadeldavas näites ei ole see tingimus siiski täielikult täidetud. Nagu hii-ruut testtabeli järel olev märkus näitab, on 25% väljadest eeldatav sagedus alla 5. Kuna aga 20% vastuvõetav piir on vaid veidi ületatud ja need väljad nende väga väikese standardse jääkväärtuse tõttu, panustavad chi test -ruudu väärtusesse väga väikese osa, võib seda rikkumist pidada ebaoluliseks.

Pearsoni valemi alternatiiviks hii-ruuttesti arvutamiseks on tõenäosuse parandus:

Suure valimi korral annavad Pearsoni valem ja kohandatud valem väga sarnased tulemused. Meie näites on tõenäosusega korrigeeritud hii-ruut test 23,688.

Selle kriteeriumi kasutamine põhineb sellise mõõdu (statistika) kasutamisel teoreetilise lahknevuse kohta. F(x) ja empiiriline jaotus F* P (x) , mis järgib ligikaudu jaotusseadust χ 2 . Hüpotees N 0 Jaotuste järjepidevust kontrollitakse selle statistika jaotuse analüüsimise teel. Kriteeriumi kohaldamine eeldab statistilise jada koostamist.

Niisiis, valim esitatakse statistiliselt numbrite arvu kõrval M. Täheldatud tabamusmäär i- järgu n i. Vastavalt teoreetilisele jaotusseadusele on sissetulevate tabamuste eeldatav sagedus i- kategooria on F i. Erinevus vaadeldava ja eeldatava sageduse vahel on ( n iF i). Et leida üldine lahknevuse määr F(x) Ja F* P (x) on vaja arvutada statistilise andmerea kõigi numbrite ruutude erinevuste kaalutud summa

Väärtus χ 2 piiramatu suurendusega n omab χ 2 jaotust (asümptootiliselt jaotunud kui χ 2). See jaotus sõltub vabadusastmete arvust k, st. terminite sõltumatute väärtuste arv avaldises (3.7). Vabadusastmete arv on võrdne arvuga y miinus valimile kehtestatud lineaarsete seoste arv. Üks seos on olemas tänu sellele, et ülejäänud sageduste koguarvust saab arvutada mis tahes sageduse M-1 numbrit. Lisaks, kui jaotuse parameetrid pole ette teada, on jaotuse valimile sobitamisest tingitud veel üks piirang. Kui valim määrab S jaotuse parameetrid, siis on vabadusastmete arv k= MS–1.

Hüpoteesi aktsepteerimise piirkond N 0 määratakse tingimusega χ 2 < χ 2 (k; a) , kus χ 2 (k; a) – χ2 jaotuse kriitiline punkt olulisuse tasemega a. I tüüpi vea tõenäosus on a, ei saa II tüüpi vea tõenäosust selgelt määratleda, kuna on lõpmatult palju erinevaid viise, kuidas jaotused ei pruugi ühtida. Testi võimsus sõltub numbrite arvust ja valimi suurusest. Kriteeriumit soovitatakse rakendada siis, kui n>200, kasutamine on lubatud siis, kui n>40, just sellistel tingimustel kriteerium kehtib (reeglina lükkab see ümber vale nullhüpoteesi).

Kriteeriumide järgi kontrollimise algoritm

1. Koostage histogramm, kasutades võrdse tõenäosuse meetodit.

2. Esitage hüpotees histogrammi välimuse põhjal

H 0: f(x) = f 0 (x),

H 1: f(x) ¹ f 0 (x),

Kus f 0 (x) - hüpoteetilise jaotusseaduse tõenäosustihedus (näiteks ühtlane, eksponentsiaalne, normaalne).

kommenteerida. Hüpoteesi eksponentsiaalse jaotuse seaduse kohta saab esitada, kui kõik valimis olevad arvud on positiivsed.

3. Arvutage valemi abil kriteeriumi väärtus

,

Kus
tabamusmäär i-th intervall;

lk i- juhusliku suuruse sattumise teoreetiline tõenäosus i- th intervalli tingimusel, et hüpotees H 0 on õige.

Valemid arvutamiseks lk i eksponentsiaalsete, ühtsete ja normaalseaduste korral on need vastavalt võrdsed.

eksponentsiaalne seadus

. (3.8)

Kus A 1 = 0, B m = +¥.

Ühtne seadus

Tavaline seadus

. (3.10)

Kus A 1 = -¥, B M = +¥.

Märkmed. Pärast kõigi tõenäosuste arvutamist lk i kontrollige, kas võrdlusseos on täidetud

Funktsioon Ф( X) - kummaline. Ф(+¥) = 1.

4. Valige liites olevast Chi-ruut tabelist väärtus
, kus a on määratud olulisuse tase (a = 0,05 või a = 0,01) ja k- valemiga määratud vabadusastmete arv

k = M - 1 - S.

Siin S- parameetrite arv, millest sõltub valitud hüpotees H 0 jaotusseadus. Väärtused Sühtse seaduse puhul on see 2, eksponentsiaalseaduse puhul on see 1, tavaseaduse puhul on see 2.

5. Kui
, siis hüpotees H 0 lükatakse tagasi. Vastasel juhul pole põhjust seda tagasi lükata: tõenäosusega 1 - b on see tõene ja tõenäosusega - b on see vale, kuid b väärtus on teadmata.

Näide3 . 1. Kasutades kriteeriumi c 2, püstitage ja kontrollige hüpotees juhusliku suuruse jaotusseaduse kohta X, mille variatsiooniread, intervallitabelid ja jaotuse histogrammid on toodud näites 1.2. Olulisuse tase a on 0,05.

Lahendus . Histogrammide välimuse põhjal esitame hüpoteesi, et juhuslik suurus X jaotatakse vastavalt tavaseadusele:

H 0: f(x) = N(m, s);

H 1: f(x) ¹ N(m, s).

Kriteeriumi väärtus arvutatakse järgmise valemi abil:

(3.11)

Nagu eespool märgitud, on hüpoteesi kontrollimisel eelistatav kasutada võrdse tõenäosusega histogrammi. Sel juhul

Teoreetilised tõenäosused lk i Arvutame valemi (3.10) abil. Samas me usume seda

lk 1 = 0,5(F((-4,5245+1,7)/1,98)-F((-¥+1,7)/1,98)) = 0,5(F(-1,427) -F(-¥)) =

0,5(-0,845+1) = 0,078.

lk 2 = 0,5(F((-3,8865+1,7)/1,98)-F((-4,5245+1,7)/1,98)) =

0,5(F(-1,104)+0,845) = 0,5(-0,729+0,845) = 0,058.

lk 3 = 0,094; lk 4 = 0,135; lk 5 = 0,118; lk 6 = 0,097; lk 7 = 0,073; lk 8 = 0,059; lk 9 = 0,174;

lk 10 = 0,5(F((+¥+1,7)/1,98)-F((0,6932+1,7)/1,98)) = 0,114.

Pärast seda kontrollime kontrollsuhte täitmist

100 × (0,0062 + 0,0304 + 0,0004 + 0,0091 + 0,0028 + 0,0001 + 0,0100 +

0,0285 + 0,0315 + 0,0017) = 100 × 0,1207 = 12,07.

Pärast seda valige tabelist "Chi-ruut" kriitiline väärtus

.

Sest
siis hüpotees H 0 on aktsepteeritud (ei ole põhjust tagasi lükata).

Bioloogiliste nähtuste kvantitatiivne uurimine nõuab tingimata hüpoteeside loomist, millega neid nähtusi seletada. Konkreetse hüpoteesi kontrollimiseks viiakse läbi rida spetsiaalseid katseid ja saadud tegelikke andmeid võrreldakse selle hüpoteesi kohaselt teoreetiliselt eeldatud andmetega. Kui tegemist on kokkusattumusega, võib see olla piisav põhjus hüpoteesi aktsepteerimiseks. Kui katseandmed ei ühti hästi teoreetiliselt eeldatutega, tekib suur kahtlus püstitatud hüpoteesi õigsuses.

Astet, mil määral tegelikud andmed vastavad oodatud (hüpoteetilisele), mõõdetakse hii-ruut testiga:

- tunnuse tegelik vaadeldav väärtus in mina- see; antud rühma teoreetiliselt eeldatav arv või märk (näitaja), k- andmerühmade arv.

Selle kriteeriumi pakkus välja K. Pearson 1900. aastal ja seda nimetatakse mõnikord ka Pearsoni kriteeriumiks.

Ülesanne.Ühelt vanemalt teguri ja teiselt teguri pärinud 164 lapse hulgas oli teguriga 46 last, faktoriga 50, mõlemaga 68 last. Arvutage eeldatavad sagedused rühmadevahelise suhte 1:2:1 korral ja määrake Pearsoni testi abil empiiriliste andmete kokkulangevusaste.

Lahendus: Vaadeldavate sageduste suhe on 46:68:50, teoreetiliselt eeldatav 41:82:41.

Määrame olulisuse tasemeks 0,05. Pearsoni kriteeriumi tabeliväärtus selle olulisuse taseme puhul võrdsete vabadusastmete arvuga osutus 5,99. Seetõttu võib nõustuda hüpoteesiga eksperimentaalsete andmete vastavuse kohta teoreetilistele andmetele, kuna .

Pange tähele, et hii-ruuttesti arvutamisel ei sea me enam tingimusi jaotuse hädavajalikule normaalsusele. Hii-ruuttesti saab kasutada mis tahes jaotuste jaoks, mida saame oma eeldustes vabalt valida. Sellel kriteeriumil on teatav universaalsus.

Pearsoni testi teine ​​rakendus on võrrelda empiirilist jaotust Gaussi normaaljaotusega. Veelgi enam, seda saab liigitada jaotuse normaalsuse kontrollimise kriteeriumide rühma. Ainus piirang on asjaolu, et koguarv väärtused (valikuline) peavad selle kriteeriumi kasutamisel olema üsna suured (vähemalt 40) ja väärtuste arv üksikutes klassides (intervallid) peab olema vähemalt 5. Vastasel juhul tuleks külgnevad intervallid kombineerida. Vabadusastmete arv jaotuse normaalsuse kontrollimisel tuleks arvutada järgmiselt:.

    1. Fisheri kriteerium.

Seda parameetrilist testi kasutatakse nullhüpoteesi testimiseks, et normaalselt jaotunud populatsioonide dispersioonid on võrdsed.

Või.

Väikeste valimite korral saab Studenti testi kasutamine olla õige ainult siis, kui dispersioonid on võrdsed. Seetõttu tuleb enne valimi keskmiste võrdsuse testimist tagada Studenti t testi kasutamise paikapidavus.

Kus N 1 , N 2 proovide suurused, 1 , 2  nende proovide vabadusastmete arv.

Tabelite kasutamisel tuleb tähelepanu pöörata sellele, et tabeli veeru numbriks on valitud suurema dispersiooniga valimi vabadusastmete arv, tabeli rea numbriks aga väiksema dispersiooni korral.

Olulisuse taseme  jaoks leiame tabeli väärtuse matemaatilise statistika tabelitest. Kui, siis dispersioonide võrdsuse hüpotees lükatakse valitud olulisuse taseme puhul tagasi.

Näide. Uuriti koobalti mõju küülikute kehakaalule. Katse viidi läbi kahe loomarühmaga: katse- ja kontrollrühmaga. Katsealused said toidulisandit koobaltkloriidi vesilahuse kujul. Katse ajal oli kaalutõus grammides:

Kontroll

χ 2 kriteeriumi eesmärk - Pearsoni kriteerium χ 2 kriteeriumi kasutatakse kahel eesmärgil: 1) tunnuse empiirilise jaotuse võrdlemiseks teoreetilisega - ühtlane, normaalne või mõni muu; 2) võrrelda kahte, kolme või enamat sama tunnuse empiirilist jaotust. Kriteeriumi kirjeldus χ 2 kriteerium vastab küsimusele, kas erinevad tähendused iseloomulikud empiirilistele ja teoreetilistele jaotustele või kahele või enamale empiirilisele jaotusele. Meetodi eeliseks on see, et see võimaldab võrrelda mis tahes skaalal esitatud tunnuste jaotusi, alustades nimede skaalast. Alternatiivse jaotuse lihtsaimal juhul “jah - ei”, “lubas defekti – ei lubanud defekti”, “lahendas probleemi – ei lahendanud probleemi” jne, saame juba rakendada χ 2 kriteeriumi. Mida suurem on lahknevus kahe võrreldava jaotuse vahel, seda suurem on χ 2 empiiriline väärtus. χ 2 – Pearsoni kriteeriumi automaatne arvutamine χ 2 – Pearsoni kriteeriumi automaatseks arvutamiseks peate tegema kaks sammu: Samm 1. Määrake empiiriliste jaotuste arv (1 kuni 10); 2. samm. Sisestage tabelisse empiirilised sagedused; 3. samm. Hankige vastus.

Pearsoni kriteeriumi eeliseks on selle universaalsus: seda saab kasutada hüpoteeside kontrollimiseks selle kohta erinevaid seadusi distributsioonid.

1. Normaaljaotuse hüpoteesi kontrollimine.

Saagu piisavalt suur proov P paljudega erinevad tähendused valik. Selle töötlemise mugavuse huvides jagame intervalli optsiooni väikseimast suurimast väärtusest s võrdsetes osades ja eeldame, et igasse intervalli kuuluvate valikute väärtused on ligikaudu võrdsed intervalli keskpunkti määrava arvuga. Loendades igasse intervalli kuuluvate valikute arvu, loome nn rühmitatud valimi:

valikud……….. X 1 X 2 … x s

sagedused…………. P 1 P 2 … n s ,

Kus x i on intervallide keskpunktide väärtused ja n i- kaasatud valikute arv i-intervall (empiirilised sagedused).



Saadud andmete põhjal saate arvutada valimi keskmise ja valimi standardhälbe σ B. Kontrollime eeldust, et üldkogum jaotub parameetritega normaalse seaduse järgi M(X) = , D(X) = . Seejärel leiate valimi suurusest numbrite arvu P, mis peaks selle eelduse (st teoreetilise sageduse) korral ilmuma igas intervallis. Selleks leiame Laplace'i funktsiooni väärtuste tabeli abil sisse pääsemise tõenäosuse i intervall:

,

Kus ja mina Ja b i- piirid i-th intervall. Korrutades saadud tõenäosused valimi suurusega n, leiame teoreetilised sagedused: p i =n·p i Meie eesmärk on võrrelda empiirilisi ja teoreetilisi sagedusi, mis loomulikult erinevad üksteisest, ning välja selgitada, kas need erinevused on ebaolulised ega lükka ümber hüpoteesi uuritava juhusliku suuruse normaaljaotusest või on need nii suured, et need on selle hüpoteesiga vastuolus. Sel eesmärgil kasutatakse juhusliku muutuja kujul olevat kriteeriumi

. (20.1)

Selle tähendus on ilmne: osad, mille empiiriliste sageduste kõrvalekallete ruudud teoreetilistest sagedustest moodustavad vastavatest teoreetilistest sagedustest, summeeritakse. Saab tõestada, et sõltumata üldkogumi tegelikust jaotusseadusest kaldub juhusliku suuruse (20.1) jaotusseadus vabadusastmete arvuga jaotusseadusele (vt loeng 12). k = s – 1 – r, Kus r– näidisandmete põhjal hinnatud eeldatava jaotuse parameetrite arv. Normaaljaotust iseloomustavad seega kaks parameetrit k = s – 3. Valitud kriteeriumi jaoks konstrueeritakse parempoolne kriitiline piirkond, mille määrab tingimus

(20.2)

Kus α - olulisuse tase. Järelikult annab kriitilise piirkonna ebavõrdsus ja hüpoteesi aktsepteerimisala on .

Niisiis, nullhüpoteesi testimiseks N 0: populatsioon on normaalselt jaotunud - peate valimi põhjal arvutama kriteeriumi vaadeldud väärtuse:

, (20.1`)

ja jaotuse χ 2 kriitiliste punktide tabelist leidke kriitiline punkt kasutades teadaolevad väärtusedα ja k = s – 3. Kui - nullhüpotees on aktsepteeritud, kui see lükatakse tagasi.

2. Ühtlase jaotuse hüpoteesi testimine.

Kui kasutate Pearsoni testi hüpoteesi kontrollimiseks, et populatsioon on hinnangulise tõenäosustihedusega ühtlaselt jaotunud

Pärast saadaolevast valimist väärtuse arvutamist on vaja parameetreid hinnata A Ja b vastavalt valemitele:

Kus A* Ja b*- hinnangud A Ja b. Tõepoolest, ühtlaseks jaotamiseks M(X) = , , kust saad süsteemi määramiseks A* Ja b*: , mille lahenduseks on avaldised (20.3).

Siis, eeldades, et , leiate teoreetilised sagedused valemite abil

Siin s– intervallide arv, milleks valim jagatakse.

Pearsoni kriteeriumi vaadeldud väärtus arvutatakse valemiga (20,1`) ja kriitiline väärtus arvutatakse tabeli abil, võttes arvesse asjaolu, et vabadusastmete arv k = s – 3. Pärast seda määratakse kriitilise piirkonna piirid samamoodi nagu normaaljaotuse hüpoteesi kontrollimisel.

3. Eksponentjaotuse hüpoteesi kontrollimine.

Sel juhul, jagades olemasoleva valimi võrdse pikkusega intervallideks, arvestame valikute jada, mis on üksteisest võrdse vahega (eeldame, et kõik valikud, mis kuuluvad i- th intervall, võta väärtus, mis langeb kokku selle keskmisega) ja neile vastavad sagedused n i(sisuliste näidisvalikute arv i– intervall). Arvutame nende andmete põhjal ja võtame parameetri hinnanguks λ suurus. Seejärel arvutatakse valemi abil teoreetilised sagedused

Seejärel võrreldakse Pearsoni kriteeriumi vaadeldud ja kriitilist väärtust, võttes arvesse asjaolu, et vabadusastmete arv k = s – 2.

Selles artiklis räägime märkide vahelise sõltuvuse uurimisest või vastavalt teie eelistustele - juhuslikud muutujad, muutujad. Eelkõige vaatleme, kuidas kehtestada Khi-ruuttesti abil karakteristikute vahelise sõltuvuse mõõt ja võrrelda seda korrelatsioonikoefitsiendiga.

Miks võib seda vaja minna? Näiteks selleks, et mõista, millised omadused on krediidiskoori koostamisel sihtmuutujast rohkem sõltuvad – kliendi maksejõuetuse tõenäosuse määramine. Või, nagu minu puhul, mõista, milliseid näitajaid tuleb kauplemisroboti programmeerimiseks kasutada.

Eraldi tahaksin märkida, et kasutan andmete analüüsiks C# keelt. Võib-olla on see kõik juba R-is või Pythonis realiseeritud, kuid C# kasutamine võimaldab mul teemast üksikasjalikult aru saada, pealegi on see minu lemmik programmeerimiskeel.

Alustame absoluutselt lihtne näide, looge Excelis juhuslike arvude generaatori abil neli veergu:
X=RANDBETWEEN(-100 100)
Y =X*10+20
Z =X*X
T=RANDBETWEEN(-100 100)

Nagu näete, muutuja Y lineaarselt sõltuv X; muutuv Z ruutkeskmiselt sõltuv X; muutujad X Ja T sõltumatu. Tegin selle valiku meelega, sest me võrdleme oma sõltuvuse mõõdikut korrelatsioonikordajaga. Teatavasti on kahe juhusliku muutuja vahel võrdne moodul 1, kui nendevaheline "kõige raskem" sõltuvus on lineaarne. Kahe sõltumatu juhusliku muutuja vahel on nullkorrelatsioon, kuid korrelatsioonikordaja võrdsus nulliga ei tähenda sõltumatust. Järgmisena näeme seda muutujate näitel X Ja Z.

Salvestage fail nimega data.csv ja alustage esimesi hinnanguid. Esiteks arvutame väärtuste vahelise korrelatsioonikoefitsiendi. Ma ei sisestanud koodi artiklisse, see on minu githubis. Saame kõigi võimalike paaride korrelatsiooni:

On näha, et lineaarselt sõltuv X Ja Y korrelatsioonikordaja on 1. Kuid X Ja Z see on võrdne 0,01-ga, kuigi me määrame sõltuvuse selgesõnaliselt Z=X*X. On selge, et vajame meedet, mis "tunneb" sõltuvust paremini. Kuid enne hii-ruuttesti juurde liikumist vaatame, mis on juhuslikkuse maatriks.

Kontingentsimaatriksi koostamiseks jagame muutujate väärtuste vahemiku intervallideks (või kategoriseerime). Selleks on palju võimalusi, kuid universaalset võimalust pole. Mõned neist on jagatud intervallideks nii, et need sisaldavad sama palju muutujaid, teised on jagatud võrdse pikkusega intervallideks. Mulle isiklikult meeldib neid lähenemisviise kombineerida. Otsustasin kasutada seda meetodit: lahutan muutujast matskoori. ootustele, siis jagan saadud summa hinnanguga standardhälve. Teisisõnu, ma tsentreerin ja normaliseerin juhusliku muutuja. Saadud väärtus korrutatakse koefitsiendiga (selles näites on see 1), mille järel kõik ümardatakse lähima täisarvuni. Väljund on int tüüpi muutuja, mis on klassi identifikaator.

Nii et võtame oma märgid X Ja Z, kategoriseerime ülalkirjeldatud viisil, mille järel arvutame iga klassi ilmumise arvu ja tõenäosused ning tunnuspaaride ilmnemise tõenäosused:

See on maatriks koguse järgi. Siin ridadel - muutujaklasside esinemiste arv X, veergudes - muutuja klasside esinemiste arv Z, lahtrites - klassipaaride samaaegsete esinemiste arv. Näiteks klass 0 esines muutuja puhul 865 korda X, muutuja puhul 823 korda Z ja kunagi polnud paari (0,0). Liigume edasi tõenäosuste juurde, jagades kõik väärtused 3000-ga (vaatluste koguarv):

Saime pärast funktsioonide kategoriseerimist saadud situatsioonimaatriksi. Nüüd on aeg mõelda kriteeriumile. Definitsiooni järgi on juhuslikud suurused sõltumatud, kui nende juhuslike muutujate poolt genereeritud sigma-algebrad on sõltumatud. Sigma algebra sõltumatus eeldab sündmuste paarisõltumatust neist. Kahte sündmust nimetatakse sõltumatuks, kui nende ühise toimumise tõenäosus on võrdne nende sündmuste tõenäosuste korrutisega: Pij = Pi*Pj. Seda valemit kasutame kriteeriumi koostamiseks.

Nullhüpotees: kategoriseeritud märgid X Ja Z sõltumatu. Sellega samaväärne: kontingentsimaatriksi jaotus on määratud ainult muutujaklasside (ridade ja veergude tõenäosuste) esinemise tõenäosustega. Või see: maatrikslahtrid leitakse ridade ja veergude vastavate tõenäosuste korrutise järgi. Me kasutame seda nullhüpoteesi sõnastust, et konstrueerida otsustusreeglit: oluline lahknevus Pij Ja Pi*Pj on nullhüpoteesi tagasilükkamise aluseks.

Olgu klassi 0 esinemise tõenäosus muutujas X. Meie kogusumma n klassid kl X Ja m klassid kl Z. Selgub, et maatriksijaotuse täpsustamiseks peame neid teadma n Ja m tõenäosused. Aga tegelikult, kui me teame n-1 tõenäosus jaoks X, siis leitakse viimane, lahutades 1-st teiste summa. Seega, et leida juhuslikkuse maatriksi jaotus, peame teadma l=(n-1)+(m-1) väärtused. Või on meil l-mõõtmeline parameetriline ruum, mille vektor annab meile soovitud jaotuse. Chi-ruudu statistika näeb välja selline:

ja vastavalt Fisheri teoreemile on hii-ruutjaotus koos n*m-l-1=(n-1)(m-1) vabadusastmed.

Määrame olulisuse tasemeks 0,95 (või I tüüpi vea tõenäosus on 0,05). Leiame näitest Chi ruudu jaotuse kvantiili antud olulisuse ja vabadusastmete jaoks (n-1) (m-1) = 4 * 3 = 12: 21.02606982. Hii-ruudu statistika ise muutujate jaoks X Ja Z võrdub 4088.006631. On selge, et iseseisvuse hüpoteesiga ei nõustuta. Mugav on arvestada hii ruudu statistika ja läviväärtuse suhet - sel juhul on see võrdne Chi2Coeff = 194,4256186. Kui see suhe on väiksem kui 1, aktsepteeritakse sõltumatuse hüpoteesi, kui see on suurem, siis mitte. Leiame selle suhte kõigi funktsioonipaaride jaoks:

Siin Tegur1 Ja Tegur2- funktsioonide nimed
src_cnt1 Ja src_cnt2- algfunktsioonide kordumatute väärtuste arv
mod_cnt1 Ja mod_cnt2- ainulaadsete funktsioonide väärtuste arv pärast kategoriseerimist
chi2- Chi-ruudu statistika
chi2max- hii-ruudu statistika läviväärtus olulisuse taseme 0,95 jaoks
chi2Coeff- hii-ruudu statistika ja läviväärtuse suhe
korr- korrelatsioonikordaja

On näha, et nad on sõltumatud (chi2coeff<1) получились следующие пары признаков - (X,T), (Y,T) ja ( Z,T), mis on loogiline, kuna muutuja T genereeritakse juhuslikult. Muutujad X Ja Z sõltuv, kuid vähem kui lineaarne X Ja Y, mis on ka loogiline.

Panin neid näitajaid arvutava utiliidi koodi githubisse, kus on ka fail data.csv. Utiliit võtab sisendiks csv-faili ja arvutab kõigi veergude paaride vahelised sõltuvused: PtProject.Dependency.exe data.csv