Testi: Khin neliöjakauma ja sen sovellus. Pearsonin istuvuustesti χ2 (Chi-neliö)

Pearsonin khin neliötesti on ei-parametrinen menetelmä, jonka avulla voit arvioida todellisen (tutkimuksen tuloksena paljastun) tulosten määrän tai kuhunkin kategoriaan kuuluvan otoksen laadullisten ominaisuuksien ja teoreettisen luvun välisten erojen merkitystä. mitä voidaan odottaa tutkituissa ryhmissä, jos nollahypoteesi pitää paikkansa. Yksinkertaisemmin sanottuna menetelmän avulla voit arvioida kahden tai useamman suhteellisen indikaattorin (frekvenssi, osuudet) välisten erojen tilastollista merkitsevyyttä.

1. χ 2 -kriteerin kehityshistoria

Khin-neliötestin ehdollisuustaulukoiden analysointia varten kehitti ja ehdotti vuonna 1900 englantilainen matemaatikko, tilastotieteilijä, biologi ja filosofi, matemaattiset tilastot ja yksi biometriikan perustajista Karl Pearson(1857-1936).

2. Mihin Pearsonin χ 2 -kriteeriä käytetään?

Analyysissä voidaan käyttää khin neliö -testiä valmiustaulukot sisältää tietoa tulosten esiintymistiheydestä riippuen riskitekijän olemassaolosta. Esimerkiksi, neljän kentän valmiustaulukko seuraavasti:

Exodus on (1) Ei ulospääsyä (0) Kaikki yhteensä
On olemassa riskitekijä (1) A B A+B
Ei riskitekijää (0) C D C+D
Kaikki yhteensä A+C B+D A+B+C+D

Miten tällainen varallisuustaulukko täytetään? Tarkastellaanpa pientä esimerkkiä.

Parhaillaan on käynnissä tutkimus tupakoinnin vaikutuksesta verenpainetaudin kehittymisriskiin. Tätä varten valittiin kaksi koeryhmää - ensimmäisessä oli 70 henkilöä, jotka polttavat vähintään 1 tupakka-askin päivässä, ja toisessa - 80 samanikäistä tupakoimatonta. Ensimmäisessä ryhmässä 40 henkilöllä oli korkea verenpaine. Toisessa - hypertensio havaittiin 32 ihmisellä. Vastaavasti normaali verenpaine tupakoitsijoiden ryhmässä oli 30 henkilöllä (70 - 40 = 30) ja tupakoimattomien ryhmällä - 48 (80 - 32 = 48).

Täytämme nelikenttäisen varautumistaulukon alkutiedoilla:

Tuloksena olevan ehdollisuustaulukon jokainen rivi vastaa tiettyä aiheryhmää. Sarakkeet - näyttää niiden henkilöiden määrän, joilla on verenpainetauti tai normaali verenpaine.

Tutkijan haasteena on: onko verenpainetautien esiintyvyyden välillä tilastollisesti merkittäviä eroja tupakoivien ja tupakoimattomien välillä? Voit vastata tähän kysymykseen laskemalla Pearsonin khin neliötestin ja vertaamalla saatua arvoa kriittiseen arvoon.

3. Pearsonin khin neliötestin käytön ehdot ja rajoitukset

  1. Vertailukelpoiset indikaattorit tulisi mitata nimellinen asteikko(esimerkiksi potilaan sukupuoli - mies tai nainen) tai in järjestysluku(esimerkiksi verenpainetaudin aste, arvot 0 - 3).
  2. Tämä menetelmä mahdollistaa paitsi neljän kentän taulukoiden analysoinnin, kun sekä tekijä että tulos ovat binäärimuuttujia, eli niillä on vain kaksi mahdollista arvoa (esim. mies tai nainen, tietyn sairauden esiintyminen tai puuttuminen historiassa ...). Pearsonin khin neliötestiä voidaan käyttää myös monikenttätaulukoiden analysoinnissa, kun tekijä ja (tai) tulos saavat kolme tai useampia arvoja.
  3. Yhteensovitettujen ryhmien tulee olla riippumattomia, eli khin-neliötestiä ei tulisi käyttää ennen-jälkeen-havaintoja verrattaessa. McNemarin testi(verrattaessa kahta toisiinsa liittyvää populaatiota) tai laskettu Q-testi Cochran(jos vertaillaan kolmea tai useampaa ryhmää).
  4. Kun analysoidaan neljän kentän taulukoita odotetut arvot kussakin solussa on oltava vähintään 10. Jos vähintään yhdessä solussa odotettu ilmiö saa arvon 5-9, khin neliötesti on laskettava Yatesin korjauksella. Jos vähintään yhdessä solussa odotettu ilmiö on pienempi kuin 5, analyysissä tulisi käyttää Fisherin tarkka testi.
  5. Monikenttätaulukoiden analyysissä odotettavissa oleva havaintomäärä ei saa olla alle 5 arvoa yli 20 %:ssa soluista.

4. Miten Pearsonin khin neliötesti lasketaan?

Khin-neliötestin laskemiseksi sinun on:

Tämä algoritmi soveltuu sekä nelikenttä- että monikenttätaulukoihin.

5. Miten Pearsonin khin neliötestin arvo tulkitaan?

Siinä tapauksessa, että kriteerin χ 2 saatu arvo on suurempi kuin kriittinen arvo, päätämme, että tutkitun riskitekijän ja tuloksen välillä on tilastollinen yhteys sopivalla merkitsevyystasolla.

6. Esimerkki Pearsonin khin neliötestin laskemisesta

Määritetään tupakointitekijän vaikutuksen tilastollinen merkittävyys valtimotaudin ilmaantuvuuteen yllä olevan taulukon mukaisesti:

  1. Laskemme odotetut arvot jokaiselle solulle:
  2. Etsi Pearsonin khin neliötestin arvo:

    χ 2 \u003d (40-33,6) 2 / 33,6 + (30-36,4) 2 / 36,4 + (32-38,4) 2 / 38,4 + (48-41,6) 2 / 41,6 \u003d 4,396.

  3. Vapausasteiden lukumäärä f = (2-1)*(2-1) = 1. Löydämme taulukosta Pearsonin khin neliötestin kriittisen arvon, joka merkitsevyystasolla p=0,05 ja vapausasteiden lukumäärä 1, on 3,841.
  4. Vertaamme saatua khin neliötestin arvoa kriittiseen arvoon: 4,396 > 3,841, joten verenpainetaudin ilmaantuvuuden riippuvuus tupakoinnista on tilastollisesti merkitsevä. Tämän suhteen merkitsevyystaso vastaa p<0.05.

Tämä viesti ei vastaa Chi-neliön kriteerin laskemiseen periaatteessa, sen tarkoituksena on näyttää kuinka voit automatisoida chi-neliön laskenta excelissä, mitä funktioita Chi-neliön kriteerin laskemiseen on olemassa. SPSS- tai R-ohjelma ei ole aina käsillä.
Tämä on tavallaan muistutus ja vihje Analytics for HR -seminaarin osallistujille, toivottavasti käytätte näitä menetelmiä työssänne, tästä postauksesta tulee toinen vihje.
En anna tiedostolle latauslinkkiä, mutta voit kopioida toimittamani esimerkkitaulukot ja käydä antamani tiedot ja kaavat läpi

johdannossa

Haluamme esimerkiksi tarkistaa yrityskyselyn tulosten jakautumisen riippumattomuuden (satunnaisuus / ei-satunnaisuus), jossa riveillä on vastaukset mihin tahansa kyselylomakkeen kysymykseen ja sarakkeilla - jakauma pituuden mukaan. palvelusta.

Syötät Chi-neliön laskennan pivot-taulukon kautta, kun tietosi on koottu konjugaatiotaulukkoon, esimerkiksi tässä muodossa
Pöytä 1

Vähemmän kuin 1 vuosi

Summa riveillä

Sarakkeiden välinen summa

Chi-neliön laskemiseksi Excelissä on seuraavat kaavat

HI2.TESTI

CHI2.TEST-kaava laskee jakauman riippumattomuuden (satunnaisuus / ei-satunnaisuus) todennäköisyyden

Syntaksi on

CHI2.TESTI(todellinen_väli, odotettu_väli)

Meidän tapauksessamme varsinainen väli on taulukon sisältö, ts.

Nuo. Saatuamme kaksi taulukkoa - empiiriset ja odotetut (tai teoreettiset taajuudet) - vapautamme itsemme eron, neliöinti- ja muiden laskelmien sekä kriittisten arvojen yhteensovittamisen työstä.

Meidän tapauksessamme CH2.JAKAUMA.RT = 0,000466219908895455, kuten esimerkissä CH2.TEST

Merkintä

Tämä kaava Chi-neliön laskemiseen Excelissä sopii 2X2-taulukoiden laskemiseen, koska sinä itse pidät Chi-neliötä empiirisenä ja voit syöttää laskelmiin jatkuvuuden korjauksen

Muistio 2

Mukana on myös HI2.DIS-kaava (näet sen väistämättä excelissä) - se laskee vasenkätisen todennäköisyyden (jos se on yksinkertainen, niin vasenkätisen katsotaan olevan 1 - oikeakätinen, eli käännämme vain kaava, siksi en anna sitä Chi-neliössä, esimerkissämme CHI2.JAKAUMA = 0,999533780091105.
Yhteensä CH2.JAKAUMA + CH2.JAKAUMA.RT = 1.

chi2.ex.ph

Palauttaa khin neliön jakauman oikean käden todennäköisyyden käänteisluvun (tai vain chi-neliön arvon tietylle todennäköisyystasolle ja vapausasteiden lukumäärälle)

Synaxis

XI2.INV.RT(todennäköisyys, vapausasteet)

Johtopäätös

Rehellisesti sanottuna en tiedä tarkalleen, miten tulokset saavutettiin chi square -laskelmat Excelissä eroavat SPSS:n Chi-neliön laskentatuloksista. ymmärrän täsmälleen. jotka ovat erilaisia, jos vain siksi, että kun Chi lasketaan itsenäisesti, neliölliset arvot pyöristetään ja tietty määrä desimaaleja menetetään. Mutta en usko, että se on kriittinen. Suosittelen vakuuttamista vain siinä tapauksessa, että Chi-neliöjakauman todennäköisyys on lähellä kynnystä (p-arvo) 0,05.

Ei ole hienoa, että jatkuvuuden korjausta ei oteta huomioon - laskemme paljon 2X2-taulukoissa. Siksi emme melkein saavuta optimointia laskettaessa 2X2-taulukoita

Uskon kuitenkin, että yllä oleva tieto riittää nopeuttamaan Chi-neliön laskemista Excelissä, jotta säästät aikaa tärkeämmissä asioissa.

). Testattavan hypoteesin erityinen muotoilu vaihtelee tapauskohtaisesti.

Tässä viestissä kuvailen, kuinka \(\chi^2\)-testi toimii käyttämällä (hypoteettista) esimerkkiä immunologiasta. Kuvittele, että olemme suorittaneet kokeen määrittääksemme mikrobisairauden kehittymisen estämisen tehokkuuden, kun kehoon tuodaan sopivat vasta-aineet. Kaikkiaan kokeeseen osallistui 111 hiirtä, jotka jaoimme kahteen ryhmään, mukaan lukien 57 ja 54 eläintä. Ensimmäiseen hiiriryhmään injektoitiin patogeenisiä bakteereja, minkä jälkeen lisättiin veriseerumia, joka sisälsi vasta-aineita näitä bakteereja vastaan. Toisen ryhmän eläimet toimivat kontrolleina - he saivat vain bakteeriruiskeita. Hetken inkuboinnin jälkeen kävi ilmi, että 38 hiirtä kuoli ja 73 selvisi. Kuolleista 13 kuului ensimmäiseen ryhmään ja 25 toiseen (kontrolli). Tässä kokeessa testattu nollahypoteesi voidaan muotoilla seuraavasti: seerumin antaminen vasta-aineiden kanssa ei vaikuta hiirten eloonjäämiseen. Toisin sanoen väitämme, että havaitut erot hiirten eloonjäämisessä (77,2 % ensimmäisessä ryhmässä vs. 53,7 % toisessa ryhmässä) ovat täysin satunnaisia ​​eivätkä liity vasta-aineiden toimintaan.

Kokeessa saadut tiedot voidaan esittää taulukon muodossa:

Kaikki yhteensä

Bakteerit + seerumi

Vain bakteerit

Kaikki yhteensä

Tämän kaltaisia ​​taulukoita kutsutaan valmiustaulukoiksi. Tässä esimerkissä taulukon koko on 2x2: on olemassa kaksi objektiluokkaa ("Bakteerit + seerumi" ja "Vain bakteerit"), joita tutkitaan kahden kriteerin mukaan ("Kuollut" ja "Eloonjäänyt"). Tämä on ehdollisuustaulukon yksinkertaisin tapaus: tietysti sekä tutkittavien luokkien että ominaisuuksien lukumäärä voi olla suurempi.

Yllä esitetyn nollahypoteesin testaamiseksi meidän on tiedettävä, mikä tilanne olisi, jos vasta-aineilla ei todellakaan olisi mitään vaikutusta hiirten eloonjäämiseen. Toisin sanoen sinun on laskettava odotetut taajuudet ehdollisuustaulukon vastaaville soluille. Kuinka tehdä se? Kokeessa kuoli yhteensä 38 hiirtä, mikä on 34,2 % mukana olevien eläinten kokonaismäärästä. Jos vasta-aineiden lisääminen ei vaikuta hiirten eloonjäämiseen, molemmissa koeryhmissä tulisi havaita sama kuolleisuusprosentti, nimittäin 34,2 %. Laskemalla kuinka paljon on 34,2 % arvoista 57 ja 54, saadaan 19,5 ja 18,5. Nämä ovat odotetut kuolleisuusluvut koeryhmissämme. Odotetut eloonjäämisluvut lasketaan samalla tavalla: koska 73 hiirtä selviytyi yhteensä eli 65,8 % niiden kokonaismäärästä, odotetut eloonjäämisluvut ovat 37,5 ja 35,5. Tehdään uusi valmiustaulukko, nyt odotetuilla taajuuksilla:

kuollut

Selviytyjät

Kaikki yhteensä

Bakteerit + seerumi

Vain bakteerit

Kaikki yhteensä

Kuten näette, odotetut taajuudet ovat melko erilaisia ​​​​kuin havaitut, ts. vasta-aineiden antamisella näyttää olevan vaikutusta patogeenin infektoituneiden hiirten eloonjäämiseen. Voimme kvantifioida tämän vaikutelman käyttämällä Pearsonin sopivuustestiä \(\chi^2\):

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]


missä \(f_o\) ja \(f_e\) ovat havaitut ja odotetut taajuudet, vastaavasti. Summaus suoritetaan taulukon kaikille soluille. Tarkasteltavana olevan esimerkin osalta meillä on siis

\[\chi^2 = (13–19,5)^2/19,5 + (44–37,5)^2/37,5 + (25–18,5)^2/18,5 + (29–35,5)^2/35,5 = \]

Onko \(\chi^2\) tarpeeksi suuri hylkäämään nollahypoteesi? Tähän kysymykseen vastaamiseksi on tarpeen löytää kriteerin vastaava kriittinen arvo. Kohteen \(\chi^2\) vapausasteiden lukumäärä lasketaan seuraavasti: \(df = (R - 1)(C - 1)\), missä \(R\) ja \(C\) ovat luku riveistä ja sarakkeista taulukon konjugaatiossa. Meidän tapauksessamme \(df = (2 -1)(2 - 1) = 1\). Kun tiedämme vapausasteiden lukumäärän, voimme nyt helposti selvittää kriittisen arvon \(\chi^2\) käyttämällä standardia R-funktiota qchisq() :


Siten yhdellä vapausasteella kriteerin \(\chi^2\) arvo ylittää arvon 3,841 vain 5 %:ssa tapauksista. Saamamme arvo, 6,79, ylittää merkittävästi tämän kriittisen arvon, mikä antaa meille oikeuden hylätä nollahypoteesi, jonka mukaan vasta-aineiden antamisen ja tartunnan saaneiden hiirten eloonjäämisen välillä ei ole yhteyttä. Hylkäämällä tämän hypoteesin saatamme olla väärässä alle 5 prosentin todennäköisyydellä.

On huomattava, että yllä oleva kriteerin \(\chi^2\) kaava antaa jonkin verran yliarvioituja arvoja työskennellessäsi 2x2 kokoisten ehdollisuustaulukoiden kanssa. Syynä on se, että itse kriteerin \(\chi^2\) jakauma on jatkuva, kun taas binääriominaisuuksien taajuudet ("kuoli" / "elänyt") ovat määritelmän mukaan diskreettejä. Tässä suhteessa kriteeriä laskettaessa on tapana ottaa käyttöön ns. jatkuvuuden korjaus, tai Yatesin muutos :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0,5)^2)(f_e).\]

"s Chi-neliötesti Yatesin kanssa" jatkuvuuden korjaustiedot: hiiret X-neliö = 5,7923, df = 1, p-arvo = 0,0161


Kuten näet, R soveltaa automaattisesti Yates-korjausta jatkuvuudelle ( Pearsonin Chi-neliötesti Yatesin jatkuvuuskorjauksella). Ohjelman laskema arvo \(\chi^2\) oli 5,79213. Voimme hylätä nollahypoteesin, jonka mukaan vasta-ainevaikutusta ei ole, sillä riskillä olla väärässä hieman yli 1 %:n todennäköisyydellä (p-arvo = 0,0161 ).

Riippumattomuuden khin-neliötestiä käytetään määrittämään kahden kategorisen muuttujan välinen suhde. Esimerkkejä kategoristen muuttujien pareista ovat: Siviilisääty vs. Vastaajan työllisyysaste; Koiranrotu vs. Isäntäammatti, palkkataso vs. Insinöörin erikoistuminen jne. Riippumattomuuskriteeriä laskettaessa tarkistetaan hypoteesi, ettei muuttujien välillä ole yhteyttä. Suoritamme laskelmat käyttämällä MS EXCEL 2010 XI2.TEST () -funktiota ja tavallisia kaavoja.

Oletetaan, että meillä on näyte tiedot edustavat 500 ihmisen kyselyn tulosta. Ihmisiltä kysyttiin 2 kysymystä: siviilisäädystä (naimisissa, siviiliavioliitto, ei parisuhteessa) ja työllisyysasteesta (kokopäiväinen, osa-aikainen, tilapäisesti työtön, kotona, eläkkeellä, opiskelu). Kaikki vastaukset laitettiin taulukkoon:

Tätä taulukkoa kutsutaan merkkien ehdollisuustaulukko(tai tekijätaulukko, Englanti Contingency table). Taulukon rivien ja sarakkeiden leikkauskohdassa olevat elementit tarkoittavat yleensä Oij (englanniksi. Havaittu, eli havaittu, todellisia taajuuksia).

Olemme kiinnostuneita kysymyksestä "Vaikuttaako siviilisääty työllisyyteen?", ts. onko näiden kahden luokitusmenetelmän välillä yhteyttä näytteet?

klo hypoteesin testaus tämäntyyppistä, yleensä oletetaan, että nollahypoteesi toteaa, että luokitusmenetelmistä ei ole riippuvuutta.

Tarkastellaan rajatapauksia. Esimerkki kahden kategorisen muuttujan täydellisestä riippuvuudesta on seuraava kyselytulos:

Tässä tapauksessa siviilisääty määrää yksiselitteisesti työsuhteen (vrt. esimerkkitiedostolomake Selitys). Toisaalta toinen tutkimustulos on esimerkki täydellisestä riippumattomuudesta:

Huomaa, että työllisyyden prosenttiosuus ei tässä tapauksessa riipu siviilisäädystä (sama naimisissa ja naimattomissa). Tämä on täsmälleen sama kuin sanamuoto nollahypoteesi. Jos nollahypoteesi pitää paikkansa, silloin tutkimuksen tulokset olisi pitänyt jakaa taulukossa siten, että työntekijöiden prosenttiosuus olisi sama siviilisäädystä riippumatta. Tämän avulla laskemme vastaavat kyselytulokset nollahypoteesi(cm. esimerkkitiedostolomake Esimerkki).

Ensin lasketaan todennäköisyysarvio, että elementti näytteet hänellä on tietty työpaikka (katso sarake u i):

missä Kanssa- sarakkeiden (sarakkeiden) lukumäärä, joka on yhtä suuri kuin muuttujan "siviilisääty" tasojen lukumäärä.

Sitten lasketaan todennäköisyysarvio, että elementti näytteet on tietty siviilisääty (katso rivi v j).

missä r– rivien (rivien) lukumäärä, joka on yhtä suuri kuin muuttujan "Työllisyys" tasojen lukumäärä.

Kunkin solun Eij teoreettinen taajuus (englanninkielisestä odotetusta taajuudesta) riippumattomien muuttujien tapauksessa lasketaan kaavalla:
E ij =n* u i * v j

Tiedetään, että tilastolla X 2 0 suurelle n:lle on noin (r-1) (c-1) vapausasteita (df - vapausasteita):

Jos lasketaan sen perusteella näytteet tämän tilaston arvo on "liian suuri" (kynnystä suurempi). nollahypoteesi hylätty. Kynnysarvo lasketaan esimerkiksi kaavan =XI2.INV.RT(0,05; df) avulla.

Merkintä: Merkitsevyystaso yleensä otetaan 0,1; 0,05; 0,01.

klo hypoteesin testaus se on myös kätevä laskea , johon vertaamme merkitsevyystaso. s-merkitys lasketaan käyttämällä c (r-1)*(c-1) = df vapausasteita.

Jos on todennäköisyys satunnainen arvo joilla on (r-1) (c-1) vapauden asteet saa arvon, joka on suurempi kuin laskettu tilasto X 2 0, ts. P(X2(r-1)*(c-1) >X20), vähemmän merkitsevyystaso, sitten nollahypoteesi hylätään.

MS EXCELissä p-arvo voidaan laskea kaavalla =XI2.JAKAUMA.PX(X 2 0 ;df), tietenkin, kun on laskenut X 2 0 -tilaston arvon juuri ennen (tämä tehdään esimerkkitiedostossa). On kuitenkin kätevintä käyttää XI2.TEST()-funktiota. Tämän funktion argumentteina määritetään viittaukset alueisiin, jotka sisältävät todelliset (Havaittu) ja lasketut teoreettiset taajuudet (Odotettu).

Jos merkitsevyystaso > s-arvot, niin tämä on todelliset ja teoreettiset taajuudet, jotka on laskettu oikeudenmukaisuuden olettamuksesta nollahypoteesi, ovat vakavasti erilaisia. Siksi, nollahypoteesi on hylättävä.

CH2.TEST()-funktion avulla voit nopeuttaa menettelyä hypoteesin testaus, koska arvoa ei tarvitse laskea tilastot. Nyt riittää verrata funktion XI2.TESTI () tulosta annettuun merkitsevyystaso.

Merkintä: Funktio CH2.TESTI() , Englantilainen nimi CHISQ.TEST ilmestyi MS EXCEL 2010:ssa. Sen aiemmassa versiossa CHISQ.TEST() , joka on saatavilla MS EXCEL 2007:ssä, on samat toiminnot. Mutta kuten CHI2.TEST() , teoreettiset taajuudet on laskettava itsenäisesti.

Harkitse khin neliön jakaumaa. Käyttämällä MS EXCEL -toimintoaCHI2.JAKAUMA() Rakennamme kaavioita jakaumafunktiosta ja todennäköisyystiheydestä, selitämme tämän jakauman soveltamisen matemaattisiin tilastoihin.

Chi-neliöjakauma (X 2, XI2, EnglantiChi- neliöityjakelu) laitettu sisään erilaisia ​​menetelmiä matemaattiset tilastot:

  • kun rakennat;
  • osoitteessa ;
  • at (onko empiirinen data yhdenmukainen teoreettista jakaumafunktiota koskevan oletuksemme kanssa vai ei, eng. Goodness-of-fit)
  • at (käytetään määrittämään kahden kategorisen muuttujan välinen suhde, eng. Chi-neliö-assosiaatiotesti).

Määritelmä: Jos x 1 , x 2 , …, x n ovat riippumattomia satunnaismuuttujia, jotka jakautuvat N(0;1:lle), niin satunnaismuuttujan Y=x 1 2 + x 2 2 +…+ x n 2 jakauma on jakelu X 2 n vapausasteella.

Jakelu X 2 riippuu yhdestä kutsutusta parametrista vapausaste (df, astetta/vapautta). Esimerkiksi rakentamisen yhteydessä vapausasteiden lukumäärä on yhtä suuri kuin df=n-1, missä n on koko näytteet.

Jakauman tiheys X 2 ilmaistaan ​​kaavalla:

Funktiokaaviot

Jakelu X 2 on epäsymmetrinen muoto, yhtä suuri kuin n, yhtä kuin 2n.

AT esimerkkitiedosto taulukossa Graph annettu jakautumistiheyskäyrät todennäköisyydet ja integraalinen jakelufunktio.

Hyödyllinen omaisuus chi2-jakaumat

Olkoon x 1 , x 2 , …, x n riippumattomia satunnaismuuttujia, jotka on jaettu normaali laki samoilla parametreilla μ ja σ, ja X vrt On aritmeettinen keskiarvo nämä arvot x.
Sitten satunnaismuuttuja y yhtä suuri

Sillä on X 2 -jakelu n-1 vapausasteella. Määritelmää käyttämällä yllä oleva lauseke voidaan kirjoittaa uudelleen seuraavasti:

Näin ollen näytteiden jakelu tilastot y, kanssa näytteenotto alkaen normaalijakauma, Sillä on X 2 -jakelu n-1 vapausasteella.

Tarvitsemme tämän kiinteistön . Koska dispersio voi olla vain positiivinen luku, ja X 2 -jakelu käytetään sen arvioimiseen y d.b. >0, kuten määritelmässä todetaan.

HI2-jakauma MS EXCELissä

MS EXCELissä, versiosta 2010 alkaen, for X 2 - jakelut on erityinen funktio CHISQ.DIST() , jonka englanninkielinen nimi on CHISQ.DIST(), jonka avulla voit laskea todennäköisyystiheys(katso kaava yllä) ja (todennäköisyys, että satunnaismuuttuja X on XI2-jakelu, saa arvon, joka on pienempi tai yhtä suuri kuin x, P(X<= x}).

Merkintä: Koska chi2-jakelu on erikoistapaus, sitten kaava =GAMMA.JAKAUMA(x,n/2,2,TOSI) positiiviselle kokonaisluvulle n palauttaa saman tuloksen kuin kaava =XI2.JAKAUMA(x, n, TOSI) tai =1-XI2.JAKAUMA.X(x;n) . Ja kaava =GAMMA.JAKAUMA(x,n/2,2,EPÄTOSI) palauttaa saman tuloksen kuin kaava =XI2.JAKAUMA(x, n, EPÄTOSI), eli todennäköisyystiheys XI2-jakaumat.

CH2.JAKAUMA.RT()-funktio palauttaa jakelutoiminto, tarkemmin sanottuna oikeankätinen todennäköisyys, ts. P(X > x). On selvää, että tasa-arvo
=CHI2.JAKAUMA.X(x;n)+ CHI2.JAKAUMA(x;n;TOSI)=1
koska ensimmäinen termi laskee todennäköisyyden P(X > x), ja toinen P(X<= x}.

Ennen MS EXCEL 2010:tä EXCELissä oli vain HI2DIST()-funktio, jonka avulla voit laskea oikeanpuoleisen todennäköisyyden, ts. P(X > x). Uusien MS EXCEL 2010 -toimintojen CHI2.DIST() ja CHI2.DIST.RT() ominaisuudet ovat päällekkäisiä tämän funktion ominaisuuksien kanssa. HI2DIST()-funktio jätettiin MS EXCEL 2010:een yhteensopivuuden vuoksi.

CHI2.DIST() on ainoa funktio, joka palauttaa chi2-jakauman todennäköisyystiheys(kolmannen argumentin on oltava EPÄTOSI). Loput funktiot palaavat integraalinen jakelufunktio, eli todennäköisyys, että satunnaismuuttuja saa arvon määritetyltä alueelta: P(X<= x}.

Yllä olevat MS EXCELIN toiminnot on annettu kohdassa.

Esimerkkejä

Laske todennäköisyys, että satunnaismuuttuja X saa arvon, joka on pienempi tai yhtä suuri kuin annettu x: P(X<= x}. Это можно сделать несколькими функциями:

CHI2.JAKAUMA(x, n, TOSI)
=1-CHI2.JAKAUMA.RP(x; n)
=1-CHI2JAKAUMA(x; n)

Funktio XI2.JAKAUMA.X() palauttaa todennäköisyyden P(X > x), niin sanotun oikeanpuoleisen todennäköisyyden, joten P(X)<= x}, необходимо вычесть ее результат от 1.

Selvitetään todennäköisyys, että satunnaismuuttuja X saa annettua suuremman arvon x: P(X > x). Tämä voidaan tehdä useilla toiminnoilla:

1-CHI2.JAKAUMA(x, n, TOSI)
=XI2.JAKAUMA.RP(x; n)
=CHI2JAKAUMA(x, n)

Käänteinen chi2-jakaumafunktio

Laskemiseen käytetään käänteisfunktiota alfa- ts. arvojen laskemiseen x tietyllä todennäköisyydellä alfa, ja X täytyy täyttää lauseke P(X<= x}=alfa.

Laskemiseen käytetään CH2.INV()-funktiota normaalijakauman varianssin luottamusvälit.

XI2.INV.RT()-funktiota käytetään laskemiseen, ts. jos funktion argumentiksi on määritetty merkitsevyystaso, esimerkiksi 0,05, niin funktio palauttaa sellaisen satunnaismuuttujan x arvon, jolle P(X>x)=0,05. Vertailun vuoksi: funktio XI2.INV() palauttaa sellaisen satunnaismuuttujan x arvon, jolle P(X<=x}=0,05.

MS EXCEL 2007:ssä ja aiemmissa versioissa käytettiin XI2.OBR.RT()-funktiota XI2OBR()-funktiota.

Yllä olevat toiminnot voidaan vaihtaa keskenään, kuten seuraavat kaavat palauttavat saman tuloksen:
=CHI.OBR(alfa,n)
=XI2.INV.RT(1-alfa;n)
\u003d XI2OBR (1-alfa; n)

Joitakin laskentaesimerkkejä on annettu esimerkkitiedosto Functions-välilehdellä.

MS EXCEL toimii chi2-jakauman avulla

Alla on vastaavuus venäjän ja englannin funktionimien välillä:
HI2.JAKAUMA.PH() - eng. nimi CHISQ.DIST.RT, ts. CHI-neliöjakauma Right Tail, oikeansuuntainen Chi-neliö(d)-jakauma
XI2.OBR () - englanti. nimi CHISQ.INV, ts. CHI-neliöjakauma INVerse
HI2.PH.OBR() - englanti. nimi CHISQ.INV.RT, ts. CHI-Squared-jakelu INVerse Right Tail
HI2JAKAUMA() - eng. nimi CHIDIST, funktio, joka vastaa funktiota CHISQ.DIST.RT
HI2OBR() - eng. nimi CHIINV, ts. CHI-neliöjakauma INVerse

Jakaumaparametrien estimointi

Koska yleensä chi2-jakelu käytetään matemaattisten tilastojen tarkoituksiin (laskenta luottamusvälit, hypoteesien testaus jne.) ja tuskin koskaan todellisten arvojen mallien rakentamiseen, niin tämän jakauman osalta tässä ei käydä keskustelua jakaumaparametrien arvioinnista.

XI2-jakauman likiarvo normaalijakauman avulla

Vapausasteiden lukumäärällä n>30 jakelu X 2 hyvin likimääräinen normaalijakauma co keskivertoμ=n ja dispersio σ=2*n (katso esimerkkitiedostoarkki Approximation).