Statistiline jada, histogramm ja selle koostamise järjekord. Jaotusread statistikas

Statistilised jaotusread- rahvastikuüksuste järjestatud jaotus rühmadesse teatud tunnuse järgi. See iseloomustab uuritava nähtuse koostist (struktuuri), võimaldab hinnata üldkogumi homogeensust, jaotusmustrit ja populatsiooni ühikute varieeruvuse piire.

Nimetatakse atributiivsete (kvalitatiivsete) tunnuste järgi konstrueeritud jaotusridu atribuutne(rahvastiku jaotus soo, tööhõive, rahvuse, elukutse jne järgi).

Nimetatakse kvantitatiivsete tunnuste alusel koostatud jaotusridu variatsiooniline(rahvastiku jaotus vanuse, tööliste staaži, palga jne järgi). Variatsioonilised jaotussarjad koosnevad kahest elemendist: valikutest ja sagedustest. Valikud– tunnuse individuaalsed väärtused, mida see reas võtab. Sagedused on variatsiooniseeria üksikute variantide või iga rühma arv, s.o. Need on numbrid, mis näitavad, kui sageli teatud valikud jaotuseseerias esinevad. Kõigi sageduste summat nimetatakse üldkogumi mahuks ja see määrab kogu populatsiooni elementide arvu. Sagedused on sagedused, mis on väljendatud ühikute murdosades või protsentides kogusummast.

Variatsioonisarjad jagunevad olenevalt variatsiooni olemusest diskreetseteks ja intervallideks. Diskreetsed variatsiooniread põhinevad diskreetsetel (katkestavatel) karakteristikutel, millel on ainult täisarvud, ja intervallidena esitatud diskreetsetel karakteristikutel. Intervallide variatsiooniread põhinevad pidevatel karakteristikutel (milles on mis tahes väärtused, isegi murdosalised).

7. Statistiliste andmete tabel- ja graafiline esitus.

Kokkuvõtte ja rühmitamise tulemused esitatakse tabelite kujul. Tabel on statistilise materjali ratsionaalne, visuaalne ja kompaktne vorm.

Statistiline tabel on tabel, mis sisaldab praktiliste andmete arvutamise tulemusi ja on esialgse teabe kokkuvõtte tulemus.

Tabel iseloomustab populatsiooni ühe või mitme tunnuse järgi, mis on omavahel loogikaga seotud.

Statistilisel tabelis on oma teema ja predikaat. Subjekt on objekt, mida iseloomustavad numbrid. Tabeli predikaat on näitajate süsteem.

Tabelid võivad olla lihtsad või keerulised. Lihtne tabel annab lihtsa objektide loendi. Kompleksne tabel sisaldab rahvastikuüksuste rühmitamist üheaegselt kahe või enama tunnuse järgi. Tabel peaks olema kompaktne, pealkirjad lühikesed, veergude ja veergude teave peaks lõppema kokkuvõtliku reaga. Veergudel ja ridadel peavad olema ühikud, siis tuleb teha ühtlane ja loogiline tabelikontroll.

Statistiline graafik on joonis, millel teatud näitajatega iseloomustatud statistilisi agregaate kirjeldatakse tavaliste geomeetriliste kujutiste või märkide abil. Graafiku koostamisel on vaja järgida järgmisi nõudeid: selgus, väljendusrikkus ja arusaadavus. Graafikuväli on tasapinna osa, kus asuvad graafilised kujutised. Graafikutüübid: lineaarne, tulp, riba, pirukas, sektor, figuurne, punkt, mahuline, diagramme ja statistilisi kaarte. Kartogramm on skemaatiline geograafiline kaart, millel on esile tõstetud majandusharud või rahvastiku struktuur.

Matemaatika statistika- matemaatika haru, mis on pühendatud matemaatilised meetodid statistiliste andmete töötlemine, süstematiseerimine ja kasutamine teaduslike ja praktiliste järelduste tegemiseks.

3.1. MATEMAATILISE STATISTIKA PÕHIMÕISTED

Meditsiiniliste ja bioloogiliste probleemide puhul on sageli vaja uurida konkreetse tunnuse levikut väga suure hulga isendite puhul. Erinevatel inimestel on see märk olemas erinev tähendus, seega on tegemist juhusliku muutujaga. Näiteks on mis tahes terapeutiline ravim erinevate patsientide puhul erineva efektiivsusega. Kuid selleks, et saada aimu selle ravimi efektiivsusest, pole vaja seda kasutada kõik haige. Ravimi kasutamise tulemusi on võimalik jälgida suhteliselt väikesele patsientide rühmale ja saadud andmete põhjal teha kindlaks raviprotsessi olulised tunnused (efektiivsus, vastunäidustused).

Rahvaarv- homogeensete elementide kogum, mida iseloomustab mõni uuritav atribuut. See märk on pidev jaotustihedusega juhuslik suurus f(x).

Näiteks kui meid huvitab haiguse levimus teatud piirkonnas, siis üldrahvastik on kogu piirkonna elanikkond. Kui tahame meeste ja naiste vastuvõtlikkust sellele haigusele eraldi välja selgitada, siis tuleks arvestada kahe üldpopulatsiooniga.

Üldkogumi omaduste uurimiseks valitakse välja teatud osa selle elementidest.

Näidis- uuringuks (raviks) valitud osa üldpopulatsioonist.

Kui see segadust ei tekita, nimetatakse proovi kui objektide komplekt, uuringu jaoks valitud ja totaalsus

väärtused läbivaatuse käigus saadud uuritud tunnus. Neid väärtusi saab esitada mitmel viisil.

Lihtne statistiline seeria - uuritava tunnuse väärtused, mis registreeritakse nende saamise järjekorras.

Tabelis on näide lihtsast statistilisest seeriast, mis on saadud pinnalaine kiiruse (m/s) mõõtmisel otsmiku nahas 20 patsiendil. 3.1.

Tabel 3.1.Lihtne statistiline seeria

Lihtne statistiline seeria on peamine ja kõige täielikum viis uuringutulemuste registreerimiseks. See võib sisaldada sadu elemente. Sellist tervikut on ühe pilguga väga raske heita. Seetõttu jagatakse suured proovid tavaliselt rühmadesse. Selleks jagatakse tunnuse muutumisala mitmeks (N) intervallidega võrdne laius ja arvutada nendesse intervallidesse langeva atribuudi suhtelised sagedused (n/n). Iga intervalli laius on:

Intervalli piiridel on järgmised tähendused:

Kui mis tahes näidiselement on piiriks kahe kõrvuti asetseva intervalli vahel, klassifitseeritakse see järgmiselt vasakule intervall. Sel viisil rühmitatud andmeid nimetatakse intervallidega statistilised seeriad.

on tabel, mis näitab atribuudi väärtuste intervalle ja atribuudi esinemise suhtelisi sagedusi nendes intervallides.

Meie puhul saame moodustada näiteks järgmise intervalliga statistilise jada (N = 5, d= 4), tabel. 3.2.

Tabel 3.2.Intervallide statistilised seeriad

Siin sisaldab intervall 28-32 kahte väärtust, mis võrdub 28-ga (tabel 3.1), ja intervall 32-36 sisaldab väärtusi 32, 33, 34 ja 35.

Intervallide statistilisi seeriaid saab kujutada graafiliselt. Selleks joonistatakse atribuutide väärtuste intervallid piki abstsisstellge ja igaühele neist, nagu alusele, ehitatakse ristkülik, mille kõrgus on võrdne suhtelise sagedusega. Saadud tulpdiagrammi nimetatakse histogramm.

Riis. 3.1. tulpdiagramm

Histogrammil on karakteristiku jaotuse statistilised mustrid üsna selgelt nähtavad.

Suure valimi (mitu tuhat) ja väikese veeru laiusega on histogrammi kuju lähedane graafiku kujule jaotustihedus märk.

Histogrammi veergude arvu saab valida järgmise valemi abil:

Histogrammi käsitsi koostamine on pikk protsess. Seetõttu arenenud arvutiprogrammid nende automaatse ehituse jaoks.

3.2. STATISTILISTE SERIADE NUMBRIKARAKTERISTIKUD

Paljud statistilised protseduurid kasutavad populatsiooni ootuste ja dispersiooni (või MSE) valimihinnanguid.

Näidiskeskmine(X) on lihtsa statistilise jada kõigi elementide aritmeetiline keskmine:

Meie näite jaoks X= 37,05 (m/s).

Valimi keskmine onparimüldine keskmine hinnangM.

Valimi dispersioon s 2 võrdne elementide valimi keskmisest kõrvalekallete ruudu summaga jagatuna n- 1:

Meie näites s 2 = 25,2 (m/s) 2.

Pange tähele, et valimi dispersiooni arvutamisel ei ole valemi nimetajaks valimi suurus n, vaid n-1. See on tingitud asjaolust, et valemi (3.3) hälvete arvutamisel kasutatakse tundmatu matemaatilise ootuse asemel selle hinnangut - proovi keskmine.

Valimi dispersioon on parimüldise dispersiooni hindamine (σ 2).

Näidis standardhälve(s) on Ruutjuur valimi dispersioonist:

Meie näite jaoks s= 5,02 (m/s).

Valikuline ruutkeskmine hälve on üldise standardhälbe (σ) parim hinnang.

Valimi suuruse piiramatu suurenemise korral kalduvad kõik valimi tunnused üldkogumi vastavatele omadustele.

Valimikarakteristikute arvutamiseks kasutatakse arvutivalemeid. Excelis tehakse need arvutused statistilised funktsioonid KESKMINE, DISP. STANDARDHÕLVE

3.3. INTERVALLI HINDAMINE

Kõik proovi omadused on juhuslikud muutujad. See tähendab, et teise sama suurusega valimi puhul on valimi omaduste väärtused erinevad. Seega valikuline

omadused on ainult hinnangud elanikkonna asjakohased omadused.

Valikuhindamise miinused kompenseeritakse intervalli hindamine, esindavad numbriline intervall mille sees etteantud tõenäosusega R d leitakse hinnangulise parameetri tegelik väärtus.

Lase U r - mingi üldkogumi parameeter (üldkeskmine, üldine dispersioon jne).

Intervallide hindamine parameetrit U r nimetatakse intervalliks (U 1, U 2), tingimuse rahuldamine:

P(U < Ur < U2) = Рд. (3.5)

Tõenäosus R d helistas usalduse tõenäosus.

Usalduse tõenäosus Pd - tõenäosus, et hinnangulise koguse tegelik väärtus on sees määratud intervall.

Sel juhul intervall (U 1, U 2) helistas usaldusvahemik hinnatava parameetri jaoks.

Tihti kasutatakse usaldustõenäosuse asemel seotud väärtust α = 1 - Р d, mida nn. olulisuse tase.

Olulisuse tase on tõenäosus, et hinnangulise parameetri tegelik väärtus on väljaspool usaldusvahemik.

Mõnikord väljendatakse α ja P d protsentides, näiteks 0,05 asemel 5% ja 0,95 asemel 95%.

Intervallide hindamisel valige esmalt sobiv usalduse tõenäosus(tavaliselt 0,95 või 0,99) ja seejärel leidke hinnatava parameetri jaoks sobiv väärtuste vahemik.

Märgime mõned üldised omadused intervallide hinnangud.

1. Mida madalam on olulisuse tase (seda rohkem R d), mida laiem on intervalli hinnang. Seega, kui olulisuse tasemel 0,05 on üldkeskmise intervallhinnang 34,7< M< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < M< 40,25.

2. Mida suurem on valimi suurus n, seda kitsam on valitud olulisuse tasemega intervallhinnang. Olgu näiteks 5 20 elemendist koosneva valimi põhjal saadud üldkeskmise (β = 0,05) protsentuaalne hinnang, siis 34,7< M< 39,4.

Suurendades valimi suurust 80-ni, saame täpsema hinnangu samal olulisuse tasemel: 35,5< M< 38,6.

Üldiselt eeldab usaldusväärsete usaldushinnangute konstrueerimine seaduse tundmist, mille järgi hinnanguline juhuslik atribuut üldkogumis jaotub. Vaatame, kuidas konstrueeritakse intervallhinnang üldine keskmine tunnus, mis jaguneb populatsioonis vastavalt normaalne seadus.

3.4. NORMAALSE JAOTUSE SEADUSE ÜLDISE KESKMISE INTERVALLI HINNANG

Üldkeskmise M intervallhinnangu konstrueerimine normaaljaotusseadusega üldkogumile põhineb järgmisel omadusel. Proovivõtu mahu jaoks n suhtumine

järgib Studenti jaotust vabadusastmete arvuga ν = n- 1.

Siin X- näidise keskmine ja s- selektiivne standardhälve.

Studenti jaotustabelite või nende arvutiekvivalentide abil saate leida sellise piirväärtuse, mille puhul antud usalduse tõenäosusega kehtib järgmine ebavõrdsus:

See ebavõrdsus vastab M ebavõrdsusele:

Kus ε - usaldusvahemiku poollaius.

Seega tehakse M usaldusintervalli konstrueerimine järgmises järjestuses.

1. Valige usaldustõenäosus Р d (tavaliselt 0,95 või 0,99) ja leidke selle jaoks Studenti jaotustabeli abil parameeter t

2. Arvutage usaldusvahemiku ε poollaius:

3. Hankige valitud usaldustõenäosusega intervallhinnang üldkeskmisele:

Lühidalt on see kirjutatud nii:

Intervallide hinnangute leidmiseks on välja töötatud arvutiprotseduurid.

Selgitame, kuidas kasutada õpilaste jaotustabelit. Sellel tabelis on kaks "sissepääsu": vasakpoolne veerg, mida nimetatakse vabadusastmete arvuks ν = n- 1 ja ülemine rida on olulisuse tase α. Ristmikul vastav rida ja veerus leida Studenti koefitsient t.

Rakendame seda meetodit oma proovile. Allpool on esitatud fragment õpilaste jaotustabelist.

Tabel 3.3. Fragment õpilaste jaotustabelist

Lihtne statistiline seeria 20-liikmelise valimi jaoks (n= 20, ν =19) on esitatud tabelis. 3.1. Selle seeria jaoks annavad valemite (3.1-3.3) arvutused: X= 37,05; s= 5,02.

Valime α = 0,05 (Р d = 0,95). Rea “19” ja veeru “0.05” ristumiskohas leiame t= 2,09.

Arvutame hinnangu täpsuse valemi (3.6) abil: ε = 2,09?5,02/λ /20 = 2,34.

Koostame intervallhinnangu: 95% tõenäosusega rahuldab tundmatu üldkeskmine ebavõrdsust:

37,05 - 2,34 < M< 37,05 + 2,34, или M= 37,05 ± 2,34 (m/s), Rd = 0,95.

3.5. STATISTILISTE HÜPOTEESIDE TESTIMISE MEETODID

Statistilised hüpoteesid

Enne statistilise hüpoteesi sõnastamist kaaluge järgmist näidet.

Kahe teatud haiguse ravimeetodi võrdlemiseks valiti välja kaks 20-liikmelist patsientide rühma ja neid raviti nende meetoditega. Iga patsiendi kohta registreeriti see protseduuride arv, mille järel saavutati positiivne mõju. Nende andmete põhjal leiti iga rühma valimi keskmised (X), valimi dispersioonid (s 2) ja proovi standardhälbed (s).

Tulemused on esitatud tabelis. 3.4.

Tabel 3.4

Positiivse efekti saavutamiseks vajalike protseduuride arv on juhuslik suurus, mille kohta on kogu teave sisse lülitatud Sel hetkel sisaldub antud proovis.

Laualt 3.4 näitab, et esimese rühma valimi keskmine on väiksem kui teises. Kas see tähendab, et sama seos kehtib ka üldiste keskmiste kohta: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает hüpoteeside statistiline kontrollimine.

Statistiline hüpotees- see on oletus populatsioonide omaduste kohta.

Vaatleme hüpoteese omaduste kohta kaksüldpopulatsioonid.

Kui populatsioonidel on kuulus, identne hinnangulise väärtuse jaotus ja eeldused puudutavad väärtusi mingi parameeter sellest jaotusest, siis nimetatakse hüpoteese parameetriline. Näiteks võetakse proovid populatsioonidest tavaline seadus jaotus ja võrdne dispersioon. Vaja teada saada kas need on samad nende populatsioonide üldised keskmised.

Kui üldpopulatsioonide jaotusseadustest ei teata midagi, siis nimetatakse hüpoteese nende omaduste kohta mitteparameetriline. Näiteks, kas need on samadüldkogumite jaotusseadused, millest valimid võetakse.

Null- ja alternatiivsed hüpoteesid.

Hüpoteeside kontrollimise ülesanne. Olulisuse tase

Tutvume hüpoteeside kontrollimisel kasutatava terminoloogiaga.

H 0 - nullhüpotees (skeptiku hüpotees) on hüpotees erinevuste puudumise kohta võrreldavate proovide vahel. Skeptik usub, et uuringutulemustest saadud valimihinnangute erinevused on juhuslikud;

H 1- alternatiivne hüpotees (optimistlik hüpotees) on hüpotees võrreldavate valimite erinevuste olemasolu kohta. Optimist usub, et erinevused valimi hinnangute vahel on tingitud objektiivsetest põhjustest ja vastavad erinevustele üldistes populatsioonides.

Statistiliste hüpoteeside kontrollimine on teostatav ainult siis, kui on võimalik mõnda konstrueerida suurus(kriteerium), mille jaotusseadus õigluse korral H 0 kuulus. Siis saame selle koguse täpsustada usaldusvahemik, millesse etteantud tõenäosusega R d selle väärtus langeb. Seda intervalli nimetatakse kriitiline piirkond. Kui kriteeriumi väärtus langeb kriitilisse piirkonda, siis hüpotees aktsepteeritakse N 0. Vastasel juhul aktsepteeritakse hüpotees H 1.

Meditsiiniuuringutes kasutatakse P d = 0,95 või P d = 0,99. Need väärtused vastavad olulisuse tasemedα = 0,05 või α = 0,01.

Statistiliste hüpoteeside kontrollimiselolulisuse tase(α) on nullhüpoteesi tagasilükkamise tõenäosus, kui see on tõene.

Pange tähele, et hüpoteesi testimise protseduur on põhiliselt suunatud erinevuste tuvastamine ja mitte kinnitada nende puudumist. Kui kriteeriumi väärtus ületab kriitilist piirkonda, võime “skeptikule” puhta südamega öelda – no mida sa veel tahad?! Kui erinevusi poleks, siis tõenäosusega 95% (või 99%) jääks arvutatud väärtus etteantud piiridesse. Kuid mitte!..

Noh, kui kriteeriumi väärtus langeb kriitilisse piirkonda, siis pole põhjust arvata, et hüpotees H 0 on õige. See viitab tõenäoliselt ühele kahest võimalikust põhjusest.

1. Valimi suurused ei ole erinevuste tuvastamiseks piisavalt suured. On tõenäoline, et jätkuv katsetamine toob edu.

2. On erinevusi. Kuid need on nii väikesed, et neil pole praktilist tähtsust. Sel juhul pole katsete jätkamine mõttekas.

Vaatleme mõningaid meditsiinilistes uuringutes kasutatud statistilisi hüpoteese.

3.6. HÜPOTEESIDE TESTIMINE VARIATSIDE VÕRDSUSE, FISCHERI F-KRITEERIUMI KOHTA

Mõnedes kliinilistes uuringutes ei ilmne positiivne mõju mitte niivõrd suurusjärk uuritavast parameetrist, kui palju sellest stabiliseerimine, vähendades selle kõikumisi. Sel juhul tekib küsimus kahe üldise dispersiooni võrdlemise kohta valikuuringu tulemuste põhjal. Seda probleemi saab lahendada kasutades Fisheri test.

Probleemi sõnastamine

tavaline seadus distributsioonid. Näidiste suurused -

n 1 Ja n2, A näidisvariansid võrdne s 1 ja s 2 2 üldised kõrvalekalded.

Kontrollitavad hüpoteesid:

H 0- üldised kõrvalekalded on samad;

H 1- üldised kõrvalekalded on erinevad.

Näidatakse, kui proovid on võetud populatsioonidest, millel on tavaline seadus jaotus, siis kui hüpotees on tõene H 0 valimi dispersioonide suhe järgib Fisheri jaotust. Seega õigluse kontrollimise kriteeriumina H 0 väärtus on võetud F, arvutatakse valemiga:

Kus s 1 ja s 2 on valimi dispersioonid.

See suhe järgib Fisheri jaotust lugeja vabadusastmete arvuga ν 1 = n 1- 1 ja nimetaja vabadusastmete arv ν 2 = n 2 - 1. Kriitilise piirkonna piirid leitakse Fisheri jaotustabelite või arvutifunktsiooni BRASPOBR abil.

Tabelis esitatud näite jaoks. 3.4, saame: ν 1 = ν 2 = 20 - 1 = 19; F= 2,16/4,05 = 0,53. α = 0,05 korral on kriitilise piirkonna piirid vastavalt: = 0,40, = 2,53.

Kriteeriumi väärtus langeb kriitilisse piirkonda, seega hüpotees aktsepteeritakse H 0:üldised valimi dispersioonid on samad.

3.7. HÜPOTEESIDE TESTIMINE VAHENDITE VÕRDSUSE, ÕPILASTE t-KRITEERIUMI KOHTA

Võrdlusülesanne keskmine kaks üldist populatsiooni esineb siis, kui praktiline tähtsus on täpselt suurusjärk uuritav omadus. Näiteks kui võrrelda kahe erineva meetodi ravi kestust või nende kasutamisest tulenevate tüsistuste arvu. Sel juhul saate kasutada Studenti t-testi.

Probleemi sõnastamine

Saadi kaks proovi (X 1) ja (X 2), mis ekstraheeriti üldpopulatsioonidest koos tavaline seadus levitamine ja identsed dispersioonid. Valimi suurused - n 1 ja n 2, näidis tähendab on võrdsed X 1 ja X 2 ning näidisvariansid- s 1 2 ja s 2 2 vastavalt. Vaja võrrelda üldised keskmised.

Kontrollitavad hüpoteesid:

H 0- üldised keskmised on samad;

H 1- üldised keskmised on erinevad.

Näidatakse, et kui hüpotees on tõene H 0 t väärtus arvutatakse järgmise valemiga:

jaotatud vastavalt Studenti seadusele vabadusastmete arvuga ν = ν 1 + + ν2 - 2.

Siin kus ν 1 = n 1 - 1 - esimese proovi vabadusastmete arv; ν 2 = n 2 - 1 - teise proovi vabadusastmete arv.

Kriitilise piirkonna piirid leitakse t-jaotustabelite või arvutifunktsiooni STUDRIST abil. Studenti jaotus on nulli suhtes sümmeetriline, seega on kriitilise piirkonna vasak ja parem piir suurusjärgus identne ja märgilt vastupidine: -ja

Tabelis esitatud näite jaoks. 3.4, saame:

ν 1 = ν 2 = 20 - 1 = 19; ν = 38, t= -2,51. Kui α = 0,05 = 2,02.

Kriteeriumi väärtus ületab kriitilise piirkonna vasakut piiri, seega nõustume hüpoteesiga H 1:üldised keskmised on erinevad. Samas rahvaarv keskmine esimene proov VÄHEM.

Studenti t-testi rakendatavus

Studenti t-test on rakendatav ainult proovide suhtes, mis pärinevad normaalne agregaadid koos identsed üldised dispersioonid. Kui vähemalt üks tingimus on rikutud, siis on kriteeriumi kohaldatavus küsitav. Üldrahvastiku normaalsuse nõuet tavaliselt eiratakse, viidates keskpiiri teoreem. Tõepoolest, valimi keskmiste erinevust lugejas (3.10) võib pidada normaaljaotuseks, kui ν > 30. Kuid dispersioonide võrdsuse küsimust ei saa kontrollida ja viiteid asjaolule, et Fisheri test erinevusi ei tuvastanud, ei saa võtta arvesse. Kuid t-testi kasutatakse laialdaselt populatsiooni keskmiste erinevuste tuvastamiseks, kuigi ilma piisavate tõenditeta.

Allpool arutatakse mitteparameetriline kriteerium, mida edukalt kasutatakse samadel eesmärkidel ja mis ei nõua ühtegi normaalsus, ei kumbagi dispersioonide võrdsus.

3.8. KAHE NÄIDI MITTEPARAMETRILINE VÕRDLUS: MANN-WHITNEY KRITEERIUM

Mitteparameetrilised testid on loodud kahe populatsiooni jaotusseaduste erinevuste tuvastamiseks. Kriteeriumid, mis on üldiselt tundlikud erinevuste suhtes keskmine, nimetatakse kriteeriumiteks nihe Kriteeriumid, mis on üldiselt tundlikud erinevuste suhtes dispersioonid, nimetatakse kriteeriumiteks kaal. Mann-Whitney test viitab kriteeriumidele nihe ja seda kasutatakse kahe populatsiooni, mille proovid on esitatud, keskmiste erinevuste tuvastamiseks edetabeli skaala. Mõõdetud karakteristikud paiknevad sellel skaalal kasvavas järjekorras ja nummerdatakse seejärel täisarvudega 1, 2... Neid numbreid nimetatakse nn. auastmed. Võrdsetele kogustele omistatakse võrdsed auastmed. Tähtis pole atribuudi enda väärtus, vaid ainult tavaline koht mille ta teiste koguste hulka paigutab.

Tabelis 3.5. esimene rühm tabelist 3.4 on esitatud laiendatud kujul (rida 1), järjestatud (rida 2) ja seejärel asendatakse identsete väärtuste read aritmeetiliste keskmistega. Näiteks esimese rea üksustele 4 ja 4 anti auastmed 2 ja 3, mis seejärel asendati samade väärtustega 2,5.

Tabel 3.5

Probleemi sõnastamine

Sõltumatud proovid (X 1) Ja (X 2) eraldatud tundmatute levikuseadustega üldpopulatsioonidest. Näidiste suurused n 1 Ja n 2 vastavalt. Näidiselementide väärtused on esitatud edetabeli skaala. Tuleb kontrollida, kas need üldpopulatsioonid erinevad üksteisest?

Kontrollitavad hüpoteesid:

H 0- valimid kuuluvad samasse üldkogumisse; H 1- proovid kuuluvad erinevatesse üldkogumitesse.

Selliste hüpoteeside kontrollimiseks kasutatakse (/-Mann-Whitney testi.

Esiteks koostatakse kahest valimist kombineeritud valim (X), mille elemendid järjestatakse. Seejärel leitakse esimese valimi elementidele vastavate astmete summa. See summa on hüpoteeside kontrollimise kriteerium.

U= Esimese valimi auastmete summa. (3.11)

Sõltumatute proovide puhul, mille maht on suurem kui 20, väärtus U järgib normaaljaotust, oodatud väärtus ja mille standardhälve on võrdne:

Seetõttu leitakse kriitilise piirkonna piirid normaaljaotuse tabelite järgi.

Tabelis esitatud näite jaoks. 3.4, saame: ν 1 = ν 2 = 20 - 1 = 19, U= 339, μ = 410, σ = 37. α = 0,05 korral saame: vasak = 338 ja parem = 482.

Kriteeriumi väärtus ületab kriitilise piirkonna vasakut piiri, seetõttu aktsepteeritakse hüpotees H 1: üldpopulatsioonidel on erinevaid seadusi distributsioonid. Samas rahvaarv keskmine esimene proov VÄHEM.

Konkreetset nähtust iseloomustavate statistiliste vaatlusandmete olemasolul tuleb need ennekõike korrastada, s.t. annavad süstemaatilise iseloomu

Inglise statistik. UJReichman ütles piltlikult korrastamata kogude kohta, et üldistamata andmete massiga kokku puutumine on samaväärne olukorraga, kus inimene visatakse ilma kompassita tihnikusse. Mis on statistiliste andmete süstematiseerimine jaotusridade kujul?

Jaotuste statistilised seeriad on järjestatud statistilised agregaadid (tabel 17). Lihtsaim statistilise jaotusrea tüüp on järjestatud jada, s.o. kasvavas või kahanevas järjestuses numbrite jada, mille tunnused on erinevad. Selline jada ei võimalda hinnata hajutatud andmetele omaseid mustreid: millise väärtusega on rühmitatud suurem osa näitajaid, millised kõrvalekalded sellest väärtusest on; nagu suur pilt distributsioonid. Selleks rühmitatakse andmed, näidates, kui sageli üksikvaatlusi nende koguarvus esineb (skeem 1a 1).

. Tabel 17

. Üldine vorm statistiline jaotusrea

. Skeem 1. Statistiline skeem levitamise seeriad

Nimetatakse populatsiooniüksuste jaotust tunnuste järgi, millel puudub kvantitatiivne väljendus atribuutne seeria(näiteks ettevõtete jaotus tootmispiirkonna järgi)

Nimetatakse kvantitatiivse avaldisega populatsiooniüksuste jaotuse seeriaid tunnuste järgi variatsiooni seeria. Sellistes seeriates on tunnuse (valikud) väärtused kasvavas või kahanevas järjekorras

Variatsioonijaotuse seerias eristatakse kahte elementi: variant ja sagedus . Võimalus- see on rühmitamise tunnuste eraldi tähendus sagedus- arv, mis näitab, mitu korda iga valik esineb

IN matemaatiline statistika arvutatakse veel üks variatsioonirea element - osaliselt. Viimane on määratletud kui antud intervalli juhtumite sageduse suhe sageduste kogusummasse; osa määratakse ühiku murdosades, protsentides (%) ppm-des (%o)

Seega on variatsioonijaotuse seeria jada, milles valikud on järjestatud kasvavas või kahanevas järjekorras ning märgitud on nende sagedused või sagedused. Variatsiooniread on diskreetsed (intervallid) ja muud intervallid (pidev).

. Diskreetsed variatsiooniseeriad- need on jaotusread, milles variant kvantitatiivse tunnuse väärtusena saab omandada ainult teatud väärtuse. Valikud erinevad üksteisest ühe või mitme ühiku võrra

Seega saab konkreetse töötaja poolt vahetuses toodetud osade arvu väljendada ainult ühe kindla arvuga (6, 10, 12 jne). Diskreetse variatsioonirea näiteks võiks olla töötajate jaotus toodetud osade arvu järgi (tabel 18 18).

. Tabel 18

. Diskreetsete seeriajaotus _

. Intervall (pidev) variatsiooniseeria- sellised jaotussarjad, milles optsioonide väärtus on antud intervallidena, s.o. tunnuste väärtused võivad üksteisest suvaliselt vähe erineda. NEP peri-variandi karakteristikute variatsiooniseeria koostamisel on variandi iga väärtust võimatu näidata, mistõttu populatsioon jaotatakse intervallide vahel. Viimased võivad olla võrdsed või ebavõrdsed. Igaühele neist on märgitud sagedused või sagedused (tabel 1 9 19).

Ebavõrdsete intervallidega intervalljaotussarjades arvutatakse matemaatilised omadused, nagu jaotustihedus ja suhteline jaotustihedus antud intervallil. Esimene omadus määratakse sageduse ja sama intervalli väärtuse suhtega, teine ​​- sageduse ja sama intervalli väärtuse suhtega. Ülaltoodud näite puhul on jaotustihedus esimeses intervallis 3: 5 = 0,6 ja suhteline tihedus selles intervallis on 7,5: 5 = 1,55%.

. Tabel 19

. Intervalljaotuse seeriad _

Teema 9. Levitussarjad

Statistilised jaotusread- see on massilise statistilise üldkogumi esmane tunnus, uuritava üldkogumi üksuste järjestatud jaotumine rühmadeks vastavalt rühmitustunnustele. Iga statistiline jaotusseeria koosneb kahest elemendist:

1) muutuva tunnuse individuaalsed väärtused ( valikuid );

2) väärtused, mis näitavad, mitu korda antud valikut korratakse ( sagedused ).

Märge. Nimetatakse sagedusi, mis on väljendatud ühiku murdosades või protsentides kogusummast sagedused ; see on väljendatud jaotussarjade arv sageduste summa.

Kui rühmitamise aluseks võtta kvalitatiivne tunnus, siis nimetatakse sellist jaotussarja atribuutne(jaotus tööjõu liigi, soo, elukutse, usu, rahvuse jne järgi). Kui jaotusrida on koostatud kvantitatiivsel alusel, siis sellist jada nimetatakse variatsiooniline. Variatsiooniseeria koostamine tähendab populatsiooniüksuste kvantitatiivse jaotuse korraldamist iseloomulike väärtuste järgi ja seejärel nende väärtustega rahvastikuüksuste arvu loendamist (rühmatabeli koostamine).

Tõstke esile kolm variatsiooniseeria vormi:

1) pingereas seeria- see on populatsiooni üksikute üksuste jaotus uuritava tunnuse kasvavas või kahanevas järjekorras; järjestamine võimaldab kvantitatiivseid andmeid hõlpsasti rühmadesse jagada, tuvastada kohe kõige väiksemad ja kõrgeim väärtus iseloomulik, tõstke esile väärtused, mida kõige sagedamini korratakse; muud variatsioonisarjade vormid - rühma tabelid, mis on koostatud vastavalt uuritava tunnuse väärtuste varieerumise olemusele;

2) diskreetne seeria- see on variatsiooniseeria, mille konstruktsioon põhineb katkendliku muutusega karakteristikutel, mille vahel ei ole vahepealseid väärtusi (diskreetsed omadused - tariifikategooria, laste arv peres, töötajate arv ettevõttes jne); need tunnused võivad omandada ainult piiratud arvu konkreetseid väärtusi;

Diskreetsed seeriad esindab rühma laud, mis koosneb kahest veerust: esimene veerg näitab atribuudi konkreetset väärtust ja teine ​​- atribuudi konkreetse väärtusega populatsiooni üksuste arv;

3) kui tunnus on pidevas muutumises (sissetuleku suurus, tööstaaž, ettevõtte põhivara maksumus jne, mis teatud piirides võib omandada mis tahes väärtusi), siis selle tunnuse jaoks on vaja ehitada intervalli seeriad (võrdsete või ebavõrdsete intervallidega).

Rühmalaud siin on ka kaks veergu. Esimene tähistab atribuudi väärtust intervallis "alates - kuni" (valikud), teine ​​​​näitab intervallis sisalduvate ühikute arvu (sagedus). Väga sageli on tabelit täiendatud veeruga, milles arvutatakse akumuleeritud sagedused S, mis näitavad, kui paljudel ühikutel üldkogumis on iseloomulik väärtus, mis ei ületa seda väärtust. Seeria f sagedusi saab asendada üksikasjadega w, väljendatuna suhtelistes numbrites (aktsiad või protsentides). Need näitavad iga intervalli sageduste suhet nende kogusummasse (9.1):



(9.1)

Intervallväärtustega variatsioonirea koostamisel tuleb kõigepealt kindlaks määrata intervalli i väärtus, mis on defineeritud kui variatsioonivahemiku R suhe rühmade arvusse n (9.2):

kus R = x max - x min; n = 1 + 3,322 logN( Sturgessi valem); N- koguarv rahvastiku ühikut.

Intervallvariatsiooni seeriaid saab koostada ka diskreetse variatsiooniga karakteristikute jaoks. Sageli ei ole statistilises uuringus kohane näidata diskreetse atribuudi eraldi väärtust, kuna see kipub raskendama tunnuse varieerumise arvestamist. Seetõttu jaotatakse atribuudi võimalikud diskreetsed väärtused rühmadesse ja arvutatakse vastavad sagedused (detailid). Diskreetse atribuudi alusel intervallide jada koostamisel ei korda kõrvuti asetsevate intervallide piirid üksteist: järgmine intervall algab järgmisega (pärast eelmise intervalli ülemist väärtust) atribuudi diskreetse väärtuse järgi.

Ebavõrdsete intervallidega jada sageduste võrdlemisel arvutatakse nende täiuse iseloomustamiseks jaotustihedus. Keskmine tihedus intervallis on sageduse ja eripära jagatis intervalli väärtusega. Esimesel juhul on tihedus absoluutne, teisel - suhteline. Keskmine tihedus näitab, mitu ühikut või selle protsenti on mõõtühikute valikute kohta. Sagedus, partikulaarsus, tihedus ja akumuleeritud sagedus on suurusjärgu valikute erinevad funktsioonid.

Pooleli statistiline andmete analüüs, mida esindavad jaotusread, saab lisaks teadmistele jaotuse olemusest (või üldkogumi struktuurist) arvutada erinevaid statistilisi näitajaid (arvulisi tunnuseid), mis üldistatult kajastavad tunnuste jaotuse tunnuseid. uuritakse. Need omadused (näitajad) võib jagada 3 põhirühma

1) jaotuskeskuse omadused(keskmine, moodus, mediaan);

2) variatsiooniastme tunnused(variatsioonivahemik, keskmine lineaarhälve, dispersioon, standardhälve, variatsioonikoefitsient);

3) leviku kuju (tüübi) omadused(kurtoosi ja asümmeetria näitajad, järgu tunnused, jaotuskõverad).

Kõige usaldusväärsem viis jaotusmustrite tuvastamiseks on järgmine:
1) suurendada vaadeldud juhtumite arvu (vastavalt seadusele suured numbrid, on sellistes seeriates juhuslikud kõrvalekalded üldisest mustrist individuaalsed väärtused tühistavad üksteist);

2) algselt jaotada populatsioon võimalikult suureks arvuks rühmadeks, seejärel järk-järgult rühmade arvu vähendades optimeerida rühmitamist jaotusmustrite tuvastamise seisukohalt.

Selle lähenemise rakendamisel ilmneb antud jaotusele iseloomulik muster üha selgemalt ja hulknurka kujutav katkendjoon läheneb mõnele siledale joonele ja piirjoones peaks muutuma kõveraks.

Valimiküsitluste andmete süstematiseerimisel kasutatakse statistilisi diskreet- ja intervalljaotuse seeriaid.

1. Statistiline diskreetne jaotus. Hulknurk.
Olgu üldkogumist eraldatud proov ja x 1 täheldati n 1 korda, x 2 – n 2 korda, x k – n k korda ja ∑n i =n on valimi suurus. Vaadeldud x 1 väärtusi nimetatakse variantideks ja kasvavas järjekorras kirjutatud variantide jada nimetatakse variatsiooniseeriaks. Vaatluste arvu nimetatakse sageduseks ja selle suhet valimi suuruseks nimetatakse suhteliseks sageduseks n i /n=w i

MÄÄRATLUS. Valimi jaotuse statistiline (empiiriline) seadus ehk lihtsalt valimi statistiline jaotus on variantide x i jada ja vastavad sagedused n i ehk suhtelised sagedused w i .

Statistiline jaotus Valimeid on mugav esitada sagedusjaotuse tabeli kujul, mida nimetatakse statistiliseks diskreetseks jaotusreaks:

(kõikide suhteliste sageduste summa on võrdne ühega ∑w i =1)

Näide 1. Mõõtmisel homogeensetes katsealuste rühmades saadi järgmised proovid: 71, 72, 74, 70, 70, 72, 71, 74, 71, 72, 71, 73, 72, 72, 72, 74, 72 , 73, 72 , 74 (pulsisagedus). Nende tulemuste põhjal koostage sagedusjaotuste ja suhteliste sageduste statistiline seeria.

Lahendus. 1) Sagedusjaotuse statistiline seeria:

x i 70 71 72 73 74
n i 2 4 8 2 4

2) Valimi suurus: n=2+4+8+2+4=20. Leiame suhtelised sagedused, jagades sagedused valimi suurusega n i /n=w i: w i =2/20=0,1; w 2 = 4/20 = 0,2; w3 = 0,4; w 4 = 4/20 = 0,1; w 5 = 2/20 = 0,2. Kirjutame suhteliste sageduste jaotuse:

x i 70 71 72 73 74
w i 0.1 0.2 0.4 0.1 0.2

Kontroll: 0,1+0,2+0,4+0,1+0,2=1.

Sageduspolügoon on katkendlik joon, lõigud, mis ühendavad punkte (x 1,n 1), (x 2,n 2),...,(x k,n k). Sageduspolügooni koostamiseks kantakse abstsissteljele x 2 valikud ja ordinaatteljele vastavad sagedused n i. Punktid (x i,n i) ühendatakse segmentidega ja saadakse sageduse hulknurk.

Suhteliste sageduste hulknurk on katkendlik joon, lõigud, mis ühendavad punkte (x 1,w 1), (x 2,w 2),...,(x k,w k). Suhteliste sageduste hulknurga konstrueerimiseks kantakse abstsissteljele variandid x i ja ordinaatteljele vastavad sagedused w i. Punktid (x i, w i) ühendatakse segmentidega ja saadakse suhteliste sageduste hulknurk.

Näide 2. Koostage näite 1 andmete põhjal sageduste ja suhteliste sageduste hulknurk.
Lahendus. Kasutades näites 1 koostatud diskreetset statistilise jaotuse seeriat, konstrueerime sageduse hulknurga ja suhtelise sageduse hulknurga:

2. Statistilised intervalljaotusread. Tulpdiagramm. Statistilist diskreetseeriat (või empiirilist jaotusfunktsiooni) kasutatakse tavaliselt siis, kui valimis ei ole liiga palju üksteisest erinevaid variante või kui diskreetsus ühel või teisel põhjusel on uurija jaoks oluline. Kui üldkogumi X omadus, mis meid huvitab, jaotub pidevalt või selle diskreetsust on ebaotstarbekas (või võimatu) arvesse võtta, siis grupeeritakse valikud intervallideks.

Statistilise jaotuse saab määrata ka intervallide jada ja neile vastavate sageduste jadana (intervallile vastavaks sageduseks võetakse sellesse intervalli jäävate sageduste summa).

Kommenteeri. Sageli h i -h i-1 =h kõigi i, s.t. rühmitamine toimub võrdse sammuga h. Sellises olukorras saate a, k ja h i valimi võtmisel juhinduda järgmistest empiirilistest soovitustest:

1. R span = X max -X ​​​​min
2. h=R/k; k-rühmade arv
3. k≥1+3,321lgn (Sturgesi valem)
4. a=x min , b=x max
5. h=a+ih, i=0,1...k

Saadud rühmitamist on mugav esitada sagedustabeli kujul, mida nimetatakse statistiliseks intervalljaotusreaks:

Analoogse tabeli saab moodustada, asendades sagedused ni suhteliste sagedustega:

Näide 3. Väga suurest osade partiist eraldati juhuslik proov mahuga 50. Meid huvitavaks tunnuseks on osade X-mõõtmed, mõõdetuna 1 cm täpsusega, mis on esitatud järgmise variatsiooniseeriaga: 22, 47, 26, 26, 30, 28, 28, 31, 31, 31, 32, 32, 33, 33, 33, 33, 34, 34, 34, 34, 34, 35, 35, 36, 3 36, 36, 36, 37, 37, 37, 37, 37, 37, 38, 38, 40, 40, 40, 40, 40, 41, 41, 43, 44, 44, 45, 45, 47, 5. Leidke statistiline intervalljaotuse seeria.

Lahendus. Määratleme rühma tunnused märkuse abil.
k≥1+3,321lg50=1+3,32lg(5 10)=1+3,32(lg5+lg10)=6,6
Meil on a=22, k=7, h=(50-22)/7=4, h i =22+4i, i=0,1,…,7.

Rühmitamise intervallid 22-26 26-30 30-34 34-38 38-42 42-46 46-50
Sagedused n i 1 4 10 18 9 5 3
Suhteline sagedus w i 0.02 0.08 0.2 0.36 0.18 0.1 0.06

Kümnendlogaritmid 1 kuni 10

n 1 2 3 4 5 6 7 8 9 10
ln n 0 0.3 0.48 0.6 0.7 0.78 0.85 0.9 0.95 1

Kõige informatiivsem sageduste graafiline vorm on spetsiaalne graafik, mida nimetatakse sageduse histogrammiks.

Sagedushistogramm on astmeline kujund, mis koosneb ristkülikutest, mille alused on osalised pikkusega h intervallid ja kõrgused on võrdsed suhtega n i / h (sagedustihedus).

Sagedushistogrammi koostamiseks asetatakse abstsissteljele osalised intervallid ja nende kohale tõmmatakse abstsissteljega paralleelsed segmendid kaugusel n i /h. i-nda osalise ristküliku pindala on võrdne h n i /h=n i - i-nda intervalli valiku sageduste summa; seetõttu on sagedushistogrammi pindala võrdne kõigi sageduste summaga, st. näidissuurus.

Suhtelise sageduse histogramm on astmeline kujund, mis koosneb ristkülikutest, mille alused on osalised pikkusega h intervallid ja kõrgused on võrdsed suhtega w i /h (suhteline sagedustihedus).

Suhteliste sageduste histogrammi koostamiseks kantakse abstsissteljele osalised intervallid ja nende kohale joonistatakse abstsissteljega paralleelsed segmendid kaugusel w i /h. i-nda osalise ristküliku pindala on võrdne h w i /h=w i - variantide suhteline sagedus. i-s intervall. Järelikult on suhteliste sageduste histogrammi pindala võrdne kõigi suhteliste sageduste summaga, s.o. üksus.

Näide 4. Koostage näite 3 andmete põhjal sageduste ja suhteliste sageduste histogramm.

Valimi mediaan on variatsioonirea keskpunkt, väärtus, mis asub valimi vasakust ja paremast servast samal kaugusel.

Valikrežiim on kõige tõenäolisem, st. valimis kõige sagedamini esinev väärtus.