Tilastosarja, histogrammi ja sen muodostusjärjestys. Jakaumasarjat tilastoissa

Tilastollinen jakaumasarja- väestöyksiköiden järjestetty jakautuminen ryhmiin tietyn ominaisuuden mukaan. Se luonnehtii tutkittavan ilmiön koostumusta (rakennetta), antaa meille mahdollisuuden arvioida populaation homogeenisuutta, jakautumismallia ja populaation yksiköiden vaihtelurajoja.

Attributiivisten (laadullisten) ominaisuuksien mukaan muodostettuja jakaumasarjoja kutsutaan attribuutio(väestön jakautuminen sukupuolen, työpaikan, kansallisuuden, ammatin jne. mukaan).

Kvantitatiivisten ominaisuuksien perusteella muodostettuja jakaumasarjoja kutsutaan vaihtelevaa(väestön jakautuminen iän, työntekijöiden palvelusajan, palkan jne. mukaan). Variaatiojakelusarjat koostuvat kahdesta elementistä: vaihtoehdoista ja taajuuksista. Vaihtoehdot– ominaisuuden yksittäiset arvot, jotka se ottaa sarjassa. Taajuudet on yksittäisten varianttien tai variaatiosarjan kunkin ryhmän lukumäärä, ts. Nämä ovat numeroita, jotka osoittavat, kuinka usein tietyt vaihtoehdot esiintyvät jakelusarjassa. Kaikkien taajuuksien summaa kutsutaan populaation tilavuudeksi ja se määrittää koko populaation elementtien lukumäärän. Taajuudet ovat taajuuksia, jotka ilmaistaan ​​yksiköiden murto-osina tai prosentteina kokonaismäärästä.

Variaatiosarjat jaetaan vaihtelun luonteesta riippuen diskreetteihin ja intervalliin. Diskreetit vaihtelusarjat perustuvat diskreetteihin (epäjatkuviin) ominaisuuksiin, joilla on vain kokonaislukuarvoja, diskreeteihin ominaisuuksiin, jotka esitetään intervalleina. Intervallivaihtelusarjat perustuvat jatkuviin ominaisuuksiin (joilla on mitä tahansa arvoja, jopa murto-osia).

7. Tilastotietojen taulukko- ja graafinen esitys.

Yhteenvedon ja ryhmittelyn tulokset esitetään taulukoiden muodossa. Taulukko on rationaalinen, visuaalinen ja kompakti tilastoaineiston muoto.

Tilastotaulukko on taulukko, joka sisältää käytännön tietojen laskennan tulokset ja on tulos alkutietojen yhteenvedosta.

Taulukko luonnehtii populaatiota yhden tai useamman ominaisuuden mukaan, jotka liittyvät toisiinsa logiikan avulla.

Tilastotaulukolla on oma aihe ja predikaatti. Kohde on objekti, jota kuvaavat numerot. Taulukon predikaatti on indikaattorijärjestelmä.

Taulukot voivat olla yksinkertaisia ​​tai monimutkaisia. Yksinkertainen taulukko antaa yksinkertaisen luettelon objekteista. Monimutkainen taulukko sisältää populaatioyksiköiden ryhmittelyn samanaikaisesti kahden tai useamman ominaisuuden mukaan. Taulukon tulee olla tiivis, otsikoiden tulee olla lyhyitä, sarakkeiden ja sarakkeiden tietojen tulee päättyä yhteenvetoriville. Sarakkeissa ja riveissä on oltava yksiköt, jolloin on suoritettava tasainen ja looginen taulukon tarkistus.

Tilastograafi on piirros, jossa tietyillä indikaattoreilla tunnusomaisia ​​tilastollisia aggregaatteja kuvataan käyttämällä tavanomaisia ​​geometrisia kuvia tai merkkejä. Aikataulua laadittaessa on noudatettava seuraavia vaatimuksia: selkeys, ilmaisukyky ja ymmärrettävyys. Kaaviokenttä on se osa tasosta, jossa graafiset kuvat sijaitsevat. Käytetään kaavioita: lineaarinen, pylväs, kaistale, ympyrä, sektori, kuviollinen, piste, tilavuus, kaavioita ja tilastollisia karttoja. Kartogrammi on kaavamainen maantieteellinen kartta, jossa toimialat tai väestön rakenne on korostettu.

Matemaattiset tilastot- matematiikan ala, joka on omistettu matemaattisia menetelmiä tilastotietojen käsittely, systematisointi ja käyttö tieteellisiin ja käytännön johtopäätöksiin.

3.1. MATEMAATTISEN TILASTON PERUSKÄSITTEET

Lääketieteellisissä ja biologisissa ongelmissa on usein tarpeen tutkia tietyn ominaisuuden jakautumista erittäin suurelle määrälle yksilöitä. Eri yksilöillä tämä merkki on eri merkitys, joten se on satunnaismuuttuja. Esimerkiksi millä tahansa terapeuttisella lääkkeellä on erilainen tehokkuus, kun sitä käytetään eri potilaille. Kuitenkin saadaksesi käsityksen tämän lääkkeen tehokkuudesta, sitä ei tarvitse soveltaa kaikille sairas. Lääkkeen käytön tulokset voidaan jäljittää suhteellisen pienelle potilasryhmälle ja saatujen tietojen perusteella tunnistaa hoitoprosessin olennaiset piirteet (tehokkuus, vasta-aiheet).

Väestö- joukko homogeenisia elementtejä, joille on ominaista jokin tutkittava ominaisuus. Tämä merkki on jatkuva satunnaismuuttuja jakauman tiheydellä f(x).

Esimerkiksi, jos olemme kiinnostuneita sairauden esiintyvyydestä tietyllä alueella, niin yleinen väestö on alueen koko väestö. Jos haluamme selvittää miesten ja naisten alttiuden tälle taudille erikseen, meidän on tarkasteltava kahta yleistä populaatiota.

Yleisen populaation ominaisuuksien tutkimiseksi valitaan tietty osa sen elementeistä.

Näyte- osa tutkimukseen (hoitoon) valittua väestöä.

Jos tämä ei aiheuta sekaannusta, näytettä kutsutaan nimellä joukko esineitä, valittu kyselyyn ja kokonaisuus

arvot tutkimuksen aikana saatu tutkittu ominaisuus. Nämä arvot voidaan esittää useilla tavoilla.

Yksinkertainen tilastosarja - tutkittavan ominaisuuden arvot kirjattuina siinä järjestyksessä, jossa ne saatiin.

Taulukossa on esimerkki yksinkertaisesta tilastosarjasta, joka on saatu mittaamalla pinta-aallon nopeus (m/s) otsan ihosta 20 potilaalla. 3.1.

Taulukko 3.1.Yksinkertainen tilastosarja

Yksinkertainen tilastosarja on tärkein ja täydellisin tapa kirjata tutkimustulokset. Se voi sisältää satoja elementtejä. Tällaista kokonaisuutta on erittäin vaikea katsoa yhdellä silmäyksellä. Siksi suuret näytteet jaetaan yleensä ryhmiin. Tätä varten ominaisuuden muutosalue jaetaan useisiin (N) väliajoin yhtä leveä ja laske näihin väliin kuuluvan attribuutin suhteelliset taajuudet (n/n). Kunkin intervallin leveys on:

Intervallirajoilla on seuraavat merkitykset:

Jos jokin näyteelementti on kahden vierekkäisen intervallin välinen raja, se luokitellaan vasemmalle intervalli. Tällä tavalla ryhmiteltyä dataa kutsutaan aikavälin tilastollinen sarja.

on taulukko, joka näyttää attribuutin arvojen välit ja attribuutin suhteelliset esiintymistiheydet näillä aikaväleillä.

Meidän tapauksessamme voidaan muodostaa esimerkiksi seuraava intervallitilastosarja (N = 5, d= 4), taulukko. 3.2.

Taulukko 3.2.Intervallitilastosarjat

Tässä väli 28-32 sisältää kaksi arvoa, jotka ovat yhtä suuret kuin 28 (taulukko 3.1), ja väli 32-36 sisältää arvot 32, 33, 34 ja 35.

Intervallitilastosarja voidaan kuvata graafisesti. Tätä varten piirrearvojen välit piirretään abskissa-akselia pitkin ja jokaiselle niistä, kuten alustalle, rakennetaan suorakulmio, jonka korkeus on yhtä suuri kuin suhteellinen taajuus. Tuloksena olevaa pylväskaaviota kutsutaan histogrammi.

Riisi. 3.1. pylväsdiagrammi

Histogrammissa ominaisuuden jakauman tilastolliset kuviot näkyvät melko selvästi.

Suurella otoskoolla (useita tuhansia) ja pienillä sarakkeiden leveydillä histogrammin muoto on lähellä kaavion muotoa jakautumistiheys merkki.

Histogrammin sarakkeiden lukumäärä voidaan valita seuraavalla kaavalla:

Histogrammin luominen manuaalisesti on pitkä prosessi. Siksi kehitetty tietokoneohjelmat niiden automaattista rakentamista varten.

3.2. TILASTOSARJAN NUMEROISIA OMINAISUUKSIA

Monet tilastolliset menettelyt käyttävät otantaestimaatteja populaation odotukselle ja varianssille (tai MSE:lle).

Esimerkki keskiarvo(X) on yksinkertaisen tilastosarjan kaikkien elementtien aritmeettinen keskiarvo:

Meidän esimerkkiin X= 37,05 (m/s).

Näytteen keskiarvo onparasyleinen keskimääräinen arvioM.

Otosvarianssi s 2 yhtä suuri kuin elementtien neliöpoikkeamien summa näytteen keskiarvosta jaettuna n- 1:

Esimerkissämme s 2 = 25,2 (m/s) 2.

Ota huomioon, että otosvarianssia laskettaessa kaavan nimittäjä ei ole otoskoko n vaan n-1. Tämä johtuu siitä, että kaavan (3.3) poikkeamia laskettaessa käytetään tuntemattoman matemaattisen odotuksen sijaan sen estimaattia - näytteen keskiarvo.

Otosvarianssi on paras yleisvarianssin estimointi (σ 2).

Esimerkki keskihajonnasta(s) on Neliöjuuri näytteen varianssista:

Meidän esimerkkiin s= 5,02 (m/s).

Valikoiva juuri tarkoittaa neliötä poikkeama on paras arvio yleisestä keskihajonnasta (σ).

Otoskoon rajoittamattomalla lisäyksellä kaikki otoksen ominaisuudet pyrkivät vastaamaan yleisen populaation ominaisuuksia.

Otosominaisuuksien laskemiseen käytetään tietokonekaavoja. Excelissä nämä laskelmat suoritetaan tilastolliset toiminnot AVERAGE, DISP. STANDARDIPOIKKAAMINEN

3.3. VÄLIARVIOINTI

Kaikki näytteen ominaisuudet ovat satunnaismuuttujia. Tämä tarkoittaa, että toiselle samankokoiselle näytteelle näytteen ominaisuuksien arvot ovat erilaiset. Siis valikoiva

ominaisuudet ovat vain arvioita väestön olennaiset ominaisuudet.

Valikoivan arvioinnin haitat kompensoidaan intervalliarvio, edustaa numeerinen intervalli jonka sisällä tietyllä todennäköisyydellä R d estimoidun parametrin todellinen arvo löytyy.

Antaa U r - jokin yleisen populaation parametri (yleinen keskiarvo, yleinen varianssi jne.).

Intervalliarvio parametria U r kutsutaan intervalliksi (U 1, U 2), täyttää ehdon:

P(U < Ur < U2) = Рд. (3.5)

Todennäköisyys R d nimeltään luottamustodennäköisyys.

Luottamustodennäköisyys Pd - todennäköisyys, että arvioidun suuren todellinen arvo on sisällä määritetty aikaväli.

Tässä tapauksessa väli (U 1, U 2) nimeltään luottamusväli arvioitavalle parametrille.

Usein luottamustodennäköisyyden sijasta käytetään siihen liittyvää arvoa α = 1 - Р d, jota ns. merkitystaso.

Merkitsevyystaso on todennäköisyys, että arvioidun parametrin todellinen arvo on ulkopuolella luottamusväli.

Joskus α ja P d ilmaistaan ​​prosentteina, esimerkiksi 5 % 0,05:n sijaan ja 95 % 0,95:n sijaan.

Intervalliarvioinnissa valitse ensin sopiva luottamustodennäköisyys(yleensä 0,95 tai 0,99) ja etsi sitten sopiva arvoalue arvioitavalle parametrille.

Huomioikaa joitakin yleiset ominaisuudet intervalliarviot.

1. Mitä pienempi merkitystaso (sen enemmän R d), mitä laajempi intervalliarvio. Eli jos merkitsevyystasolla 0,05, yleisen keskiarvon väliestimaatti on 34,7< M< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < M< 40,25.

2. Mitä suurempi otoskoko n, mitä kapeampi on intervalliarvio valitulla merkitsevyystasolla. Olkoon esimerkiksi 5 prosenttiestimaatti yleisestä keskiarvosta (β = 0,05), joka saadaan 20 elementin otoksesta, sitten 34,7< M< 39,4.

Nostamalla otoskokoa 80:een saamme tarkemman arvion samalla merkitsevyystasolla: 35,5< M< 38,6.

Yleensä luotettavien luottamusestimaattien rakentaminen edellyttää lain tuntemista, jonka mukaan estimoitu satunnaisattribuutti jakautuu perusjoukossa. Katsotaan kuinka intervalliestimaatti rakennetaan yleinen keskiarvo ominaisuus, joka jakautuu populaatioon normaali laki.

3.4. VÄLISESTIMOINTI NORMAALI JAKELULAIN YLEISEN KESKIALUSTA

Yleisen keskiarvon M intervalliestimaatin rakentaminen normaalijakauman lain mukaiselle populaatiolle perustuu seuraavaan ominaisuuteen. Näytteenottomäärää varten n asenne

noudattaa Studentin jakaumaa vapausasteiden lukumäärällä ν = n- 1.

Tässä X- näytekeskiarvo ja s- valikoiva keskihajonta.

Student-jakaumataulukoiden tai niiden tietokonevastaavien avulla voit löytää raja-arvon, jolla annetulla luottamustodennäköisyydellä pätee seuraava epäyhtälö:

Tämä epäyhtälö vastaa M:n epäyhtälöä:

Missä ε - luottamusvälin puolileveys.

Näin ollen M:n luottamusvälin rakentaminen suoritetaan seuraavassa järjestyksessä.

1. Valitse luottamustodennäköisyys Р d (yleensä 0,95 tai 0,99) ja etsi sille Studentin jakaumataulukon avulla parametri t

2. Laske luottamusvälin ε puolileveys:

3. Hanki väliarvio yleisestä keskiarvosta valitulla luottamustodennäköisyydellä:

Lyhyesti se kirjoitetaan näin:

Intervalliestimaattien löytämiseksi on kehitetty tietokonemenetelmiä.

Selitämme kuinka opiskelijan jakaumataulukkoa käytetään. Tässä taulukossa on kaksi "sisäänkäyntiä": vasen sarake, jota kutsutaan vapausasteiden lukumääräksi ν = n- 1, ja ylin rivi on merkitsevyystaso α. Risteyksessä vastaava rivi ja sarake etsi Studentin kerroin t.

Sovelletaan tätä menetelmää otokseen. Alla on fragmentti Student-jakaumataulukosta.

Taulukko 3.3. Fragmentti Student-jakaumataulukosta

Yksinkertainen tilastosarja 20 henkilön otokselle (n= 20, ν =19) on esitetty taulukossa. 3.1. Tämän sarjan laskelmat kaavoilla (3.1-3.3) antavat: X= 37,05; s= 5,02.

Valitaan α = 0,05 (Р d = 0,95). Löydämme rivin "19" ja sarakkeen "0.05" leikkauspisteestä t= 2,09.

Lasketaan arvion tarkkuus kaavalla (3.6): ε = 2.09?5.02/λ /20 = 2.34.

Muodostetaan intervalliestimaatti: 95 %:n todennäköisyydellä tuntematon yleinen keskiarvo tyydyttää epäyhtälön:

37,05 - 2,34 < M< 37,05 + 2,34, или M= 37,05 ± 2,34 (m/s), Rd = 0,95.

3.5. MENETELMÄT TILASTOISTEN HYPOTEESIEN TESTAMISEKSI

Tilastollisia hypoteeseja

Ennen kuin muotoilet, mikä tilastollinen hypoteesi on, harkitse seuraavaa esimerkkiä.

Kahden tietyn taudin hoitomenetelmän vertaamiseksi valittiin kaksi 20 hengen potilasryhmää ja niitä hoidettiin näillä menetelmillä. Jokaiselle potilaalle se kirjattiin toimenpiteiden määrä, jonka jälkeen saavutettiin positiivinen vaikutus. Näiden tietojen perusteella jokaiselle ryhmälle löydettiin otoskeskiarvot (X), otosvarianssit (s 2) ja näytteen standardipoikkeama (s).

Tulokset on esitetty taulukossa. 3.4.

Taulukko 3.4

Positiivisen vaikutuksen saavuttamiseen tarvittavien toimenpiteiden lukumäärä on satunnaismuuttuja, josta kaikki tiedot ovat päällä Tämä hetki annetussa näytteessä.

Pöydältä 3.4 osoittaa, että otoksen keskiarvo ensimmäisessä ryhmässä on pienempi kuin toisessa. Tarkoittaako tämä, että sama suhde pätee yleisiin keskiarvoihin: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает hypoteesien tilastollinen testaus.

Tilastollinen hypoteesi- se on oletus populaatioiden ominaisuuksista.

Harkitsemme ominaisuuksia koskevia hypoteeseja kaksi yleiset populaatiot.

Jos väestöllä on kuuluisa, identtinen arvioitavan arvon jakautuminen ja oletukset koskevat arvoja jokin parametri tämän jakauman, hypoteeseja kutsutaan parametrinen. Esimerkiksi näytteet otetaan populaatioista normaali laki jakauma ja yhtä suuri varianssi. Täytyy ottaa selvää ovatko ne samat näiden populaatioiden yleiset keskiarvot.

Jos yleisten populaatioiden jakautumisen laeista ei tiedetä mitään, kutsutaan hypoteeseja niiden ominaisuuksista ei-parametrinen. Esimerkiksi, ovatko ne samat yleisten populaatioiden, joista näytteet on otettu, jakautumislakeja.

Nolla- ja vaihtoehtoiset hypoteesit.

Tehtävä hypoteesien testaamiseen. Merkitsevyystaso

Tutustutaan hypoteesien testauksessa käytettyyn terminologiaan.

H 0 - nollahypoteesi (skeptikon hypoteesi) on hypoteesi erojen puuttumisesta vertailtavien näytteiden välillä. Skeptiko uskoo, että erot tutkimustuloksista saatujen otantaestimaattien välillä ovat satunnaisia;

H 1- vaihtoehtoinen hypoteesi (optimistinen hypoteesi) on hypoteesi erojen olemassaolosta verrattujen näytteiden välillä. Optimisti uskoo, että erot otosestimaattien välillä johtuvat objektiivisista syistä ja vastaavat eroja yleisissä populaatioissa.

Tilastollisten hypoteesien testaaminen on mahdollista vain silloin, kun niitä on mahdollista rakentaa koko(kriteeri), jonka jakelulaki oikeudenmukaisuuden tapauksessa H 0 kuuluisa. Sitten voimme määrittää tälle määrälle luottamusväli, johon tietyllä todennäköisyydellä R d sen arvo laskee. Tätä väliä kutsutaan kriittinen alue. Jos kriteerin arvo osuu kriittiseen alueeseen, hypoteesi hyväksytään N 0. Muussa tapauksessa hypoteesi H 1 hyväksytään.

Lääketieteellisessä tutkimuksessa käytetään P d = 0,95 tai P d = 0,99. Nämä arvot vastaavat merkitystasoja a = 0,05 tai a = 0,01.

Kun testataan tilastollisia hypoteesejamerkitystaso(α) on todennäköisyys hylätä nollahypoteesi, kun se on totta.

Huomaa, että hypoteesien testausmenettelyn ytimessä on tarkoitus erojen havaitsemiseen eikä vahvistaa heidän poissaoloaan. Kun kriteerin arvo ylittää kriittisen alueen, voimme sanoa "skeptikolle" puhtaalla sydämellä - no mitä muuta haluat?! Jos eroja ei olisi, niin 95 % (tai 99 %) todennäköisyydellä laskettu arvo olisi määritettyjen rajojen sisällä. Mutta ei!..

No, jos kriteerin arvo osuu kriittiseen alueeseen, ei ole mitään syytä uskoa, että hypoteesi H 0 on oikea. Tämä viittaa todennäköisesti toiseen kahdesta mahdollisesta syystä.

1. Näytteiden koot eivät ole tarpeeksi suuria erojen havaitsemiseksi. On todennäköistä, että jatkuva kokeilu tuo menestystä.

2. On eroja. Mutta ne ovat niin pieniä, ettei niillä ole käytännön merkitystä. Tässä tapauksessa kokeiden jatkaminen ei ole järkevää.

Siirrytään tarkastelemaan joitain lääketieteellisessä tutkimuksessa käytettyjä tilastollisia hypoteeseja.

3.6. HYPOTEESIEN TESTAUS VARIANTSIEN TASASUORAISUUDESTA, FISCHERIN F-KRITEERISTA

Joissakin kliinisissä tutkimuksissa positiivinen vaikutus ei ole osoitettu niinkään suuruus tutkittavasta parametrista, kuinka paljon siitä stabilointi, vähentää sen vaihteluita. Tässä tapauksessa herää kysymys kahden yleisen varianssin vertaamisesta otantatutkimuksen tulosten perusteella. Tämä ongelma voidaan ratkaista käyttämällä Fisherin testi.

Ongelman muotoilu

normaali laki jakelut. Näytteen koot -

n 1 Ja n2, A näytevarianssit yhtä suuri s 1 ja s 2 2 yleiset vaihtelut.

Testattavissa olevat hypoteesit:

H 0- yleiset vaihtelut ovat samat;

H 1- yleiset vaihtelut ovat erilaisia.

Näytetään, jos näytteet on otettu populaatioista, joissa on normaali laki jakauma, jos hypoteesi pitää paikkansa H 0 otosvarianssien suhde noudattaa Fisher-jakaumaa. Siksi oikeudenmukaisuuden tarkistamisen kriteerinä H 0 arvo otetaan F, lasketaan kaavalla:

Missä s 1 ja s 2 ovat otosvariansseja.

Tämä suhde noudattaa Fisherin jakaumaa osoittajan vapausasteiden lukumäärällä ν 1 = n 1- 1 ja nimittäjän vapausasteiden lukumäärä ν 2 = n 2 - 1. Kriittisen alueen rajat löydetään Fisherin jakaumataulukoilla tai tietokonefunktiolla BRASPOBR.

Taulukossa esitetylle esimerkille. 3.4, saamme: ν 1 = ν 2 = 20 - 1 = 19; F= 2,16/4,05 = 0,53. Kun α = 0,05, kriittisen alueen rajat ovat vastaavasti: = 0,40, = 2,53.

Kriteerin arvo osuu kriittiseen alueeseen, joten hypoteesi hyväksytään H 0: yleiset otosvarianssit ovat samat.

3.7. HYPOTEESIEN TESTAUS VÄLINEIDEN TASA-ARVOISUUDESTA, OPISKELIJAN t-KRITEERI

Vertailutehtävä keskiverto kaksi yleistä populaatiota esiintyy, kun käytännön merkitystä on tarkalleen suuruus tutkittava ominaisuus. Esimerkiksi kun verrataan kahden eri menetelmän hoidon kestoa tai niiden käytöstä aiheutuvien komplikaatioiden määrää. Tässä tapauksessa voit käyttää Studentin t-testiä.

Ongelman muotoilu

Saatiin kaksi näytettä (X 1) ja (X 2), jotka uutettiin yleisistä populaatioista normaali laki jakelu ja identtiset varianssit. Otoskoot - n 1 ja n 2, näyte tarkoittaa ovat yhtä suuria kuin X 1 ja X 2, ja näytevarianssit- s 1 2 ja s 2 2 vastaavasti. Pitää verrata yleiset keskiarvot.

Testattavissa olevat hypoteesit:

H 0- yleiset keskiarvot ovat samat;

H 1- yleiset keskiarvot ovat erilaisia.

On osoitettu, että jos hypoteesi pitää paikkansa H 0 t-arvo lasketaan kaavalla:

jaettu Studentin lain mukaan vapausasteiden lukumäärällä ν = ν 1 + + ν2 - 2.

Tässä missä ν 1 = n 1 - 1 - ensimmäisen näytteen vapausasteiden lukumäärä; ν 2 = n 2 - 1 - toisen näytteen vapausasteiden lukumäärä.

Kriittisen alueen rajat löydetään käyttämällä t-jakaumataulukoita tai käyttämällä tietokonetoimintoa STUDRIST. Studentin jakauma on symmetrinen nollan suhteen, joten kriittisen alueen vasen ja oikea raja ovat suuruudeltaan identtiset ja etumerkillisesti vastakkaiset: -ja

Taulukossa esitetylle esimerkille. 3.4, saamme:

v 1 = v 2 = 20 - 1 = 19; ν = 38, t= -2,51. Kun α = 0,05 = 2,02.

Kriteerin arvo ylittää kriittisen alueen vasemman rajan, joten hyväksymme hypoteesin H 1: yleiset keskiarvot ovat erilaisia. Samaan aikaan väestön keskiarvo ensimmäinen näyte VÄHEMMÄN.

Studentin t-testin soveltuvuus

Studentin t-testi koskee vain näytteitä normaali aggregaatteja identtiset yleiset varianssit. Jos ainakin yksi ehdoista rikotaan, kriteerin soveltuvuus on kyseenalainen. Yleisen väestön normaalisuuden vaatimus jätetään yleensä huomiotta vedoten keskirajalause. Otoskeskiarvojen eroa osoittajassa (3.10) voidaan todellakin pitää normaalijakautuneena arvolla ν > 30. Mutta kysymystä varianssien yhtäläisyydestä ei voida varmistaa, eikä viittauksia siihen, että Fisher-testi ei havainnut eroja. huomioon. T-testiä käytetään kuitenkin laajalti populaation keskiarvojen erojen havaitsemiseen, vaikkakaan ilman riittävää näyttöä.

Alla keskustellaan ei-parametrinen kriteeri, jota käytetään menestyksekkäästi samoihin tarkoituksiin ja joka ei vaadi mitään normaalius, ei kumpikaan varianssien yhtäläisyys.

3.8. KAHDEN OTOKSEN EIPARAMETRINEN VERTAILU: MANN-WHITNEYN KRITEERI

Ei-parametriset testit on suunniteltu havaitsemaan erot kahden populaation jakautumislaeissa. Kriteerit, jotka ovat herkkiä eroille yleensä keskiverto, kutsutaan kriteereiksi siirtää Kriteerit, jotka ovat herkkiä eroille yleensä dispersioita, kutsutaan kriteereiksi mittakaavassa. Mann-Whitneyn testi viittaa kriteereihin siirtää ja sitä käytetään havaitsemaan erot kahden populaation keskiarvoissa, joista näytteet on esitetty ranking-asteikko. Mitatut ominaisuudet sijaitsevat tällä asteikolla nousevassa järjestyksessä, ja sitten numeroitu kokonaisluvuilla 1, 2... Näitä lukuja kutsutaan ns. riveissä. Samat määrät saavat yhtä suuret arvot. Itse attribuutin arvolla ei ole merkitystä, vaan vain tavallinen paikka jonka se luokittelee muiden määrien joukkoon.

Taulukossa 3.5. ensimmäinen ryhmä taulukosta 3.4 esitetään laajennetussa muodossa (rivi 1), rankattu (rivi 2), minkä jälkeen identtisten arvojen rivit korvataan aritmeettisilla keskiarvoilla. Esimerkiksi ensimmäisen rivin kohteet 4 ja 4 saivat arvot 2 ja 3, jotka sitten korvattiin samoilla arvoilla 2,5.

Taulukko 3.5

Ongelman muotoilu

Riippumattomat näytteet (X 1) Ja (X 2) poimittu yleisistä populaatioista, joiden jakautumislakeja ei tunneta. Näytteiden koot n 1 Ja n 2 vastaavasti. Näytteen elementtien arvot on esitetty kohdassa ranking-asteikko. On tarpeen tarkistaa, eroavatko nämä yleiset populaatiot toisistaan?

Testattavissa olevat hypoteesit:

H 0- näytteet kuuluvat samaan yleiseen joukkoon; H 1- näytteet kuuluvat eri yleisiin populaatioihin.

Tällaisten hypoteesien testaamiseen käytetään (/-Mann-Whitney-testiä.

Ensin kahdesta näytteestä kootaan yhdistetty näyte (X), joiden elementit asetetaan paremmuusjärjestykseen. Sitten löydetään ensimmäisen näytteen alkioita vastaavien rivien summa. Tämä määrä on hypoteesien testauksen kriteeri.

U= Ensimmäisen otoksen rankkojen summa. (3.11)

Riippumattomille näytteille, joiden tilavuus on suurempi kuin 20, arvo U noudattaa normaalijakaumaa, odotettu arvo ja joiden keskihajonta on yhtä suuri kuin:

Siksi kriittisen alueen rajat löydetään normaalijakaumataulukoiden mukaan.

Taulukossa esitetylle esimerkille. 3.4, saamme: ν 1 = ν 2 = 20 - 1 = 19, U= 339, μ = 410, σ = 37. Arvolle α = 0,05 saadaan: vasen = 338 ja oikea = 482.

Kriteerin arvo ylittää kriittisen alueen vasemman rajan, joten hypoteesi H 1 hyväksytään: yleisillä populaatioilla on erilaisia ​​lakeja jakelut. Samaan aikaan väestön keskiarvo ensimmäinen näyte VÄHEMMÄN.

Kun tiettyä ilmiötä kuvaavia tilastollisia havainnointitietoja on saatavilla, on ne ensin organisoitava, ts. antaa systemaattista luonnetta

Englantilainen tilastotieteilijä. UJReichman sanoi kuvaannollisesti epäjärjestyneistä kokoelmista, että yleistämättömän datamassan kohtaaminen vastaa tilannetta, jossa ihminen heitetään pensaikkoon ilman kompassia. Mitä on tilastotietojen systematisointi jakaumasarjojen muodossa?

Jakaumien tilastolliset sarjat ovat järjestettyjä tilastoaggregaatteja (taulukko 17). Yksinkertaisin tilastollisen jakaumasarjan tyyppi on rankattu sarja, ts. numerosarja nousevassa tai laskevassa järjestyksessä, ja ne vaihtelevat ominaisuuksia. Sellainen sarja ei anna mahdollisuutta arvioida hajautetulle datalle ominaisia ​​malleja: mihin arvoon suurin osa indikaattoreista on ryhmitelty, mitä poikkeamia tästä arvosta on; kuten iso kuva jakelut. Tätä tarkoitusta varten tiedot ryhmitellään osoittaen kuinka usein yksittäisiä havaintoja esiintyy niiden kokonaismäärässä (kaavio 1a 1).

. Taulukko 17

. Yleinen muoto tilastollinen jakelusarja

. Kaavio 1. Tilastollinen kaavio jakelusarja

Populaatioyksiköiden jakautumista ominaisuuksien mukaan, joilla ei ole kvantitatiivista ilmaisua, kutsutaan attributiivinen sarja(esimerkiksi yritysten jakautuminen tuotantoalueittain)

Väestön yksiköiden jakautumisen sarjaa ominaisuuksien mukaan, joilla on määrällinen lauseke, kutsutaan variaatiosarja. Tällaisissa sarjoissa ominaisuuden arvot (optiot) ovat nousevassa tai laskevassa järjestyksessä

Variaatiojakaumasarjassa erotetaan kaksi elementtiä: variantti ja taajuus . Vaihtoehto- tämä on ryhmittelyominaisuuksien erillinen merkitys taajuus- numero, joka osoittaa, kuinka monta kertaa kukin vaihtoehto esiintyy

SISÄÄN matemaattiset tilastot lasketaan vielä yksi variaatiosarjan elementti - osittain. Jälkimmäinen määritellään tietyn aikavälin tapausten tiheyden suhteeksi taajuuksien kokonaissummaan; osa määritetään yksikön murto-osina, prosentteina (%) ppm:inä (%o)

Siten variaatiojakaumasarja on sarja, jossa vaihtoehdot on järjestetty nousevaan tai laskevaan järjestykseen ja niiden taajuudet tai taajuudet on merkitty. Vaihtelusarjat ovat diskreettejä (intervalleja) ja muita intervalleja (jatkuvat).

. Diskreetti variaatiosarja- nämä ovat jakaumasarjoja, joissa muunnelma määrällisen ominaisuuden arvona voi saada vain tietyn arvon. Vaihtoehdot eroavat toisistaan ​​yhden tai useamman yksikön verran

Näin ollen tietyn työntekijän työvuoroa kohden valmistamien osien lukumäärä voidaan ilmaista vain yhdellä tietyllä numerolla (6, 10, 12 jne.). Esimerkki diskreetistä vaihtelusarjasta voisi olla työntekijöiden jakautuminen valmistettujen osien lukumäärän mukaan (taulukko 18 18).

. Taulukko 18

. Diskreetti sarjajakauma _

. Intervalli (jatkuva) vaihtelusarja- sellaiset jakosarjat, joissa optioiden arvot on annettu intervalleina, ts. ominaisuuksien arvot voivat poiketa toisistaan ​​mielivaltaisen vähän. Muodostettaessa NEP:n peri-varianttiominaisuuksien variaatiosarjaa on mahdotonta ilmoittaa jokaista variantin arvoa, joten populaatio jakautuu aikaväleille. Jälkimmäinen voi olla yhtä suuri tai eriarvoinen. Jokaiselle niistä on ilmoitettu taajuudet tai taajuudet (taulukko 1 9 19).

Intervallijakauman sarjoissa, joissa on epätasainen aikaväli, lasketaan matemaattiset ominaisuudet, kuten jakautumistiheys ja suhteellinen jakautumistiheys tietyllä aikavälillä. Ensimmäinen ominaisuus määräytyy taajuuden suhteella saman intervallin arvoon, toinen - taajuuden suhteella saman intervallin arvoon. Yllä olevassa esimerkissä jakautumistiheys ensimmäisessä välissä on 3: 5 = 0,6 ja suhteellinen tiheys tällä välillä on 7,5: 5 = 1,55 %.

. Taulukko 19

. Intervallijakosarjat _

Aihe 9. Jakelusarja

Tilastollinen jakaumasarja- Tämä on tilastollisen massapopulaation ensisijainen ominaisuus, tutkittavan populaation yksiköiden järjestynyt jakautuminen ryhmiin ryhmittelyominaisuuksien mukaan. Mikä tahansa tilastollinen jakaumasarja koostuu kahdesta elementistä:

1) vaihtelevan ominaisuuden yksittäiset arvot ( vaihtoehtoja );

2) arvot, jotka osoittavat kuinka monta kertaa tietty vaihtoehto toistetaan ( taajuuksia ).

Huomautus. Kutsutaan taajuuksia, jotka ilmaistaan ​​yksikön murto-osina tai prosentteina kokonaismäärästä taajuuksia ; tämä on jakelusarjojen ilmaistu määrä taajuuksien summa.

Jos ryhmittelyn perustaksi otetaan laadullinen ominaisuus, niin tällaista jakaumasarjaa kutsutaan attribuutio(jakauma työn tyypin, sukupuolen, ammatin, uskonnon, kansallisuuden jne. mukaan). Jos jakaumasarja muodostetaan kvantitatiivisesti, niin tällaista sarjaa kutsutaan vaihtelevaa. Variaatiosarjan rakentaminen tarkoittaa populaatioyksiköiden kvantitatiivisen jakautumisen järjestämistä tunnusarvojen mukaan ja sitten näiden arvojen populaatioyksiköiden lukumäärän laskemista (ryhmätaulukon rakentaminen).

Kohokohta kolme variaatiosarjan muotoa:

1) rankattu sarja- tämä on populaation yksittäisten yksiköiden jakautuminen tutkittavan ominaisuuden nousevassa tai laskevassa järjestyksessä; sijoituksen avulla voit helposti jakaa kvantitatiiviset tiedot ryhmiin, havaita välittömästi pienimmät ja korkein arvo ominaisuus, korosta arvot, jotka toistuvat useimmiten; muut variaatiosarjat - ryhmäpöytiä, joka on koottu tutkittavan ominaisuuden arvojen vaihtelun luonteen mukaan;

2) erillinen sarja- tämä on variaatiosarja, jonka rakenne perustuu epäjatkuvan muutoksen ominaisuuksiin, joiden välillä ei ole väliarvoja (diskreettejä ominaisuuksia - tariffiluokka, lasten lukumäärä perheessä, työntekijöiden määrä yrityksessä jne.); nämä ominaisuudet voivat saada vain rajallisen määrän tiettyjä arvoja;

Diskreetti sarja edustaa ryhmäpöytä, joka koostuu kahdesta sarakkeesta: ensimmäinen sarake osoittaa määritteen tietyn arvon ja toinen - yksiköiden lukumäärä perusjoukossa, jolla on tietty attribuutin arvo;

3) jos ominaisuudella on jatkuva muutos (tulon määrä, palvelusaika, yrityksen käyttöomaisuuden hinta jne., joka tietyissä rajoissa voi saada mitä tahansa arvoa), niin tälle ominaisuudelle on tarpeen rakentaa intervallisarja (samalla tai eri aikavälein).

Ryhmäpöytä tässä on myös kaksi saraketta. Ensimmäinen osoittaa attribuutin arvon välissä "alkaen -" (valinnat), toinen osoittaa väliin sisältyvien yksiköiden määrän (taajuus). Hyvin usein taulukkoa täydennetään sarakkeella, jossa lasketaan kertyneet taajuudet S, jotka osoittavat kuinka monella perusjoukon yksiköllä on ominaisarvo, joka ei ole tätä arvoa suurempi. Sarjan f taajuudet voidaan korvata tiedoilla w suhteellisina lukuina (osuuksina tai prosentteina) ilmaistuna. Ne edustavat kunkin intervallin taajuuksien suhdetta niiden kokonaissummaan (9.1):



(9.1)

Kun rakennetaan vaihtelusarjaa intervalliarvoilla, on ensin määritettävä välin i arvo, joka määritellään vaihtelualueen R suhteeksi ryhmien lukumäärään n (9.2):

jossa R = x max - x min; n = 1 + 3,322 logN( Sturgess kaava); N- kokonaismäärä väestön yksiköitä.

Intervallivaihtelusarjat voidaan rakentaa myös ominaisuuksille, joilla on diskreetti vaihtelu. Usein tilastotutkimuksessa ei ole tarkoituksenmukaista ilmoittaa erilliselle attribuutille erillistä arvoa, koska tämä yleensä vaikeuttaa ominaisuuden vaihtelun huomioon ottamista. Siksi attribuutin mahdolliset diskreetit arvot jaetaan ryhmiin ja vastaavat taajuudet (yksityiskohdat) lasketaan. Kun muodostetaan diskreetin attribuutin perusteella intervallisarja, vierekkäisten intervallien rajat eivät toista toisiaan: seuraava intervalli alkaa seuraavalla (edellisen intervallin ylemmän arvon jälkeen) attribuutin diskreetillä arvolla.

Verrattaessa sarjan taajuuksia, joissa on epätasainen väli, lasketaan jakautumistiheys kuvaamaan niiden täyteyttä. Keskimääräinen tiheys välissä on taajuuden ja erityisyyden osamäärä jaettuna intervalliarvolla. Ensimmäisessä tapauksessa tiheys on absoluuttinen, toisessa - suhteellinen. Keskimääräinen tiheys näyttää kuinka monta yksikköä tai prosenttiosuutta siitä on mittayksikkövaihtoehtoa kohden. Taajuus, erityisyys, tiheys ja kumuloitu taajuus ovat eri suuruusvaihtoehtojen funktioita.

Käynnissä tilastollinen tietojen analyysi, jota edustavat jakautumasarjat, jakauman luonteesta (tai populaation rakenteesta) saadun tiedon lisäksi voidaan laskea erilaisia ​​tilastollisia indikaattoreita (numeerisia tunnuslukuja), jotka yleistetyssä muodossa heijastavat ominaisuuksien jakauman piirteitä. tutkittavana. Nämä ominaisuudet (indikaattorit) voidaan jakaa kolmeen pääryhmään

1) jakelukeskuksen ominaisuudet(keskiarvo, tila, mediaani);

2) vaihteluasteen ominaisuudet(variaatioalue, keskimääräinen lineaarinen poikkeama, dispersio, standardipoikkeama, variaatiokerroin);

3) jakauman muodon (tyypin) ominaisuudet(kurtoosin ja epäsymmetrian indikaattorit, järjestysominaisuudet, jakautumiskäyrät).

Luotettavin tapa tunnistaa jakelumallit on seuraava:
1) lisätä havaittujen tapausten määrää (lain mukaisesti suuret numerot, sellaisissa sarjoissa on satunnaisia ​​poikkeamia yleisestä mallista yksittäisiä arvoja kumoavat toisensa);

2) jakaa populaatio aluksi mahdollisimman suuriin ryhmiin, sitten vähitellen ryhmien määrää vähentäen optimoida ryhmittely jakautumismallien tunnistamisen kannalta.

Tätä lähestymistapaa toteutettaessa tietyn jakauman ominaisuus tulee yhä selvemmin esille ja monikulmiota kuvaava katkoviiva lähestyy jotakin sileää viivaa ja rajassa muuttuu kaarevaksi viivaksi.

Otostutkimusten tietojen systematisoinnissa käytetään tilastollisia diskreettejä ja intervallijakaumasarjoja.

1. Tilastollinen diskreetti jakelu. Monikulmio.
Otetaan näyte yleisestä populaatiosta, ja x 1 havaittiin n 1 kertaa, x 2 – n 2 kertaa, x k – n k kertaa ja ∑n i =n on otoskoko. Havaittuja x 1:n arvoja kutsutaan varianteiksi, ja nousevaan järjestykseen kirjoitettua varianttisarjaa kutsutaan variaatiosarjaksi. Havaintojen määrää kutsutaan taajuudeksi ja sen suhdetta otoskokoon suhteelliseksi frekvenssiksi n i /n=w i

MÄÄRITELMÄ. Otosjakauman tilastollinen (empiirinen) laki tai yksinkertaisesti otoksen tilastollinen jakauma on varianttien x i sarja ja vastaavat taajuudet n i tai suhteelliset taajuudet w i .

Tilastollinen jakautuminen On kätevää esittää näytteet taajuusjakaumataulukon muodossa, jota kutsutaan tilastolliseksi diskreetiksi jakaumasarjaksi:

(kaikkien suhteellisten taajuuksien summa on yhtä suuri kuin yksi ∑w i =1)

Esimerkki 1. Homogeenisissa koehenkilöryhmissä mitattaessa saatiin seuraavat näytteet: 71, 72, 74, 70, 70, 72, 71, 74, 71, 72, 71, 73, 72, 72, 72, 74, 72 , 73, 72, 74 (pulssinopeus). Laadi näiden tulosten perusteella tilastollinen sarja frekvenssijakaumista ja suhteellisista frekvensseistä.

Ratkaisu. 1) Tilastollinen frekvenssijakauman sarja:

x i 70 71 72 73 74
n i 2 4 8 2 4

2) Otoskoko: n=2+4+8+2+4=20. Etsitään suhteelliset taajuudet jakamalla taajuudet otoskoolla n i /n=w i: w i =2/20=0,1; w2 = 4/20 = 0,2; w3 = 0,4; w4 = 4/20 = 0,1; w 5 = 2/20 = 0,2. Kirjoitetaan suhteellisten taajuuksien jakauma:

x i 70 71 72 73 74
w i 0.1 0.2 0.4 0.1 0.2

Kontrolli: 0,1+0,2+0,4+0,1+0,2=1.

Taajuuspolygoni on katkoviiva, janat, jotka yhdistävät pisteitä (x 1,n 1), (x 2,n 2),...,(x k,n k). Taajuusmonikulmion muodostamiseksi vaihtoehdot x 2 piirretään abskissa-akselille ja vastaavat taajuudet n i piirretään ordinaatta-akselille. Pisteet (x i,n i) yhdistetään segmenteillä ja saadaan taajuuspolygoni.

Suhteellisten taajuuksien monikulmio on katkoviiva, janat, jotka yhdistävät pisteitä (x 1,w 1), (x 2,w 2),...,(x k,w k). Suhteellisten taajuuksien monikulmion muodostamiseksi piirretään variantit x i abskissa-akselille ja vastaavat taajuudet w i piirretään ordinaatta-akselille. Pisteet (x i, w i) yhdistetään segmenteillä ja saadaan suhteellisten taajuuksien monikulmio.

Esimerkki 2. Muodosta monikulmio taajuuksista ja suhteellisista taajuuksista esimerkin 1 tietojen perusteella.
Ratkaisu: Käytä esimerkissä 1 koottua diskreettiä tilastojakaumasarjaa, muodostamme taajuuspolygonin ja suhteellisen taajuuspolygonin:

2. Tilastollinen aikavälijakaumasarja. Pylväsdiagrammi. Tilastollista diskreettisarjaa (tai empiiristä jakaumafunktiota) käytetään yleensä silloin, kun otoksessa ei ole liian montaa keskenään poikkeavaa varianttia tai kun diskreetti syystä tai toisesta on tutkijalle tärkeää. Jos meitä kiinnostava yleisjoukon X ominaisuus jakautuu jatkuvasti tai sen diskreettisyys on epäkäytännöllistä (tai mahdotonta) ottaa huomioon, niin vaihtoehdot ryhmitellään intervalleiksi.

Tilastollinen jakauma voidaan määritellä myös intervallien sarjana ja niitä vastaavina taajuuksina (väliä vastaavaksi taajuudeksi otetaan tähän väliin kuuluvien taajuuksien summa).

Kommentti. Usein h i -h i-1 =h kaikille i:lle, ts. ryhmittely suoritetaan yhtäläisellä askeleella h. Tässä tilanteessa voit ohjata seuraavia empiirisiä suosituksia a-, k- ja h i -näytteenottoa varten:

1. R span =X max -X min
2. h=R/k; k-ryhmiä
3. k≥1+3,321lgn (Sturgesin kaava)
4. a=x min , b=x max
5. h=a+ih, i=0,1...k

Tuloksena oleva ryhmittely on kätevää esittää frekvenssitaulukon muodossa, jota kutsutaan tilastolliseksi intervallijakauman sarjaksi:

Vastaava taulukko voidaan muodostaa korvaamalla taajuudet ni suhteellisilla taajuuksilla:

Esimerkki 3. Erittäin suuresta osien erästä otettiin satunnainen näyte tilavuudesta 50. Meitä kiinnostava ominaisuus on osien X-mitat mitattuna 1 cm:n tarkkuudella, jota edustaa seuraava variaatiosarja: 22, 47, 26, 26, 30, 28, 28, 31, 31, 31, 32, 32, 33, 33, 33, 33, 34, 34, 34, 34, 34, 35, 35, 36, 3 36, 36, 36, 37, 37, 37, 37, 37, 37, 38, 38, 40, 40, 40, 40, 40, 41, 41, 43, 44, 44, 45, 45, 47, 5. Etsi tilastollinen välijakaumasarja.

Ratkaisu. Määritellään ryhmän ominaisuudet huomautuksen avulla.
k≥1+3,321lg50=1+3,32lg(5 10)=1+3,32(lg5+lg10)=6,6
Meillä on a=22, k=7, h=(50-22)/7=4, h i =22+4i, i=0,1,…,7.

Ryhmittelyvälit 22-26 26-30 30-34 34-38 38-42 42-46 46-50
Taajuudet n i 1 4 10 18 9 5 3
Suhteellinen taajuus w i 0.02 0.08 0.2 0.36 0.18 0.1 0.06

Desimaalilogaritmit 1-10

n 1 2 3 4 5 6 7 8 9 10
ln n 0 0.3 0.48 0.6 0.7 0.78 0.85 0.9 0.95 1

Informatiivisin taajuuksien graafinen muoto on erityinen kuvaaja, jota kutsutaan taajuushistogrammiksi.

Taajuushistogrammi on suorakulmioista koostuva porrastettu kuvio, joiden kantat ovat pituudeltaan h osittaisia ​​välejä ja korkeudet ovat yhtä suuria kuin suhde n i / h (taajuustiheys).

Taajuushistogrammin muodostamiseksi osittaiset intervallit asetetaan abskissa-akselille ja niiden yläpuolelle piirretään segmentit, jotka ovat samansuuntaisia ​​abskissa-akselin kanssa etäisyydellä n i /h. i:nnen osittaisen suorakulmion pinta-ala on yhtä suuri kuin h n i /h=n i - i:nnen välivaihtoehdon taajuuksien summa; siksi taajuushistogrammin pinta-ala on yhtä suuri kuin kaikkien taajuuksien summa, ts. otoskoko.

Suhteellisen taajuuden histogrammi on suorakulmioista muodostuva porrastettu kuvio, joiden kantat ovat pituudeltaan h osittaisia ​​intervalleja ja korkeudet ovat yhtä suuria kuin suhteellinen taajuustiheys (suhteellinen taajuustiheys).

Suhteellisten taajuuksien histogrammin muodostamiseksi piirretään osavälit abskissa-akselille ja niiden yläpuolelle piirretään segmentit, jotka ovat samansuuntaisia ​​abskissa-akselin kanssa etäisyydellä w i /h. i:nnen osittaisen suorakulmion pinta-ala on yhtä suuri kuin h w i /h=w i - varianttien suhteellinen esiintymistiheys. i. intervalli. Näin ollen suhteellisten taajuuksien histogrammin pinta-ala on yhtä suuri kuin kaikkien suhteellisten taajuuksien summa, ts. yksikkö.

Esimerkki 4. Muodosta histogrammi taajuuksista ja suhteellisista taajuuksista esimerkin 3 tietojen perusteella.

Otosmediaani on variaatiosarjan keskikohta, arvo, joka sijaitsee samalla etäisyydellä näytteen vasemmasta ja oikeasta reunasta.

Valikoiva tila on todennäköisin, ts. näytteessä useimmin esiintyvä arvo.