Mitä regressioyhtälö näyttää? Regressio Excelissä: yhtälö, esimerkkejä

Regressioyhtälön kertoimien laskeminen

Käytettävissä olevaan ED:hen perustuvaa yhtälöjärjestelmää (7.8) ei voida ratkaista yksiselitteisesti, koska tuntemattomien määrä on aina suurempi kuin yhtälöiden määrä. Tämän ongelman ratkaisemiseksi tarvitaan lisäoletuksia. Maalaisjärkeä ehdottaa: polynomin kertoimet on suositeltavaa valita siten, että ED:n approksimaatiovirhe on mahdollisimman pieni. Approksimaatiovirheiden arvioimiseen voidaan käyttää erilaisia ​​mittareita. Sellaisena mittana löysin laaja sovellus juuren keskimääräinen neliövirhe. Sen pohjalta on kehitetty erityinen menetelmä regressioyhtälöiden kertoimien estimoimiseksi - menetelmä pienimmän neliösumman(MNC). Tämän menetelmän avulla voit saada maksimitodennäköisyysestimaatit regressioyhtälön tuntemattomille kertoimille normaalijakaumavaihtoehdossa, mutta sitä voidaan käyttää mihin tahansa muuhun tekijöiden jakaumaan.

MNC perustuu seuraaviin säännöksiin:

· virhearvojen ja tekijöiden arvot ovat riippumattomia ja siksi korreloimattomia, ts. oletetaan, että häiriön synnyttämismekanismit eivät liity tekijäarvojen generointimekanismiin;

· odotettu arvo virheen ε on oltava yhtä suuri kuin nolla (vakiokomponentti sisältyy kertoimeen a 0), toisin sanoen virhe on keskitetty suure;

· virhevarianssin otantaestimaatin tulee olla minimaalinen.

Tarkastellaanpa OLS:n käyttöä suhteessa lineaarinen regressio standardoidut arvot. Keskitetyille määrille u j kerroin a 0 on yhtä suuri kuin nolla, sitten lineaariset regressioyhtälöt

. (7.9)

Tuli tänne erityinen merkki"^" tarkoittaa regressioyhtälön avulla laskettuja indikaattoriarvoja, toisin kuin havaintotuloksista saadut arvot.

Pienimmän neliösumman menetelmää käyttämällä määritetään sellaiset regressioyhtälön kertoimien arvot, jotka tarjoavat lausekkeelle ehdottoman minimin

Minimi löydetään vertaamalla nollaan kaikki lausekkeen (7.10) osittaiset derivaatat, otetut tuntemattomat kertoimet ja ratkaisemalla yhtälöjärjestelmä

(7.11)

Suorittamalla muunnokset johdonmukaisesti ja käyttämällä aiemmin esiteltyjä korrelaatiokertoimien arvioita

. (7.12)

Eli vastaanotettu T–1 lineaarinen yhtälö, jonka avulla voit laskea arvot yksiselitteisesti a 2, a 3, …, a t.

Jos lineaarinen malli on epätarkka tai parametrit mitataan väärin, niin tässä tapauksessa pienimmän neliösumman menetelmä antaa meille mahdollisuuden löytää sellaiset kertoimien arvot, joilla lineaarinen malli paras tapa kuvaa todellista objektia valitun keskihajonnan kriteerin merkityksessä.

Kun parametreja on vain yksi, lineaarinen regressioyhtälö tulee

Kerroin a 2 löytyy yhtälöstä

Sitten sen huomioon ottaen r 2.2= 1, vaadittu kerroin

a 2 = r y ,2 . (7.13)

Suhde (7.13) vahvistaa aiemmin todetun väitteen, että korrelaatiokerroin on mitta lineaarinen yhteys kaksi standardoitua parametria.

Korvaa kertoimen löydetyn arvon a 2 ilmaisuksi w, kun otetaan huomioon keskitettyjen ja normalisoitujen suureiden ominaisuudet, saadaan tämän funktion vähimmäisarvo, joka on yhtä suuri kuin 1– r 2 v,2. Arvo 1– r 2 v, 2 kutsutaan satunnaismuuttujan jäännösvarianssiksi y suhteessa satunnaismuuttujaan u 2. Se kuvaa virhettä, joka saadaan, kun indikaattori korvataan parametrin υ= funktiolla a 2u 2. Vain | r y,2| = 1 jäännösvarianssi on nolla, joten virhettä ei tapahdu, kun indikaattoria approksimoidaan lineaarifunktiolla.

Siirtyminen keskitetyistä ja normalisoiduista indikaattori- ja parametriarvoista

voidaan saada alkuperäisillä arvoilla

Tämä yhtälö on myös lineaarinen korrelaatiokertoimen suhteen. On helppo nähdä, että keskitys ja normalisointi lineaarista regressiota varten mahdollistavat yhtälöjärjestelmän ulottuvuuden pienentämisen yhdellä, ts. yksinkertaistaa kertoimien määritysongelman ratkaisua ja antaa kertoimille itselleen selkeän merkityksen.

Pienimmän neliösumman käyttö epälineaarisille funktioille ei käytännössä eroa tarkasteltavasta kaaviosta (vain kerroin a0 alkuperäisessä yhtälössä ei ole nolla).

Oletetaan esimerkiksi, että on tarpeen määrittää parabolisen regression kertoimet

Esimerkki virhevarianssista

Sen perusteella voimme saada seuraavan yhtälöjärjestelmän

Muutosten jälkeen yhtälöjärjestelmä saa muodon

Ottamalla huomioon standardisoitujen suureiden momenttien ominaisuudet, kirjoitamme

Epälineaaristen regressiokertoimien määritys perustuu lineaarisen yhtälöjärjestelmän ratkaisemiseen. Voit tehdä tämän käyttämällä yleisiä numeeristen menetelmien paketteja tai erikoispaketteja tilastotietojen käsittelyyn.

Kun regressioyhtälön aste kasvaa, kasvaa myös kertoimien määrittämiseen käytettyjen parametrien jakautumismomenttien aste. Siten toisen asteen regressioyhtälön kertoimien määrittämiseen käytetään parametrien jakauman momentteja neljänteen asteeseen asti. Tiedetään, että estimoivien momenttien tarkkuus ja luotettavuus rajoitetusta ED-näytteestä laskee jyrkästi niiden järjestyksen kasvaessa. Toista korkeamman asteen polynomien käyttö regressioyhtälöissä ei ole tarkoituksenmukaista.

Tuloksena olevan regressioyhtälön laatua arvioidaan indikaattorin havaintojen tulosten ja regressioyhtälön ennustamien arvojen läheisyyden asteen mukaan. annettuja pisteitä parametritila. Jos tulokset ovat lähellä, regressioanalyysin ongelma voidaan katsoa ratkaistuksi. Muussa tapauksessa sinun tulee muuttaa regressioyhtälöä (valita polynomin eri aste tai erilainen yhtälö kokonaan) ja toistaa laskelmat parametrien arvioimiseksi.

Jos indikaattoreita on useita, regressioanalyysin ongelma ratkaistaan ​​kunkin niistä erikseen.

Analysoitaessa regressioyhtälön olemusta on huomioitava seuraavat seikat. Tarkasteltu lähestymistapa ei tarjoa erillistä (riippumatonta) kertoimien arviointia - yhden kertoimen arvon muutos merkitsee muutosta muiden arvoissa. Saatuja kertoimia ei tule pitää vastaavan parametrin panoksena indikaattorin arvoon. Regressioyhtälö on vain hyvä analyyttinen kuvaus olemassa olevasta ED:stä, ei laki, joka kuvaa parametrien ja indikaattorin välistä suhdetta. Tätä yhtälöä käytetään indikaattorin arvojen laskemiseen tietyllä parametrimuutosalueella. Se soveltuu rajoitetusti laskelmiin tämän alueen ulkopuolella, ts. sitä voidaan käyttää interpolointiongelmien ratkaisemiseen ja rajoitetussa määrin ekstrapolointiin.



Ennusteen epätarkkuuden pääasiallinen syy ei ole niinkään regressioviivan ekstrapoloinnin epävarmuus, vaan indikaattorin merkittävä vaihtelu mallissa huomiotta jättäneiden tekijöiden vuoksi. Ennustekyvyn rajoituksena on mallissa huomioimattomien parametrien stabiilisuuden ehto ja huomioon otettujen mallitekijöiden vaikutuksen luonne. Jos se muuttuu äkillisesti ulkoinen ympäristö, silloin koottu regressioyhtälö menettää merkityksensä. Et voi korvata regressioyhtälöön tekijöitä, jotka eroavat merkittävästi ED:ssä esitetyistä. On suositeltavaa, että parametrin vaihteluvälistä ei ylitetä yhtä kolmasosaa tekijän maksimi- ja vähimmäisarvojen osalta.

Ennuste, joka saadaan korvaamalla parametrin odotusarvo regressioyhtälöön, on piste yksi. Todennäköisyys tällaisen ennusteen toteutumiselle on mitätön. On suositeltavaa määrittää ennusteen luottamusväli. varten yksittäisiä arvoja indikaattorin, intervallin tulee ottaa huomioon virheet regressioviivan sijainnissa ja yksittäisten arvojen poikkeamat tästä viivasta. Keskimääräinen virhe indikaattorin y ennustamisessa tekijälle x on

Missä on keskimääräinen virhe regressioviivan sijainnissa populaatiossa at x = x k;

– indikaattorin regressioviivasta poikkeaman varianssin arviointi väestössä;

x k– tekijän odotettu arvo.

Ennusteen luottamusrajat esimerkiksi regressioyhtälölle (7.14) määräytyvät lausekkeella

Negatiivinen vapaa termi a 0 regressioyhtälössä alkuperäisille muuttujille tarkoittaa, että indikaattorin olemassaoloalue ei sisällä nollaparametriarvoja. Jos a 0 > 0, niin indikaattorin olemassaoloalue sisältää parametrien nolla-arvot, ja kerroin itse luonnehtii indikaattorin keskiarvoa ilman parametrien vaikutusta.

Ongelma 7.2. Muodosta regressioyhtälö kanavakapasiteetille taulukossa määritellyn näytteen perusteella. 7.1.

Ratkaisu. Määritellyn otokseen liittyen analyyttisen riippuvuuden rakentaminen pääosin suoritettiin puitteissa korrelaatioanalyysi: Kaistanleveys riippuu vain signaali-kohinasuhteen parametrista. On vielä korvattava aiemmin lasketut parametriarvot lausekkeella (7.14). Kapasiteetin yhtälö saa muodon

ŷ = 26,47–0,93 × 41,68 × 5,39 / 6,04 + 0,93 × 5,39 / 6,03 × X = – 8,121+0,830X.

Laskentatulokset on esitetty taulukossa. 7.5

Taulukko 7.5

N s Kaistanleveys kanava Signaali-kohinasuhde Toiminnon arvo Virhe
Y X ŷ ε
26.37 41.98 26.72 -0.35
28.00 43.83 28.25 -0.25
27/83 42.83 27.42 0.41
31.67 47.28 31.12 0.55
23.50 38.75 24.04 -0.54
21.04 35.12 21.03 0.01
16.94 32.07 18.49 -1.55
37.56 54.25 36.90 0.66
18.84 32.70 19.02 -0.18
25.77 40.51 25.50 0.27
33.52 49.78 33.19 0.33
28.21 43.84 28.26 -0.05
28.76 44.03

Opintojensa aikana opiskelijat kohtaavat hyvin usein erilaisia ​​yhtälöitä. Yhtä niistä - regressioyhtälöä - käsitellään tässä artikkelissa. Tämän tyyppistä yhtälöä käytetään erityisesti kuvaamaan matemaattisten parametrien välisen suhteen ominaisuuksia. Tämä tyyppi yhtäläisyyksiä käytetään tilastoissa ja ekonometriassa.

Regression määritelmä

Matematiikassa regressiolla tarkoitetaan tiettyä määrää, joka kuvaa tietojoukon keskiarvon riippuvuutta toisen suuren arvoista. Regressioyhtälö näyttää tietyn ominaisuuden funktiona toisen ominaisuuden keskiarvon. Regressiofunktiolla on muoto yksinkertainen yhtälö y = x, jossa y toimii riippuvaisena muuttujana ja x riippumattomana muuttujana (ominaisuus-tekijä). Itse asiassa regressio ilmaistaan ​​muodossa y = f (x).

Millaisia ​​suhteita muuttujien välillä on?

Yleisesti ottaen on olemassa kaksi vastakkaista tyyppiä: korrelaatio ja regressio.

Ensimmäiselle on ominaista ehdollisten muuttujien yhtäläisyys. Tässä tapauksessa ei ole luotettavasti tiedossa, mikä muuttuja riippuu toisesta.

Jos muuttujien välillä ei ole tasa-arvoa ja ehdot sanovat, mikä muuttuja on selittävä ja mikä riippuvainen, voidaan puhua toisen tyyppisen yhteyden olemassaolosta. Lineaarisen regressioyhtälön muodostamiseksi on tarpeen selvittää, minkä tyyppinen suhde havaitaan.

Regression tyypit

Nykyään on olemassa 7 erilaista regressiotyyppiä: hyperbolinen, lineaarinen, moninkertainen, epälineaarinen, parillinen, käänteinen, logaritmisesti lineaarinen.

Hyperbolinen, lineaarinen ja logaritminen

Lineaarista regressioyhtälöä käytetään tilastoissa selittämään selkeästi yhtälön parametrit. Näyttää siltä, ​​että y = c+t*x+E. Hyperbolinen yhtälö on säännöllisen hyperbolin muotoinen y = c + m / x + E. Logaritmisesti lineaarinen yhtälö ilmaisee suhteen logaritmisen funktion avulla: In y = In c + m* In x + In E.

Monipuolinen ja epälineaarinen

Vielä kaksi monimutkaiset tyypit Regressio on moninkertainen ja epälineaarinen. Moninkertainen regressioyhtälö ilmaistaan ​​funktiolla y = f(x 1, x 2 ... x c) + E. Tässä tilanteessa y toimii riippuvaisena muuttujana ja x selittävänä muuttujana. E-muuttuja on stokastinen, se sisältää muiden yhtälön tekijöiden vaikutuksen. Epälineaarinen regressioyhtälö on hieman kiistanalainen. Toisaalta huomioon otettuihin indikaattoreihin nähden se ei ole lineaarinen, mutta toisaalta indikaattoreiden arvioinnin roolissa se on lineaarinen.

Käänteiset ja parilliset regressiotyypit

Käänteisfunktio on eräänlainen funktio, joka on muunnettava lineaarinen näkymä. Perinteisimmissä sovellusohjelmissa se on funktion muotoinen y = 1/c + m*x+E. Pariittainen regressioyhtälö näyttää tietojen välisen suhteen y = f (x) + E funktiona. Kuten muissakin yhtälöissä, y riippuu x:stä ja E on stokastinen parametri.

Korrelaation käsite

Tämä on indikaattori, joka osoittaa kahden ilmiön tai prosessin välisen suhteen. Suhteen vahvuus ilmaistaan ​​korrelaatiokertoimena. Sen arvo vaihtelee [-1;+1] välillä. Negatiivinen indikaattori ilmaisee saatavuuden palautetta, positiivinen - noin suora. Jos kerroin saa arvon, joka on yhtä suuri kuin 0, suhdetta ei ole. Mitä lähempänä arvoa 1, sitä vahvempi on parametrien välinen suhde; mitä lähempänä 0:ta, sitä heikompi se on.

menetelmät

Korrelaatioparametrisilla menetelmillä voidaan arvioida suhteen vahvuutta. Niitä käytetään jakauman arvioinnin perusteella normaalijakauman lain mukaisten parametrien tutkimiseen.

Lineaarisen regressioyhtälön parametrit ovat tarpeen riippuvuuden tyypin, regressioyhtälön funktion tunnistamiseksi ja valitun suhdekaavan indikaattoreiden arvioimiseksi. Korrelaatiokenttää käytetään yhteyden tunnistusmenetelmänä. Tätä varten kaikki olemassa olevat tiedot on esitettävä graafisesti. Kaikki tunnetut tiedot on piirrettävä suorakaiteen muotoiseen kaksiulotteiseen koordinaattijärjestelmään. Näin muodostuu korrelaatiokenttä. Kuvaavan kertoimen arvot on merkitty abskissa-akselia pitkin, kun taas riippuvaisen tekijän arvot on merkitty ordinaatta-akselia pitkin. Jos parametrien välillä on toiminnallinen suhde, ne asetetaan riviin.

Jos tällaisten tietojen korrelaatiokerroin on alle 30%, voidaan puhua lähes täydellisestä yhteyden puuttumisesta. Jos se on 30 % ja 70 % välillä, tämä osoittaa keskitiiviiden yhteyksien olemassaolon. 100 %:n ilmaisin osoittaa toimivan yhteyden.

Epälineaarista regressioyhtälöä, kuten lineaarista, on täydennettävä korrelaatioindeksillä (R).

Korrelaatio moninkertaiselle regressiolle

Determinaatiokerroin on moninkertaisen korrelaation neliön indikaattori. Hän puhuu esitetyn indikaattorijoukon läheisestä suhteesta tutkittavaan ominaisuuteen. Se voi myös puhua parametrien vaikutuksen luonteesta tulokseen. Moniregressioyhtälö arvioidaan tällä indikaattorilla.

Monikorrelaatioindikaattorin laskemiseksi on tarpeen laskea sen indeksi.

Pienimmän neliön menetelmä

Tämä menetelmä on tapa arvioida regressiotekijät. Sen ydin on minimoida neliöityjen poikkeamien summa, joka saadaan tekijän riippuvuudesta funktiosta.

Pariittainen lineaarinen regressioyhtälö voidaan estimoida tällä menetelmällä. Tämän tyyppisiä yhtälöitä käytetään, kun indikaattoreiden välillä havaitaan lineaarinen parisuhde.

Yhtälöparametrit

Jokaisella lineaarisen regressiofunktion parametrilla on erityinen merkitys. Parillinen lineaarinen regressioyhtälö sisältää kaksi parametria: c ja m. Parametri m osoittaa funktion y lopullisen indikaattorin keskimääräisen muutoksen edellyttäen, että muuttuja x pienenee (kasvaa) yhden tavanomaisen yksikön verran. Jos muuttuja x on nolla, funktio on yhtä suuri kuin parametri c. Jos muuttuja x ei ole nolla, tekijällä c ei ole taloudellista merkitystä. Ainoa vaikutus funktioon on tekijän c edessä oleva etumerkki. Jos on miinus, voidaan sanoa, että tuloksen muutos on hidasta tekijään verrattuna. Jos on plus, tämä tarkoittaa nopeutettua muutosta tuloksessa.

Jokainen parametri, joka muuttaa regressioyhtälön arvoa, voidaan ilmaista yhtälön kautta. Esimerkiksi tekijän c muoto on c = y - mx.

Ryhmitetty data

On tehtäväehtoja, joissa kaikki tiedot on ryhmitelty attribuutilla x, mutta tietylle ryhmälle ilmoitetaan vastaavat riippuvan indikaattorin keskiarvot. Tässä tapauksessa keskiarvot kuvaavat sitä, kuinka x:stä riippuva indikaattori muuttuu. Siten ryhmitelty tieto auttaa löytämään regressioyhtälön. Sitä käytetään suhteiden analyysinä. Tällä menetelmällä on kuitenkin haittapuolensa. Valitettavasti keskimääräiset indikaattorit ovat usein alttiina ulkoisille vaihteluille. Nämä vaihtelut eivät heijasta suhteen mallia; ne vain peittävät sen "melun". Keskiarvot osoittavat suhdekuvioita paljon huonommin kuin lineaarinen regressioyhtälö. Niitä voidaan kuitenkin käyttää perustana yhtälön löytämiseen. Kertomalla yksittäisen populaation lukumäärä vastaavalla keskiarvolla saadaan summa y ryhmän sisällä. Seuraavaksi sinun on laskettava yhteen kaikki saadut summat ja löydettävä lopullinen indikaattori y. Laskelmien tekeminen summaindikaattorilla xy on hieman vaikeampaa. Jos välit ovat pienet, voimme ehdollisesti katsoa x-indikaattorin kaikille yksiköille (ryhmän sisällä) samaksi. Sinun tulee kertoa se y:n summalla saadaksesi x:n ja y:n tulojen summan. Seuraavaksi kaikki määrät lasketaan yhteen ja saadaan kokonaismäärä xy.

Moninkertainen parittainen regressioyhtälö: suhteen tärkeyden arviointi

Kuten aiemmin todettiin, moninkertaisella regressiolla on funktio muotoa y = f (x 1,x 2,…,x m)+E. Useimmiten tällaista yhtälöä käytetään tuotteen kysynnän ja tarjonnan, takaisinostettujen osakkeiden korkotulojen ongelman ratkaisemiseen sekä tuotantokustannusfunktion syiden ja tyypin tutkimiseen. Sitä käytetään myös aktiivisesti monenlaisissa makrotaloudellisissa tutkimuksissa ja laskelmissa, mutta mikrotalouden tasolla tätä yhtälöä käytetään hieman harvemmin.

Moninkertaisen regression päätehtävänä on rakentaa valtavan määrän tietoa sisältävästä tiedosta malli, jotta voidaan edelleen selvittää, mikä vaikutus kullakin tekijällä yksittäin ja kokonaisuutena on mallinnettavaan indikaattoriin ja sen kertoimiin. Regressioyhtälö voi saada monenlaisia ​​arvoja. Tässä tapauksessa suhteen arvioimiseksi käytetään yleensä kahden tyyppisiä funktioita: lineaarisia ja epälineaarisia.

Lineaarinen funktio on kuvattu seuraavan suhteen muodossa: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. Tässä tapauksessa a2, a m katsotaan "puhtaiksi" regressiokertoimiksi. Ne ovat välttämättömiä parametrin y keskimääräisen muutoksen karakterisoimiseksi kunkin vastaavan parametrin x muutoksella (lasku tai kasvu) yhdellä yksiköllä muiden indikaattoreiden stabiilien arvojen ehdolla.

Epälineaarisilla yhtälöillä on esimerkiksi muoto tehotoiminto y=ax 1 b1 x 2 b2 ...x m bm . Tässä tapauksessa indikaattoreita b 1, b 2 ..... b m kutsutaan joustokertoimiksi, ne osoittavat, kuinka tulos muuttuu (kuinka paljon prosenttia) vastaavan indikaattorin x kasvaessa (laskeessa) 1 prosentilla ja muiden tekijöiden vakaalla indikaattorilla.

Mitkä tekijät on otettava huomioon moninkertaista regressiota rakennettaessa?

Jotta moninkertainen regressio voidaan rakentaa oikein, on tarpeen selvittää, mihin tekijöihin tulisi kiinnittää erityistä huomiota.

On tarpeen ymmärtää jonkin verran taloudellisten tekijöiden ja mallinnettavan välisten suhteiden luonnetta. Mukaan otettavien tekijöiden on täytettävä seuraavat kriteerit:

  • On oltava kvantitatiivisen mittauksen kohteena. Jotta esineen laatua kuvaavaa tekijää voidaan käyttää, sille tulee joka tapauksessa antaa määrällinen muoto.
  • Tekijöiden keskinäistä korrelaatiota tai toiminnallista suhdetta ei pitäisi olla. Tällaiset toimet johtavat useimmiten peruuttamattomiin seurauksiin - järjestelmään tavalliset yhtälöt muuttuu ehdottomaksi, mikä merkitsee sen epäluotettavuutta ja epäselviä arvioita.
  • Valtavan korrelaatioindikaattorin tapauksessa tekijöiden yksittäistä vaikutusta indikaattorin lopputulokseen ei voida selvittää, joten kertoimet muuttuvat tulkitsemattomiksi.

Rakennusmenetelmät

Olemassa suuri määrä menetelmät ja tekniikat, jotka selittävät, kuinka tekijät voidaan valita yhtälöön. Kaikki nämä menetelmät perustuvat kuitenkin kertoimien valintaan käyttämällä korrelaatioindikaattoria. Niiden joukossa ovat:

  • Eliminointimenetelmä.
  • Vaihtomenetelmä.
  • Vaiheittainen regressioanalyysi.

Ensimmäinen menetelmä sisältää kaikkien kertoimien suodattamisen kokonaisjoukosta. Toinen menetelmä sisältää monia lisätekijöitä. No, kolmas on sellaisten tekijöiden poistaminen, joita aiemmin käytettiin yhtälössä. Jokaisella näistä menetelmistä on oikeus olemassaoloon. Niillä on hyvät ja huonot puolensa, mutta ne kaikki voivat ratkaista tarpeettomien indikaattoreiden poistamisen omalla tavallaan. Pääsääntöisesti kullakin yksittäisellä menetelmällä saadut tulokset ovat melko läheisiä.

Monimuuttuja-analyysimenetelmät

Tällaiset menetelmät tekijöiden määrittämiseksi perustuvat harkintaan yksittäisiä yhdistelmiä toisiinsa liittyviä ominaisuuksia. Näitä ovat erotteluanalyysi, muodontunnistus, pääkomponenttianalyysi ja klusterianalyysi. Lisäksi on olemassa myös tekijäanalyysiä, mutta se ilmestyi komponenttimenetelmän kehityksen myötä. Kaikki ne ovat voimassa tietyissä olosuhteissa, tietyin edellytyksin ja tekijöin.

Aiemmissa viesteissä analyysi keskittyi usein yhteen numeeriseen muuttujaan, kuten sijoitusrahastojen tuottoon, verkkosivujen latausaikoihin tai virvoitusjuomien kulutukseen. Tässä ja seuraavissa huomautuksissa tarkastelemme menetelmiä numeerisen muuttujan arvojen ennustamiseksi yhden tai useamman muun numeerisen muuttujan arvoista riippuen.

Aineistoa havainnollistetaan poikkileikkaavan esimerkin avulla. Myyntivolyymin ennustaminen vaatekaupassa. Sunflowersin halpavaatekauppojen ketju on laajentunut jatkuvasti 25 vuoden ajan. Yrityksellä ei kuitenkaan tällä hetkellä ole systemaattista lähestymistapaa uusien toimipisteiden valintaan. Paikka, jossa yritys aikoo avata uuden myymälän, määräytyy subjektiivisten näkökohtien perusteella. Valintakriteerit ovat kannattavilla ehdoilla vuokraa tai johtajan ideaa ihanteellisesta myymäläpaikasta. Kuvittele, että olet osaston johtaja erikoisprojekteja ja suunnittelu. Sinut on määrätty kehittämään strateginen suunnitelma uusien myymälöiden avaaminen. Suunnitelmaan tulee sisältyä ennuste uusien myymälöiden vuosimyynnistä. Uskot, että liiketila liittyy suoraan tuloihin ja haluat ottaa tämän huomioon päätöksentekoprosessissasi. Miten kehität tilastollisen mallin vuosimyynnin ennustamiseksi uuden myymälän koon perusteella?

Tyypillisesti regressioanalyysiä käytetään muuttujan arvojen ennustamiseen. Sen tavoitteena on kehittää tilastollinen malli, joka pystyy ennustamaan riippuvan muuttujan tai vasteen arvot vähintään yhden riippumattoman tai selittävän muuttujan arvoista. Tässä huomautuksessa tarkastellaan yksinkertaista lineaarista regressiota - tilastollista menetelmää, jonka avulla voit ennustaa riippuvan muuttujan arvot Y riippumattomien muuttujien arvoilla X. Myöhemmissä huomautuksissa kuvataan moninkertainen regressiomalli, joka on suunniteltu ennustamaan riippumattoman muuttujan arvot Y useiden riippuvien muuttujien arvojen perusteella ( X 1, X 2, …, X k).

Lataa muistiinpano muodossa tai muodossa, esimerkit muodossa

Regressiomallien tyypit

Missä ρ 1 – autokorrelaatiokerroin; Jos ρ 1 = 0 (ei autokorrelaatiota), D≈ 2; Jos ρ 1 ≈ 1 (positiivinen autokorrelaatio), D≈ 0; Jos ρ 1 = -1 (negatiivinen autokorrelaatio), D ≈ 4.

Käytännössä Durbin-Watson-kriteerin soveltaminen perustuu arvon vertailuun D kriittisillä teoreettisilla arvoilla d L Ja d U tietylle määrälle havaintoja n, mallin riippumattomien muuttujien lukumäärä k(yksinkertaista lineaarista regressiota varten k= 1) ja merkitsevyystaso α. Jos D< d L , hypoteesi satunnaisten poikkeamien riippumattomuudesta hylätään (siis on positiivinen autokorrelaatio); Jos D>dU, hypoteesia ei hylätä (eli ei ole autokorrelaatiota); Jos d L< D < d U , ei ole riittäviä perusteita päätöksen tekemiselle. Kun laskettu arvo D ylittää 2, sitten kanssa d L Ja d U Itse kerrointa ei verrata D, ja lauseke (4 – D).

Laskeaksesi Durbin-Watsonin tilastot Excelissä, siirrytään kuvan 1 alimmaiseen taulukkoon. 14 Tasapainon poistaminen. Lausekkeen (10) osoittaja lasketaan käyttämällä funktiota =SUMMAR(taulukko1;matriisi2) ja nimittäjä =SUMMAR(taulukko) (kuva 16).

Riisi. 16. Durbin-Watson-tilastojen laskentakaavat

Meidän esimerkissämme D= 0,883. Pääkysymys on: mitä Durbin-Watson-tilaston arvoa pitäisi pitää tarpeeksi pienenä, jotta voidaan päätellä, että positiivinen autokorrelaatio on olemassa? On tarpeen korreloida D:n arvo kriittisiin arvoihin ( d L Ja d U), riippuen havaintojen määrästä n ja merkitsevyystaso α (kuva 17).

Riisi. 17. Durbin-Watsonin tilastojen kriittiset arvot (taulukon fragmentti)

Siten myyntimäärien ongelmassa myymälässä, joka toimittaa tavarat kotiin, on yksi riippumaton muuttuja ( k= 1), 15 havaintoa ( n= 15) ja merkitsevyystaso α = 0,05. Siten, d L= 1,08 ja dU= 1,36. Koska D = 0,883 < d L= 1,08, jäännösten välillä on positiivinen autokorrelaatio, pienimmän neliösumman menetelmää ei voida käyttää.

Kaltevuuden ja korrelaatiokertoimen hypoteesien testaus

Yllä regressiota käytettiin vain ennustamiseen. Regressiokertoimien määrittäminen ja muuttujan arvon ennustaminen Y tietylle muuttujan arvolle X Käytettiin pienimmän neliösumman menetelmää. Lisäksi tarkastelimme estimaatin neliövirhettä ja sekakorrelaatiokerrointa. Jos residuaalien analyysi vahvistaa, että pienimmän neliösumman menetelmän sovellettavuuden ehtoja ei rikota ja yksinkertainen lineaarinen regressiomalli on riittävä, voidaan otantatietojen perusteella väittää, että muuttujien välillä on lineaarinen suhde. väestö.

Sovellust - kaltevuuden kriteerit. Testaamalla, onko populaation jyrkkyys β 1 yhtä suuri kuin nolla, voit määrittää, onko muuttujien välillä tilastollisesti merkitsevä yhteys X Ja Y. Jos tämä hypoteesi hylätään, voidaan väittää, että muuttujien välillä X Ja Y on lineaarinen suhde. Nollahypoteesi ja vaihtoehtoinen hypoteesi muotoillaan seuraavasti: H 0: β 1 = 0 (ei ole lineaarista riippuvuutta), H1: β 1 ≠ 0 (on lineaarinen riippuvuus). A-priory t-tilasto on yhtä suuri kuin otoksen kaltevuuden ja populaation kaltevuuden hypoteettisen arvon erotus jaettuna kaltevuusestimaatin neliökeskiarvon virheellä:

(11) t = (b 1 β 1 ) / S b 1

Missä b 1 – suoran regression kaltevuus otostietojen perusteella, β1 – suoran populaation hypoteettinen kaltevuus, ja testitilastot t Sillä on t-jakelu kanssa n-2 vapauden asteet.

Tarkastetaan, onko kaupan koon ja vuosimyynnin välillä tilastollisesti merkitsevä suhde, kun α = 0,05. t-kriteeri näytetään yhdessä muiden parametrien kanssa, kun sitä käytetään Analyysipaketti(vaihtoehto Regressio). Analyysipaketin täydelliset tulokset on esitetty kuvassa. 4, t-tilastoihin liittyvä fragmentti - kuvassa 4. 18.

Riisi. 18. Hakemuksen tulokset t

Koska kauppojen määrä n= 14 (katso kuva 3), kriittinen arvo t-tilastot merkitsevyystasolla α = 0,05 voidaan löytää kaavalla: t L=OPPILAS.ARV(0,025;12) = –2,1788, jossa 0,025 on puolet merkitsevyystasosta ja 12 = n – 2; t U=OPPILAS.OBR(0.975;12) = +2.1788.

Koska t-tilastot = 10,64 > t U= 2,1788 (kuva 19), nollahypoteesi H 0 hylätty. Toisella puolella, R- arvo X= 10,6411, laskettuna kaavalla =1-OPPILAS.JAKAUMA(D3,12,TOSI), on suunnilleen nolla, joten hypoteesi H 0 jälleen hylätty. Se, että R-arvo lähes nolla tarkoittaa, että jos myymälöiden koon ja vuosimyynnin välillä ei olisi todellista lineaarista suhdetta, sen havaitseminen lineaarisen regression avulla olisi käytännössä mahdotonta. Siksi keskimääräisen vuosittaisen myymälämyynnin ja kaupan koon välillä on tilastollisesti merkitsevä lineaarinen suhde.

Riisi. 19. Populaatiokaltevuuden hypoteesin testaus merkitsevyystasolla 0,05 ja 12 vapausastetta

SovellusF - kaltevuuden kriteerit. Vaihtoehtoinen lähestymistapa yksinkertaisen lineaarisen regression kaltevuutta koskevien hypoteesien testaamiseen on käyttää F-kriteeri. Muistutetaan tästä F-testiä käytetään kahden varianssin välisen suhteen testaamiseen (katso lisätietoja). Kaltevuushypoteesia testattaessa satunnaisvirheiden mittana on virhevarianssi (virheiden neliösumma jaettuna vapausasteiden lukumäärällä), joten F-kriteeri käyttää regression selittämän varianssin suhdetta (eli arvoa SSR, jaettuna riippumattomien muuttujien lukumäärällä k), virhevarianssiin ( MSE = S YX 2 ).

A-priory F-tilasto on yhtä kuin regression keskineliö (MSR) jaettuna virhevarianssilla (MSE): F = MSR/ MSE, Missä MSR=SSR / k, MSE =SSE/(n– k – 1), k– riippumattomien muuttujien lukumäärä regressiomallissa. Testitilastot F Sillä on F-jakelu kanssa k Ja n– k – 1 vapauden asteet.

Tietylle merkitsevyystasolle α päätössääntö muotoillaan seuraavasti: jos F>FU, nollahypoteesi hylätään; muuten sitä ei hylätä. Tulokset esitetään lomakkeella pivot-taulukko varianssianalyysi on esitetty kuvassa. 20.

Riisi. 20. Varianssianalyysitaulukko regressiokertoimen tilastollista merkitsevyyttä koskevan hypoteesin testaamiseksi

Samoin t-kriteeri F-kriteeri näkyy taulukossa, kun sitä käytetään Analyysipaketti(vaihtoehto Regressio). Työn täydet tulokset Analyysipaketti on esitetty kuvassa. 4, fragmentti liittyy F-tilastot - kuvassa. 21.

Riisi. 21. Hakemuksen tulokset F-kriteerit, jotka on saatu käyttämällä Excel Analysis Packagea

F-tilasto on 113,23 ja R-arvo lähellä nollaa (solu MerkitysF). Jos merkitsevyystaso α on 0,05, määritä kriittinen arvo F-jakaumat, joissa on yksi ja 12 vapausastetta, voidaan saada kaavalla F U=F.OBR(1-0,05;1;12) = 4,7472 (kuvio 22). Koska F = 113,23 > F U= 4,7472 ja R-arvo lähellä 0< 0,05, нулевая гипотеза H 0 hylätään, ts. Liikkeen koko liittyy läheisesti sen vuosimyyntiin.

Riisi. 22. Populaatiokaltevuuden hypoteesin testaus merkitsevyystasolla 0,05 yhdellä ja 12 vapausasteella

Luottamusväli, joka sisältää kulmakertoimen β 1 . Testataksesi hypoteesin, että muuttujien välillä on lineaarinen suhde, voit muodostaa luottamusvälin, joka sisältää kulmakertoimen β 1, ja varmistaa, että hypoteettinen arvo β 1 = 0 kuuluu tähän väliin. Kulmakertoimen β 1 sisältävän luottamusvälin keskipiste on otosjyrkkyys b 1 , ja sen rajat ovat suuret b 1 ±tn –2 S b 1

Kuten kuvassa näkyy. 18, b 1 = +1,670, n = 14, S b 1 = 0,157. t 12 =OPPILAS.ARV(0,975;12) = 2,1788. Siten, b 1 ±tn –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 tai + 1,328 ≤ β 1 ≤ +2,012. Näin ollen on todennäköisyys 0,95, että väestön kaltevuus on välillä +1,328 ja +2,012 (eli 1 328 000 - 2 012 000 dollaria). Koska nämä arvot ovat suurempia kuin nolla, vuosimyynnin ja myymäläpinta-alan välillä on tilastollisesti merkitsevä lineaarinen suhde. Jos luottamusväli olisi nolla, muuttujien välillä ei olisi suhdetta. Lisäksi luottamusväli tarkoittaa, että jokainen myymäläpinta-ala kasvaa 1 000 neliömetrillä. ft. lisää keskimääräistä myyntimäärää 1 328 000 ja 2 012 000 dollarin välillä.

Käyttöt -korrelaatiokertoimen kriteerit. korrelaatiokerroin otettiin käyttöön r, joka on kahden numeerisen muuttujan välisen suhteen mitta. Sitä voidaan käyttää määrittämään, onko kahden muuttujan välillä tilastollisesti merkitsevä suhde. Merkitään molempien muuttujien populaatioiden välinen korrelaatiokerroin symbolilla ρ. Nolla- ja vaihtoehtoiset hypoteesit muotoillaan seuraavasti: H 0: ρ = 0 (ei korrelaatiota), H 1: ρ ≠ 0 (korrelaatio on olemassa). Korrelaation olemassaolon tarkistaminen:

Missä r = + , Jos b 1 > 0, r = – , Jos b 1 < 0. Тестовая статистика t Sillä on t-jakelu kanssa n-2 vapauden asteet.

Sunflowers-kauppaketjun ongelmassa r 2= 0,904, a b 1- +1,670 (katso kuva 4). Koska b 1> 0, vuosimyynnin ja myymäläkoon välinen korrelaatiokerroin on r= +√0,904 = +0,951. Testataan nollahypoteesia, että näiden muuttujien välillä ei ole korrelaatiota käyttämällä t-tilastot:

Merkitsevyystasolla α = 0,05 nollahypoteesi tulee hylätä, koska t= 10,64 > 2,1788. Voidaan siis väittää, että vuosimyynnin ja myymäläkoon välillä on tilastollisesti merkitsevä yhteys.

Keskusteltaessa populaation kaltevuuden päätelmistä, luottamusväliä ja hypoteesitestejä käytetään vaihtokelpoisina. Korrelaatiokertoimen sisältävän luottamusvälin laskeminen osoittautuu kuitenkin vaikeammaksi, koska tilaston otosjakauman tyyppi on r riippuu todellisesta korrelaatiokertoimesta.

Matemaattisten odotusten estimointi ja yksittäisten arvojen ennustaminen

Tässä osiossa käsitellään menetelmiä vastauksen matemaattisen odotuksen arvioimiseksi Y ja yksittäisten arvojen ennusteet Y muuttujan annetuille arvoille X.

Luottamusvälin muodostaminen. Esimerkissä 2 (katso kohta yllä Pienimmän neliön menetelmä) regressioyhtälö mahdollisti muuttujan arvon ennustamisen Y X. Vähittäismyymälän sijainnin valintaongelmassa keskimääräinen vuotuinen myyntimäärä myymälässä, jonka pinta-ala on 4000 neliömetriä. jalka oli 7,644 miljoonaa dollaria, mutta tämä arvio väestön matemaattisista odotuksista on pisteellinen. Perusjoukon matemaattisen odotuksen arvioimiseksi ehdotettiin luottamusvälin käsitettä. Samalla tavalla voimme esitellä konseptin vasteen matemaattisen odotuksen luottamusväli klo aseta arvo muuttuja X:

Missä , = b 0 + b 1 X i– ennustettu arvo on muuttuva Y klo X = X i, S YX- juuren keskimääräinen neliövirhe, n- otoskoko, Xi- muuttujan määritetty arvo X, µ Y|X = Xi– muuttujan matemaattinen odotus Y klo X = Xi, SSX =

Kaavan (13) analyysi osoittaa, että luottamusvälin leveys riippuu useista tekijöistä. Tietyllä merkitsevyystasolla regressioviivan ympärillä olevien vaihteluiden amplitudin kasvu, mitattuna neliövirheen keskiarvon avulla, johtaa intervallin leveyden kasvuun. Toisaalta, kuten odottaa, otoskoon kasvuun liittyy intervallin kaventuminen. Lisäksi intervallin leveys muuttuu arvojen mukaan Xi. Jos muuttujan arvo Y ennustettu määrille X, lähellä keskiarvoa , luottamusväli osoittautuu kapeammaksi kuin ennustettaessa vastetta arvoille, jotka ovat kaukana keskiarvosta.

Oletetaan, että myymäläpaikkaa valittaessa haluamme rakentaa 95 %:n luottamusvälin kaikkien 4000 neliömetrin myymälöiden keskimääräiselle vuosimyynnille. jalat:

Siksi keskimääräinen vuotuinen myyntivolyymi kaikissa myymälöissä, joiden pinta-ala on 4 000 neliömetriä. jalat, 95 % todennäköisyydellä on välillä 6,971-8,317 miljoonaa dollaria.

Laske ennustetun arvon luottamusväli. Muuttujan tietyn arvon vasteen matemaattisen odotuksen luottamusvälin lisäksi X, on usein tarpeen tietää ennustetun arvon luottamusväli. Vaikka tällaisen luottamusvälin laskentakaava on hyvin samankaltainen kuin kaava (13), tämä väli sisältää ennustetun arvon eikä parametriestimaatin. Ennustetun vastauksen aikaväli YX = Xi tietylle muuttujan arvolle Xi määräytyy kaavalla:

Oletetaan, että myymälän paikkaa valittaessa haluamme rakentaa 95 %:n luottamusvälin ennustetulle vuotuiselle myyntivolyymille myymälälle, jonka pinta-ala on 4000 neliömetriä. jalat:

Siksi 4000 neliömetrin myymälän ennustettu vuotuinen myyntimäärä. jalkaa, 95 %:n todennäköisyydellä on välillä 5,433-9,854 miljoonaa dollaria Kuten näemme, ennustetun vastearvon luottamusväli on paljon leveämpi kuin sen matemaattisen odotuksen luottamusväli. Tämä johtuu siitä, että vaihtelu yksittäisten arvojen ennustamisessa on paljon suurempi kuin matemaattisen odotuksen arvioinnissa.

Regression käyttöön liittyvät sudenkuopat ja eettiset ongelmat

Regressioanalyysiin liittyvät vaikeudet:

  • Pienimmän neliösumman menetelmän soveltuvuusehtojen huomioimatta jättäminen.
  • Pienimmän neliösumman menetelmän soveltuvuusehtojen virheellinen arviointi.
  • Vaihtoehtoisten menetelmien virheellinen valinta, kun pienimmän neliösumman menetelmän soveltuvuusehtoja rikotaan.
  • Regressioanalyysin soveltaminen ilman syvällistä tutkimusaiheen tuntemusta.
  • Regression ekstrapolointi selittävän muuttujan alueen ulkopuolelle.
  • Sekaannus tilastollisten ja syy-suhteiden välillä.

Laskentataulukoiden laaja käyttö ja ohjelmisto tilastollisia laskelmia varten poistettiin laskentaongelmat, jotka estivät regressioanalyysin käytön. Tämä johti kuitenkin siihen, että regressioanalyysiä käyttivät käyttäjät, joilla ei ollut riittävää pätevyyttä ja tietoa. Kuinka käyttäjät voivat tietää vaihtoehtoisista menetelmistä, jos monilla heistä ei ole niitä pienintäkään ideaa pienimmän neliösumman menetelmän sovellettavuuden ehdoista etkä tiedä kuinka tarkistaa niiden täyttyminen?

Tutkija ei saa hurahtautua murskaavaan numeroon - siirtymän, kaltevuuden ja sekakorrelaatiokertoimen laskemiseen. Hän tarvitsee syvempää tietoa. Havainnollistetaan tätä klassisella esimerkillä, joka on otettu oppikirjoista. Anscombe osoitti, että kaikki neljä kuvassa näkyvää tietojoukkoa. 23, niillä on samat regressioparametrit (kuvio 24).

Riisi. 23. Neljä keinotekoista tietojoukkoa

Riisi. 24. Neljän keinotekoisen tietojoukon regressioanalyysi; tehty kanssa Analyysipaketti(klikkaa kuvaa suurentaaksesi kuvan)

Joten regressioanalyysin näkökulmasta kaikki nämä tietojoukot ovat täysin identtisiä. Jos analyysi olisi päättynyt tähän, olisimme menettäneet paljon hyödyllistä tietoa. Tästä on osoituksena näille tietojoukoille muodostetut sirontakuvaajat (kuva 25) ja jäännöskäyrät (kuva 26).

Riisi. 25. Sirontakuvaajat neljälle tietojoukolle

Sirontakuvaajat ja jäännöskäyrät osoittavat, että nämä tiedot eroavat toisistaan. Ainoa suoraa pitkin jakautunut joukko on A. Joukosta A laskettujen jäännösten kuvaajalla ei ole kuviota. Tätä ei voida sanoa joukoista B, C ja D. Joukolle B piirretty hajontakäyrä näyttää selkeän neliöllisen kuvion. Tämän päätelmän vahvistaa jäännöskuvaaja, jolla on parabolinen muoto. Sirontadiagrammi ja jäännösdiagrammi osoittavat, että tietojoukko B sisältää poikkeavan arvon. Tässä tilanteessa on välttämätöntä jättää poikkeava arvo pois tietojoukosta ja toistaa analyysi. Menetelmää poikkeavien havaintojen havaitsemiseksi ja poistamiseksi kutsutaan vaikutusanalyysiksi. Poikkeaman eliminoinnin jälkeen mallin uudelleenarvioinnin tulos voi olla täysin erilainen. Joukon G tiedoista piirretty sirontakaavio kuvaa epätavallista tilannetta, jossa empiirinen malli on merkittävästi riippuvainen yksittäisestä vastauksesta ( X 8 = 19, Y 8 = 12,5). Tällaiset regressiomallit on laskettava erityisen huolellisesti. Joten sironta- ja jäännöskuvaajat ovat äärimmäisiä tarvittava työkalu regressioanalyysi, ja sen tulisi olla olennainen osa sitä. Ilman niitä regressioanalyysi ei ole uskottava.

Riisi. 26. Jäännöskuvaajat neljälle tietojoukolle

Kuinka välttää sudenkuopat regressioanalyysissä:

  • Muuttujien välisten mahdollisten suhteiden analyysi X Ja Y aloita aina piirtämällä sirontakaavio.
  • Ennen kuin tulkitset regressioanalyysin tuloksia, tarkista sen sovellettavuus.
  • Piirrä jäännökset riippumattoman muuttujan funktiona. Tämä mahdollistaa sen määrittämisen, kuinka hyvin empiirinen malli vastaa havainnointituloksia, ja havaita poikkeama varianssin vakioinnissa.
  • Käytä histogrammeja, varsi- ja lehtidiagrammeja, laatikkokaavioita ja normaalijakaumakaavioita normaalin virhejakauman oletuksen testaamiseen.
  • Jos pienimmän neliösumman menetelmän sovellettavuuden ehdot eivät täyty, käytä vaihtoehtoisia menetelmiä (esimerkiksi neliö- tai moniregressiomalleja).
  • Mikäli pienimmän neliösumman menetelmän soveltuvuuden ehdot täyttyvät, on tarpeen testata hypoteesia regressiokertoimien tilastollisesta merkitsevyydestä ja muodostaa luottamusvälit, jotka sisältävät matemaattisen odotuksen ja ennustetun vastearvon.
  • Vältä riippuvan muuttujan arvojen ennustamista riippumattoman muuttujan alueen ulkopuolella.
  • Muista, että tilastolliset suhteet eivät aina ole syy-seuraussuhteita. Muista, että muuttujien välinen korrelaatio ei tarkoita, että niiden välillä olisi syy-seuraussuhde.

Yhteenveto. Kuten lohkokaaviossa (Kuva 27) näkyy, huomautuksessa kuvataan yksinkertainen lineaarinen regressiomalli, sen sovellettavuuden ehdot ja näiden ehtojen testaus. Harkitaan t-regression kulmakertoimen tilastollisen merkitsevyyden testauskriteeri. Riippuvan muuttujan arvojen ennustamiseen käytettiin regressiomallia. Esimerkkinä tarkastellaan myymälän sijainnin valintaa, jossa tarkastellaan vuosittaisen myyntivolyymin riippuvuutta myymälän pinta-alasta. Saatujen tietojen avulla voit valita myymälän sijainnin tarkemmin ja ennustaa sen vuosittaisen myyntimäärän. Seuraavissa muistiinpanoissa jatketaan keskustelua regressioanalyysistä ja tarkastellaan myös useita regressiomalleja.

Riisi. 27. Huomaa rakennekaavio

Materiaalina on käytetty kirjaa Levin et al. Statistics for Managers. – M.: Williams, 2004. – s. 792–872

Jos riippuva muuttuja on kategorinen, on käytettävä logistista regressiota.

REGRESSIOKERTOINTI

- Englanti kerroin, regressio; Saksan kieli Regressionskoeffizient. Yksi riippuvan muuttujan y ja riippumattoman muuttujan x välisen suhteen ominaisuuksista. K.r. näyttää kuinka monella yksiköllä y:n ottama arvo kasvaa, jos muuttuja x muuttuu muutoksestaan ​​yhden yksikön verran. Geometrisesti K. r. on suoran y kaltevuus.

Antinazi. Sosiologian tietosanakirja, 2009

Katso, mitä "REGRESIOKERROIN" on muissa sanakirjoissa:

    regressiokerroin- - [L.G. Sumenko. Englanti-venäläinen tietotekniikan sanakirja. M.: Valtionlaitos TsNIIS, 2003.] Aiheet tietotekniikka yleisesti EN regressiokerroin... Teknisen kääntäjän opas

    Regressiokerroin- 35. Regressiokerroin Regressioanalyysimallin parametri Lähde: GOST 24026 80: Tutkimustestit. Kokeilun suunnittelu. Termit ja määritelmät …

    regressiokerroin- Regressioyhtälön riippumattoman muuttujan kerroin... Sosiologisen tilastotieteen sanakirja

    REGRESSIOKERTOINTI- Englanti kerroin, regressio; Saksan kieli Regressionskoeffizient. Yksi riippuvan muuttujan y ja riippumattoman muuttujan x välisen suhteen ominaisuuksista. K.r. näyttää kuinka monella yksiköllä y:n saama arvo kasvaa, jos muuttuja x muuttuu... ... Sanakirja sosiologiassa

    näytteen regressiokerroin- 2.44. näyteregressiokerroin Regressiokäyrän tai pinnan yhtälön muuttujan kerroin Lähde: GOST R 50779.10 2000: Tilastolliset menetelmät. Todennäköisyys ja perustilastot. Termit ja määritelmät … Normatiivisen ja teknisen dokumentaation termien sanakirja-viitekirja

    Osittainen regressiokerroin- tilastollinen mitta, joka ilmaisee riippumattoman muuttujan vaikutusasteen riippuvaan muuttujaan tilanteessa, jossa kaikkien muiden mallin muuttujien keskinäinen vaikutus on tutkijan hallinnassa... Sosiologinen sanakirja Socium

    REGRESSIOT, PAINO- Synonyymi regressiokertoimen käsitteelle... Psykologian selittävä sanakirja

    PERITTYVYYSKERROIN- Indikaattori geneettisen vaihtelun suhteellisesta osuudesta piirteen fenotyyppisessä kokonaismuuntelussa. Yleisimmät menetelmät taloudellisesti hyödyllisten ominaisuuksien periytyvyyden arvioimiseksi ovat: missä h2 on periytyvyyskerroin; r luokan sisäinen...... Maatalouseläinten jalostuksessa, genetiikassa ja lisääntymisessä käytetyt termit ja määritelmät

    - (R neliö) on kyseessä olevan riippuvuusmallin, eli selittävien muuttujien, selittämän riippuvaisen muuttujan varianssin osuus. Tarkemmin sanottuna se on yksi miinus selittämättömän varianssin osuus (varianssi satunnainen virhe malli tai ehdollinen... ... Wikipedia

    Regressioyhtälön riippumattoman muuttujan kerroin. Joten esimerkiksi yhdistävässä lineaarisessa regressioyhtälössä satunnaismuuttujia Y ja X, R. k. b0 ja b1 ovat yhtä suuret: missä r on X:n ja Y:n korrelaatiokerroin, . R.K:n arvioiden laskenta (valittu... ... Matemaattinen tietosanakirja

Kirjat

  • Johdatus ekonometriaan (CDpc), Yanovsky Leonid Petrovich, Bukhovets Aleksei Georgievich. Esitetään ekonometriikan perusteet ja yksimuuttujaisten aikasarjojen tilastollinen analyysi. Paljon huomiota kiinnitetään klassiseen pari- ja moninkertaiseen regressioon, klassisiin ja yleistettyihin menetelmiin...
  • Pikaluku. Tehokas simulaattori (CDpc), . Ohjelma on tarkoitettu käyttäjille, jotka haluavat niin pian kuin mahdollista hallitsee pikalukutekniikan. Kurssi on rakennettu periaatteelle "teoria - käytäntö". Teoreettinen materiaali ja käytännön…

Regression käsite. Muuttujien välinen riippuvuus x Ja y voidaan kuvata eri tavoin. Erityisesti mikä tahansa yhteys voidaan ilmaista yleisellä yhtälöllä, jossa y käsitellään riippuvaisena muuttujana, tai toimintoja toisesta - riippumaton muuttuja x, kutsutaan Perustelu. Argumentin ja funktion välinen vastaavuus voidaan määrittää taulukolla, kaavalla, kaaviolla jne. Kutsutaan funktion muuttaminen yhden tai useamman argumentin muutoksen mukaan regressio. Kaikki korrelaatioiden kuvaamiseen käytetyt keinot muodostavat sisällön taantumisanalyysi.

Regression ilmaisemiseen käytetään korrelaatioyhtälöitä tai regressioyhtälöitä, empiirisiä ja teoreettisesti laskettuja regressiosarjoja, niiden kuvaajia, joita kutsutaan regressioviivoiksi, sekä lineaarisia ja epälineaarisia regressiokertoimia.

Regressioindikaattorit ilmaisevat korrelaatiosuhteen kahdenvälisesti ottaen huomioon muutokset ominaisuuden keskiarvoissa Y arvoja vaihdettaessa x i merkki X, ja päinvastoin osoittavat muutoksen ominaisuuden keskiarvoissa X muuttuneiden arvojen mukaan y i merkki Y. Poikkeuksena ovat aikasarjat tai aikasarjat, jotka osoittavat ominaisuuksien muutoksia ajan myötä. Tällaisten sarjojen regressio on yksipuolista.

Korrelaatioita on monia erilaisia ​​muotoja ja tyyppejä. Tehtävänä on tunnistaa yhteyden muoto kussakin tapauksessa ja ilmaista se vastaavalla korrelaatioyhtälöllä, jonka avulla voimme ennakoida mahdollisia muutoksia yhdessä ominaisuudessa Y perustuu tunnettuihin muutoksiin toisessa X, joka liittyy ensimmäiseen korrelatiivisesti.

12.1 Lineaarinen regressio

Regressioyhtälö. Tietystä biologisesta kohteesta tehtyjen havaintojen tulokset korreloitujen ominaisuuksien perusteella x Ja y, voidaan esittää pisteillä tasossa rakentamalla suorakaiteen muotoinen koordinaattijärjestelmä. Tuloksena on eräänlainen sirontadiagrammi, jonka avulla voidaan arvioida erilaisten ominaisuuksien välisen suhteen muotoa ja läheisyyttä. Melko usein tämä suhde näyttää suoralta tai sitä voidaan arvioida suoralla viivalla.

Lineaarinen suhde muuttujien välillä x Ja y kuvataan yleisellä yhtälöllä, jossa a, b, c, d,... – yhtälön parametrit, jotka määrittävät argumenttien väliset suhteet x 1 , x 2 , x 3 , …, x m ja toiminnot.

Käytännössä kaikkia mahdollisia argumentteja ei oteta huomioon, vaan vain joitain argumentteja, yksinkertaisimmassa tapauksessa vain yksi:

Lineaarisen regression yhtälössä (1) a on vapaa termi ja parametri b määrittää regressioviivan kaltevuuden suhteessa suorakulmaisiin koordinaattiakseleihin. Analyyttisessä geometriassa tätä parametria kutsutaan kaltevuus ja biometriikassa – regressiokerroin. Tämän parametrin visuaalinen esitys ja regressioviivojen sijainti Y Tekijä: X Ja X Tekijä: Y suorakulmaisessa koordinaattijärjestelmässä antaa kuvan 1.

Riisi. 1 Regressioviivat Y:stä X:stä ja X:stä Y:stä järjestelmässä

suorakaiteen muotoiset koordinaatit

Kuvan 1 mukaisesti regressioviivat leikkaavat pisteessä O (,), mikä vastaa keskenään korreloivien ominaisuuksien aritmeettisia keskiarvoja Y Ja X. Regressiokaavioita muodostettaessa riippumattoman muuttujan X arvot piirretään abskissa-akselia pitkin ja riippuvan muuttujan eli funktion Y arvot piirretään ordinaatta-akselia pitkin. Suora AB kulkee pisteen O kautta (, ) vastaa muuttujien välistä täydellistä (toiminnallista) suhdetta Y Ja X, kun korrelaatiokerroin . Mitä vahvempi yhteys on Y Ja X, mitä lähempänä regressioviivat ovat AB:tä, ja päinvastoin, mitä heikompi yhteys näiden suureiden välillä on, sitä kauempana regressioviivat ovat AB:stä. Jos ominaisuuksien välillä ei ole yhteyttä, regressioviivat ovat suorassa kulmassa toisiinsa nähden ja .

Koska regressioindikaattorit ilmaisevat korrelaatiosuhteen kahdenvälisesti, regressioyhtälö (1) tulee kirjoittaa seuraavasti:

Ensimmäinen kaava määrittää keskiarvot ominaisuuden muuttuessa X mittayksikköä kohti, toiselle - keskiarvot, kun vaihdat attribuutin yhdellä mittayksiköllä Y.

Regressiokerroin. Regressiokerroin osoittaa, kuinka paljon yhden ominaisuuden arvo on keskimäärin y muuttuu, kun toisen mitta, joka korreloi, muuttuu yhdellä Y merkki X. Tämä indikaattori määräytyy kaavan mukaan

Tässä arvot s kerrottuna luokkavälien koolla λ , jos ne löydettiin muunnelmasarjoista tai korrelaatiotaulukoista.

Regressiokerroin voidaan laskea ilman keskiarvojen laskemista neliöpoikkeamat s y Ja s x kaavan mukaan

Jos korrelaatiokerrointa ei tunneta, regressiokerroin määritetään seuraavasti:

Regressio- ja korrelaatiokertoimien välinen suhde. Vertaamalla kaavoja (11.1) (aihe 11) ja (12.5) näemme: niiden osoittajalla on sama arvo, mikä osoittaa yhteyden näiden indikaattoreiden välillä. Tämä suhde ilmaistaan ​​tasa-arvolla

Siten korrelaatiokerroin on yhtä suuri kuin kertoimien geometrinen keskiarvo b yx Ja b xy. Kaava (6) sallii ensinnäkin regressiokertoimien tunnettujen arvojen perusteella b yx Ja b xy määrittää regressiokerroin R xy, ja toiseksi, tarkista tämän korrelaatioindikaattorin laskennan oikeellisuus R xy vaihtelevien ominaisuuksien välillä X Ja Y.

Kuten korrelaatiokerroin, regressiokerroin luonnehtii vain lineaarista suhdetta ja siihen liittyy plusmerkki positiiviselle suhteelle ja miinusmerkki negatiiviselle suhteelle.

Lineaarisen regression parametrien määritys. Tiedetään, että poikkeamien neliösumma on variantti x i keskiarvosta on pienin arvo, eli tämä lause muodostaa perustan pienimmän neliösumman menetelmälle. Mitä tulee lineaariseen regressioon [katso kaava (1)] tämän lauseen vaatimus täyttyy tietyllä yhtälöjärjestelmällä nimeltä normaali:

Näiden yhtälöiden yhteinen ratkaisu parametrien suhteen a Ja b johtaa seuraaviin tuloksiin:

;

;

, mistä ja.

Ottaen huomioon muuttujien välisen suhteen kaksisuuntaisen luonteen Y Ja X, kaava parametrin määrittämiseksi A pitäisi ilmaista näin:

Ja . (7)

Parametri b, tai regressiokerroin, määritetään seuraavilla kaavoilla:

Empiirisen regressiosarjan rakentaminen. Jos havaintoja on paljon, regressioanalyysi alkaa empiiristen regressiosarjojen rakentamisesta. Empiirinen regressiosarja muodostuu laskemalla yhden muuttuvan ominaisuuden arvot X toisen keskiarvot, jotka korreloivat X merkki Y. Toisin sanoen empiiristen regressiosarjojen rakentaminen laskee ryhmien keskiarvojen löytämiseen ominaisuuksien Y ja X vastaavista arvoista.

Empiirinen regressiosarja on kaksinkertainen lukusarja, joka voidaan esittää tason pisteillä, ja sitten yhdistämällä nämä pisteet suorilla janoilla saadaan empiirinen regressioviiva. Empiiriset regressiosarjat, erityisesti niiden kaaviot, ns regressioviivat, antaa selkeän kuvan erilaisten ominaisuuksien välisen korrelaation muodosta ja läheisyydestä.

Empiirisen regressiosarjan kohdistus. Empiiristen regressiosarjojen graafit eivät pääsääntöisesti ole tasaisia, vaan katkoviivoja. Tämä selittyy sillä, että tärkeimpien syiden lisäksi, jotka määrittävät korreloitujen ominaisuuksien vaihtelun yleisen mallin, niiden suuruuteen vaikuttaa lukuisten toissijaisten syiden vaikutus, jotka aiheuttavat satunnaisia ​​vaihteluita regression solmupisteissä. Korreloitujen ominaisuuksien konjugaattivaihtelun päätrendin (trendin) tunnistamiseksi on välttämätöntä korvata katkoviivat tasaisilla, tasaisesti juoksevilla regressioviivoilla. Prosessia, jossa katkoviivat korvataan sileillä viivoilla, kutsutaan empiiristen sarjojen kohdistaminen Ja regressioviivat.

Graafinen kohdistusmenetelmä. Tämä on yksinkertaisin menetelmä, joka ei vaadi laskennallista työtä. Sen olemus tiivistyy seuraavaan. Empiirinen regressiosarja on kuvattu kaaviona suorakaiteen muotoisessa koordinaattijärjestelmässä. Sitten hahmotellaan visuaalisesti regression keskipisteet, joita pitkin piirretään kiinteä viiva viivaimen tai kuvion avulla. Tämän menetelmän haittapuoli on ilmeinen: se ei sulje pois tutkijan yksittäisten ominaisuuksien vaikutusta empiiristen regressioviivojen kohdistuksen tuloksiin. Siksi tapauksissa, joissa tarvitaan suurempaa tarkkuutta korvattaessa katkonaisia ​​regressioviivoja tasaisilla, käytetään muita menetelmiä empiiristen sarjojen kohdistamiseen.

Liukuvan keskiarvon menetelmä. Tämän menetelmän ydin perustuu aritmeettisten keskiarvojen peräkkäiseen laskemiseen empiirisen sarjan kahdesta tai kolmesta vierekkäisestä termistä. Tämä menetelmä on erityisen kätevä tapauksissa, joissa empiiristä sarjaa edustaa suuri määrä termejä, joten kahden niistä - äärimmäisten - menetys, joka on väistämätöntä tällä kohdistusmenetelmällä, ei vaikuta merkittävästi sen rakenteeseen.

Pienimmän neliön menetelmä. Tätä menetelmää ehdotti 1800-luvun alussa A.M. Legendre ja hänestä riippumatta K. Gauss. Sen avulla voit kohdistaa empiiriset sarjat tarkimmin. Tämä menetelmä, kuten yllä on esitetty, perustuu oletukseen, että neliöpoikkeamien summa on vaihtoehto x i niiden keskiarvosta on vähimmäisarvo, eli tästä menetelmän nimi, jota ei käytetä vain ekologiassa, vaan myös tekniikassa. Pienimmän neliösumman menetelmä on objektiivinen ja universaali, sitä käytetään monenlaisissa tapauksissa etsittäessä empiirisiä yhtälöitä regressiosarjoille ja määritettäessä niiden parametreja.

Pienimmän neliösumman menetelmän vaatimus on, että regressioviivan teoreettiset pisteet on saatava siten, että empiirisiä havaintoja varten näistä pisteistä on neliöityjen poikkeamien summa. y i oli minimaalinen, ts.

Laskemalla tämän lausekkeen minimi matemaattisen analyysin periaatteiden mukaisesti ja muuntamalla se tietyllä tavalla, saadaan järjestelmä ns. normaalit yhtälöt, jossa tuntemattomat arvot ovat vaadittuja regressioyhtälön parametreja ja tunnetut kertoimet määräytyvät ominaisuuksien empiiristen arvojen, yleensä niiden arvojen ja ristitulojen summalla.

Moninkertainen lineaarinen regressio. Useiden muuttujien välinen suhde ilmaistaan ​​yleensä moninkertaisella regressioyhtälöllä, joka voi olla lineaarinen Ja epälineaarinen. Yksinkertaisimmassa muodossaan moninkertainen regressio ilmaistaan ​​yhtälönä, jossa on kaksi riippumatonta muuttujaa ( x, z):

Missä a– yhtälön vapaa termi; b Ja c– yhtälön parametrit. Yhtälön (10) parametrien löytämiseksi (pienimmän neliösumman menetelmää käyttäen) käytetään seuraavaa normaaliyhtälöjärjestelmää:

Dynaaminen sarja. Rivien tasaus. Muutokset ominaisuuksissa ajan myötä muodostavat ns Aikasarja tai dynamiikka-sarja. Tällaisille sarjoille on ominaista, että riippumaton muuttuja X on tässä aina aikatekijä ja riippuva muuttuja Y muuttuva ominaisuus. Regressiosarjasta riippuen muuttujien X ja Y välinen suhde on yksipuolinen, koska aikatekijä ei riipu ominaisuuksien vaihtelusta. Näistä ominaisuuksista huolimatta dynamiikkasarjoja voidaan verrata regressiosarjoihin ja käsitellä samoilla menetelmillä.

Kuten regressiosarjat, empiiriset dynamiikan sarjat kantavat paitsi pääasiallisten, myös lukuisten toissijaisten (satunnaisten) tekijöiden vaikutuksen, jotka hämärtävät ominaisuuksien vaihtelevuuden pääsuuntausta, jota tilaston kielellä kutsutaan ns. trendi.

Aikasarjojen analyysi alkaa trendin muodon tunnistamisesta. Tätä varten aikasarja esitetään viivakaaviona suorakaiteen muotoisessa koordinaattijärjestelmässä. Tässä tapauksessa aikapisteet (vuodet, kuukaudet ja muut ajan yksiköt) piirretään abskissa-akselia pitkin ja riippuvan muuttujan Y arvot piirretään ordinaatta-akselille. Jos muuttujien X välillä on lineaarinen suhde ja Y (lineaarinen trendi), pienimmän neliösumman menetelmä on sopivin aikasarjan kohdistamiseen on regressioyhtälö riippuvan muuttujan Y sarjan termien poikkeamien muodossa riippumattoman muuttujan sarjan aritmeettisesta keskiarvosta. muuttuja X:

Tässä on lineaarisen regression parametri.

Dynaamisten sarjojen numeeriset ominaisuudet. Dynaamisten sarjojen yleisimpiä numeerisia ominaisuuksia ovat mm geometrinen keskiarvo ja sitä lähellä oleva aritmeettinen keskiarvo. Ne kuvaavat keskimääräistä nopeutta, jolla riippuvan muuttujan arvo muuttuu tiettyjen ajanjaksojen aikana:

Dynamiikkasarjan jäsenten vaihtelun arviointi on keskihajonta. Valittaessa regressioyhtälöitä kuvaamaan aikasarjoja otetaan huomioon trendin muoto, joka voi olla lineaarinen (tai pelkistetty lineaariseksi) ja epälineaarinen. Regressioyhtälön valinnan oikeellisuus arvioidaan yleensä riippuvaisen muuttujan empiirisesti havaittujen ja laskettujen arvojen samankaltaisuuden perusteella. Tarkempi ratkaisu tähän ongelmaan onlmä (aihe 12, kappale 4).

Aikasarjojen korrelaatio. Usein on tarpeen verrata tiettyjen yleisten ehtojen mukaan toisiinsa liittyvien rinnakkaisten aikasarjojen dynamiikkaa, esimerkiksi selvittääkseen maataloustuotannon ja kotieläinmäärien kasvun välistä suhdetta tietyn ajanjakson aikana. Tällaisissa tapauksissa muuttujien X ja Y välisen suhteen ominaisuus on korrelaatiokerroin R xy (lineaarisen trendin läsnä ollessa).

Tiedetään, että aikasarjojen trendi on pääsääntöisesti hämärtynyt riippuvan muuttujan Y sarjan vaihtelujen takia. Tästä syntyy kaksinkertainen ongelma: mitataan verrattujen sarjojen välinen riippuvuus trendiä poissulkematta ja mitataan riippuvuus saman sarjan naapurijäsenten välillä, trendiä lukuun ottamatta. Ensimmäisessä tapauksessa vertailtujen aikasarjojen välisen yhteyden läheisyyden indikaattori on korrelaatiokerroin(jos suhde on lineaarinen), toisessa - autokorrelaatiokerroin. Näillä indikaattoreilla on eri merkitys, vaikka ne on laskettu samoilla kaavoilla (katso aihe 11).

On helppo nähdä, että autokorrelaatiokertoimen arvoon vaikuttaa riippuvan muuttujan sarjan jäsenten vaihtelu: mitä vähemmän sarjan jäsenet poikkeavat trendistä, sitä korkeampi autokorrelaatiokerroin ja päinvastoin.