Regressiokerroin muuttujalle x. Lineaarisen regression perusteet

Korrelaatioriippuvuuksien tutkiminen perustuu sellaisten muuttujien välisten yhteyksien tutkimiseen, joissa yhden riippuvaksi muuttujaksi otettavan muuttujan arvot muuttuvat "keskimäärin" toisen ottamien arvojen mukaan. muuttuja, jota pidetään syynä suhteessa riippuvaiseen muuttujaan. Tämän syyn toiminta tapahtuu eri tekijöiden monimutkaisen vuorovaikutuksen olosuhteissa, minkä seurauksena mallin ilmeneminen on sattuman vaikutuksen peittämä. Laskemalla tehollisen attribuutin keskiarvot tietylle attribuuttitekijän arvoryhmälle, sattuman vaikutus eliminoidaan osittain. Laskemalla teoreettisen tietoliikennelinjan parametrit, ne eliminoidaan edelleen ja saadaan yksiselitteinen (muodollinen) muutos "y":ssä muuttujan "x" muutoksella.

Stokastisten suhteiden tutkiminen, kahden rinnakkaisen sarjan vertailumenetelmä, analyyttisen ryhmittelyn menetelmä, korrelaatioanalyysi, regressioanalyysi ja jotkut ei-parametriset menetelmät. SISÄÄN yleisnäkymä Tilastojen tehtävä suhteiden tutkimisen alalla ei ole vain kvantifiointi niiden läsnäolo, suunta ja voimakkuus, mutta myös määritettäessä tekijän ominaisuuksien vaikutuksen muotoa (analyyttistä ilmaisua) resultanttiin. Sen ratkaisemiseksi käytetään korrelaatio- ja regressioanalyysimenetelmiä.

LUKU 1. REGRESIOYHTÄLÖ: TEOREETTISET PERUSTEET

1.1. Regressioyhtälö: funktioiden olemus ja tyypit

Regressio (lat. regressio - käänteinen liike, siirtyminen monimutkaisemmista kehitysmuodoista vähemmän monimutkaisiin) on yksi todennäköisyys- ja todennäköisyysteorian peruskäsitteistä. matemaattiset tilastot, joka ilmaisee satunnaismuuttujan keskiarvon riippuvuuden toisen tai useamman satunnaismuuttujan arvoista satunnaismuuttujia. Tämän konseptin esitteli Francis Galton vuonna 1886.

Teoreettinen regressioviiva on viiva, jonka ympärille korrelaatiokentän pisteet ryhmitellään ja joka ilmaisee yhteyden pääsuunnan, pääsuuntauksen.

Teoreettisen regressioviivan tulee kuvastaa tehollisen attribuutin "y" keskiarvojen muutosta tekijän "x" arvojen muuttuessa edellyttäen, että kaikki muut syyt ovat satunnaisia ​​tekijän "x" suhteen. , peruutetaan kokonaan. Tästä syystä tämä viiva on piirrettävä siten, että korrelaatiokentän pisteiden poikkeamien summa teoreettisen regressioviivan vastaavista pisteistä on yhtä suuri kuin nolla ja näiden poikkeamien neliöiden summa on minimaalinen.

y=f(x) - regressioyhtälö on kaava muuttujien väliselle tilastolliselle suhteelle.

Tasossa oleva suora (kaksiulotteisessa avaruudessa) saadaan yhtälöllä y=a+b*x. Tarkemmin sanottuna muuttuja y voidaan ilmaista vakiona (a) ja kulmakertoimena (b) kerrottuna muuttujalla x. Vakiota kutsutaan joskus myös leikkaustermiksi, ja kulmakerrointa kutsutaan joskus regressioksi tai B-kertoimeksi.

Tärkeä vaihe regressioanalyysissä on funktion tyypin määrittäminen, jolla ominaisuuksien välinen riippuvuus luonnehditaan. Pääasiallisena perustana tulee olla mielekäs analyysi tutkittavan riippuvuuden luonteesta ja sen mekanismista. Samanaikaisesti ei aina ole mahdollista teoreettisesti perustella kunkin tekijän ja suoritusindikaattorin välisen yhteyden muotoa, koska tutkittavat sosioekonomiset ilmiöt ovat hyvin monimutkaisia ​​ja niiden tasoa muokkaavat tekijät kietoutuvat tiiviisti ja ovat vuorovaikutuksessa. toistensa kanssa. Siksi teoreettisen analyysin perusteella voidaan usein tehdä yleisimmät johtopäätökset suhteen suunnasta, sen muutoksen mahdollisuudesta tutkittavassa populaatiossa, lineaarisen suhteen käytön legitimiteetistä, mahdollisesta olemassaolosta. ääriarvot ja niin edelleen. Tällaisten oletusten välttämättömänä täydennyksenä on oltava erityisten tosiasiatietojen analyysi.

Empiirisen regressioviivan perusteella voidaan saada likimääräinen käsitys suhdeviivasta. Empiirinen regressioviiva on yleensä katkoviiva ja siinä on enemmän tai vähemmän merkittävä katko. Tämä selittyy sillä, että muiden huomioimattomien tekijöiden vaikutus, jotka vaikuttavat tehollisen ominaisuuden vaihteluun, ei ole täysin sammunut keskiarvossa riittämättömän Suuri määrä havaintoja, joten empiiristä viestintälinjaa voidaan käyttää teoreettisen käyrän tyypin valitsemiseen ja perustelemiseen, mikäli havaintojen määrä on riittävän suuri.

Yksi spesifisten tutkimusten elementeistä on erilaisten riippuvuusyhtälöiden vertailu, joka perustuu laatukriteerien käyttöön empiiristen tietojen lähentämiseksi kilpailevien malliversioiden mukaan. Seuraavia funktiotyyppejä käytetään yleisimmin karakterisoitaessa taloudellisten indikaattoreiden suhteita:

1. Lineaarinen:

2. Hyperbolinen:

3. Demonstratiiviset:

4. Parabolinen:

5. Teho:

6. Logaritminen:

7. Logistiikka:

Malli, jossa on yksi selittävä ja yksi selittävä muuttuja, on parillinen regressiomalli. Jos käytetään kahta tai useampaa selittävää (tekijä)muuttujaa, puhutaan moniregressiomallin käyttämisestä. Tässä tapauksessa vaihtoehdoiksi voidaan valita lineaarisia, eksponentiaalisia, hyperbolisia, eksponentiaalisia ja muita näitä muuttujia yhdistäviä funktioita.

Käytä menetelmää löytääksesi regressioyhtälön parametrit a ja b pienimmän neliösumman. Kun käytät pienimmän neliösumman menetelmää löytääksesi funktion, joka paras tapa Vastaa empiiristä dataa, uskotaan, että empiiristen pisteiden teoreettisesta regressioviivasta poikkeamien neliöiden pussin tulisi olla vähimmäisarvo.

Pienimmän neliösumman kriteeri voidaan kirjoittaa seuraavasti:

Näin ollen pienimmän neliösumman menetelmän käyttö empiiristä dataa parhaiten vastaavan suoran parametrien a ja b määrittämiseksi on pelkistetty ääriarvoongelmaksi.

Arviointien osalta voidaan tehdä seuraavat johtopäätökset:

1. Pienimmän neliösumman estimaattorit ovat otoksen funktioita, joten ne on helppo laskea.

2. Pienimmän neliösumman estimaatit ovat teoreettisten regressiokertoimien pisteestimaatteja.

3. Empiirinen regressiosuora kulkee välttämättä pisteen x, y kautta.

4. Empiirinen regressioyhtälö muodostetaan siten, että poikkeamien summa

.

Empiirisen ja teoreettisen kommunikaatiolinjan graafinen esitys on esitetty kuvassa 1.


Yhtälön parametri b on regressiokerroin. Jos on suora korrelaatio, regressiokerroin on positiivinen arvo, ja käänteisen suhteen tapauksessa regressiokerroin on negatiivinen. Regressiokerroin osoittaa, kuinka paljon keskimäärin vaikuttavan attribuutin "y" arvo muuttuu, kun tekijäattribuutti "x" muuttuu yhdellä. Geometrisesti regressiokerroin on korrelaatioyhtälöä kuvaavan suoran kaltevuus suhteessa "x"-akseliin (yhtälölle

).

Monimuuttujatilastollisen analyysin haaraa, joka on omistettu riippuvuuksien rekonstruoinnille, kutsutaan regressioanalyysiksi. Termiä "lineaarinen regressioanalyysi" käytetään, kun tarkasteltava funktio riippuu lineaarisesti arvioiduista parametreista (riippuvuus riippumattomista muuttujista voi olla mielivaltainen). Arvioinnin teoria

tuntemattomat parametrit ovat hyvin kehittyneitä erityisesti lineaarisen regressioanalyysin tapauksessa. Jos lineaarisuutta ei ole ja lineaariseen ongelmaan siirtyminen on mahdotonta, ei yleensä voi odottaa hyviä ominaisuuksia arvioilta. Esittelemme lähestymistapoja riippuvuuksien tapauksessa erilaisia ​​tyyppejä. Jos riippuvuus on polynomin (polynomin) muotoinen. Jos korrelaatiolaskenta luonnehtii kahden muuttujan välisen suhteen vahvuutta, niin regressioanalyysi auttaa määrittämään tämän suhteen tyypin ja mahdollistaa yhden (riippuvaisen) muuttujan arvon ennustamisen toisen (riippumattoman) muuttujan arvon perusteella. . Lineaarisen regressioanalyysin suorittamiseksi riippuvaisella muuttujalla on oltava intervalli (tai järjestysasteikko). Samanaikaisesti binäärilogistinen regressio paljastaa dikotomisen muuttujan riippuvuuden jostakin muusta mihin tahansa asteikkoon liittyvästä muuttujasta. Samat sovellusehdot koskevat probit-analyysiä. Jos riippuva muuttuja on kategorinen, mutta siinä on enemmän kuin kaksi luokkaa, niin multinomiaalinen logistinen regressio on sopiva menetelmä, jossa voidaan analysoida epälineaarisia suhteita intervalliasteikkoon kuuluvien muuttujien välillä. Epälineaarinen regressiomenetelmä on suunniteltu tähän tarkoitukseen.

Opintojensa aikana opiskelijat kohtaavat hyvin usein erilaisia ​​yhtälöitä. Yhtä niistä - regressioyhtälöä - käsitellään tässä artikkelissa. Tämän tyyppistä yhtälöä käytetään erityisesti kuvaamaan matemaattisten parametrien välisen suhteen ominaisuuksia. Tämä tyyppi yhtäläisyyksiä käytetään tilastoissa ja ekonometriassa.

Regression määritelmä

Matematiikassa regressiolla tarkoitetaan tiettyä määrää, joka kuvaa tietojoukon keskiarvon riippuvuutta toisen suuren arvoista. Regressioyhtälö näyttää tietyn ominaisuuden funktiona toisen ominaisuuden keskiarvon. Regressiofunktiolla on muoto yksinkertainen yhtälö y = x, jossa y toimii riippuvaisena muuttujana ja x riippumattomana muuttujana (ominaisuus-tekijä). Itse asiassa regressio ilmaistaan ​​muodossa y = f (x).

Millaisia ​​suhteita muuttujien välillä on?

Yleisesti ottaen on olemassa kaksi vastakkaista tyyppiä: korrelaatio ja regressio.

Ensimmäiselle on ominaista ehdollisten muuttujien yhtäläisyys. Tässä tapauksessa ei ole luotettavasti tiedossa, mikä muuttuja riippuu toisesta.

Jos muuttujien välillä ei ole tasa-arvoa ja ehdot sanovat, mikä muuttuja on selittävä ja mikä riippuvainen, voidaan puhua toisen tyyppisen yhteyden olemassaolosta. Lineaarisen regressioyhtälön muodostamiseksi on tarpeen selvittää, minkä tyyppinen suhde havaitaan.

Regression tyypit

Nykyään on olemassa 7 erilaista regressiotyyppiä: hyperbolinen, lineaarinen, moninkertainen, epälineaarinen, parillinen, käänteinen, logaritmisesti lineaarinen.

Hyperbolinen, lineaarinen ja logaritminen

Lineaarista regressioyhtälöä käytetään tilastoissa selittämään selkeästi yhtälön parametrit. Näyttää siltä, ​​että y = c+t*x+E. Hyperbolinen yhtälö on säännöllisen hyperbolin muotoinen y = c + m / x + E. Logaritmisesti lineaarinen yhtälö ilmaisee suhteen logaritmisen funktion avulla: In y = In c + m* In x + In E.

Monipuolinen ja epälineaarinen

Vielä kaksi monimutkaiset tyypit Regressio on moninkertainen ja epälineaarinen. Moninkertainen regressioyhtälö ilmaistaan ​​funktiolla y = f(x 1, x 2 ... x c) + E. Tässä tilanteessa y toimii riippuvaisena muuttujana ja x selittävänä muuttujana. E-muuttuja on stokastinen, se sisältää muiden yhtälön tekijöiden vaikutuksen. Epälineaarinen regressioyhtälö on hieman kiistanalainen. Toisaalta huomioon otettuihin indikaattoreihin nähden se ei ole lineaarinen, mutta toisaalta indikaattoreiden arvioinnin roolissa se on lineaarinen.

Käänteiset ja parilliset regressiotyypit

Käänteisfunktio on eräänlainen funktio, joka on muunnettava lineaarinen näkymä. Perinteisimmissä sovellusohjelmissa se on funktion muotoinen y = 1/c + m*x+E. Pariittainen regressioyhtälö näyttää tietojen välisen suhteen y = f (x) + E funktiona. Kuten muissakin yhtälöissä, y riippuu x:stä ja E on stokastinen parametri.

Korrelaation käsite

Tämä on indikaattori, joka osoittaa kahden ilmiön tai prosessin välisen suhteen. Suhteen vahvuus ilmaistaan ​​korrelaatiokertoimena. Sen arvo vaihtelee [-1;+1] välillä. Negatiivinen indikaattori ilmaisee saatavuuden palautetta, positiivinen - noin suora. Jos kerroin saa arvon, joka on yhtä suuri kuin 0, suhdetta ei ole. Mitä lähempänä arvoa 1, sitä vahvempi on parametrien välinen suhde; mitä lähempänä 0:ta, sitä heikompi se on.

menetelmät

Korrelaatioparametrisilla menetelmillä voidaan arvioida suhteen vahvuutta. Niitä käytetään jakauman arvioinnin perusteella normaalijakauman lain mukaisten parametrien tutkimiseen.

Lineaarisen regressioyhtälön parametrit ovat tarpeen riippuvuuden tyypin, regressioyhtälön funktion tunnistamiseksi ja valitun suhdekaavan indikaattoreiden arvioimiseksi. Korrelaatiokenttää käytetään yhteyden tunnistusmenetelmänä. Tätä varten kaikki olemassa olevat tiedot on esitettävä graafisesti. Kaikki tunnetut tiedot on piirrettävä suorakaiteen muotoiseen kaksiulotteiseen koordinaattijärjestelmään. Näin muodostuu korrelaatiokenttä. Kuvaavan kertoimen arvot on merkitty abskissa-akselia pitkin, kun taas riippuvaisen tekijän arvot on merkitty ordinaatta-akselia pitkin. Jos parametrien välillä on toiminnallinen suhde, ne asetetaan riviin.

Jos tällaisten tietojen korrelaatiokerroin on alle 30%, voidaan puhua lähes täydellisestä yhteyden puuttumisesta. Jos se on 30 % ja 70 % välillä, tämä osoittaa keskitiiviiden yhteyksien olemassaolon. 100 %:n ilmaisin osoittaa toimivan yhteyden.

Epälineaarista regressioyhtälöä, kuten lineaarista, on täydennettävä korrelaatioindeksillä (R).

Korrelaatio moninkertaiselle regressiolle

Determinaatiokerroin on moninkertaisen korrelaation neliön indikaattori. Hän puhuu esitetyn indikaattorijoukon läheisestä suhteesta tutkittavaan ominaisuuteen. Se voi myös puhua parametrien vaikutuksen luonteesta tulokseen. Moniregressioyhtälö arvioidaan tällä indikaattorilla.

Monikorrelaatioindikaattorin laskemiseksi on tarpeen laskea sen indeksi.

Pienimmän neliön menetelmä

Tämä menetelmä on tapa arvioida regressiotekijät. Sen ydin on minimoida neliöityjen poikkeamien summa, joka saadaan tekijän riippuvuudesta funktiosta.

Pariittainen lineaarinen regressioyhtälö voidaan estimoida tällä menetelmällä. Tämän tyyppisiä yhtälöitä käytetään, kun indikaattoreiden välillä havaitaan lineaarinen parisuhde.

Yhtälöparametrit

Jokaisella lineaarisen regressiofunktion parametrilla on erityinen merkitys. Parillinen lineaarinen regressioyhtälö sisältää kaksi parametria: c ja m. Parametri m osoittaa funktion y lopullisen indikaattorin keskimääräisen muutoksen edellyttäen, että muuttuja x pienenee (kasvaa) yhden tavanomaisen yksikön verran. Jos muuttuja x on nolla, funktio on yhtä suuri kuin parametri c. Jos muuttuja x ei ole nolla, tekijällä c ei ole taloudellista merkitystä. Ainoa vaikutus funktioon on tekijän c edessä oleva etumerkki. Jos on miinus, voidaan sanoa, että tuloksen muutos on hidasta tekijään verrattuna. Jos on plus, tämä tarkoittaa nopeutettua muutosta tuloksessa.

Jokainen parametri, joka muuttaa regressioyhtälön arvoa, voidaan ilmaista yhtälön kautta. Esimerkiksi tekijän c muoto on c = y - mx.

Ryhmitetty data

On tehtäväehtoja, joissa kaikki tiedot on ryhmitelty attribuutilla x, mutta tietylle ryhmälle ilmoitetaan vastaavat riippuvan indikaattorin keskiarvot. Tässä tapauksessa keskiarvot kuvaavat sitä, kuinka x:stä riippuva indikaattori muuttuu. Siten ryhmitelty tieto auttaa löytämään regressioyhtälön. Sitä käytetään suhteiden analyysinä. Tällä menetelmällä on kuitenkin haittapuolensa. Valitettavasti keskimääräiset indikaattorit ovat usein alttiina ulkoisille vaihteluille. Nämä vaihtelut eivät heijasta suhteen mallia; ne vain peittävät sen "melun". Keskiarvot osoittavat suhdekuvioita paljon huonommin kuin lineaarinen regressioyhtälö. Niitä voidaan kuitenkin käyttää perustana yhtälön löytämiseen. Kertomalla yksittäisen populaation lukumäärä vastaavalla keskiarvolla saadaan summa y ryhmän sisällä. Seuraavaksi sinun on laskettava yhteen kaikki saadut summat ja löydettävä lopullinen indikaattori y. Laskelmien tekeminen summaindikaattorilla xy on hieman vaikeampaa. Jos välit ovat pienet, voimme ehdollisesti katsoa x-indikaattorin kaikille yksiköille (ryhmän sisällä) samaksi. Sinun tulee kertoa se y:n summalla saadaksesi x:n ja y:n tulojen summan. Seuraavaksi kaikki määrät lasketaan yhteen ja saadaan kokonaismäärä xy.

Moninkertainen parittainen regressioyhtälö: suhteen tärkeyden arviointi

Kuten aiemmin todettiin, moninkertaisella regressiolla on funktio muotoa y = f (x 1,x 2,…,x m)+E. Useimmiten tällaista yhtälöä käytetään tuotteen kysynnän ja tarjonnan, takaisinostettujen osakkeiden korkotulojen ongelman ratkaisemiseen sekä tuotantokustannusfunktion syiden ja tyypin tutkimiseen. Sitä käytetään myös aktiivisesti monenlaisissa makrotaloudellisissa tutkimuksissa ja laskelmissa, mutta mikrotalouden tasolla tätä yhtälöä käytetään hieman harvemmin.

Moninkertaisen regression päätehtävänä on rakentaa valtavan määrän tietoa sisältävästä tiedosta malli, jotta voidaan edelleen selvittää, mikä vaikutus kullakin tekijällä yksittäin ja kokonaisuutena on mallinnettavaan indikaattoriin ja sen kertoimiin. Regressioyhtälö voi saada monenlaisia ​​arvoja. Tässä tapauksessa suhteen arvioimiseksi käytetään yleensä kahden tyyppisiä funktioita: lineaarisia ja epälineaarisia.

Lineaarinen funktio on kuvattu seuraavan suhteen muodossa: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. Tässä tapauksessa a2, a m katsotaan "puhtaiksi" regressiokertoimiksi. Ne ovat välttämättömiä parametrin y keskimääräisen muutoksen karakterisoimiseksi kunkin vastaavan parametrin x muutoksella (lasku tai kasvu) yhdellä yksiköllä muiden indikaattoreiden stabiilien arvojen ehdolla.

Epälineaarisilla yhtälöillä on esimerkiksi muoto tehotoiminto y=ax 1 b1 x 2 b2 ...x m bm . Tässä tapauksessa indikaattoreita b 1, b 2 ..... b m kutsutaan joustokertoimiksi, ne osoittavat, kuinka tulos muuttuu (kuinka paljon prosenttia) vastaavan indikaattorin x kasvaessa (laskeessa) 1 prosentilla ja muiden tekijöiden vakaalla indikaattorilla.

Mitkä tekijät on otettava huomioon moninkertaista regressiota rakennettaessa?

Jotta moninkertainen regressio voidaan rakentaa oikein, on tarpeen selvittää, mihin tekijöihin tulisi kiinnittää erityistä huomiota.

On tarpeen ymmärtää jonkin verran taloudellisten tekijöiden ja mallinnettavan välisten suhteiden luonnetta. Mukaan otettavien tekijöiden on täytettävä seuraavat kriteerit:

  • On oltava kvantitatiivisen mittauksen kohteena. Jotta esineen laatua kuvaavaa tekijää voidaan käyttää, sille tulee joka tapauksessa antaa määrällinen muoto.
  • Tekijöiden keskinäistä korrelaatiota tai toiminnallista suhdetta ei pitäisi olla. Tällaiset toimet johtavat useimmiten peruuttamattomiin seurauksiin - järjestelmään tavalliset yhtälöt muuttuu ehdottomaksi, mikä merkitsee sen epäluotettavuutta ja epäselviä arvioita.
  • Valtavan korrelaatioindikaattorin tapauksessa tekijöiden yksittäistä vaikutusta indikaattorin lopputulokseen ei voida selvittää, joten kertoimet muuttuvat tulkitsemattomiksi.

Rakennusmenetelmät

Olemassa suuri määrä menetelmät ja tekniikat, jotka selittävät, kuinka tekijät voidaan valita yhtälöön. Kaikki nämä menetelmät perustuvat kuitenkin kertoimien valintaan käyttämällä korrelaatioindikaattoria. Niiden joukossa ovat:

  • Eliminointimenetelmä.
  • Vaihtomenetelmä.
  • Vaiheittainen regressioanalyysi.

Ensimmäinen menetelmä sisältää kaikkien kertoimien suodattamisen kokonaisjoukosta. Toinen menetelmä sisältää monia lisätekijöitä. No, kolmas on sellaisten tekijöiden poistaminen, joita aiemmin käytettiin yhtälössä. Jokaisella näistä menetelmistä on oikeus olemassaoloon. Niillä on hyvät ja huonot puolensa, mutta ne kaikki voivat ratkaista tarpeettomien indikaattoreiden poistamisen omalla tavallaan. Pääsääntöisesti kullakin yksittäisellä menetelmällä saadut tulokset ovat melko läheisiä.

Monimuuttuja-analyysimenetelmät

Tällaiset menetelmät tekijöiden määrittämiseksi perustuvat harkintaan yksittäisiä yhdistelmiä toisiinsa liittyviä ominaisuuksia. Näitä ovat erotteluanalyysi, muodontunnistus, pääkomponenttianalyysi ja klusterianalyysi. Lisäksi on olemassa myös tekijäanalyysiä, mutta se ilmestyi komponenttimenetelmän kehityksen myötä. Kaikki ne ovat voimassa tietyissä olosuhteissa, tietyin edellytyksin ja tekijöin.

Mitä regressio on?

Tarkastellaan kahta jatkuvaa muuttujaa x=(x1, x2, .., xn), y=(y1, y2, ..., yn).

Laitetaan pisteet kaksiulotteiselle sirontadiagrammille ja sanotaan, että meillä on lineaarinen suhde, jos data on likimääräinen suoralla viivalla.

Jos uskomme siihen y riippuu x, ja muutoksia y johtuvat nimenomaan muutoksista x, voimme määrittää regressioviivan (regressio y päällä x), joka kuvaa parhaiten näiden kahden muuttujan välistä lineaarista suhdetta.

Sanan regressio tilastollinen käyttö tulee ilmiöstä, joka tunnetaan nimellä regressio keskiarvoon ja jonka syynä on Sir Francis Galton (1889).

Hän osoitti, että vaikka pitkillä isillä on yleensä pitkiä poikia, poikien keskipituus on lyhyempi kuin pitkien isien. Poikien keskipituus "taantui" ja "siirtyi taaksepäin" kohti väestön kaikkien isien keskipituutta. Siten pitkillä isillä on keskimäärin lyhyempiä (mutta silti melko pitkiä) poikia, ja lyhyillä isillä on pitkiä (mutta silti melko lyhyitä) poikia.

Regressioviiva

Matemaattinen yhtälö, joka arvioi yksinkertaisen (parittaisen) lineaarisen regressioviivan:

x kutsutaan riippumattomaksi muuttujaksi tai ennustajaksi.

Y- riippuvainen muuttuja tai vastemuuttuja. Tämä on arvo, jota odotamme y(keskimäärin), jos tiedämme arvon x, eli on "ennustettu arvo" y»

  • a- arviointilinjan vapaa jäsen (risteys); tämä on tarkoitus Y, Kun x=0(Kuva 1).
  • b- arvioidun viivan kaltevuus tai kaltevuus; se edustaa määrää, jolla Y kasvaa keskimäärin, jos lisäämme x yhdelle yksikölle.
  • a Ja b kutsutaan estimoidun suoran regressiokertoimiksi, vaikka tätä termiä käytetään usein vain b.

Pariittainen lineaarinen regressio voidaan laajentaa sisältämään useamman kuin yhden riippumattoman muuttujan; tässä tapauksessa se tunnetaan nimellä moninkertainen regressio.

Kuva 1. Lineaarinen regressioviiva, joka näyttää leikkauspisteen a ja kulmakertoimen b (määrä Y kasvaa x:n kasvaessa yhdellä yksiköllä)

Pienimmän neliön menetelmä

Suoritamme regressioanalyysin käyttämällä havaintojen otosta, jossa a Ja b- otosestimaatit todellisista (yleisistä) parametreista α ja β, jotka määrittävät lineaarisen regressioviivan populaatiossa (yleinen populaatio).

Suurin osa yksinkertainen menetelmä kertoimien määrittäminen a Ja b On pienimmän neliösumman menetelmä(MNC).

Sopivuus arvioidaan katsomalla jäännöksiä (kunkin pisteen pystysuora etäisyys viivasta, esim. jäännös = havaittu y-ennustettu y, Riisi. 2).

Sopivin viiva valitaan siten, että jäännösten neliöiden summa on minimaalinen.

Riisi. 2. Lineaarinen regressioviiva, jossa on kuvattu jäännös (pystysuorat katkoviivat) jokaiselle pisteelle.

Lineaariset regressiooletukset

Jokaisen havaitun arvon jäännös on siis yhtä suuri kuin erotus ja vastaava ennustettu arvo.Jokainen jäännös voi olla positiivinen tai negatiivinen.

Voit käyttää residuaaleja testataksesi seuraavia lineaarisen regression taustalla olevia oletuksia:

  • Jäännösten keskiarvo on normaalisti nolla;

Jos oletukset lineaarisuudesta, normaalisuudesta ja/tai vakiovarianssista ovat kyseenalaisia, voidaan muuntaa tai laskea uusi regressiosuora, jolle nämä oletukset täyttyvät (esim. käyttää logaritmista muunnosa jne.).

Epänormaalit arvot (poikkeamat) ja vaikutuspisteet

"Vaikuttava" havainto, jos se jätetään pois, muuttaa yhtä tai useampaa mallin parametriarviota (eli kaltevuutta tai leikkauskohtaa).

Poikkeava arvo (havainto, joka on ristiriidassa useimpien tietojoukon arvojen kanssa) voi olla "vaikuttava" havainto, ja se voidaan helposti havaita visuaalisesti tarkastelemalla kaksimuuttujahajotuskaaviota tai jäännösdiagrammia.

Sekä poikkeaville että "vaikuttaville" havainnoille (pisteille) käytetään malleja sekä niiden sisällyttämisessä että ilman, ja huomioidaan arvioiden (regressiokertoimien) muutoksiin.

Kun suoritat analyysiä, sinun ei pitäisi automaattisesti hylätä poikkeavia tai vaikuttavia pisteitä, koska niiden pelkkä huomiotta jättäminen voi vaikuttaa saatuihin tuloksiin. Tutki aina näiden poikkeamien syitä ja analysoi ne.

Lineaarisen regression hypoteesi

Lineaarista regressiota konstruoitaessa testataan nollahypoteesia, että regressioviivan β yleinen kaltevuus on nolla.

Jos suoran kaltevuus on nolla, ja välillä ei ole lineaarista suhdetta: muutos ei vaikuta

Voit testata nollahypoteesia, että todellinen kaltevuus on nolla, käyttämällä seuraavaa algoritmia:

Laske testitilasto, joka on yhtä suuri kuin suhde , johon kohdistuu vapausasteiden jakauma, jossa kertoimen keskivirhe


,

- jäännösten hajaantumisen arviointi.

Tyypillisesti, jos merkitsevyystaso saavutetaan, nollahypoteesi hylätään.


missä on prosenttipiste vapausasteiden jakaumasta, joka antaa kaksipuolisen testin todennäköisyyden

Tämä on väli, joka sisältää yleisen kaltevuuden todennäköisyydellä 95%.

Suurille näytteille voimme esimerkiksi arvioida arvolla 1,96 (eli testitilasto on yleensä jakautunut normaalisti)

Lineaarisen regression laadun arviointi: determinaatiokerroin R 2

Lineaarisen suhteen vuoksi ja odotamme sen muuttuvan , ja kutsuvat sitä vaihteluksi, joka johtuu regressiosta tai selittää sen. Jäännösvaihtelun tulee olla mahdollisimman pieni.

Jos on, niin sitten suurin osa vaihtelu selitetään regressiolla ja pisteet ovat lähellä regressioviivaa, ts. rivi sopii hyvin dataan.

Regressiolla selitetyn kokonaisvarianssin osuutta kutsutaan determinaatiokerroin, ilmaistaan ​​yleensä prosentteina ja merkitään R 2(paritetussa lineaarisessa regressiossa tämä on määrä r 2, korrelaatiokertoimen neliö), voit arvioida subjektiivisesti regressioyhtälön laatua.

Ero edustaa sitä varianssiprosenttia, jota ei voida selittää regressiolla.

Ei ole olemassa muodollista testiä arvioitavaksi; meidän täytyy luottaa subjektiiviseen harkintaan määrittääksemme regressioviivan sopivuuden.

Regressiosuoran käyttäminen ennusteeseen

Voit käyttää regressioviivaa ennustaaksesi arvon havaitun alueen ääripään arvosta (älä koskaan ekstrapoloi näiden rajojen yli).

Ennustamme havainnoitavien kohteiden keskiarvon, joilla on tietty arvo, liittämällä tämän arvon regressioviivan yhtälöön.

Joten, jos ennustamme nimellä Käytä tätä ennustettua arvoa ja sen keskivirhettä arvioidaksesi todellisen populaation keskiarvon luottamusväli.

Toistamalla tämän toimenpiteen eri arvoille voit muodostaa luottamusrajat tälle riville. Tämä on vyöhyke tai alue, joka sisältää todellisen viivan, esimerkiksi 95 %:n luottamustasolla.

Yksinkertaiset regressiosuunnitelmat

Yksinkertaiset regressiomallit sisältävät yhden jatkuvan ennustajan. Jos on 3 havaintoa ennustaja-arvoilla P, kuten 7, 4 ja 9, ja suunnittelu sisältää ensimmäisen asteen efektin P, niin suunnittelumatriisi X on

A regressioyhtälö P:n käyttö X1:lle näyttää

Y = b0 + b1 P

Jos yksinkertainen regressiosuunnitelma sisältää vaikutuksen ylempi määräys P:lle esimerkiksi neliövaikutus, niin suunnittelumatriisin sarakkeen X1 arvot nostetaan toiseen potenssiin:

ja yhtälö saa muodon

Y = b0 + b1 P2

Sigmarajoitetut ja yliparametrisoidut koodausmenetelmät eivät sovellu yksinkertaisiin regressiosuunnitelmiin ja muihin malleihin, jotka sisältävät vain jatkuvia ennustajia (koska kategorisia ennustajia ei yksinkertaisesti ole). Valitusta koodausmenetelmästä riippumatta jatkuvien muuttujien arvoja kasvatetaan vastaavasti ja niitä käytetään X-muuttujien arvoina. Tässä tapauksessa uudelleenkoodausta ei suoriteta. Lisäksi regressiosuunnitelmia kuvattaessa voidaan jättää huomioimatta suunnittelumatriisi X ja työskennellä vain regressioyhtälön kanssa.

Esimerkki: Yksinkertainen regressioanalyysi

Tässä esimerkissä käytetään taulukossa esitettyjä tietoja:

Riisi. 3. Taulukko lähtötiedoista.

Tiedot on koottu vertailusta vuosien 1960 ja 1970 väestönlaskennoista satunnaisesti valitussa 30 läänissä. Maakuntien nimet esitetään havaintoniminä. Alla on tiedot kustakin muuttujasta:

Riisi. 4. Taulukko muuttujista.

Tutkimusongelma

Tässä esimerkissä analysoidaan köyhyysasteen korrelaatiota sen asteen välillä, joka ennustaa köyhyysrajan alapuolella olevien perheiden prosenttiosuuden. Siksi käsittelemme muuttujaa 3 (Pt_Poor) riippuvaisena muuttujana.

Voimme esittää hypoteesin: väestökoon muutokset ja köyhyysrajan alapuolella olevien perheiden prosenttiosuus liittyvät toisiinsa. Vaikuttaa kohtuulliselta odottaa, että köyhyys johtaa maastamuuttoon, joten köyhyysrajan alapuolella olevien prosenttiosuuden ja väestönmuutoksen välillä olisi negatiivinen korrelaatio. Siksi käsittelemme muuttujaa 1 (Pop_Chng) ennustajamuuttujana.

Näytä tulokset

Regressiokertoimet

Riisi. 5. Regressiokertoimet Pt_Poor on Pop_Chng.

Pop_Chng-rivin ja Param-sarakkeen leikkauskohdassa. standardoimaton kerroin Pt_Poorin regressiolle Pop_Chng:lla on -0,40374. Tämä tarkoittaa, että jokaista yksikkövähennystä kohden köyhyysaste nousee 0,40374. Tämän standardoimattoman kertoimen ylempi ja alempi (oletus) 95 %:n luottamusraja eivät sisällä nollaa, joten regressiokerroin on merkittävä p-tasolla<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Muuttuva jakelu

Korrelaatiokertoimet voivat tulla merkittävästi yli- tai aliarvioituiksi, jos tiedoissa on suuria poikkeavuuksia. Tutkitaan riippuvan muuttujan Pt_Poor jakautumista piirin mukaan. Tehdään tätä varten histogrammi muuttujasta Pt_Poor.

Riisi. 6. Pt_Poor-muuttujan histogrammi.

Kuten näette, tämän muuttujan jakauma poikkeaa huomattavasti normaalijakaumasta. Vaikka jopa kahdessa läänissä (kaksi oikeaa saraketta) on suurempi prosenttiosuus perheistä, jotka ovat köyhyysrajan alapuolella kuin normaalijakauman mukaan odotettiin, ne näyttävät olevan "rajojen sisällä".

Riisi. 7. Pt_Poor-muuttujan histogrammi.

Tämä tuomio on hieman subjektiivinen. Nyrkkisääntönä on, että poikkeamat tulee ottaa huomioon, jos havainto (tai havainnot) eivät osu väliin (keskiarvo ± 3 kertaa standardipoikkeama). Tässä tapauksessa analyysi kannattaa toistaa poikkeamien kanssa ja ilman, jotta voidaan varmistaa, että niillä ei ole suurta vaikutusta populaation jäsenten väliseen korrelaatioon.

Sirontakaavio

Jos jokin hypoteeseista a priori koskee annettujen muuttujien välistä suhdetta, on hyödyllistä testata sitä vastaavan sirontakaavion kaaviossa.

Riisi. 8. Sirontakaavio.

Sirontakaavio osoittaa selkeän negatiivisen korrelaation (-.65) näiden kahden muuttujan välillä. Se näyttää myös regressioviivan 95 %:n luottamusvälin, eli on 95 %:n todennäköisyys, että regressioviiva on kahden katkoviivan välissä.

Merkityskriteerit

Riisi. 9. Taulukko, joka sisältää merkitsevyyskriteerit.

Pop_Chng-regressiokertoimen testi vahvistaa, että Pop_Chng liittyy vahvasti Pt_Poor, p<.001 .

Bottom line

Tämä esimerkki osoitti, kuinka yksinkertaista regressiomallia analysoidaan. Myös standardoimattomien ja standardoitujen regressiokertoimien tulkintoja esitettiin. Riippuvaisen muuttujan vastejakauman tutkimisen tärkeydestä keskustellaan ja tekniikkaa ennustajan ja riippuvan muuttujan välisen suhteen suunnan ja voimakkuuden määrittämiseksi.

Regression käsite. Muuttujien välinen riippuvuus x Ja y voidaan kuvata eri tavoin. Erityisesti mikä tahansa yhteys voidaan ilmaista yleisellä yhtälöllä, jossa y käsitellään riippuvaisena muuttujana, tai toimintoja toisesta - riippumaton muuttuja x, kutsutaan Perustelu. Argumentin ja funktion välinen vastaavuus voidaan määrittää taulukolla, kaavalla, kaaviolla jne. Kutsutaan funktion muuttaminen yhden tai useamman argumentin muutoksen mukaan regressio. Kaikki korrelaatioiden kuvaamiseen käytetyt keinot muodostavat sisällön taantumisanalyysi.

Regression ilmaisemiseen käytetään korrelaatioyhtälöitä tai regressioyhtälöitä, empiirisiä ja teoreettisesti laskettuja regressiosarjoja, niiden kuvaajia, joita kutsutaan regressioviivoiksi, sekä lineaarisia ja epälineaarisia regressiokertoimia.

Regressioindikaattorit ilmaisevat korrelaatiosuhteen kahdenvälisesti ottaen huomioon muutokset ominaisuuden keskiarvoissa Y arvoja vaihdettaessa x i merkki X, ja päinvastoin osoittavat muutoksen ominaisuuden keskiarvoissa X muuttuneiden arvojen mukaan y i merkki Y. Poikkeuksena ovat aikasarjat tai aikasarjat, jotka osoittavat ominaisuuksien muutoksia ajan myötä. Tällaisten sarjojen regressio on yksipuolista.

Korrelaatioita on monia erilaisia ​​muotoja ja tyyppejä. Tehtävänä on tunnistaa yhteyden muoto kussakin tapauksessa ja ilmaista se vastaavalla korrelaatioyhtälöllä, jonka avulla voimme ennakoida mahdollisia muutoksia yhdessä ominaisuudessa Y perustuu tunnettuihin muutoksiin toisessa X, joka liittyy ensimmäiseen korrelatiivisesti.

12.1 Lineaarinen regressio

Regressioyhtälö. Tietystä biologisesta kohteesta tehtyjen havaintojen tulokset korreloitujen ominaisuuksien perusteella x Ja y, voidaan esittää pisteillä tasossa rakentamalla suorakaiteen muotoinen koordinaattijärjestelmä. Tuloksena on eräänlainen sirontadiagrammi, jonka avulla voidaan arvioida erilaisten ominaisuuksien välisen suhteen muotoa ja läheisyyttä. Melko usein tämä suhde näyttää suoralta tai sitä voidaan arvioida suoralla viivalla.

Lineaarinen suhde muuttujien välillä x Ja y kuvataan yleisellä yhtälöllä, jossa a, b, c, d,... – yhtälön parametrit, jotka määrittävät argumenttien väliset suhteet x 1 , x 2 , x 3 , …, x m ja toiminnot.

Käytännössä kaikkia mahdollisia argumentteja ei oteta huomioon, vaan vain joitain argumentteja, yksinkertaisimmassa tapauksessa vain yksi:

Lineaarisen regression yhtälössä (1) a on vapaa termi ja parametri b määrittää regressioviivan kaltevuuden suhteessa suorakulmaisiin koordinaattiakseleihin. Analyyttisessä geometriassa tätä parametria kutsutaan kaltevuus ja biometriikassa – regressiokerroin. Tämän parametrin visuaalinen esitys ja regressioviivojen sijainti Y Tekijä: X Ja X Tekijä: Y suorakulmaisessa koordinaattijärjestelmässä antaa kuvan 1.

Riisi. 1 Regressioviivat Y:stä X:stä ja X:stä Y:stä järjestelmässä

suorakaiteen muotoiset koordinaatit

Kuvan 1 mukaisesti regressioviivat leikkaavat pisteessä O (,), mikä vastaa keskenään korreloivien ominaisuuksien aritmeettisia keskiarvoja Y Ja X. Regressiokaavioita muodostettaessa riippumattoman muuttujan X arvot piirretään abskissa-akselia pitkin ja riippuvan muuttujan eli funktion Y arvot piirretään ordinaatta-akselia pitkin. Suora AB kulkee pisteen O kautta (, ) vastaa muuttujien välistä täydellistä (toiminnallista) suhdetta Y Ja X, kun korrelaatiokerroin . Mitä vahvempi yhteys on Y Ja X, mitä lähempänä regressioviivat ovat AB:tä, ja päinvastoin, mitä heikompi yhteys näiden suureiden välillä on, sitä kauempana regressioviivat ovat AB:stä. Jos ominaisuuksien välillä ei ole yhteyttä, regressioviivat ovat suorassa kulmassa toisiinsa nähden ja .

Koska regressioindikaattorit ilmaisevat korrelaatiosuhteen kahdenvälisesti, regressioyhtälö (1) tulee kirjoittaa seuraavasti:

Ensimmäinen kaava määrittää keskiarvot ominaisuuden muuttuessa X mittayksikköä kohti, toiselle - keskiarvot, kun vaihdat attribuutin yhdellä mittayksiköllä Y.

Regressiokerroin. Regressiokerroin osoittaa, kuinka paljon yhden ominaisuuden arvo on keskimäärin y muuttuu, kun toisen mitta, joka korreloi, muuttuu yhdellä Y merkki X. Tämä indikaattori määräytyy kaavan mukaan

Tässä arvot s kerrottuna luokkavälien koolla λ , jos ne löydettiin muunnelmasarjoista tai korrelaatiotaulukoista.

Regressiokerroin voidaan laskea ilman keskihajonnan laskemista s y Ja s x kaavan mukaan

Jos korrelaatiokerrointa ei tunneta, regressiokerroin määritetään seuraavasti:

Regressio- ja korrelaatiokertoimien välinen suhde. Vertaamalla kaavoja (11.1) (aihe 11) ja (12.5) näemme: niiden osoittajalla on sama arvo, mikä osoittaa yhteyden näiden indikaattoreiden välillä. Tämä suhde ilmaistaan ​​tasa-arvolla

Siten korrelaatiokerroin on yhtä suuri kuin kertoimien geometrinen keskiarvo b yx Ja b xy. Kaava (6) sallii ensinnäkin regressiokertoimien tunnettujen arvojen perusteella b yx Ja b xy määrittää regressiokerroin R xy, ja toiseksi, tarkista tämän korrelaatioindikaattorin laskennan oikeellisuus R xy vaihtelevien ominaisuuksien välillä X Ja Y.

Kuten korrelaatiokerroin, regressiokerroin luonnehtii vain lineaarista suhdetta ja siihen liittyy plusmerkki positiiviselle suhteelle ja miinusmerkki negatiiviselle suhteelle.

Lineaarisen regression parametrien määritys. Tiedetään, että poikkeamien neliösumma on variantti x i keskiarvosta on pienin arvo, eli tämä lause muodostaa perustan pienimmän neliösumman menetelmälle. Mitä tulee lineaariseen regressioon [katso kaava (1)] tämän lauseen vaatimus täyttyy tietyllä yhtälöjärjestelmällä nimeltä normaali:

Näiden yhtälöiden yhteinen ratkaisu parametrien suhteen a Ja b johtaa seuraaviin tuloksiin:

;

;

, mistä ja.

Ottaen huomioon muuttujien välisen suhteen kaksisuuntaisen luonteen Y Ja X, kaava parametrin määrittämiseksi A pitäisi ilmaista näin:

Ja . (7)

Parametri b, tai regressiokerroin, määritetään seuraavilla kaavoilla:

Empiirisen regressiosarjan rakentaminen. Jos havaintoja on paljon, regressioanalyysi alkaa empiiristen regressiosarjojen rakentamisesta. Empiirinen regressiosarja muodostuu laskemalla yhden muuttuvan ominaisuuden arvot X toisen keskiarvot, jotka korreloivat X merkki Y. Toisin sanoen empiiristen regressiosarjojen rakentaminen laskee ryhmien keskiarvojen löytämiseen ominaisuuksien Y ja X vastaavista arvoista.

Empiirinen regressiosarja on kaksinkertainen lukusarja, joka voidaan esittää tason pisteillä, ja sitten yhdistämällä nämä pisteet suorilla janoilla saadaan empiirinen regressioviiva. Empiiriset regressiosarjat, erityisesti niiden kaaviot, ns regressioviivat, antaa selkeän kuvan erilaisten ominaisuuksien välisen korrelaation muodosta ja läheisyydestä.

Empiirisen regressiosarjan kohdistus. Empiiristen regressiosarjojen graafit eivät pääsääntöisesti ole tasaisia, vaan katkoviivoja. Tämä selittyy sillä, että tärkeimpien syiden lisäksi, jotka määrittävät korreloitujen ominaisuuksien vaihtelun yleisen mallin, niiden suuruuteen vaikuttaa lukuisten toissijaisten syiden vaikutus, jotka aiheuttavat satunnaisia ​​vaihteluita regression solmupisteissä. Korreloitujen ominaisuuksien konjugaattivaihtelun päätrendin (trendin) tunnistamiseksi on välttämätöntä korvata katkoviivat tasaisilla, tasaisesti juoksevilla regressioviivoilla. Prosessia, jossa katkoviivat korvataan sileillä viivoilla, kutsutaan empiiristen sarjojen kohdistaminen Ja regressioviivat.

Graafinen kohdistusmenetelmä. Tämä on yksinkertaisin menetelmä, joka ei vaadi laskennallista työtä. Sen olemus tiivistyy seuraavaan. Empiirinen regressiosarja on kuvattu kaaviona suorakaiteen muotoisessa koordinaattijärjestelmässä. Sitten hahmotellaan visuaalisesti regression keskipisteet, joita pitkin piirretään kiinteä viiva viivaimen tai kuvion avulla. Tämän menetelmän haittapuoli on ilmeinen: se ei sulje pois tutkijan yksittäisten ominaisuuksien vaikutusta empiiristen regressioviivojen kohdistuksen tuloksiin. Siksi tapauksissa, joissa tarvitaan suurempaa tarkkuutta korvattaessa katkonaisia ​​regressioviivoja tasaisilla, käytetään muita menetelmiä empiiristen sarjojen kohdistamiseen.

Liukuvan keskiarvon menetelmä. Tämän menetelmän ydin perustuu aritmeettisten keskiarvojen peräkkäiseen laskemiseen empiirisen sarjan kahdesta tai kolmesta vierekkäisestä termistä. Tämä menetelmä on erityisen kätevä tapauksissa, joissa empiiristä sarjaa edustaa suuri määrä termejä, joten kahden niistä - äärimmäisten - menetys, joka on väistämätöntä tällä kohdistusmenetelmällä, ei vaikuta merkittävästi sen rakenteeseen.

Pienimmän neliön menetelmä. Tätä menetelmää ehdotti 1800-luvun alussa A.M. Legendre ja hänestä riippumatta K. Gauss. Sen avulla voit kohdistaa empiiriset sarjat tarkimmin. Tämä menetelmä, kuten yllä on esitetty, perustuu oletukseen, että neliöpoikkeamien summa on vaihtoehto x i niiden keskiarvosta on vähimmäisarvo, eli tästä menetelmän nimi, jota ei käytetä vain ekologiassa, vaan myös tekniikassa. Pienimmän neliösumman menetelmä on objektiivinen ja universaali, sitä käytetään monenlaisissa tapauksissa etsittäessä empiirisiä yhtälöitä regressiosarjoille ja määritettäessä niiden parametreja.

Pienimmän neliösumman menetelmän vaatimus on, että regressioviivan teoreettiset pisteet on saatava siten, että empiirisiä havaintoja varten näistä pisteistä on neliöityjen poikkeamien summa. y i oli minimaalinen, ts.

Laskemalla tämän lausekkeen minimi matemaattisen analyysin periaatteiden mukaisesti ja muuntamalla se tietyllä tavalla, saadaan järjestelmä ns. normaalit yhtälöt, jossa tuntemattomat arvot ovat vaadittuja regressioyhtälön parametreja ja tunnetut kertoimet määräytyvät ominaisuuksien empiiristen arvojen, yleensä niiden arvojen ja ristitulojen summalla.

Moninkertainen lineaarinen regressio. Useiden muuttujien välinen suhde ilmaistaan ​​yleensä moninkertaisella regressioyhtälöllä, joka voi olla lineaarinen Ja epälineaarinen. Yksinkertaisimmassa muodossaan moninkertainen regressio ilmaistaan ​​yhtälönä, jossa on kaksi riippumatonta muuttujaa ( x, z):

Missä a– yhtälön vapaa termi; b Ja c– yhtälön parametrit. Yhtälön (10) parametrien löytämiseksi (pienimmän neliösumman menetelmää käyttäen) käytetään seuraavaa normaaliyhtälöjärjestelmää:

Dynaaminen sarja. Rivien tasaus. Muutokset ominaisuuksissa ajan myötä muodostavat ns Aikasarja tai dynamiikka-sarja. Tällaisille sarjoille on ominaista, että riippumaton muuttuja X on tässä aina aikatekijä ja riippuva muuttuja Y muuttuva ominaisuus. Regressiosarjasta riippuen muuttujien X ja Y välinen suhde on yksipuolinen, koska aikatekijä ei riipu ominaisuuksien vaihtelusta. Näistä ominaisuuksista huolimatta dynamiikkasarjoja voidaan verrata regressiosarjoihin ja käsitellä samoilla menetelmillä.

Kuten regressiosarjat, empiiriset dynamiikan sarjat kantavat paitsi pääasiallisten, myös lukuisten toissijaisten (satunnaisten) tekijöiden vaikutuksen, jotka hämärtävät ominaisuuksien vaihtelevuuden pääsuuntausta, jota tilaston kielellä kutsutaan ns. trendi.

Aikasarjojen analyysi alkaa trendin muodon tunnistamisesta. Tätä varten aikasarja esitetään viivakaaviona suorakaiteen muotoisessa koordinaattijärjestelmässä. Tässä tapauksessa aikapisteet (vuodet, kuukaudet ja muut ajan yksiköt) piirretään abskissa-akselia pitkin ja riippuvan muuttujan Y arvot piirretään ordinaatta-akselille. Jos muuttujien X välillä on lineaarinen suhde ja Y (lineaarinen trendi), pienimmän neliösumman menetelmä on sopivin aikasarjan kohdistamiseen on regressioyhtälö riippuvan muuttujan Y sarjan termien poikkeamien muodossa riippumattoman muuttujan sarjan aritmeettisesta keskiarvosta. muuttuja X:

Tässä on lineaarisen regression parametri.

Dynaamisten sarjojen numeeriset ominaisuudet. Dynaamisten sarjojen yleisimpiä numeerisia ominaisuuksia ovat mm geometrinen keskiarvo ja sitä lähellä oleva aritmeettinen keskiarvo. Ne kuvaavat keskimääräistä nopeutta, jolla riippuvan muuttujan arvo muuttuu tiettyjen ajanjaksojen aikana:

Dynamiikkasarjan jäsenten vaihtelun arviointi on keskihajonta. Valittaessa regressioyhtälöitä kuvaamaan aikasarjoja otetaan huomioon trendin muoto, joka voi olla lineaarinen (tai pelkistetty lineaariseksi) ja epälineaarinen. Regressioyhtälön valinnan oikeellisuus arvioidaan yleensä riippuvaisen muuttujan empiirisesti havaittujen ja laskettujen arvojen samankaltaisuuden perusteella. Tarkempi ratkaisu tähän ongelmaan onlmä (aihe 12, kappale 4).

Aikasarjojen korrelaatio. Usein on tarpeen verrata tiettyjen yleisten ehtojen mukaan toisiinsa liittyvien rinnakkaisten aikasarjojen dynamiikkaa, esimerkiksi selvittääkseen maataloustuotannon ja kotieläinmäärien kasvun välistä suhdetta tietyn ajanjakson aikana. Tällaisissa tapauksissa muuttujien X ja Y välisen suhteen ominaisuus on korrelaatiokerroin R xy (lineaarisen trendin läsnä ollessa).

Tiedetään, että aikasarjojen trendi on pääsääntöisesti hämärtynyt riippuvan muuttujan Y sarjan vaihtelujen takia. Tästä syntyy kaksinkertainen ongelma: mitataan verrattujen sarjojen välinen riippuvuus trendiä poissulkematta ja mitataan riippuvuus saman sarjan naapurijäsenten välillä, trendiä lukuun ottamatta. Ensimmäisessä tapauksessa vertailtujen aikasarjojen välisen yhteyden läheisyyden indikaattori on korrelaatiokerroin(jos suhde on lineaarinen), toisessa - autokorrelaatiokerroin. Näillä indikaattoreilla on eri merkitys, vaikka ne on laskettu samoilla kaavoilla (katso aihe 11).

On helppo nähdä, että autokorrelaatiokertoimen arvoon vaikuttaa riippuvan muuttujan sarjan jäsenten vaihtelu: mitä vähemmän sarjan jäsenet poikkeavat trendistä, sitä korkeampi autokorrelaatiokerroin ja päinvastoin.