Esitatakse regressioonikoefitsiendid. Regressioonivõrrandi koefitsient näitab korrelatsiooni ja regressioonianalüüsi

REGRESSIOONIKOEFITSIENT

- Inglise koefitsient, regressioon; saksa keel Regressionskoeffizient. Sõltuva muutuja y ja sõltumatu muutuja x vahelise seose üks tunnuseid. K.r. näitab, mitme ühiku võrra y-ga võetud väärtus suureneb, kui muutuja x muutub selle muutuse ühe ühiku võrra. Geomeetriliselt K. r. on sirge y kalle.

Antinazi. Sotsioloogia entsüklopeedia, 2009

Vaadake, mis on "REGRESSIOONIKOEFITSIENT" teistes sõnaraamatutes:

    regressioonikoefitsient- - [L.G. Sumenko. Inglise-vene infotehnoloogia sõnaraamat. M.: Riigiettevõte TsNIIS, 2003.] Teemad infotehnoloogiaüldiselt EN regressioonikordaja... Tehniline tõlkija juhend

    Regressioonikoefitsient- 35. Regressioonikordaja Regressioonanalüüsi mudeli parameeter Allikas: GOST 24026 80: Uurimiskatsed. Katse planeerimine. Tingimused ja määratlused…

    regressioonikoefitsient- Regressioonivõrrandi sõltumatu muutuja koefitsient... Sotsioloogilise statistika sõnastik

    REGRESSIOONIKOEFITSIENT- Inglise koefitsient, regressioon; saksa keel Regressionskoeffizient. Sõltuva muutuja y ja sõltumatu muutuja x vahelise seose üks tunnuseid. K.r. näitab, mitme ühiku võrra suureneb y-ga võetud väärtus, kui muutuja x muutub... ... Sõnastik sotsioloogias

    valimi regressioonikordaja- 2.44. valimi regressioonikordaja Muutuja koefitsient regressioonikõvera või pinna võrrandis Allikas: GOST R 50779.10 2000: Statistilised meetodid. Tõenäosus ja põhistatistika. Tingimused ja määratlused… Normatiivse ja tehnilise dokumentatsiooni terminite sõnastik-teatmik

    Osalise regressiooni koefitsient- statistiline mõõt, mis näitab sõltumatu muutuja mõju astet sõltuvale muutujale olukorras, kus kõigi teiste mudelis olevate muutujate vastastikune mõju on uurija kontrolli all... Sotsioloogiline sõnaraamat Socium

    REGRESSIOONID, KAAL- Regressioonikordaja mõiste sünonüüm... Psühholoogia seletav sõnastik

    PÄRILIKKUSE KOEFITSIENT- Geneetilise varieeruvuse suhtelise osakaalu näitaja tunnuse kogu fenotüübilises variatsioonis. Kõige levinumad meetodid majanduslikult kasulike tunnuste pärilikkuse hindamiseks on: kus h2 on pärilikkuse koefitsient; r klassisisene ... ... Põllumajandusloomade aretuses, geneetikas ja paljundamises kasutatavad terminid ja määratlused

    - (R ruudus) on vaadeldava sõltuvusmudeliga seletatava sõltuva muutuja dispersiooni osakaal, st seletavad muutujad. Täpsemalt on see üks miinus seletamatu dispersiooni osa (mudeli juhusliku vea dispersioon ehk tingimuslik... ... Wikipedia

    Sõltumatu muutuja koefitsient regressioonivõrrandis. Nii näiteks on juhuslikke suurusi Y ja X ühendavas lineaarses regressioonivõrrandis R. koefitsiendid b0 ja b1 võrdsed: kus r on X ja Y korrelatsioonikordaja, . R.K hinnangute arvutamine (valitud... ... Matemaatiline entsüklopeedia

Raamatud

  • Sissejuhatus ökonomeetriasse (CDpc), Yanovsky Leonid Petrovitš, Bukhovets Aleksei Georgijevitš. Antakse ökonomeetria alused ja ühemõõtmeliste aegridade statistiline analüüs. Palju tähelepanu pööratakse klassikalisele paaris- ja mitmikregressioonile, klassikalistele ja üldistatud meetoditele...
  • Kiirlugemine. Efektiivne simulaator (CDpc), . Programm on adresseeritud kasutajatele, kes seda soovivad niipea kui võimalik valdab kiirlugemise tehnikat. Kursus on üles ehitatud põhimõttel "teooria – praktika". Teoreetiline materjal ja praktiline…

Mis on regressioon?

Vaatleme kahte pidevat muutujat x=(x 1, x 2, .., x n), y=(y 1, y 2, ..., y n).

Asetame punktid kahemõõtmelisele hajuvusgraafikule ja ütleme, et on lineaarne seos, kui andmed on ligikaudsed sirgjoonega.

Kui me seda usume y sõltub x, ja muudatused y on põhjustatud just muutustest x, saame määrata regressioonijoone (regressioon y peal x), mis kirjeldab kõige paremini nende kahe muutuja vahelist lineaarset seost.

Sõna regressioon statistiline kasutamine tuleneb nähtusest, mida tuntakse kui regressiooni keskmiseni ja mille omistab Sir Francis Galton (1889).

Ta näitas, et kuigi pikkadel isadel on tavaliselt pikad pojad, on poegade keskmine pikkus lühem kui nende pikkadel isadel. Poegade keskmine pikkus "taandus" ja "nihkus tahapoole" elanikkonna kõigi isade keskmise pikkuse suunas. Seega on pikkadel isadel keskmiselt lühemad (kuid siiski üsna pikad) pojad, lühikestel isadel aga pikemad (aga siiski üsna lühikesed) pojad.

Regressioonijoon

Matemaatiline võrrand, mis hindab lihtsat (paaripõhist) lineaarset regressioonijoont:

x nimetatakse sõltumatuks muutujaks või ennustajaks.

Y- sõltuv muutuja või vastuse muutuja. See on väärtus, mida me ootame y(keskmiselt), kui väärtust teame x, st. on "ennustatud väärtus" y»

  • a- hindamisliini vabaliige (ristmik); see on tähendus Y, Millal x=0(joonis 1).
  • b- hinnangulise joone kalle või gradient; see tähistab summat, mille võrra Y suureneb keskmiselt, kui me suurendame xühe ühiku kohta.
  • a Ja b nimetatakse hinnangulise rea regressioonikordajateks, kuigi seda terminit kasutatakse sageli ainult b.

Paaripõhist lineaarset regressiooni saab laiendada nii, et see hõlmaks rohkem kui ühte sõltumatut muutujat; sel juhul tuntakse seda kui mitmekordne regressioon.

Joonis 1. Lineaarne regressioonijoon, mis näitab lõikepunkti a ja kallet b (summa Y suureneb, kui x suureneb ühe ühiku võrra)

Vähima ruudu meetod

Regressioonanalüüsi teostame vaatluste valimi abil, kus a Ja b- tõeliste (üldiste) parameetrite α ja β valimihinnangud, mis määravad lineaarse regressioonijoone populatsioonis (üldkogumis).

Enamik lihtne meetod koefitsientide määramine a Ja b on meetod vähimruudud (MNC).

Sobivust hinnatakse jääkide järgi (iga punkti vertikaalne kaugus joonest, nt jääk = vaadeldud y- ennustas y, Riis. 2).

Parima sobivuse rida valitakse nii, et jääkide ruutude summa oleks minimaalne.

Riis. 2. Lineaarne regressioonijoon iga punkti jääkidega (vertikaalsed punktiirjooned).

Lineaarse regressiooni eeldused

Seega on iga vaadeldava väärtuse jääk võrdne erinevuse ja vastava prognoositud väärtusega.Iga jääk võib olla positiivne või negatiivne.

Jääkide abil saate testida järgmisi lineaarse regressiooni eeldusi.

  • Jäägid jaotatakse tavaliselt nulliga;

Kui lineaarsuse, normaalsuse ja/või konstantse dispersiooni eeldused on küsitavad, saame teisendada või arvutada uue regressioonisirge, mille puhul need eeldused on täidetud (näiteks kasutada logaritmilist teisendust vms).

Anomaalsed väärtused (kõrvalväärtused) ja mõjupunktid

"Mõjuline" vaatlus, kui see välja jäetakse, muudab üht või mitut mudeli parameetri hinnangut (st kallet või lõikepunkti).

Kõrvalväärtus (vaatlus, mis on vastuolus enamiku andmekogumi väärtustega) võib olla "mõjukas" vaatlus ja seda saab hõlpsasti visuaalselt tuvastada, kontrollides kahe muutujaga hajuvusdiagrammi või jääkgraafikut.

Nii kõrvalekallete kui ka “mõjukate” vaatluste (punktide) puhul kasutatakse mudeleid nii nende kaasamisega kui ka ilma ning pööratakse tähelepanu muutustele hinnangutes (regressioonikordajad).

Analüüsi tegemisel ei tohiks kõrvalekaldeid ega mõjupunkte automaatselt kõrvale jätta, kuna nende lihtsalt eiramine võib saadud tulemusi mõjutada. Uurige alati nende kõrvalekallete põhjuseid ja analüüsige neid.

Lineaarse regressiooni hüpotees

Lineaarse regressiooni konstrueerimisel testitakse nullhüpoteesi, et regressioonijoone β üldine kalle on võrdne nulliga.

Kui sirge kalle on null, ei ole lineaarset seost ja vahel: muutus ei mõjuta

Nullhüpoteesi testimiseks, et tegelik kalle on null, võite kasutada järgmist algoritmi:

Arvutage katsestatistika, mis on võrdne suhtega , mis allub vabadusastmetega jaotusele, kus koefitsiendi standardviga


,

- jääkide hajuvuse hindamine.

Tavaliselt lükatakse nullhüpotees tagasi, kui saavutatakse olulisuse tase.


kus on vabadusastmetega jaotuse protsendipunkt, mis annab kahepoolse testi tõenäosuse

See on intervall, mis sisaldab üldist kallet tõenäosusega 95%.

Näiteks suurte valimite puhul saame ligikaudse väärtusega 1,96 (st testistatistika kipub olema normaalselt jaotunud)

Lineaarse regressiooni kvaliteedi hindamine: määramistegur R 2

Lineaarse seose tõttu ja eeldame, et see muutub ja nimetage seda variatsiooniks, mis on regressioonist tingitud või sellega seletatav. Jääkvariatsioon peaks olema võimalikult väike.

Kui nii, siis enamik varieerumist seletatakse regressiooniga ja punktid asuvad regressioonijoone lähedal, st. rida sobib andmetega hästi.

Regressiooniga seletatavat kogudispersiooni osakaalu nimetatakse määramiskoefitsient, väljendatakse tavaliselt protsentides ja tähistatakse R 2(paaris lineaarses regressioonis on see suurus r 2, korrelatsioonikordaja ruut), võimaldab subjektiivselt hinnata regressioonivõrrandi kvaliteeti.

Erinevus näitab dispersiooni protsenti, mida ei saa regressiooniga seletada.

Hindamiseks pole formaalset testi; regressioonijoone sobivuse kindlaksmääramiseks peame tuginema subjektiivsele hinnangule.

Regressioonijoone rakendamine prognoosile

Saate kasutada regressioonijoont, et ennustada väärtust vaadeldava vahemiku äärmises lõpus olevast väärtusest (ärge kunagi ekstrapoleerige neid piire kaugemale).

Me ennustame konkreetse väärtusega vaadeldavate näitajate keskmist, ühendades selle väärtuse regressioonijoone võrrandiga.

Seega, kui ennustame kui Kasutage seda ennustatud väärtust ja selle standardviga, et hinnata populatsiooni tegeliku keskmise usaldusvahemikku.

Selle protseduuri kordamine erinevate väärtuste jaoks võimaldab teil luua selle rea usalduspiirid. See on riba või ala, mis sisaldab tõelist joont, näiteks 95% usaldusnivooga.

Lihtsad regressiooniplaanid

Lihtsad regressioonikujundused sisaldavad ühte pidevat ennustajat. Kui ennustavate väärtustega P on 3 vaatlust, näiteks 7, 4 ja 9, ja disain sisaldab esimest järku efekti P, siis on kujundusmaatriks X

A regressioonivõrrand P kasutamine X1 jaoks näeb välja selline

Y = b0 + b1 P

Kui lihtne regressioonikava sisaldab efekti kõrgem järjekord näiteks P puhul ruutefekt, siis tõstetakse kujundusmaatriksi veerus X1 olevad väärtused teise astmeni:

ja võrrand saab kuju

Y = b0 + b1 P2

Sigma-piiratud ja üleparameetrilised kodeerimismeetodid ei kehti lihtsate regressioonikavandite ja muude ainult pidevaid ennustajaid sisaldavate kujunduste puhul (kuna kategoorilisi ennustajaid lihtsalt pole). Olenemata valitud kodeerimismeetodist suurendatakse pidevate muutujate väärtusi vastavalt ja kasutatakse X muutujate väärtustena. Sel juhul ümberkodeerimist ei teostata. Lisaks võite regressiooniplaanide kirjeldamisel jätta arvestamata kujundusmaatriksi X ja töötada ainult regressioonivõrrandiga.

Näide: Lihtne regressioonianalüüs

See näide kasutab tabelis esitatud andmeid:

Riis. 3. Algandmete tabel.

Andmed on koostatud 1960. ja 1970. aasta rahvaloenduse võrdlusest juhuslikult valitud 30 maakonnas. Maakonnanimed esitatakse vaatlusnimedena. Teave iga muutuja kohta on esitatud allpool:

Riis. 4. Muutuvate spetsifikatsioonide tabel.

Uurimisprobleem

Selle näite puhul analüüsitakse korrelatsiooni vaesuse määra ja allapoole vaesuspiiri jäävate perede protsenti ennustava määra vahel. Seetõttu käsitleme muutujat 3 (Pt_Poor) sõltuva muutujana.

Võime püstitada hüpoteesi: rahvaarvu muutused ja allapoole vaesuspiiri jäävate perede protsent on omavahel seotud. Tundub mõistlik eeldada, et vaesus toob kaasa väljarände, mistõttu oleks alla vaesuspiiri jäävate inimeste osakaalu ja rahvastiku muutuse vahel negatiivne korrelatsioon. Seetõttu käsitleme muutujat 1 (Pop_Chng) ennustava muutujana.

Vaata tulemusi

Regressioonikoefitsiendid

Riis. 5. Pt_Poor regressioonikoefitsiendid Pop_Chng.

Pop_Chng rea ja veeru Param ristumiskohas. standardeerimata koefitsient Pt_Poor regressiooni jaoks Pop_Chng'il on -0,40374. See tähendab, et iga rahvaarvu vähenemise ühiku kohta suureneb vaesuse määr 0,40374 võrra. Selle standardimata koefitsiendi ülemine ja alumine (vaikimisi) 95% usalduspiir ei sisalda nulli, seega on regressioonikoefitsient p-tasemel oluline<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Muutuv jaotus

Korrelatsioonikordajad võivad muutuda oluliselt üle- või alahinnatuks, kui andmetes on suured kõrvalekalded. Uurime sõltuva muutuja Pt_Poor jaotust linnaosade kaupa. Selleks koostame muutuja Pt_Poor histogrammi.

Riis. 6. Muutuja Pt_Poor histogramm.

Nagu näete, erineb selle muutuja jaotus normaaljaotusest märgatavalt. Kuigi isegi kahes maakonnas (kaks parempoolset veergu) on suurem protsent perekondi, kes jäävad allapoole vaesuspiiri, kui normaaljaotuse korral eeldati, näivad nad olevat "vahemikus".

Riis. 7. Muutuja Pt_Poor histogramm.

See otsus on mõnevõrra subjektiivne. Rusikareegel on, et kõrvalekaldeid tuleks arvestada, kui vaatlus (või vaatlused) ei jää intervalli (keskmine ± 3 korda) standardhälve). Sel juhul tasub analüüsi korrata nii kõrvalekalletega kui ka ilma, et need ei avaldaks populatsiooniliikmete vahelisele korrelatsioonile suurt mõju.

Hajuvusdiagramm

Kui üks hüpoteesidest on a priori antud muutujate vahelise seose kohta, siis on kasulik seda testida vastava hajuvusdiagrammi graafikul.

Riis. 8. Hajumisdiagramm.

Hajuvusdiagramm näitab selget negatiivset korrelatsiooni (-.65) kahe muutuja vahel. See näitab ka regressioonijoone 95% usaldusvahemikku, st on 95% tõenäosus, et regressioonijoon asub kahe punktiirkõvera vahel.

Olulisuse kriteeriumid

Riis. 9. Olulisuse kriteeriume sisaldav tabel.

Pop_Chng regressioonikordaja test kinnitab, et Pop_Chng on tugevalt seotud Pt_Poor , p<.001 .

Alumine joon

See näide näitas, kuidas analüüsida lihtsat regressioonidisaini. Esitati ka standardiseerimata ja standardiseeritud regressioonikordajate tõlgendused. Arutletakse sõltuva muutuja vastusejaotuse uurimise tähtsusest ning demonstreeritakse ennustaja ja sõltuva muutuja vahelise seose suuna ja tugevuse määramise tehnikat.

Regressioonanalüüs on statistiline uurimismeetod, mis võimaldab näidata konkreetse parameetri sõltuvust ühest või mitmest sõltumatust muutujast. Arvutieelsel ajal oli selle kasutamine üsna keeruline, eriti kui tegemist oli suurte andmemahtudega. Täna, olles õppinud Excelis regressiooni koostama, saate keerukaid statistilisi probleeme lahendada vaid paari minutiga. Allpool on toodud konkreetsed näited majandusvaldkonnast.

Regressiooni tüübid

See mõiste ise võeti matemaatikas kasutusele 1886. aastal. Regressioon toimub:

  • lineaarne;
  • paraboolne;
  • rahusti;
  • eksponentsiaalne;
  • hüperboolne;
  • demonstratiivne;
  • logaritmiline.

Näide 1

Vaatleme probleemi, kuidas määrata lahkunud meeskonnaliikmete arvu sõltuvust 6 tööstusettevõtte keskmisest palgast.

Ülesanne. Kuues ettevõttes analüüsiti keskmist kuupalka ja omal soovil töölt lahkunud töötajate arvu. Tabeli kujul on meil:

Lõpetanud inimeste arv

Palk

30 000 rubla

35 000 rubla

40 000 rubla

45 000 rubla

50 000 rubla

55 000 rubla

60 000 rubla

Et määrata töölt lahkuvate töötajate arvu sõltuvust 6 ettevõtte keskmisest palgast, on regressioonimudelil võrrand Y = a 0 + a 1 x 1 +...+a k x k, kus x i on mõjutavad muutujad, a i on regressioonikoefitsiendid ja k tegurite arv.

Selle probleemi puhul on Y töötajatest lahkumise näitaja ja mõjuteguriks palk, mida tähistame X-ga.

Exceli tabeliprotsessori võimaluste kasutamine

Exceli regressioonianalüüsile peab eelnema sisseehitatud funktsioonide rakendamine olemasolevatele tabeliandmetele. Nendel eesmärkidel on siiski parem kasutada väga kasulikku lisandmoodulit "Analysis Pack". Selle aktiveerimiseks vajate:

  • minge vahekaardilt "Fail" jaotisesse "Valikud";
  • avanevas aknas valige rida "Lisandmoodulid";
  • klõpsake alloleval real "Haldamine" paremal asuval nupul "Mine";
  • märkige ruut nimetuse "Analüüsipakett" kõrval ja kinnitage oma tegevus, klõpsates "Ok".

Kui kõik on õigesti tehtud, ilmub Exceli töölehe kohal asuva vahekaardi "Andmed" paremale küljele vajalik nupp.

Excelis

Nüüd, kui meil on ökonomeetriliste arvutuste tegemiseks kõik vajalikud virtuaalsed tööriistad käepärast, saame hakata oma probleemi lahendama. Selle jaoks:

  • Klõpsake nuppu "Andmete analüüs";
  • avanevas aknas klõpsake nuppu "Regressioon";
  • Sisestage ilmuvale vahekaardile Y (töölt lahkuvate töötajate arv) ja X (nende palgad) väärtuste vahemik;
  • Kinnitame oma toimingud, vajutades nuppu "Ok".

Selle tulemusena täidab programm uue tabeli automaatselt regressioonanalüüsi andmetega. Märge! Excel võimaldab teil selleks eelistatud asukoha käsitsi määrata. Näiteks võib see olla sama leht, kus asuvad Y- ja X-väärtused, või isegi uus töövihik, mis on spetsiaalselt loodud selliste andmete salvestamiseks.

R-ruudu regressioonitulemuste analüüs

Excelis on vaadeldava näite andmete töötlemisel saadud andmed kujul:

Kõigepealt peaksite pöörama tähelepanu R-ruudu väärtusele. See tähistab määramiskoefitsienti. Selles näites on R-ruut = 0,755 (75,5%), st mudeli arvutatud parameetrid selgitavad vaadeldavate parameetrite vahelist seost 75,5%. Mida suurem on determinatsioonikoefitsiendi väärtus, seda sobivam on valitud mudel konkreetse ülesande jaoks. Seda peetakse tegelikku olukorda õigesti kirjeldavaks, kui R-ruudu väärtus on üle 0,8. Kui R-ruut<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Koefitsientide analüüs

Arv 64.1428 näitab, milline on Y väärtus, kui kõik meie vaadeldava mudeli muutujad xi nullitakse. Teisisõnu võib väita, et analüüsitava parameetri väärtust mõjutavad ka muud tegurid, mida konkreetses mudelis ei kirjeldata.

Järgmine koefitsient -0,16285, mis asub lahtris B18, näitab muutuja X mõju osakaalu Y-le. See tähendab, et töötajate keskmine kuupalk vaadeldava mudeli raames mõjutab loobujate arvu kaaluga -0,16285, s.o. selle mõju aste on täiesti väike. Märk "-" näitab, et koefitsient on negatiivne. See on ilmne, sest kõik teavad, et mida kõrgem on palk ettevõttes, seda vähem inimesi avaldab soovi tööleping lõpetada või töölt lahkuda.

Mitmekordne regressioon

See termin viitab suhtevõrrandile mitme sõltumatu muutujaga kujul:

y=f(x 1 +x 2 +…x m) + ε, kus y on resultanttunnus (sõltuv muutuja) ja x 1, x 2,…x m on faktorikarakteristikud (sõltumatud muutujad).

Parameetri hinnang

Mitmekordse regressiooni (MR) puhul kasutatakse vähimruutude meetodit (OLS). Lineaarvõrrandite kujul Y = a + b 1 x 1 +…+b m x m + ε konstrueerime normaalvõrrandite süsteemi (vt allpool)

Meetodi põhimõtte mõistmiseks kaaluge kahefaktorilist juhtumit. Siis on meil valemiga kirjeldatud olukord

Siit saame:

kus σ on indeksis kajastatud vastava tunnuse dispersioon.

OLS on rakendatav MR võrrandile standardskaalal. Sel juhul saame võrrandi:

milles t y, t x 1, … t xm on standardiseeritud muutujad, mille keskmised väärtused on 0; β i on standardsed regressioonikoefitsiendid ja standardhälve on 1.

Pange tähele, et kõik β i on antud juhul normaliseeritud ja tsentraliseeritud, seetõttu peetakse nende omavahelist võrdlemist õigeks ja vastuvõetavaks. Lisaks on tavaks tegurid välja sõeluda, jättes kõrvale need, mille βi väärtus on madalaim.

Probleem lineaarse regressiooni võrrandi kasutamisel

Oletame, et meil on konkreetse toote N hinnadünaamika tabel viimase 8 kuu jooksul. On vaja teha otsus selle partii ostmise otstarbekuse kohta hinnaga 1850 rubla / t.

kuu number

kuu nimi

toote hind N

1750 rubla tonni kohta

1755 rubla tonni kohta

1767 rubla tonni kohta

1760 rubla tonni kohta

1770 rubla tonni kohta

1790 rubla tonni kohta

1810 rubla tonni kohta

1840 rubla tonni kohta

Selle probleemi lahendamiseks Exceli tabeliprotsessoris peate kasutama tööriista "Andmeanalüüs", mis on juba tuntud ülaltoodud näitest. Järgmisena valige jaotis "Regressioon" ja määrake parameetrid. Tuleb meeles pidada, et väljale "Sisestusintervall Y" tuleb sisestada sõltuva muutuja väärtuste vahemik (antud juhul kaupade hinnad aasta konkreetsetel kuudel) ja väljale "Sisestusvahemik X" - sõltumatu muutuja (kuu number). Kinnitage toiming, klõpsates "OK". Uuel lehel (kui nii on märgitud) saame andmed regressiooniks.

Nende abil konstrueerime lineaarvõrrandi kujul y=ax+b, kus parameetrid a ja b on kuu numbri nimetusega rea ​​koefitsiendid ning koefitsiendid ja sirged “Y-ristik” lehelt koos regressioonanalüüsi tulemused. Seega on ülesande 3 lineaarse regressiooni võrrand (LR) kirjutatud järgmiselt:

Toote hind N = 11.714* kuu number + 1727.54.

või algebralises tähistuses

y = 11,714 x + 1727,54

Tulemuste analüüs

Otsustamaks, kas saadud lineaarse regressiooni võrrand on adekvaatne, kasutatakse mitmekordse korrelatsiooni (MCC) ja määramise kordajaid, samuti Fisheri testi ja Studenti t-testi. Regressioonitulemustega Exceli tabelis nimetatakse neid vastavalt mitmekordseks R-iks, R-ruuduks, F-statistiks ja t-statistiks.

KMC R võimaldab hinnata sõltumatute ja sõltuvate muutujate vahelise tõenäosusliku seose lähedust. Selle kõrge väärtus näitab üsna tugevat seost muutujate “Kuu arv” ja “Toote N hind rublades 1 tonni kohta” vahel. Selle suhte olemus jääb aga teadmata.

Determinantkoefitsiendi R2 (RI) ruut on summaarse hajuvuse osakaalu arvnäitaja ja näitab hajumist, millise katseandmete osa, s.o. sõltuva muutuja väärtused vastavad lineaarse regressiooni võrrandile. Vaadeldava ülesande puhul on see väärtus 84,8%, st saadud SD kirjeldab statistilisi andmeid suure täpsusega.

F-statistikat, mida nimetatakse ka Fisheri testiks, kasutatakse lineaarse seose olulisuse hindamiseks, lükates ümber või kinnitades selle olemasolu hüpoteesi.

(Õpilase test) aitab hinnata koefitsiendi olulisust lineaarse seose tundmatu või vaba liikmega. Kui t-testi väärtus > t cr, siis hüpotees vaba liikme ebaolulisuse kohta lineaarvõrrand tagasi lükatud.

Vaadeldavas vabaliikme ülesandes saadi Exceli tööriistu kasutades, et t = 169,20903 ja p = 2,89E-12, st meil on null tõenäosus, et õige hüpotees vaba liikme ebaolulisusest lükatakse ümber. . Tundmatu koefitsiendi jaoks t=5,79405 ja p=0,001158. Teisisõnu, tõenäosus, et õige hüpotees tundmatu koefitsiendi ebaolulisuse kohta lükatakse ümber, on 0,12%.

Seega võib väita, et saadud lineaarse regressiooni võrrand on adekvaatne.

Aktsiapaketi ostmise otstarbekuse probleem

Excelis tehakse mitu regressiooni, kasutades sama andmeanalüüsi tööriista. Vaatleme konkreetset rakenduseprobleemi.

Ettevõtte NNN juhtkond peab otsustama MMM JSC 20% osaluse ostmise otstarbekuse üle. Paketi (SP) maksumus on 70 miljonit USA dollarit. NNN-i spetsialistid on kogunud andmeid sarnaste tehingute kohta. Aktsiapaketi väärtust otsustati hinnata selliste parameetrite järgi, väljendatuna miljonites USA dollarites:

  • võlgnevused (VK);
  • aasta käibe maht (VO);
  • saadaolevad arved (VD);
  • põhivara maksumus (COF).

Lisaks kasutatakse parameetrit ettevõtte palgavõlgnevus (V3 P) tuhandetes USA dollarites.

Lahendus Exceli tabeliprotsessori abil

Kõigepealt peate looma lähteandmete tabeli. See näeb välja selline:

  • avage aken "Andmete analüüs";
  • valige jaotis "Regressioon";
  • Sisestage väljale "Sisestusintervall Y" veerust G olevate sõltuvate muutujate väärtuste vahemik;
  • Klõpsake aknast "Sisestusintervall X" paremal asuval punase noolega ikooni ja tõstke esile kõigi väärtuste vahemik lehe veergudest B, C, D, F.

Märkige üksus "Uus tööleht" ja klõpsake "OK".

Hankige antud probleemi jaoks regressioonianalüüs.

Tulemuste uurimine ja järeldused

"Kogume" regressioonivõrrandi ülaltoodud Exceli tabelis esitatud ümardatud andmetest:

SP = 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

Tuntumal matemaatilisel kujul võib selle kirjutada järgmiselt:

y = 0,103 * x 1 + 0,541 * x 2 - 0,031 * x 3 + 0,405 * x 4 + 0,691 * x 5 - 265,844

MMM JSC andmed on esitatud tabelis:

Asendades need regressioonivõrrandisse, saame arvuks 64,72 miljonit USA dollarit. See tähendab, et MMM JSC aktsiaid ei tasu osta, kuna nende väärtus 70 miljonit USA dollarit on üsna paisutatud.

Nagu näha, võimaldas Exceli tabeli ja regressioonivõrrandi kasutamine teha teadliku otsuse väga konkreetse tehingu teostatavuse osas.

Nüüd teate, mis on regressioon. Eespool käsitletud Exceli näited aitavad teil lahendada ökonomeetria valdkonna praktilisi probleeme.

Varasemates postitustes keskendus analüüs sageli ühele numbrilisele muutujale, nagu investeerimisfondide tootlus, veebilehe laadimisaeg või karastusjookide tarbimine. Selles ja järgmistes märkustes vaatleme arvulise muutuja väärtuste ennustamise meetodeid sõltuvalt ühe või mitme muu arvmuutuja väärtustest.

Materjali illustreeritakse läbiva näitega. Müügimahu prognoosimine riidepoes. Soodusrõivaste kaupluste kett Sunflowers on 25 aastat pidevalt laienenud. Samas puudub ettevõttel praegu süsteemne lähenemine uute müügikohtade valikule. Asukoht, kus ettevõte kavatseb uue kaupluse avada, määratakse subjektiivsete kaalutluste alusel. Valikukriteeriumiks on soodsad renditingimused või juhataja ettekujutus ideaalsest kaupluse asukohast. Kujutage ette, et olete eriprojektide ja planeerimise osakonna juht. Olete saanud ülesandeks välja töötada strateegiline plaan uute kaupluste avamiseks. See plaan peaks sisaldama äsja avatud kaupluste aastase müügiprognoosi. Arvate, et jaemüügipind on otseselt seotud tuludega, ja soovite seda oma otsustusprotsessis arvesse võtta. Kuidas töötate välja statistilise mudeli, et ennustada aastakäivet uue poe suuruse põhjal?

Tavaliselt kasutatakse muutuja väärtuste ennustamiseks regressioonanalüüsi. Selle eesmärk on välja töötada statistiline mudel, mis suudab ennustada sõltuva muutuja või vastuse väärtusi vähemalt ühe sõltumatu või selgitava muutuja väärtuste põhjal. Selles märkuses vaatleme lihtsat lineaarset regressiooni - statistilist meetodit, mis võimaldab ennustada sõltuva muutuja väärtusi Y sõltumatute muutujate väärtuste järgi X. Järgnevates märkustes kirjeldatakse mitmekordset regressioonimudelit, mis on loodud sõltumatu muutuja väärtuste ennustamiseks Y põhineb mitme sõltuva muutuja väärtustel ( X 1, X 2, …, X k).

Laadige märkus alla või vormingus, näited vormingus

Regressioonimudelite tüübid

Kus ρ 1 – autokorrelatsioonikordaja; Kui ρ 1 = 0 (autokorrelatsioon puudub), D≈ 2; Kui ρ 1 ≈ 1 (positiivne autokorrelatsioon), D≈ 0; Kui ρ 1 = -1 (negatiivne autokorrelatsioon), D ≈ 4.

Praktikas põhineb Durbin-Watsoni kriteeriumi rakendamine väärtuse võrdlemisel D kriitiliste teoreetiliste väärtustega d L Ja dU etteantud arvu vaatluste jaoks n, mudeli sõltumatute muutujate arv k(lihtsa lineaarse regressiooni jaoks k= 1) ja olulisuse tase α. Kui D< d L , lükatakse tagasi hüpotees juhuslike kõrvalekallete sõltumatuse kohta (seega on positiivne autokorrelatsioon); Kui D>dU, hüpoteesi ei lükata tagasi (st puudub autokorrelatsioon); Kui d L< D < d U , ei ole otsuse tegemiseks piisavat alust. Kui arvutatud väärtus Dületab 2, siis koos d L Ja dU Koefitsienti ennast ei võrrelda D ja avaldis (4 – D).

Durbin-Watsoni statistika arvutamiseks Excelis pöördume joonisel fig. 14 Tasakaalu tagasivõtmine. Lugeja avaldises (10) arvutatakse funktsiooni =SUMMAR(massiivi1;massiivi2) ja nimetaja =SUMMAR(massiivi) abil (joonis 16).

Riis. 16. Durbin-Watsoni statistika arvutamise valemid

Meie näites D= 0,883. Peamine küsimus on järgmine: millist Durbin-Watsoni statistika väärtust tuleks pidada piisavalt väikeseks, et järeldada positiivse autokorrelatsiooni olemasolust? On vaja korreleerida D väärtus kriitiliste väärtustega ( d L Ja dU), olenevalt vaatluste arvust n ja olulisuse tase α (joonis 17).

Riis. 17. Durbin-Watsoni statistika kriitilised väärtused (tabeli fragment)

Seega on kaupa koju tarniva kaupluse müügimahu probleemis üks sõltumatu muutuja ( k= 1), 15 vaatlust ( n= 15) ja olulisuse tase α = 0,05. Seega d L= 1,08 ja dU= 1,36. Kuna D = 0,883 < d L= 1,08, jääkide vahel on positiivne autokorrelatsioon, vähimruutude meetodit ei saa kasutada.

Hüpoteeside testimine kalde ja korrelatsioonikordaja kohta

Eespool kasutati regressiooni ainult prognoosimiseks. Regressioonikordajate määramiseks ja muutuja väärtuse ennustamiseks Y antud muutuja väärtuse jaoks X Kasutati vähimruutude meetodit. Lisaks uurisime hinnangu ruutkeskmist viga ja segakorrelatsioonikordajat. Kui jääkide analüüs kinnitab, et vähimruutude meetodi rakendatavuse tingimusi ei rikuta ja lihtne lineaarse regressiooni mudel on adekvaatne, võib näidisandmete põhjal väita, et muutujate vahel on lineaarne seos. elanikkonnast.

Rakendust -kalde kriteeriumid. Testides, kas populatsiooni kalle β 1 on võrdne nulliga, saate kindlaks teha, kas muutujate vahel on statistiliselt oluline seos X Ja Y. Kui see hüpotees tagasi lükata, võib väita, et muutujate vahel X Ja Y on lineaarne seos. Null- ja alternatiivhüpotees on sõnastatud järgmiselt: H 0: β 1 = 0 (lineaarne sõltuvus puudub), H1: β 1 ≠ 0 (on lineaarne sõltuvus). A-prioor t-statistika võrdub valimi kalde ja populatsiooni kalde hüpoteetilise väärtuse vahega, mis on jagatud kalde hinnangu ruutkeskmise veaga:

(11) t = (b 1 β 1 ) / S b 1

Kus b 1 – valimiandmete otsese regressiooni kalle, β1 – otsese populatsiooni hüpoteetiline kalle, ja teststatistikat t Sellel on t-jaotus koos n-2 vabadusastmed.

Kontrollime, kas poe suuruse ja aastamüügi vahel on statistiliselt oluline seos α = 0,05 juures. t- kriteerium kuvatakse koos teiste parameetritega, kui seda kasutatakse Analüüsi pakett(valik Regressioon). Analüüsipaketi täielikud tulemused on näidatud joonisel fig. 4, t-statistikaga seotud fragment – ​​joonisel fig. 18.

Riis. 18. Taotluste tulemused t

Kuna kaupluste arv n= 14 (vt joonis 3), kriitiline väärtus t-statistikat olulisuse tasemel α = 0,05 saab leida järgmise valemi abil: t L=ÕPILAS.ARV(0,025;12) = –2,1788, kus 0,025 on pool olulisuse tasemest ja 12 = n – 2; t U=TUDENG.OBR(0,975;12) = +2,1788.

Kuna t-statistika = 10,64 > t U= 2,1788 (joonis 19), nullhüpotees H 0 tagasi lükatud. Teisel pool, R- väärtus X= 10,6411, mis on arvutatud valemiga =1-ÕPILAS.DIST(D3,12,TRUE), on ligikaudu võrdne nulliga, seega on hüpotees H 0 jälle tagasi lükatud. Asjaolu, et R-väärtus peaaegu null tähendab, et kui poe suuruse ja aastamüügi vahel poleks tõelist lineaarset seost, oleks seda lineaarse regressiooni abil praktiliselt võimatu tuvastada. Seetõttu on keskmise aastase kaupluse müügi ja kaupluse suuruse vahel statistiliselt oluline lineaarne seos.

Riis. 19. Hüpoteesi kontrollimine populatsiooni kalde kohta olulisuse tasemel 0,05 ja 12 vabadusastet

RakendusF -kalde kriteeriumid. Lihtsa lineaarse regressiooni tõusu hüpoteeside kontrollimise alternatiivne lähenemisviis on kasutada F- kriteeriumid. Tuletame teile seda meelde F-testi kasutatakse kahe dispersiooni vahelise seose testimiseks (vt täpsemalt). Kaldehüpoteesi testimisel on juhuslike vigade mõõduks vea dispersioon (vigade ruudu summa jagatud vabadusastmete arvuga), nii et F-kriteerium kasutab regressiooniga seletatava dispersiooni suhet (st väärtust SSR, jagatud sõltumatute muutujate arvuga k), vea dispersioonini ( MSE = S YX 2 ).

A-prioor F-statistika võrdub regressiooni keskmise ruuduga (MSR), mis on jagatud vea dispersiooniga (MSE): F = MSR/ MSE, Kus MSR=SSR / k, MSE =SSE/(n– k – 1), k– sõltumatute muutujate arv regressioonimudelis. Testi statistika F Sellel on F-jaotus koos k Ja n– k – 1 vabadusastmed.

Antud olulisuse taseme α puhul formuleeritakse otsustusreegel järgmiselt: kui F>FU, nullhüpotees lükatakse tagasi; vastasel juhul seda tagasi ei lükata. Tulemused esitatakse vormis pöördetabel dispersioonanalüüs on näidatud joonisel fig. 20.

Riis. 20. Dispersioonianalüüsi tabel regressioonikordaja statistilise olulisuse hüpoteesi kontrollimiseks

Samamoodi t- kriteerium F-kriteerium kuvatakse tabelis, kui seda kasutatakse Analüüsi pakett(valik Regressioon). Töö täielikud tulemused Analüüsi pakett on näidatud joonisel fig. 4, fragment seotud F-statistika – joonisel fig. 21.

Riis. 21. Taotluste tulemused F-kriteeriumid, mis on saadud Exceli analüüsipaketi abil

F-statistika on 113,23 ja R- nullilähedane väärtus (lahter TähtsusF). Kui olulisuse tase α on 0,05, määrake kriitiline väärtus F-valemi abil saab ühe ja 12 vabadusastmega jaotusi F U=F.OBR(1-0,05;1;12) = 4,7472 (joonis 22). Kuna F = 113,23 > F U= 4,7472 ja R- väärtus on lähedane 0-le< 0,05, нулевая гипотеза H 0 lükatakse tagasi, s.o. Poe suurus on tihedalt seotud selle aastamüügiga.

Riis. 22. Populatsiooni kalde hüpoteesi testimine olulisuse tasemel 0,05 ühe ja 12 vabadusastmega

Usaldusvahemik, mis sisaldab kallet β 1 . Et testida hüpoteesi, et muutujate vahel on lineaarne seos, saate koostada usaldusvahemiku, mis sisaldab kallet β 1, ja kontrollida, kas hüpoteetiline väärtus β 1 = 0 kuulub sellesse intervalli. Kallet β 1 sisaldava usaldusvahemiku keskpunkt on valimi kalle b 1 , ja selle piirid on kogused b 1 ±tn –2 S b 1

Nagu on näidatud joonisel fig. 18, b 1 = +1,670, n = 14, S b 1 = 0,157. t 12 =ÕPILANE.ARV(0,975;12) = 2,1788. Seega b 1 ±tn –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 või + 1,328 ≤ β 1 ≤ +2,012. Seega on tõenäosus 0,95, et rahvastiku kalle on vahemikus +1,328 kuni +2,012 (st 1 328 000 kuni 2 012 000 dollarit). Kuna need väärtused on suuremad kui null, on aastase müügi ja kaupluse pindala vahel statistiliselt oluline lineaarne seos. Kui usaldusvahemik sisaldaks nulli, poleks muutujate vahel seost. Lisaks tähendab usaldusvahemik, et iga kaupluse pindala suureneb 1000 ruutmeetri võrra. ft toob kaasa keskmise müügimahu kasvu vahemikus $ 1 328 000 kuni $ 2 012 000.

Kasutaminet -korrelatsioonikordaja kriteeriumid. võeti kasutusele korrelatsioonikordaja r, mis on kahe arvmuutuja vahelise seose mõõt. Selle abil saab määrata, kas kahe muutuja vahel on statistiliselt oluline seos. Korrelatsioonikordaja mõlema muutuja populatsioonide vahel tähistame sümboliga ρ. Null- ja alternatiivsed hüpoteesid on sõnastatud järgmiselt: H 0: ρ = 0 (korrelatsioon puudub), H 1: ρ ≠ 0 (seal on korrelatsioon). Korrelatsiooni olemasolu kontrollimine:

Kus r = + , Kui b 1 > 0, r = – , Kui b 1 < 0. Тестовая статистика t Sellel on t-jaotus koos n-2 vabadusastmed.

Probleemis kaupluseketi Sunflowers kohta r 2= 0,904, a b 1- +1,670 (vt joonis 4). Kuna b 1> 0, on aastase müügi ja kaupluse suuruse korrelatsioonikoefitsient r= +√0,904 = +0,951. Testime nullhüpoteesi, et nende muutujate vahel puudub korrelatsioon t- statistika:

Olulisuse tasemel α = 0,05 tuleks nullhüpotees tagasi lükata, kuna t= 10,64 > 2,1788. Seega võib väita, et aastamüügi ja kaupluse suuruse vahel on statistiliselt oluline seos.

Populatsiooni tõusu puudutavate järelduste arutamisel kasutatakse usaldusvahemikke ja hüpoteeside teste vaheldumisi. Korrelatsioonikordaja sisaldava usaldusvahemiku arvutamine osutub aga keerulisemaks, kuna statistika valimijaotuse tüüp r sõltub tegelikust korrelatsioonikordajast.

Matemaatilise ootuse hindamine ja individuaalsete väärtuste prognoosimine

Selles jaotises käsitletakse vastuse matemaatilise ootuse hindamise meetodeid Y ja individuaalsete väärtuste prognoosid Y muutuja antud väärtuste jaoks X.

Usaldusvahemiku konstrueerimine. Näites 2 (vt ülaltoodud jaotist Vähima ruudu meetod) regressioonivõrrand võimaldas ennustada muutuja väärtust Y X. Jaemüügikoha asukoha valimise probleemis on keskmine aastane müügimaht kaupluses, mille pindala on 4000 ruutmeetrit. jalg oli võrdne 7,644 miljoni dollariga. See üldrahvastiku matemaatiliste ootuste hinnang on aga punkt-tark. Üldkogumi matemaatilise ootuse hindamiseks pakuti välja usaldusvahemiku kontseptsioon. Samamoodi saame kontseptsiooni tutvustada vastuse matemaatilise ootuse usaldusvahemik juures seatud väärtus muutuv X:

Kus , = b 0 + b 1 X i– prognoositav väärtus on muutuv Y juures X = X i, S YX– ruutkeskmine viga, n- näidissuurus, Xi- muutuja määratud väärtus X, µ Y|X = Xioodatud väärtus muutuv Y juures X = Xi, SSX =

Valemi (13) analüüs näitab, et usaldusvahemiku laius sõltub mitmest tegurist. Antud olulisuse tasemel viib kõikumiste amplituudi suurenemine regressioonijoone ümber, mõõdetuna ruutkeskmise vea abil, intervalli laiuse suurenemiseni. Teisest küljest, nagu arvata võib, kaasneb valimi suuruse suurenemisega intervalli ahenemine. Lisaks muutub intervalli laius sõltuvalt väärtustest Xi. Kui muutuja väärtus Y prognoositud koguste jaoks X, keskmise väärtuse lähedal , osutub usaldusvahemik kitsamaks kui keskmisest kaugel olevate väärtuste vastuse ennustamisel.

Oletame, et kaupluse asukoha valikul soovime konstrueerida kõigi kaupluste, mille pindala on 4000 ruutmeetrit, keskmisele aastasele müügile 95% usaldusvahemikku. jalad:

Seetõttu on kõigis kauplustes, mille pindala on 4000 ruutmeetrit, keskmine aastane müügimaht. jalga, 95% tõenäosusega jääb vahemikku 6,971–8,317 miljonit dollarit.

Arvutage prognoositud väärtuse usaldusvahemik. Lisaks sellele muutuja antud väärtuse vastuse matemaatilise ootuse usaldusvahemikule X, on sageli vaja teada ennustatud väärtuse usaldusvahemikku. Kuigi sellise usaldusvahemiku arvutamise valem on väga sarnane valemiga (13), sisaldab see intervall pigem prognoositavat väärtust kui parameetri hinnangut. Prognoositava vastuse intervall YX = Xi konkreetse muutuja väärtuse jaoks Xi määratakse valemiga:

Oletame, et jaemüügikoha asukoha valikul soovime 4000 ruutmeetri suuruse kaupluse prognoositava aastase müügimahu jaoks konstrueerida 95% usaldusvahemiku. jalad:

Seetõttu on 4000 ruutmeetri suuruse kaupluse prognoositav aastane müügimaht. jalga, jääb 95% tõenäosusega vahemikku 5,433 kuni 9,854 miljonit dollarit Nagu näeme, on prognoositud vastuse väärtuse usaldusvahemik palju laiem kui selle matemaatilise ootuse usaldusvahemik. Selle põhjuseks on asjaolu, et individuaalsete väärtuste prognoosimise varieeruvus on palju suurem kui matemaatilise ootuse hindamisel.

Regressiooni kasutamisega seotud lõksud ja eetilised probleemid

Regressioonanalüüsiga seotud raskused:

  • Vähimruutude meetodi rakendamistingimuste eiramine.
  • Vähimruutude meetodi rakendatavuse tingimuste ekslik hindamine.
  • Alternatiivsete meetodite vale valik, kui on rikutud vähimruutude meetodi kohaldamistingimusi.
  • Regressioonanalüüsi rakendamine ilma uurimisobjekti sügavate teadmisteta.
  • Regressiooni ekstrapoleerimine väljaspool selgitava muutuja vahemikku.
  • Segadus statistiliste ja põhjuslike seoste vahel.

Arvutustabelite laialdane kasutamine ja tarkvara statistiliste arvutuste jaoks kõrvaldas arvutusprobleemid, mis takistasid regressioonanalüüsi kasutamist. See aga viis selleni, et regressioonanalüüsi kasutasid kasutajad, kellel puudus piisav kvalifikatsioon ja teadmised. Kuidas saavad kasutajad teada alternatiivsetest meetoditest, kui paljudel neist ei ole vähimatki mõtet vähimruutude meetodi kohaldamistingimuste kohta ja ei tea, kuidas nende täitmist kontrollida?

Uurija ei tohiks lasta end krigistada numbritega – nihke, kalde ja segakorrelatsioonikordaja arvutamisega. Ta vajab sügavamaid teadmisi. Illustreerime seda õpikutest võetud klassikalise näitega. Anscombe näitas, et kõik neli joonisel fig. 23, on samade regressiooniparameetritega (joonis 24).

Riis. 23. Neli tehisandmekogumit

Riis. 24. Nelja tehisandmestiku regressioonanalüüs; tehtud Analüüsi pakett(pildi suurendamiseks klõpsake pildil)

Seega on regressioonanalüüsi seisukohast kõik need andmekogumid täiesti identsed. Kui analüüs oleks sellega lõppenud, oleksime palju kaotanud kasulik informatsioon. Seda tõendavad nende andmekogumite jaoks koostatud hajuvusdiagrammid (joonis 25) ja jääkgraafikud (joonis 26).

Riis. 25. Nelja andmekogumi hajuvusdiagrammid

Hajumisdiagrammid ja jääkdiagrammid näitavad, et need andmed erinevad üksteisest. Ainus hulk, mis on jaotatud piki sirgjoont, on hulk A. Hulgi A arvutatud jääkide graafikul ei ole mustrit. Seda ei saa öelda hulkade B, C ja D kohta. Hulga B jaoks koostatud hajuvusdiagramm näitab selgelt väljendunud ruutmustrit. Seda järeldust kinnitab paraboolse kujuga jääkgraafik. Hajumisdiagramm ja jääkdiagramm näitavad, et andmekogum B sisaldab kõrvalekaldeid. Sellises olukorras on vaja välistada andmestik ja analüüsi korrata. Vaatlustes kõrvalekallete tuvastamise ja kõrvaldamise meetodit nimetatakse mõjuanalüüsiks. Pärast kõrvalekalde kõrvaldamist võib mudeli ümberhindamise tulemus olla täiesti erinev. Komplekti G andmete põhjal joonistatud hajuvusdiagramm illustreerib ebatavalist olukorda, kus empiiriline mudel sõltub oluliselt individuaalsest vastusest ( X 8 = 19, Y 8 = 12,5). Selliseid regressioonimudeleid tuleb eriti hoolikalt arvutada. Niisiis, hajuvus- ja jääkkrundid on äärmiselt vajalik tööriist regressioonanalüüs ja see peaks olema selle lahutamatu osa. Ilma nendeta pole regressioonanalüüs usaldusväärne.

Riis. 26. Jääkgraafikud nelja andmekogumi jaoks

Kuidas regressioonanalüüsis lõkse vältida:

  • Muutujate vaheliste võimalike seoste analüüs X Ja Y alusta alati hajuvusdiagrammi joonistamisest.
  • Enne regressioonanalüüsi tulemuste tõlgendamist kontrollige selle rakendatavuse tingimusi.
  • Joonistage jäägid ja sõltumatu muutuja. See võimaldab kindlaks teha, kui hästi empiiriline mudel vaatlustulemustega ühtib, ja tuvastada dispersiooni püsivuse rikkumist.
  • Normaalse veajaotuse eelduse testimiseks kasutage histogramme, tüve ja lehtede graafikuid, kastdiagramme ja normaaljaotuse graafikuid.
  • Kui vähimruutude meetodi rakendamistingimused ei ole täidetud, kasutage alternatiivseid meetodeid (näiteks ruut- või mitmikregressioonimudeleid).
  • Kui vähimruutude meetodi rakendatavuse tingimused on täidetud, on vaja kontrollida hüpoteesi regressioonikordajate statistilise olulisuse kohta ning konstrueerida matemaatilist ootust ja prognoositavat vastuse väärtust sisaldavad usaldusvahemikud.
  • Vältige sõltuva muutuja väärtuste ennustamist väljaspool sõltumatu muutuja vahemikku.
  • Pidage meeles, et statistilised seosed ei ole alati põhjus-tagajärg. Pidage meeles, et muutujate vaheline korrelatsioon ei tähenda, et nende vahel oleks põhjus-tagajärg seos.

Kokkuvõte. Nagu näidatud plokkskeemil (Joonis 27), kirjeldatakse märkuses lihtsat lineaarse regressioonimudelit, selle rakendatavuse tingimusi ja nende tingimuste testimist. Arvestatud t-regressioonitõusu statistilise olulisuse testimise kriteerium. Sõltuva muutuja väärtuste ennustamiseks kasutati regressioonimudelit. Näitena käsitletakse jaemüügikoha asukoha valikuga seonduvat, milles vaadeldakse aastase müügimahu sõltuvust kaupluse pinnast. Saadud info võimaldab täpsemalt valida kaupluse asukohta ja prognoosida selle aastast müügimahtu. Järgmistes märkustes jätkatakse regressioonanalüüsi arutelu ja vaadeldakse ka mitmeid regressioonimudeleid.

Riis. 27. Märkuse struktuuriskeem

Kasutatud on materjale raamatust Levin jt Statistics for Managers. – M.: Williams, 2004. – Lk. 792–872

Kui sõltuv muutuja on kategooriline, tuleb kasutada logistilist regressiooni.

Graafilise meetodi kasutamine.
Seda meetodit kasutatakse uuritud majandusnäitajate vahelise seose vormi visuaalseks kujutamiseks. Selleks joonistatakse graafik ristkülikukujulises koordinaatsüsteemis, joonistades piki ordinaattelge. individuaalsed väärtused tulenev karakteristik Y ja x-telg on faktori karakteristiku X individuaalsed väärtused.
Resultant- ja faktorikarakteristikute punktide kogumit nimetatakse korrelatsiooniväli.
Korrelatsioonivälja põhjal võime (populatsiooni jaoks) oletada, et seos X ja Y kõigi võimalike väärtuste vahel on lineaarne.

Lineaarse regressiooni võrrand on kujul y = bx + a + ε
Siin ε - juhuslik viga(hälve, nördimus).
Juhusliku vea esinemise põhjused:
1. Regressioonimudeli oluliste selgitavate muutujate kaasamata jätmine;
2. Muutujate liitmine. Näiteks kogutarbimise funktsioon on katse väljendada üldiselt üksikute kuluotsuste kogusummat. See on ainult erinevate parameetritega individuaalsete suhete ligikaudne väärtus.
3. Mudeli struktuuri vale kirjeldus;
4. Vale funktsionaalne spetsifikatsioon;
5. Mõõtmisvead.
Kuna hälbed ε i iga konkreetse vaatluse i puhul on juhuslikud ja nende väärtused valimis on teadmata, siis:
1) vaatlustest x i ja y i saab ainult hinnanguid parameetritele α ja β
2) Regressioonimudeli parameetrite α ja β hinnangud on vastavalt väärtused a ja b, mis on olemuselt juhuslikud, sest vastavad juhuslikule valimile;
Siis on prognoosiv regressioonivõrrand (mis on koostatud näidisandmetest) kujul y = bx + a + ε, kus e i on vigade ε i vaadeldud väärtused (hinnangud) ning a ja b on vastavalt hinnangud regressioonimudeli parameetrid α ja β, mis tuleks leida.
Parameetrite α ja β hindamiseks kasutatakse vähimruutude meetodit (vähimruutude meetodit).
Normaalvõrrandite süsteem.

Meie andmete jaoks on võrrandisüsteem järgmine:

10a + 356b = 49
356a + 2135b = 9485

Esimesest võrrandist väljendame a ja asendame selle teise võrrandiga
Saame b = 68,16, a = 11,17

Regressioonivõrrand:
y = 68,16 x - 11,17

1. Regressioonivõrrandi parameetrid.
Näidis tähendab.



Näidisvariantsid.


Standardhälve

1.1. Korrelatsioonikordaja
Arvutame ühenduse tiheduse näitaja. See indikaator on valimi lineaarne korrelatsioonikordaja, mis arvutatakse järgmise valemiga:

Lineaarne korrelatsioonikordaja võtab väärtused -1 kuni +1.
Tunnustevahelised seosed võivad olla nõrgad ja tugevad (tihedad). Nende kriteeriume hinnatakse Chaddocki skaala järgi:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Meie näites on seos tunnuse Y ja faktori X vahel väga kõrge ja otsene.

1.2. Regressioonivõrrand(regressioonivõrrandi hinnang).

Lineaarse regressiooni võrrand on y = 68,16 x -11,17
Lineaarse regressioonivõrrandi kordajatele võib anda majandusliku tähenduse. Regressioonivõrrandi koefitsient näitab, mitu ühikut. tulemus muutub, kui tegur muutub 1 ühiku võrra.
Koefitsient b = 68,16 näitab efektiivse näitaja keskmist muutust (mõõtühikutes y) koos teguri x väärtuse suurenemise või vähenemisega selle mõõtühiku kohta. Selles näites suureneb y 1 ühiku võrra keskmiselt 68,16 võrra.
Koefitsient a = -11,17 näitab formaalselt y prognoositavat taset, kuid ainult siis, kui x = 0 on valimi väärtustele lähedane.
Kuid kui x = 0 on kaugel x valimi väärtustest, võib sõnasõnaline tõlgendus viia valede tulemusteni ja isegi kui regressioonisirge kirjeldab vaadeldud valimi väärtusi üsna täpselt, ei ole garantiid, et see ka nii siis, kui ekstrapoleeritakse vasakule või paremale.
Asendades regressioonivõrrandisse sobivad x väärtused, saame määrata iga vaatluse jaoks tulemusnäitaja y(x) joondatud (ennustatud) väärtused.
Seos y ja x vahel määrab regressioonikordaja b märgi (kui > 0 - otsesuhe, vastasel juhul - pöördvõrdeline). Meie näites on ühendus otsene.

1.3. Elastsustegur.
Ei ole soovitatav kasutada regressioonikoefitsiente (näites b), et hinnata otseselt tegurite mõju resultanttunnusele, kui resultantnäitaja y ja faktorikarakteristiku x mõõtühikutes on erinevus.
Nendel eesmärkidel arvutatakse elastsuskoefitsiendid ja beetakoefitsiendid. Elastsuskoefitsient leitakse järgmise valemiga:


See näitab, mitu protsenti keskmiselt muutub efektiivne atribuut y, kui teguri atribuut x muutub 1%. See ei võta arvesse tegurite kõikumise määra.
Meie näites on elastsustegur suurem kui 1. Seega, kui X muutub 1%, muutub Y rohkem kui 1%. Teisisõnu, X mõjutab oluliselt Y-d.
Beeta koefitsient näitab, millise osa võrra tema keskmine väärtus ruuthälve tulemuseks oleva tunnuse keskmine väärtus muutub, kui teguri karakteristik muutub selle standardhälbe võrra ülejäänud sõltumatute muutujate väärtusega, mis on fikseeritud konstantsel tasemel:

Need. x suurenemine selle näitaja standardhälbe võrra toob kaasa keskmise Y suurenemise selle näitaja 0,9796 standardhälbe võrra.

1.4. Ligikaudne viga.
Hindame regressioonivõrrandi kvaliteeti absoluutse lähenduse vea abil.


Kuna viga on üle 15%, ei ole soovitatav seda võrrandit regressioonina kasutada.

1.6. Määramiskoefitsient.
(Mitmekordse) korrelatsioonikordaja ruutu nimetatakse määramiskordajaks, mis näitab variatsiooni osakaalu resultantatribuudis, mida seletatakse faktoriatribuudi variatsiooniga.
Kõige sagedamini väljendatakse determinatsioonikoefitsiendi tõlgendamisel seda protsentides.
R2 = 0,982 = 0,9596
need. 95,96% juhtudest põhjustavad x muutused y muutusi. Teisisõnu, regressioonivõrrandi valimise täpsus on kõrge. Ülejäänud 4,04% Y muutusest on seletatav teguritega, mida mudelis ei ole arvesse võetud.

x y x 2 y 2 x y y(x) (y i -y cp) 2 (y-y(x)) 2 (x i -x cp) 2 |y - y x |:y
0.371 15.6 0.1376 243.36 5.79 14.11 780.89 2.21 0.1864 0.0953
0.399 19.9 0.1592 396.01 7.94 16.02 559.06 15.04 0.163 0.1949
0.502 22.7 0.252 515.29 11.4 23.04 434.49 0.1176 0.0905 0.0151
0.572 34.2 0.3272 1169.64 19.56 27.81 87.32 40.78 0.0533 0.1867
0.607 44.5 .3684 1980.25 27.01 30.2 0.9131 204.49 0.0383 0.3214
0.655 26.8 0.429 718.24 17.55 33.47 280.38 44.51 0.0218 0.2489
0.763 35.7 0.5822 1274.49 27.24 40.83 61.54 26.35 0.0016 0.1438
0.873 30.6 0.7621 936.36 26.71 48.33 167.56 314.39 0.0049 0.5794
2.48 161.9 6.17 26211.61 402 158.07 14008.04 14.66 2.82 0.0236
7.23 391.9 9.18 33445.25 545.2 391.9 16380.18 662.54 3.38 1.81

2. Regressioonivõrrandi parameetrite hindamine.
2.1. Korrelatsioonikordaja olulisus.

Kasutades Studenti tabelit olulisuse tasemega α=0,05 ja vabadusastmetega k=7, leiame t crit:
t crit = (7;0,05) = 1,895
kus m = 1 on selgitavate muutujate arv.
Kui t täheldatud > t kriitiline, siis loetakse saadud korrelatsioonikordaja väärtus oluliseks (nullhüpotees, mis väidab, et korrelatsioonikordaja on võrdne nulliga, lükatakse tagasi).
Kuna t obs > t crit, lükkame tagasi hüpoteesi, et korrelatsioonikordaja on 0. Teisisõnu, korrelatsioonikordaja on statistiliselt oluline
Paaris lineaarses regressioonis t 2 r = t 2 b ja seejärel hüpoteeside kontrollimine regressiooni- ja korrelatsioonikordaja olulisuse kohta on samaväärne lineaarse regressioonivõrrandi olulisuse hüpoteesi kontrollimisega.

2.3. Regressioonikordaja hinnangute määramise täpsuse analüüs.
Häirete hajuvuse erapooletu hinnang on väärtus:


S 2 y = 94,6484 – seletamatu dispersioon (sõltuva muutuja leviku mõõt ümber regressioonisirge).
S y = 9,7287 - hinnangu standardviga (regressiooni standardviga).
S a - standardhälve juhuslik muutuja a.


S b - juhusliku suuruse b standardhälve.

2.4. Sõltuva muutuja usaldusvahemikud.
Konstrueeritud mudelil põhinev majandusprognoos eeldab, et muutujate vahelised varasemad seosed säilivad teostusaja jooksul.
Tulemusliku atribuudi sõltuva muutuja ennustamiseks on vaja teada kõigi mudelis sisalduvate tegurite prognoositud väärtusi.
Mudelisse asendatakse tegurite prognoositud väärtused ja saadakse uuritava näitaja ennustavad punkthinnangud. (a + bx p ± ε)
Kus

Arvutame selle intervalli piirid, millesse koondub 95% Y võimalikest väärtustest piiramatu arvu vaatlustega ja X p = 1 (-11,17 + 68,16*1 ± 6,4554)
(50.53;63.44)

Individuaalsed usaldusvahemikudYantud väärtusesX.
(a + bx i ± ε)
Kus

x i y = -11,17 + 68,16x i εi ymin ymax
0.371 14.11 19.91 -5.8 34.02
0.399 16.02 19.85 -3.83 35.87
0.502 23.04 19.67 3.38 42.71
0.572 27.81 19.57 8.24 47.38
0.607 30.2 19.53 10.67 49.73
0.655 33.47 19.49 13.98 52.96
0.763 40.83 19.44 21.4 60.27
0.873 48.33 19.45 28.88 67.78
2.48 158.07 25.72 132.36 183.79

Tõenäosusega 95% on võimalik tagada, et Y väärtus piiramatu arvu vaatluste puhul ei jää leitud intervallide piiridest välja.

2.5. Lineaarse regressioonivõrrandi kordajate hüpoteeside kontrollimine.
1) t-statistika. Õpilase t test.
Kontrollime hüpoteesi H 0 üksikute regressioonikordajate võrdsusest nulliga (kui alternatiiv ei võrdu H 1-ga) olulisuse tasemel α=0,05.
t crit = (7;0,05) = 1,895


Kuna 12,8866 > 1,895, kinnitatakse regressioonikordaja b statistiline olulisus (lükame ümber hüpoteesi, et see koefitsient on võrdne nulliga).


Kuna 2,0914 > 1,895, kinnitatakse regressioonikordaja a statistiline olulisus (lükame ümber hüpoteesi, et see koefitsient on võrdne nulliga).

Regressioonivõrrandi koefitsientide usaldusvahemik.
Määrame regressioonikoefitsientide usaldusvahemikud, mis 95% usaldusväärsusega on järgmised:
(b - t crit S b ; b + t crit S b)
(68.1618 - 1.895 5.2894; 68.1618 + 1.895 5.2894)
(58.1385;78.1852)
Tõenäosusega 95% võib väita, et selle parameetri väärtus jääb leitud intervallisse.
(a - t a)
(-11.1744 - 1.895 5.3429; -11.1744 + 1.895 5.3429)
(-21.2992;-1.0496)
Tõenäosusega 95% võib väita, et selle parameetri väärtus jääb leitud intervallisse.

2) F-statistika. Fisheri kriteerium.
Regressioonimudeli olulisuse testimine toimub Fisheri F-testi abil, mille arvutatud väärtus leitakse uuritava indikaatori algse vaatlusseeria dispersiooni ja jääkjada dispersiooni erapooletu hinnangu suhtena. selle mudeli jaoks.
Kui arvutuslik väärtus lang=EN-US>n-m-1) vabadusastmetega on antud olulisuse tasemel suurem kui tabelina esitatud väärtus, siis loetakse mudelit oluliseks.

kus m on tegurite arv mudelis.
Paaritud lineaarse regressiooni statistilist olulisust hinnatakse järgmise algoritmi abil:
1. Esitatakse nullhüpotees, et võrrand tervikuna on statistiliselt ebaoluline: H 0: R 2 =0 olulisuse tasemel α.
2. Järgmiseks määrake F-kriteeriumi tegelik väärtus:


kus m = 1 paaripõhise regressiooni jaoks.
3. Tabelis olev väärtus määratakse Fisheri jaotuse tabelitest antud olulisuse taseme jaoks, võttes arvesse, et vabadusastmete arv ruutude kogusumma (suurem dispersioon) on 1 ja vabadusastmete arv jääkväärtuse jaoks. ruutude summa (väiksem dispersioon) lineaarses regressioonis on n-2 .
4. Kui F-testi tegelik väärtus on väiksem kui tabeli väärtus, siis nad ütlevad, et nullhüpoteesi tagasilükkamiseks pole põhjust.
Vastasel juhul lükatakse nullhüpotees tagasi ja alternatiivne hüpotees võrrandi kui terviku statistilise olulisuse kohta aktsepteeritakse tõenäosusega (1-α).
Kriteeriumi väärtus vabadusastmetega k1=1 ja k2=7, Fkp = 5,59
Kuna F > Fkp tegelik väärtus, on determinatsioonikordaja statistiliselt oluline (leitud regressioonivõrrandi hinnang on statistiliselt usaldusväärne).

Jääkide autokorrelatsiooni kontrollimine.
Oluliseks eelduseks kvalitatiivse regressioonimudeli koostamiseks OLS-i abil on juhuslike kõrvalekallete väärtuste sõltumatus kõigi teiste vaatluste kõrvalekallete väärtustest. See tagab, et igasuguste kõrvalekallete ja eriti külgnevate kõrvalekallete vahel puudub korrelatsioon.
Autokorrelatsioon (jadakorrelatsioon) defineeritakse korrelatsioonina ajas (aegread) või ruumis (ristread) järjestatud vaadeldavate näitajate vahel. Jääkide (dispersioonide) autokorrelatsioon on regressioonanalüüsis tavaline aegridade andmete kasutamisel ja väga haruldane ristlõike andmete kasutamisel.
Majandusprobleemides on see palju tavalisem positiivne autokorrelatsioon, pigem kui negatiivne autokorrelatsioon. Enamasti on positiivse autokorrelatsiooni põhjuseks mõne mudelis arvestamata teguri suunakonstantne mõju.
Negatiivne autokorrelatsioon tähendab tegelikult seda, et positiivsele kõrvalekaldele järgneb negatiivne ja vastupidi. Selline olukord võib tekkida, kui nõudluse vahel on sama suhe Külmad joogid ja arvestage sissetulekut hooajaliste andmete alusel (talv-suvi).
hulgas autokorrelatsiooni peamised põhjused, saab eristada järgmist:
1. Spetsifikatsioonivead. Mudelis mis tahes olulise selgitava muutuja arvestamata jätmine või sõltuvuse vormi vale valik põhjustab tavaliselt vaatluspunktide süsteemseid kõrvalekaldeid regressioonijoonest, mis võib viia autokorrelatsioonini.
2. Inerts. Paljudel majandusnäitajatel (inflatsioon, tööpuudus, RKT jne) on teatav tsüklilisus, mis on seotud äritegevuse lainetamisega. Seetõttu ei toimu näitajate muutus hetkega, vaid sellel on teatav inerts.
3. Ämblikuvõrgu efekt. Paljudes tootmis- ja muudes valdkondades reageerivad majandusnäitajad majandustingimuste muutustele viivitusega (ajavahega).
4. Andmete silumine. Sageli saadakse andmed teatud pika ajaperioodi kohta, arvutades andmeid selle koostisosade intervallide lõikes. See võib kaasa tuua vaadeldaval perioodil toimunud kõikumiste teatud tasandamise, mis omakorda võib põhjustada autokorrelatsiooni.
Autokorrelatsiooni tagajärjed on sarnased heteroskedastilisuse tagajärgedele: t- ja F-statistika järeldused, mis määravad regressioonikordaja ja determinatsioonikordaja olulisuse, on tõenäoliselt valed.

Autokorrelatsiooni tuvastamine

1. Graafiline meetod
Autokorrelatsiooni graafiliseks määratlemiseks on mitmeid võimalusi. Üks neist seob kõrvalekalded e i nende kättesaamise hetkedega i. Sel juhul kantakse piki abstsisstellge kas statistiliste andmete saamise aeg või vaatluse järjekorranumber ning mööda ordinaattelge kõrvalekalded e i (ehk kõrvalekallete hinnangud).
Loomulik on eeldada, et kui hälvete vahel on teatud seos, siis toimub autokorrelatsioon. Sõltuvuse puudumine näitab tõenäoliselt autokorrelatsiooni puudumist.
Autokorrelatsioon muutub selgemaks, kui joonistada e i sõltuvus e i-1-st.

Durbin-Watsoni test.
See kriteerium on autokorrelatsiooni tuvastamiseks tuntuim.
Kui statistiliselt analüüsida regressioonivõrrandit esialgne etapp sageli kontrollitakse ühe eelduse teostatavust: omavaheliste kõrvalekallete statistilise sõltumatuse tingimusi. Sel juhul kontrollitakse naaberväärtuste e i mittekorrelatsiooni.

y y(x) e i = y-y(x) e 2 (e i - e i-1) 2
15.6 14.11 1.49 2.21 0
19.9 16.02 3.88 15.04 5.72
22.7 23.04 -0.3429 0.1176 17.81
34.2 27.81 6.39 40.78 45.28
44.5 30.2 14.3 204.49 62.64
26.8 33.47 -6.67 44.51 439.82
35.7 40.83 -5.13 26.35 2.37
30.6 48.33 -17.73 314.39 158.7
161.9 158.07 3.83 14.66 464.81
662.54 1197.14

Hälvete korrelatsiooni analüüsimiseks kasutatakse Durbin-Watsoni statistikat:

Kriitilised väärtused d 1 ja d 2 määratakse nõutava olulisuse taseme α, vaatluste arvu n = 9 ja selgitavate muutujate arvu m = 1 jaoks spetsiaalsete tabelite alusel.
Autokorrelatsiooni ei toimu, kui on täidetud järgmine tingimus:
d 1< DW и d 2 < DW < 4 - d 2 .
Tabelitele viitamata võite kasutada ligikaudset reeglit ja eeldada, et jääkide autokorrelatsiooni pole, kui 1,5< DW < 2.5. Для более надежного вывода целесообразно обращаться к табличным значениям.