Pienimmän neliösumman menetelmän laskenta. Missä pienimmän neliösumman menetelmää käytetään?

Menetelmä pienimmän neliösumman

Pienimmän neliön menetelmä ( OLS, OLS, tavalliset pienimmät neliöt) - yksi regressioanalyysin perusmenetelmistä regressiomallien tuntemattomien parametrien estimoimiseksi otantadatan avulla. Menetelmä perustuu regressiojäännösten neliösumman minimoimiseen.

On huomattava, että itse pienimmän neliösumman menetelmää voidaan kutsua menetelmäksi ongelman ratkaisemiseksi millä tahansa alueella, jos ratkaisu sijaitsee tai täyttää jonkin kriteerin, jolla minimoidaan vaadittujen muuttujien joidenkin funktioiden neliösumma. Siksi pienimmän neliösumman menetelmää voidaan käyttää myös tietyn funktion likimääräiseen esitykseen (approksimaatioon) muilla (yksinkertaisemmilla) funktioilla, kun löydetään joukko suureita, jotka täyttävät yhtälöt tai rajoitukset, joiden lukumäärä ylittää näiden suureiden määrän , jne.

MNC:n ydin

Olkoon jokin (parametrinen) malli todennäköisyydestä (regressio) suhteesta (selitetyn) muuttujan välillä y ja monet tekijät (selittävät muuttujat) x

missä on tuntemattomien malliparametrien vektori

- satunnainen mallivirhe.

Olkoon myös näytehavaintoja näiden muuttujien arvoista. Antaa olla havaintonumero (). Sitten ovat muuttujien arvot havainnossa. Sitten klo annettuja arvoja parametrit b, voit laskea selitetyn muuttujan y teoreettiset (malli)arvot:

Jäännösten koko riippuu parametrien b arvoista.

Pienimpien neliöiden menetelmän (tavallinen, klassinen) ydin on löytää parametrit b, joille jäännösten neliöiden summa (eng. Neliöiden jäännössumma) on minimaalinen:

Yleensä tämä ongelma voidaan ratkaista numeerisilla optimointi- (minimointi) menetelmillä. Tässä tapauksessa he puhuvat epälineaariset pienimmän neliösumman(NLS tai NLLS - englanti) Epälineaariset pienimmän neliöt). Monissa tapauksissa on mahdollista saada analyyttinen ratkaisu. Minimointiongelman ratkaisemiseksi on löydettävä funktion stationääriset pisteet eriyttämällä se tuntemattomien parametrien b suhteen, rinnastamalla derivaatat nollaan ja ratkaisemalla tuloksena oleva yhtälöjärjestelmä:

Jos mallin satunnaisvirheet jakautuvat normaalisti, niillä on sama varianssi ja ne eivät korreloi, OLS-parametriarviot ovat samat kuin maksimitodennäköisyysarviot (MLM).

OLS lineaarisen mallin tapauksessa

Olkoon regressioriippuvuus lineaarinen:

Antaa y on selitetyn muuttujan havaintojen sarakevektori ja tekijähavaintojen matriisi (matriisin rivit ovat tietyn havainnon tekijäarvojen vektoreita, sarakkeet ovat tietyn tekijän arvojen vektoreita kaikissa havainnoissa). Lineaarisen mallin matriisiesitys on:

Tällöin selitetyn muuttujan estimaattien ja regressiojäännösten vektori ovat yhtä suuret

Vastaavasti regressiojäännösten neliöiden summa on yhtä suuri kuin

Erottamalla tämä funktio parametrivektorin suhteen ja rinnastamalla derivaatat nollaan, saadaan yhtälöjärjestelmä (matriisimuodossa):

Tämän yhtälöjärjestelmän ratkaisu antaa yleinen kaava OLS-arviot lineaariselle mallille:

Analyyttisiin tarkoituksiin tämän kaavan jälkimmäinen esitys on hyödyllinen. Jos regressiomallissa tiedot keskitetty, niin tässä esityksessä ensimmäinen matriisi merkitsee tekijöiden näytekovarianssimatriisia ja toinen on tekijöiden kovarianssien vektori riippuvan muuttujan kanssa. Jos lisäksi tiedot ovat myös normalisoitunut MSE:lle (eli viime kädessä standardoitu), silloin ensimmäisellä matriisilla on tekijöiden näytekorrelaatiomatriisin merkitys, toisella vektorilla on tekijöiden näytekorrelaatioiden vektori riippuvan muuttujan kanssa.

Tärkeä ominaisuus OLS-estimaateissa malleille vakiolla- muodostetun regression viiva kulkee näytetietojen painopisteen läpi, eli yhtäläisyys täyttyy:

Erityisesti ääritapauksessa, kun ainoa regressori on vakio, havaitsemme, että ainoan parametrin (itse vakion) OLS-estimaatti on yhtä suuri kuin selitetyn muuttujan keskiarvo. Eli suurten lukujen laeista hyvistä ominaisuuksistaan tunnettu aritmeettinen keskiarvo on myös pienimmän neliösumman arvio - se täyttää kriteerin siitä poikkeamien neliösumman minimisummasta.

Esimerkki: yksinkertaisin (pariittainen) regressio

Höyrysaunan tapauksessa lineaarinen regressio laskentakaavat ovat yksinkertaistettuja (voit tehdä ilman matriisialgebraa):

OLS-estimaattorien ominaisuudet

Ensinnäkin huomaamme, että lineaarisille malleille OLS-estimaatit ovat lineaarisia arvioita, kuten yllä olevasta kaavasta seuraa. Puoluettomien OLS-estimaattien osalta se on välttämätöntä ja riittävää suorittaa tärkein ehto regressioanalyysi: tekijöistä riippuen satunnaisvirheen matemaattisen odotuksen on oltava nolla. Tämä ehto täyttyy erityisesti, jos

odotettu arvo satunnaisia virheitä on yhtä kuin nolla ja
tekijät ja satunnaisvirheet ovat riippumattomia satunnaismuuttujia.

Toinen ehto - tekijöiden eksogeenisuuden ehto - on perustavanlaatuinen. Jos tämä ominaisuus ei täyty, voimme olettaa, että melkein kaikki arviot ovat erittäin epätyydyttäviä: ne eivät ole edes johdonmukaisia (eli jopa erittäin suuri tietomäärä ei salli meidän saada korkealaatuisia arvioita tässä tapauksessa ). Klassisessa tapauksessa tekijöiden determinismistä tehdään vahvempi oletus, toisin kuin satunnainen virhe, mikä tarkoittaa automaattisesti, että eksogeenisuusehto täyttyy. Yleisessä tapauksessa arvioiden johdonmukaisuuden vuoksi riittää, että eksogeenisyysehto täyttyy yhdessä matriisin konvergenssin kanssa johonkin ei-singulaariseen matriisiin, kun otoskoko kasvaa äärettömään.

Jotta (tavallisten) pienimmän neliösumman estimaatit olisivat johdonmukaisuuden ja puolueettomuuden lisäksi myös tehokkaita (paras lineaaristen puolueettomien estimaattien luokassa), on tarpeen suorittaa lisäominaisuuksia satunnainen virhe:

Nämä oletukset voidaan muotoilla satunnaisvirhevektorin kovarianssimatriisille

Lineaarista mallia, joka täyttää nämä ehdot, kutsutaan klassista. Klassisen lineaarisen regression OLS-estimaatit ovat puolueettomia, johdonmukaisia ja tehokkaimpia arvioita kaikkien lineaaristen puolueettomien arvioiden luokassa (englanninkielisessä kirjallisuudessa lyhennettä käytetään joskus SININEN (Paras lineaarinen perusteeton estimaattori) - paras lineaarinen puolueeton estimaatti; venäläisessä kirjallisuudessa Gauss-Markov-lausetta siteerataan useammin). Kuten on helppo osoittaa, kerroinestimaattien vektorin kovarianssimatriisi on yhtä suuri:

Yleistetty OLS

Pienimmän neliösumman menetelmä mahdollistaa laajan yleistyksen. Sen sijaan, että minimoimme residuaalien neliösumman, voimme minimoida joitakin positiivisia neliömuoto jäännösvektorista , jossa on jokin symmetrinen positiivinen määrätty painomatriisi. Perinteinen pienimmän neliösumman käyttö on tämän lähestymistavan erikoistapaus, jossa painomatriisi on verrannollinen identiteettimatriisiin. Kuten symmetristen matriisien (tai operaattoreiden) teoriasta tiedetään, tällaisille matriiseille on olemassa hajoaminen. Näin ollen määritetty funktionaali voidaan esittää seuraavasti, eli tämä funktionaali voidaan esittää joidenkin muunnettujen "jäännösten" neliöiden summana. Siten voimme erottaa pienimmän neliösumman menetelmien luokan - LS-menetelmät (Least Squares).

On todistettu (Aitkenin lause), että yleistetylle lineaariselle regressiomallille (jossa ei ole asetettu rajoituksia satunnaisvirheiden kovarianssimatriisiin) tehokkaimpia (lineaaristen puolueettomien estimaattien luokassa) ovat ns. yleistetty pienin neliö (GLS - Generalized Least Squares)- LS-menetelmä, jonka painomatriisi on yhtä suuri kuin satunnaisvirheiden käänteinen kovarianssimatriisi: .

Voidaan osoittaa, että lineaarisen mallin parametrien GLS-estimaattien kaavalla on muoto

Näiden arvioiden kovarianssimatriisi on vastaavasti yhtä suuri kuin

Itse asiassa OLS:n ydin on alkuperäisen datan tietyssä (lineaarisessa) muunnoksessa (P) ja tavallisen OLS:n soveltamisessa muunnetulle datalle. Tämän muunnoksen tarkoituksena on, että muunnetun datan satunnaiset virheet täyttävät jo klassiset oletukset.

Painotettu OLS

Diagonaalisen painomatriisin (ja siten satunnaisvirheiden kovarianssimatriisin) tapauksessa meillä on niin sanottu painotettu pienimmän neliösumma (WLS). Tässä tapauksessa mallin residuaalien painotettu neliösumma minimoidaan, eli jokainen havainto saa "painon", joka on kääntäen verrannollinen tämän havainnon satunnaisvirheen varianssiin: . Itse asiassa tiedot muunnetaan painottamalla havainnot (jakamalla määrällä, joka on verrannollinen odotukseen keskihajonta satunnaiset virheet), ja painotettuihin tietoihin sovelletaan tavallista OLS:ää.

Muutamia erikoistapauksia MNC:n käytöstä käytännössä

Lineaarisen riippuvuuden likiarvo

Tarkastellaan tapausta, jossa tietyn skalaarisuureen riippuvuutta tietystä skalaarisuuruudesta tutkimisen tuloksena (Tämä voisi olla esimerkiksi jännitteen riippuvuus virranvoimakkuudesta: , missä on vakioarvo, resistanssi johdin), näiden suureiden mittaukset suoritettiin, minkä seurauksena arvot ja niitä vastaavat arvot. Mittaustiedot on kirjattava taulukkoon.

Pöytä. Mittaustulokset.

Mittaus nro.
1
2
3
4
5
6

Kysymys kuuluu: mikä kertoimen arvo voidaan valita niin paras tapa kuvaile riippuvuutta? Pienimmän neliösumman menetelmän mukaan tämän arvon tulee olla sellainen, että arvojen neliöityjen poikkeamien summa arvoista

oli minimaalinen

Poikkeamien neliösummalla on yksi ääriarvo - minimi, jonka avulla voimme käyttää tätä kaavaa. Etsitään tästä kaavasta kertoimen arvo. Tätä varten muutamme sen vasemman puolen seuraavasti:

Viimeisen kaavan avulla voimme löytää kertoimen arvon, joka on se, mitä tehtävässä vaadittiin.

Tarina

Ennen alku XIX V. tiedemiehillä ei ollut tietyt säännöt ratkaista yhtälöjärjestelmä, jossa tuntemattomien lukumäärä on pienempi kuin yhtälöiden lukumäärä; Siihen asti käytettiin yksityisiä tekniikoita, jotka riippuivat yhtälöiden tyypistä ja laskimien älykkyydestä, ja siksi eri laskimia, jotka perustuivat samoihin havaintoihin, syntyivät. erilaisia johtopäätöksiä. Gauss (1795) oli vastuussa menetelmän ensimmäisestä soveltamisesta, ja Legendre (1805) löysi ja julkaisi sen itsenäisesti moderni nimi(fr. Méthode des moindres quarrés ) . Laplace liitti menetelmän todennäköisyysteoriaan, ja amerikkalainen matemaatikko Adrain (1808) harkitsi sen todennäköisyysteoreettisia sovelluksia. Menetelmä oli laajalle levinnyt ja sitä parannettiin Encken, Besselin, Hansenin ja muiden lisätutkimuksilla.

OLS:n vaihtoehtoiset käyttötavat

Pienimmän neliösumman menetelmän ideaa voidaan käyttää myös muissa, jotka eivät suoraan liity asiaan taantumisanalyysi. Tosiasia on, että neliöiden summa on yksi yleisimmistä vektorien läheisyysmittauksista (euklidinen metriikka äärellisulotteisissa avaruudessa).

Yksi sovellus on lineaaristen yhtälöjärjestelmien "ratkaisu", jossa yhtälöiden lukumäärä lisää numeroa muuttujia

jossa matriisi ei ole neliö, vaan kooltaan suorakaiteen muotoinen.

Tällaisella yhtälöjärjestelmällä ei yleensä ole ratkaisua (jos järjestys on itse asiassa suurempi kuin muuttujien lukumäärä). Siksi tämä järjestelmä voidaan "ratkaista" vain siinä mielessä, että valitaan tällainen vektori vektorien ja vektorien välisen "etäisyyden" minimoimiseksi. Tätä varten voit käyttää kriteeriä minimoida järjestelmäyhtälöiden vasemman ja oikean puolen välisten erojen neliösumma, eli. On helppo osoittaa, että tämän minimointiongelman ratkaiseminen johtaa seuraavan yhtälöjärjestelmän ratkaisemiseen

Esimerkki.

Kokeellinen data muuttujien arvoista X Ja klo on annettu taulukossa.

Niiden kohdistuksen tuloksena saadaan funktio

Käyttämällä pienimmän neliösumman menetelmä, arvioi nämä tiedot lineaarisella riippuvuudella y=kirves+b(etsi parametrit A Ja b). Selvitä, kumpi kahdesta viivasta paremmin (pienimmän neliösumman menetelmässä) kohdistaa kokeelliset tiedot. Tee piirustus.

Pienimmän neliösumman menetelmän (LSM) olemus.

Tehtävänä on löytää lineaariset riippuvuuskertoimet, joilla kahden muuttujan funktio A Ja b ottaa pienimmän arvon. Eli annettu A Ja b koetietojen neliöpoikkeamien summa löydetystä suorasta on pienin. Tämä on pienimmän neliösumman menetelmän koko pointti.

Näin ollen esimerkin ratkaiseminen laskee kahden muuttujan funktion ääripään löytämiseen.

Johtamiskaavat kertoimien löytämiseksi.

Käännetään ja ratkaistaan kahden yhtälön järjestelmä, jossa on kaksi tuntematonta. Funktion osittaisten derivaattojen löytäminen muuttujien mukaan A Ja b, rinnastamme nämä derivaatat nollaan.

Ratkaisemme tuloksena olevan yhtälöjärjestelmän millä tahansa menetelmällä (esim korvausmenetelmällä tai Cramerin menetelmä) ja saada kaavat kertoimien löytämiseksi pienimmän neliösumman menetelmällä (LSM).

Annettu A Ja b toiminto ottaa pienimmän arvon. Tämä tosiasia on todistettu alla tekstissä sivun lopussa.

Tämä on koko pienimmän neliösumman menetelmä. Kaava parametrin löytämiseksi a sisältää summat ,, ja parametrit n- kokeellisen tiedon määrä. Suosittelemme laskemaan näiden määrien arvot erikseen. Kerroin b löytyi laskennan jälkeen a.

On aika muistaa alkuperäinen esimerkki.

Ratkaisu.

Meidän esimerkissämme n = 5. Täytämme taulukon tarvittavien kertoimien kaavoihin sisältyvien määrien laskemisen helpottamiseksi.

Taulukon neljännen rivin arvot saadaan kertomalla 2. rivin arvot 3. rivin arvoilla jokaiselle numerolle i.

Taulukon viidennen rivin arvot saadaan neliöimällä 2. rivin arvot jokaiselle numerolle i.

Taulukon viimeisen sarakkeen arvot ovat eri rivien arvojen summat.

Käytämme pienimmän neliösumman menetelmän kaavoja kertoimien löytämiseen A Ja b. Korvaamme vastaavat arvot taulukon viimeisestä sarakkeesta niihin:

Siten, y = 0,165x+2,184- haluttu likimääräinen suora.

On vielä selvitettävä, mikä riveistä y = 0,165x+2,184 tai approksimoi paremmin alkuperäistä dataa, eli tekee arvion pienimmän neliösumman menetelmällä.

Pienimmän neliösumman menetelmän virheestimointi.

Tätä varten sinun on laskettava näiden rivien alkuperäisten tietojen neliöityjen poikkeamien summa Ja , pienempi arvo vastaa riviä, joka approksimoi paremmin alkuperäistä dataa pienimmän neliösumman menetelmässä.

Siitä lähtien, sitten suoraan y = 0,165x+2,184 lähentää paremmin alkuperäisiä tietoja.

Graafinen esitys pienimmän neliösumman (LS) menetelmästä.

Kaikki näkyy selvästi kaavioissa. Punainen viiva on löydetty suora y = 0,165x+2,184, sininen viiva on , vaaleanpunaiset pisteet ovat alkuperäisiä tietoja.

Käytännössä erilaisia prosesseja - erityisesti taloudellisia, fyysisiä, teknisiä, sosiaalisia - mallinnettaessa käytetään laajalti yhtä tai toista menetelmää funktioiden likimääräisten arvojen laskemiseksi niiden tunnetuista arvoista tietyissä kiinteissä pisteissä.

Tällainen funktion approksimaatioongelma ilmenee usein:

kun rakennetaan likimääräisiä kaavoja tutkittavan prosessin ominaissuureiden arvojen laskemiseksi käyttämällä kokeen tuloksena saatuja taulukkotietoja;

numeerisessa integroinnissa, eriyttämisessä, ratkaisussa differentiaaliyhtälöt jne.;

tarvittaessa laskea funktioiden arvot tarkasteltavan aikavälin välipisteissä;

määritettäessä prosessin ominaissuureiden arvoja tarkasteltavan aikavälin ulkopuolella, erityisesti ennustettaessa.

Jos tietyn taulukon määrittämän prosessin mallintamiseksi rakennamme funktion, joka likimäärin kuvaa tätä prosessia pienimmän neliösumman menetelmällä, sitä kutsutaan approksimoivaksi funktioksi (regressio) ja itse approksimoivien funktioiden konstruointitehtäväksi kutsutaan likimääräinen ongelma.

Tässä artikkelissa käsitellään MS Excel -paketin mahdollisuuksia tällaisten ongelmien ratkaisemiseen, lisäksi se tarjoaa menetelmiä ja tekniikoita taulukkomuotoisten regressioiden muodostamiseen (luomiseen). määritettyjä toimintoja(joka on regressioanalyysin perusta).

Excelillä on kaksi vaihtoehtoa regressioiden rakentamiseen.

Valittujen regressioiden (trendiviivojen) lisääminen kaavioon, joka on rakennettu tutkittavan prosessin ominaispiirteen tietotaulukon perusteella (käytettävissä vain, jos kaavio on muodostettu);

Käyttämällä Excel-laskentataulukon sisäänrakennettuja tilastotoimintoja, joiden avulla voit saada regressioita (trendiviivoja) suoraan lähdetietotaulukosta.

Trendiviivojen lisääminen kaavioon

Excelissä on tehokas regressioanalyysityökalu, jonka avulla voit:

rakenna pienimmän neliösumman menetelmän pohjalta ja lisää kaavioon viisi erilaista regressiota, jotka mallintavat tutkittavaa prosessia vaihtelevalla tarkkuudella;

lisää muodostettu regressioyhtälö kaavioon;

määrittää valitun regression ja kaavion tietojen vastaavuuden asteen.

Tieto-ohjautuva Excel kaavioita voit saada lineaarisia, polynomisia, logaritmisia, potenssi-, eksponentiaalisia regressioita, jotka määritetään yhtälöllä:

y = y(x)

missä x on itsenäinen muuttuja, joka usein ottaa luonnollisten lukujen sarjan arvot (1; 2; 3; ...) ja tuottaa esimerkiksi laskennan tutkittavan prosessin ajasta (ominaisuudet).

1 . Lineaarinen regressio on hyvä mallintamaan ominaisuuksia, joiden arvot kasvavat tai laskevat vakionopeudella. Tämä on yksinkertaisin malli rakennettava tutkittavalle prosessille. Se on rakennettu yhtälön mukaisesti:

y = mx + b

missä m on lineaarisen regression kulmakertoimen tangentti x-akselille; b - lineaarisen regression leikkauspisteen koordinaatti ordinaatta-akselin kanssa.

2 . Polynominen trendiviiva on hyödyllinen kuvaamaan ominaisuuksia, joilla on useita erillisiä ääriarvoja (maksimi ja minimi). Polynomiasteen valinta määräytyy tutkittavan ominaisuuden äärimmäisyyksien lukumäärän mukaan. Siten toisen asteen polynomi voi hyvin kuvata prosessia, jolla on vain yksi maksimi tai minimi; kolmannen asteen polynomi - enintään kaksi ääripäätä; neljännen asteen polynomi - enintään kolme ääripäätä jne.

Tässä tapauksessa trendiviiva muodostetaan yhtälön mukaisesti:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

jossa kertoimet c0, c1, c2,...c6 ovat vakioita, joiden arvot määritetään rakentamisen aikana.

3 . Logaritmista trendiviivaa käytetään menestyksekkäästi mallinnettaessa ominaisuuksia, joiden arvot aluksi muuttuvat nopeasti ja sitten vähitellen vakiintuvat.

y = c ln(x) + b

4 . Teholain trendiviiva antaa hyviä tuloksia, jos tutkittavan suhteen arvoille on ominaista jatkuva kasvunopeuden muutos. Esimerkki tällaisesta riippuvuudesta on auton tasaisesti kiihdytetyn liikkeen kuvaaja. Jos tiedoissa on nolla tai negatiiviset arvot, et voi käyttää tehotrendiviivaa.

Rakennettu yhtälön mukaisesti:

y = c xb

missä kertoimet b, c ovat vakioita.

5 . Eksponentiaalista trendiviivaa tulisi käyttää, kun datan muutosnopeus kasvaa jatkuvasti. Tämän tyyppinen approksimaatio ei myöskään sovellu tiedoille, jotka sisältävät nolla- tai negatiivisia arvoja.

Rakennettu yhtälön mukaisesti:

y = c ebx

missä kertoimet b, c ovat vakioita.

Trendiviivaa valittaessa Excel laskee automaattisesti R2:n arvon, joka kuvaa likiarvon luotettavuutta: mitä lähempänä yksikköä R2 on, sitä luotettavammin trendiviiva approksimoi tutkittavaa prosessia. Tarvittaessa R2-arvo voidaan aina näyttää kaaviossa.

Määritetään kaavalla:

Trendiviivan lisääminen tietosarjaan:

aktivoi kaavio tietosarjan perusteella, eli napsauta kaavioaluetta. Kaavio-kohta tulee näkyviin päävalikkoon;

Kun olet napsauttanut tätä kohtaa, näyttöön tulee valikko, jossa sinun tulee valita Lisää trendiviiva -komento.

Samat toiminnot voidaan toteuttaa helposti siirtämällä hiiren osoitin yhtä tietosarjaa vastaavan kaavion päälle ja napsauttamalla hiiren kakkospainikkeella; Valitse näkyviin tulevasta kontekstivalikosta Lisää trendiviiva -komento. Trendline-valintaikkuna tulee näyttöön, ja Tyyppi-välilehti on auki (kuva 1).

Tämän jälkeen tarvitset:

Valitse haluamasi trendiviivan tyyppi Tyyppi-välilehdeltä (Lineaarinen tyyppi on valittu oletuksena). Määritä Polynomi-tyypille Degree-kentässä valitun polynomin aste.

1 . Rakennettu sarja -kentässä luetellaan kaikki kyseisen kaavion tietosarjat. Jos haluat lisätä trendiviivan tiettyyn tietosarjaan, valitse sen nimi Rakennettu sarja -kentässä.

Tarvittaessa voit asettaa seuraavat parametrit suuntaviivalle menemällä Parametrit-välilehdelle (kuva 2):

muuta trendiviivan nimeä Approksimoivan (tasoitettu) käyrän nimi -kentässä.

aseta jaksojen lukumäärä (eteenpäin tai taaksepäin) ennusteelle Ennuste-kentässä;

näytä trendiviivan yhtälö kaavioalueella, jolle sinun tulee ottaa käyttöön Näytä yhtälö kaaviossa -valintaruutu;

näytä approksimaatioluotettavuusarvo R2 kaavioalueella, jolle sinun tulee ottaa käyttöön Sijoita approksimaatioluotettavuusarvo kaavioon (R^2) -valintaruutu;

aseta trendiviivan ja Y-akselin leikkauspiste, jota varten sinun tulee ottaa käyttöön valintaruutu käyrän ja Y-akselin leikkauspisteessä;

Sulje valintaikkuna napsauttamalla OK-painiketta.

Voit aloittaa jo piirretyn trendiviivan muokkaamisen kolmella tavalla:

käytä Muoto-valikon Valittu trendiviiva -komentoa, kun olet aiemmin valinnut trendiviivan;

valitse kontekstivalikosta Muotoile trendiviiva -komento, joka avataan napsauttamalla trendiviivaa hiiren kakkospainikkeella;

kaksoisnapsauta trendiviivaa.

Näytölle tulee Trend Line Format -valintaikkuna (Kuva 3), joka sisältää kolme välilehteä: Näytä, Tyyppi, Parametrit ja kahden viimeisen sisältö on täysin sama kuin samankaltainen Trendiviiva-valintaikkunan välilehti (kuva 1). -2). Näytä-välilehdellä voit määrittää viivan tyypin, värin ja paksuuden.

Jos haluat poistaa jo piirretyn trendiviivan, valitse poistettava trendiviiva ja paina Delete-näppäintä.

Tarkastelun regressioanalyysityökalun edut ovat:

trendiviivan rakentamisen suhteellinen helppous kaavioihin luomatta sille tietotaulukkoa;

melko laaja luettelo ehdotettujen trendilinjojen tyypeistä, ja tämä luettelo sisältää yleisimmin käytetyt regressiotyypit;

kyky ennustaa tutkittavan prosessin käyttäytymistä millä tahansa mielivaltaisella tasolla (sis maalaisjärkeä) askelmien määrä eteen ja taakse;

kyky saada trendiviivayhtälö analyyttisessä muodossa;

tarvittaessa mahdollisuus saada arvio likiarvon luotettavuudesta.

Haittoja ovat seuraavat:

trendiviivan rakentaminen suoritetaan vain, jos datasarjaan on rakennettu kaavio;

tietosarjojen tuottaminen tutkittavalle ominaisuudelle sille saatujen trendiviivayhtälöiden perusteella on hieman sekava: vaaditut regressioyhtälöt päivitetään jokaisen alkuperäisen tietosarjan arvojen muutoksen yhteydessä, mutta vain kaavioalueen sisällä , kun taas vanhan viivayhtälön trendin perusteella muodostettu tietosarja pysyy ennallaan;

PivotChart-raporteissa kaavion tai siihen liittyvän PivotTable-raportin näkymän muuttaminen ei säilytä olemassa olevia trendiviivoja, mikä tarkoittaa, että ennen kuin piirrät trendiviivoja tai muutat PivotChart-raportin muotoilemista, sinun on varmistettava, että raportin asettelu täyttää vaaditut vaatimukset.

Trendiviivoja voidaan käyttää täydentämään datasarjoja, jotka esitetään kaavioissa, kuten kaavioissa, histogrammissa, litteissä ei-standardoiduissa aluekaavioissa, pylväskaavioissa, hajontakaavioissa, kuplakaavioissa ja osakekaavioissa.

Et voi lisätä trendiviivoja tietosarjoihin 3D-, normalisoituihin, tutka-, ympyrä- ja donitsikaavioihin.

Excelin sisäänrakennettujen toimintojen käyttäminen

Excelissä on myös regressioanalyysityökalu trendiviivojen piirtämiseen kaavioalueen ulkopuolella. Voit käyttää tähän tarkoitukseen useita tilastollisia taulukkofunktioita, mutta ne kaikki mahdollistavat vain lineaaristen tai eksponentiaalisten regressioiden rakentamisen.

Excelillä on useita toimintoja lineaarisen regression muodostamiseen, erityisesti:

TRENDI;

SLOPE ja CUT.

Sekä useita toimintoja eksponentiaalisen trendiviivan rakentamiseen, erityisesti:

LGRFPRIBL.

On huomattava, että tekniikat regressioiden muodostamiseksi käyttämällä TREND- ja GROWTH-funktioita ovat lähes samat. Samaa voidaan sanoa toimintoparista LINEST ja LGRFPRIBL. Näille neljälle funktiolle arvotaulukon luominen käyttää Excelin ominaisuuksia, kuten taulukkokaavoja, mikä sotkee jonkin verran regressioiden rakennusprosessia. Huomattakoon myös, että lineaarisen regression rakentaminen on mielestämme helpoimmin suoritettavissa SLOPE- ja INTERCEPT-funktioilla, joissa ensimmäinen niistä määrittää lineaarisen regression kulmakertoimen ja toinen sen janan, jonka regressio katkaisee y-akselilla.

Sisäänrakennetun funktiotyökalun edut regressioanalyysiin ovat:

melko yksinkertainen, yhtenäinen prosessi tutkittavan ominaisuuden tietosarjojen luomiseksi kaikille sisäänrakennetuille tilastofunktioille, jotka määrittävät trendiviivoja;

vakiomenetelmä trendiviivojen muodostamiseksi generoitujen tietosarjojen perusteella;

kyky ennustaa tutkittavan prosessin käyttäytymistä vaaditulla määrällä askeleita eteenpäin tai taaksepäin.

Haittoja ovat se, että Excelissä ei ole sisäänrakennettuja toimintoja muiden (paitsi lineaaristen ja eksponentiaalisten) trendiviivojen luomiseen. Tämä seikka ei useinkaan salli riittävän tarkan mallin valitsemista tutkittavasta prosessista, eikä myöskään saada ennusteita, jotka ovat lähellä todellisuutta. Lisäksi TREND- ja GROWTH-funktioita käytettäessä trendiviivojen yhtälöitä ei tunneta.

On huomattava, että kirjoittajat eivät pyrkineet esittelemään regressioanalyysin kulkua millään tavalla täydellisesti. Sen päätehtävänä on osoittaa konkreettisin esimerkein Excel-paketin ominaisuudet approksimaatioongelmia ratkaistaessa; osoittaa, mitä tehokkaita työkaluja Excelillä on regressioiden rakentamiseen ja ennustamiseen; havainnollistaa, kuinka tällaiset ongelmat voidaan ratkaista suhteellisen helposti jopa sellaisen käyttäjän toimesta, jolla ei ole laajaa tietoa regressioanalyysistä.

Esimerkkejä tiettyjen ongelmien ratkaisemisesta

Tarkastellaan tiettyjen ongelmien ratkaisemista lueteltujen Excel-työkalujen avulla.

Ongelma 1

Taulukolla moottorikuljetusyrityksen voitosta vuosilta 1995-2002. sinun on tehtävä seuraavat:

Rakenna kaavio.

Lisää kaavioon lineaariset ja polynomiset (neliö- ja kuutio) trendiviivat.

Hanki trendiviivayhtälöiden avulla taulukkotiedot yrityksen voitoista kullekin trendiviivalle vuosille 1995-2004.

Tee ennuste yrityksen tuloksesta vuosille 2003 ja 2004.

Ongelman ratkaisu

Kirjoita Excel-laskentataulukon solualueelle A4:C11 kuvan 1 mukainen taulukko. 4.

Kun olet valinnut solualueen B4:C11, rakennamme kaavion.

Aktivoimme muodostetun kaavion ja yllä kuvatun menetelmän mukaisesti, kun olet valinnut trendiviivan tyypin Trend Line -valintaikkunassa (katso kuva 1), lisäämme kaavioon vuorotellen lineaarista, neliöstä ja kuutiosta trendiviivoja. Avaa samassa valintaikkunassa Parametrit-välilehti (katso kuva 2), kirjoita likimääräisen (tasoitettu) käyrän nimi -kenttään lisättävän trendin nimi ja aseta Ennuste eteenpäin: jaksoille -kenttään arvo 2, koska on tarkoitus tehdä tulosennuste kahdelle vuodelle eteenpäin. Jos haluat näyttää regressioyhtälön ja approksimaatioluotettavuusarvon R2 kaavioalueella, ota käyttöön Näytä yhtälö ruudulla -valintaruudut ja aseta approksimaatioluotettavuusarvo (R^2) kaavioon. Parempaa visuaalista havaitsemista varten muutamme rakennettujen trendiviivojen tyyppiä, väriä ja paksuutta, johon käytämme Trend Line Format -valintaikkunan Näytä-välilehteä (katso kuva 3). Tuloksena oleva kaavio lisättyineen trendiviivoineen on esitetty kuvassa. 5.

Saadaksesi taulukkomuotoiset tiedot yritysten voitoista kullekin trendiviivalle vuosille 1995-2004. Käytetään kuviossa esitettyjä trendiviivayhtälöitä. 5. Syötä tätä varten alueen D3:F3 soluihin tekstitiedot valitun trendiviivan tyypistä: Lineaarinen trendi, Neliötrendi, Kuutiotrendi. Syötä seuraavaksi lineaarisen regression kaava soluun D4 ja kopioi tämä kaava täyttömerkkiä käyttäen suhteellisten viittausten kanssa solualueeseen D5:D13. On huomattava, että jokaisella solulla, jolla on lineaarinen regressiokaava solualueelta D4:D13, on argumenttina vastaava solu alueelta A4:A13. Vastaavasti kvadraattista regressiota varten täytä solualue E4:E13 ja kuutioregressiota varten solualue F4:F13. Näin ollen on laadittu ennuste yrityksen tuloksesta vuosille 2003 ja 2004. käyttämällä kolmea trendiä. Tuloksena oleva arvotaulukko on esitetty kuvassa. 6.

Ongelma 2

Rakenna kaavio.

Lisää kaavioon logaritmiset, teho- ja eksponentiaaliset trendiviivat.

Johda saatujen trendiviivojen yhtälöt sekä likimääräisen R2:n luotettavuusarvot kullekin niistä.

Hanki trendiviivayhtälöiden avulla taulukkotiedot yrityksen voitosta kullekin trendiviivalle vuosille 1995-2002.

Tee ennuste yhtiön tuloksesta vuosille 2003 ja 2004 käyttämällä näitä trendilinjoja.

Ongelman ratkaisu

Noudattamalla tehtävän 1 ratkaisussa annettua metodologiaa saadaan kaavio, johon on lisätty logaritminen, teho ja eksponentiaalinen trendiviiva (kuva 7). Seuraavaksi täytämme saatujen trendiviivayhtälöiden avulla yrityksen tuloksen arvotaulukon, joka sisältää ennustetut arvot vuosille 2003 ja 2004. (Kuva 8).

Kuvassa 5 ja fig. voidaan nähdä, että malli logaritmisella trendillä vastaa pienintä approksimaatioluotettavuuden arvoa

R2 = 0,8659

R2:n korkeimmat arvot vastaavat malleja, joissa on polynominen trendi: neliö (R2 = 0,9263) ja kuutio (R2 = 0,933).

Ongelma 3

Tehtävässä 1 annetulla moottoriajoneuvoyrityksen vuosien 1995-2002 voittotietotaulukolla on suoritettava seuraavat vaiheet.

Hanki tietosarjoja lineaarisille ja eksponentiaalisille trendilinjoille käyttämällä TREND- ja GROW-funktioita.

Tee TREND- ja GROWTH-funktioiden avulla ennuste yrityksen tuloksesta vuosille 2003 ja 2004.

Muodosta kaavio alkuperäisistä tiedoista ja tuloksena olevista tietosarjoista.

Ongelman ratkaisu

Käytetään tehtävän 1 laskentataulukkoa (katso kuva 4). Aloitetaan TREND-funktiosta:

valitse solualue D4:D11, joka on täytettävä TREND-funktion arvoilla, jotka vastaavat tunnettuja tietoja yrityksen voitosta;

Kutsu Function-komento Lisää-valikosta. Valitse näkyviin tulevan Function Wizard -valintaikkunan Tilasto-luokasta TREND-funktio ja napsauta sitten OK-painiketta. Sama toiminto voidaan suorittaa napsauttamalla (Insert Function) -painiketta vakiotyökalurivillä.

Kirjoita näkyviin tulevan Function Arguments -valintaikkunan solualue C4:C11 Tunnetut_arvot_y -kenttään; Tunnetut_arvot_x-kentässä - solualue B4:B11;

Jos haluat muuttaa syötetystä kaavasta taulukkokaavaksi, käytä näppäinyhdistelmää + + .

Kaavapalkkiin syöttämämme kaava näyttää tältä: =(TREND(C4:C11,B4:B11)).

Tämän seurauksena solualue D4:D11 täyttyy vastaavilla TREND-funktion arvoilla (kuva 9).

Tehdä ennuste yrityksen tuloksesta vuosille 2003 ja 2004. tarpeellista:

valitse solualue D12:D13, johon TRENDI-toiminnon ennustamat arvot syötetään.

kutsu TRENDI-funktio ja kirjoita näkyviin tulevaan Function Arguments -valintaikkunaan Known_values_y -kenttään - solualue C4:C11; Tunnetut_arvot_x-kentässä - solualue B4:B11; ja Uudet_arvot_x -kentässä - solualue B12:B13.

muuta tämä kaava taulukkokaavaksi näppäinyhdistelmällä Ctrl + Shift + Enter.

Syötetty kaava näyttää tältä: =(TREND(C4:C11;B4:B11;B12:B13)), ja solualue D12:D13 täytetään TRENDI-funktion ennustetuilla arvoilla (katso kuva. 9).

Tietosarja täytetään vastaavasti GROWTH-funktiolla, jota käytetään epälineaaristen riippuvuuksien analysointiin ja joka toimii täsmälleen samalla tavalla kuin sen lineaarinen vastine TREND.

Kuva 10 näyttää taulukon kaavan näyttötilassa.

Lähtötiedoille ja saaduille tietosarjoille on käytettävä kuvan 1 kaaviota. yksitoista.

Ongelma 4

Autonkuljetusyrityksen lähettäjän palveluhakemusten vastaanottamista koskevan tietotaulukon kanssa kuluvan kuukauden 1. - 11. päivälle, sinun on suoritettava seuraavat toimenpiteet.

Hanki datasarjat lineaarista regressiota varten: käyttämällä SLOPE- ja INTERCEPT-funktioita; käyttämällä LINEST-toimintoa.

Hanki joukko tietoja eksponentiaalista regressiota varten LGRFPRIBL-funktion avulla.

Tee yllä olevien toimintojen avulla ennuste hakemusten saapumisesta lähetyspalveluun kuluvan kuukauden 12. - 14. päivälle.

Luo kaavio alkuperäisestä ja vastaanotetuista tietosarjoista.

Ongelman ratkaisu

Huomaa, että toisin kuin TREND- ja GROWTH-funktiot, mikään yllä luetelluista funktioista (SLOPE, INTERCEPT, LINEST, LGRFPRIB) ei ole regressio. Näillä funktioilla on vain tukirooli, joka määrittää tarvittavat regressioparametrit.

Funktioilla SLOPE, INTERCEPT, LINEST, LGRFPRIB rakennetuissa lineaarisissa ja eksponentiaalisissa regressioissa niiden yhtälöiden ulkoasu tunnetaan aina, toisin kuin TREND- ja GROWTH-funktioita vastaavissa lineaarisissa ja eksponentiaalisissa regressioissa.

1 . Muodostetaan lineaarinen regressio yhtälön avulla:

y = mx+b

käyttämällä funktioita SLOPE ja INTERCEPT, jolloin regression kulmakerroin m määrittää SLOPE-funktiolla ja vapaa termi b INTERCEPT-funktiolla.

Tätä varten suoritamme seuraavat toimet:

syötä alkuperäinen taulukko solualueelle A4:B14;

parametrin m arvo määritetään solussa C19. Valitse luokasta Tilastollinen funktio Kaltevuus; syötä solualue B4:B14 Tunnetut_arvot_y-kenttään ja solualue A4:A14 Tunnetut_arvot_x-kenttään. Kaava syötetään soluun C19: =SLOPE(B4:B14,A4:A14);

Samanlaista tekniikkaa käyttämällä määritetään parametrin b arvo solussa D19. Ja sen sisältö näyttää tältä: =SEGMENTTI(B4:B14,A4:A14). Siten lineaarisen regression muodostamiseen tarvittavien parametrien m ja b arvot tallennetaan soluihin C19, D19, vastaavasti;

Kirjoita seuraavaksi lineaarisen regression kaava soluun C4 muodossa: =$C*A4+$D. Tässä kaavassa solut C19 ja D19 kirjoitetaan absoluuttisilla viittauksilla (solun osoite ei saa muuttua mahdollisen kopioinnin aikana). Absoluuttinen viitemerkki $ voidaan kirjoittaa joko näppäimistöltä tai F4-näppäimellä sen jälkeen, kun kursori on asetettu solun osoitteen päälle. Kopioi tämä kaava täyttökahvalla solualueelle C4:C17. Saamme tarvittavat tietosarjat (kuva 12). Koska pyyntöjen määrä on kokonaisluku, sinun tulee asettaa numeromuoto, jossa on desimaalien määrä 0, Solumuoto-ikkunan Numero-välilehdellä.

2 . Rakennetaan nyt yhtälön antama lineaarinen regressio:

y = mx+b

käyttämällä LINEST-toimintoa.

Tätä varten:

Syötä LINEST-funktio taulukkokaavana solualueelle C20:D20: =(LINEST(B4:B14,A4:A14)). Tuloksena saadaan parametrin m arvo solussa C20 ja parametrin b arvo solussa D20;

syötä kaava soluun D4: =$C*A4+$D;

kopioi tämä kaava täyttömerkkiä käyttäen solualueelle D4:D17 ja hanki haluttu tietosarja.

3 . Rakennamme eksponentiaalisen regression yhtälöllä:

LGRFPRIBL-toimintoa käyttämällä se suoritetaan samalla tavalla:

Solualueelle C21:D21 syötetään LGRFPRIBL-funktio taulukkokaavana: =( LGRFPRIBL (B4:B14,A4:A14)). Tässä tapauksessa parametrin m arvo määritetään solussa C21 ja parametrin b arvo solussa D21;

kaava syötetään soluun E4: =$D*$C^A4;

täyttömerkkiä käyttäen tämä kaava kopioidaan solualueelle E4:E17, jossa eksponentiaalisen regression tietosarja sijoitetaan (katso kuva 12).

Kuvassa Kuvassa 13 on taulukko, josta näet tarvittavien solualueiden kanssa käyttämämme funktiot sekä kaavat.

Suuruus R 2 nimeltään determinaatiokerroin.

Regressioriippuvuuden muodostamisen tehtävänä on löytää mallin (1) kertoimien m vektori, jolla kerroin R saa suurimman arvon.

R:n merkityksen arvioimiseksi käytetään Fisherin F-testiä, joka lasketaan kaavalla

Missä n- otoksen koko (kokeiden lukumäärä);

k on mallikertoimien lukumäärä.

Jos F ylittää jonkin datan kriittisen arvon n Ja k ja hyväksytty luottamustodennäköisyys, silloin R:n arvoa pidetään merkittävänä. F:n kriittisten arvojen taulukot on annettu matemaattisten tilastojen hakuteoksissa.

Siten R:n merkitys määräytyy paitsi sen arvon perusteella, myös kokeiden lukumäärän ja mallin kertoimien (parametrien) välisen suhteen perusteella. Todellakin, korrelaatiosuhde n=2:lle yksinkertaiselle lineaariselle mallille on yhtä suuri kuin 1 (yksi suora viiva voidaan aina vetää 2 tason kautta). Kuitenkin, jos kokeelliset tiedot ovat satunnaismuuttujia, tällaiseen R:n arvoon tulee luottaa erittäin varovasti. Yleensä merkittävän R:n ja luotettavan regression saamiseksi pyritään varmistamaan, että kokeiden määrä ylittää merkittävästi mallikertoimien lukumäärän (n>k).

Lineaarisen regressiomallin rakentamiseen tarvitset:

1) valmistele luettelo n rivistä ja m sarakkeesta, jotka sisältävät kokeellisia tietoja (sarake, joka sisältää tulosarvon Y on oltava luettelon ensimmäinen tai viimeinen); Otetaan esimerkiksi edellisen tehtävän tiedot, lisätään sarake nimeltä "Jakson numero", numeroidaan jaksonumerot 1 - 12. (nämä ovat arvoja X)

2) mene valikkoon Data/Data Analysis/Regression

Jos "Työkalut"-valikon "Data Analysis" -kohta puuttuu, sinun tulee siirtyä saman valikon "Lisäosat" -kohtaan ja valita "Analyysipaketti" -valintaruutu.

3) määritä "Regressio"-valintaikkunassa:

· syöttöväli Y;

· syöttöväli X;

· tulostusväli - sen välin vasen ylempi solu, johon laskentatulokset sijoitetaan (on suositeltavaa sijoittaa ne uudelle laskentataulukolle);

4) napsauta "Ok" ja analysoi tulokset.

Opetusohjelma

Johdanto

Olen matemaatikko ja ohjelmoija. Suurin harppaus urallani oli, kun opin sanomaan: "En ymmärrä mitään!" Nyt en häpeä kertoa tieteen valoisalle, että hän pitää minulle luennon, etten ymmärrä, mitä hän, valokeikari, sanoo minulle. Ja se on erittäin vaikeaa. Kyllä, tietämättömyytesi myöntäminen on vaikeaa ja kiusallista. Kuka haluaa myöntää, ettei hän tiedä jonkin asian perusteita? Ammattini vuoksi minun on osallistuttava suuria määriä esityksiä ja luentoja, joissa, myönnän, suurimmassa osassa tapauksista haluan nukkua, koska en ymmärrä mitään. Mutta en ymmärrä, koska tieteen nykytilanteen valtava ongelma on matematiikassa. Se olettaa, että kaikki kuulijat tuntevat ehdottomasti kaikki matematiikan osa-alueet (mikä on absurdia). On häpeällistä myöntää, että et tiedä mitä johdannainen on (puhumme siitä vähän myöhemmin).

Mutta olen oppinut sanomaan, etten tiedä mitä kertolasku on. Kyllä, en tiedä mikä alialgebra lie-algebran yläpuolella on. Kyllä, en tiedä miksi niitä tarvitaan elämässä toisen asteen yhtälöt. Muuten, jos olet varma, että tiedät, meillä on jotain puhuttavaa! Matematiikka on sarja temppuja. Matemaatikot yrittävät hämmentää ja pelotella yleisöä; missä ei ole sekaannusta, ei ole mainetta, ei auktoriteettia. Kyllä, on arvovaltaa puhua mahdollisimman abstraktia kieltä, mikä on täyttä hölynpölyä.

Tiedätkö mikä on johdannainen? Todennäköisesti kerrot minulle erosuhteen rajasta. Ensimmäisenä vuonna matematiikan ja mekaniikan Pietarin valtionyliopistossa Viktor Petrovitš Khavin kertoi minulle päättänyt derivaatta funktion Taylor-sarjan ensimmäisen termin kertoimena pisteessä (tämä oli erillinen voimistelu Taylor-sarjan määrittämiseksi ilman derivaattoja). Nauroin tälle määritelmälle pitkään, kunnes vihdoin ymmärsin, mistä siinä oli kyse. Derivaata ei ole muuta kuin yksinkertainen mitta siitä, kuinka samanlainen erottamamme funktio on funktion y=x, y=x^2, y=x^3 kanssa.

Minulla on nyt kunnia luennoi opiskelijoille, jotka peloissaan matematiikka. Jos pelkäät matematiikkaa, olemme samalla tiellä. Heti kun yrität lukea tekstiä ja sinusta tuntuu, että se on liian monimutkaista, tiedä, että se on huonosti kirjoitettu. Väitän, ettei ole olemassa yhtä matematiikan aluetta, josta ei voida keskustella "sormilla" menettämättä tarkkuutta.

Tehtävä lähitulevaisuudessa: Annoin oppilailleni ymmärtää, mitä lineaarinen neliönsäätäjä on. Älä ole ujo, käytä kolme minuuttia elämästäsi ja seuraa linkkiä. Jos et ymmärrä mitään, olemme samalla tiellä. Minäkään (ammattimainen matemaatikko-ohjelmoija) en ymmärtänyt mitään. Ja voin vakuuttaa teille, että voit selvittää tämän "sormillasi". Päällä Tämä hetki En tiedä mikä se on, mutta voin vakuuttaa, että voimme selvittää sen.

Joten ensimmäinen luento, jonka aion pitää opiskelijoilleni sen jälkeen, kun he juoksevat luokseni kauhuissaan ja sanovat, että lineaarinen neliöllinen säädin on kauhea asia, jota et koskaan hallitse elämässäsi. pienimmän neliösumman menetelmät. Voitko päättää lineaariset yhtälöt? Jos luet tätä tekstiä, luultavasti et.

Joten kun on annettu kaksi pistettä (x0, y0), (x1, y1), esimerkiksi (1,1) ja (3,2), tehtävänä on löytää näiden kahden pisteen kautta kulkevan suoran yhtälö:

kuva

Tällä rivillä pitäisi olla seuraavanlainen yhtälö:

Tässä alfa ja beta ovat meille tuntemattomia, mutta kaksi pistettä tästä viivasta tunnetaan:

Voimme kirjoittaa tämän yhtälön matriisimuodossa:

Tässä meidän pitäisi tehdä lyyrinen poikkeama: mikä on matriisi? Matriisi ei ole mitään muuta kuin kaksiulotteinen matriisi. Tämä on tapa tallentaa tietoja, eikä siihen saa liittää muita merkityksiä. Se riippuu meistä tarkalleen kuinka tulkita tietty matriisi. Ajoittain tulkitsen sen lineaarisena mappauksena, ajoittain neliömuotona ja joskus yksinkertaisesti vektoreiden joukona. Tämä kaikki selvitetään kontekstissa.

Korvataan konkreettiset matriisit niiden symbolisella esityksellä:

Sitten (alfa, beta) löytyy helposti:

Tarkemmin aiemmista tiedoistamme:

Mikä johtaa pisteiden (1,1) ja (3,2) kautta kulkevan suoran seuraavaan yhtälöön:

Okei, kaikki on selvää täällä. Etsitään läpi kulkevan suoran yhtälö kolme pisteet: (x0,y0), (x1,y1) ja (x2,y2):

Voi-o-oi, mutta meillä on kolme yhtälöä kahdelle tuntemattomalle! Tavallinen matemaatikko sanoo, ettei ratkaisua ole. Mitä ohjelmoija sanoo? Ja hän kirjoittaa ensin uudelleen edellisen yhtälöjärjestelmän seuraavassa muodossa:

Meidän tapauksessamme vektorit i,j,b ovat kolmiulotteisia, joten (yleisessä tapauksessa) tähän järjestelmään ei ole ratkaisua. Mikä tahansa vektori (alfa\*i + beta\*j) on vektorien (i, j) kattamassa tasossa. Jos b ei kuulu tähän tasoon, ratkaisua ei ole (yhtälössä ei voida saavuttaa yhtäläisyyttä). Mitä tehdä? Etsitään kompromissia. Merkitään e (alfa, beta) kuinka pitkälle emme ole saavuttaneet tasa-arvoa:

Ja yritämme minimoida tämän virheen:

Miksi neliö?

Emme etsi vain normin minimiä, vaan normin neliön minimiä. Miksi? Itse minimipiste osuu yhteen, ja neliö antaa tasaisen funktion (argumenttien (alfa, beta) neliöfunktio), kun taas yksinkertaisesti pituus antaa kartion muotoisen funktion, joka ei erotu minimipisteessä. Brr. Neliö on kätevämpi.

Ilmeisesti virhe on minimoitu, kun vektori e kohtisuorassa vektorien kattamaa tasoa vastaan i Ja j.

Kuva

Toisin sanoen: etsimme sellaista suoraa, että kaikkien pisteiden ja tämän suoran välisten etäisyyksien neliöityjen pituuksien summa on minimaalinen:

PÄIVITYS: Minulla on ongelma tässä, etäisyys suoraan tulee mitata pystysuorassa, ei ortogonaalisella projektiolla. Tämä kommentoija on oikeassa.

Kuva

Täysin eri sanoin (huolellisesti, huonosti muotoiltu, mutta sen pitäisi olla selkeä): otamme kaikki mahdolliset viivat kaikkien pisteparien välillä ja etsimme keskimääräistä viivaa kaikkien välillä:

Kuva

Toinen selitys sormille: kiinnitämme jousen kaikkien datapisteiden (tässä niitä on kolme) ja etsimämme suoran ja suoran väliin tasapainotila siellä on juuri sitä mitä etsimme.

Minimi neliömuoto

Joten tämän vektorin perusteella b ja taso, joka ulottuu matriisin sarakevektorien kanssa A(tässä tapauksessa (x0,x1,x2) ja (1,1,1)), etsimme vektoria e jonka pituus on vähintään neliö. Ilmeisesti minimi on saavutettavissa vain vektorille e, kohtisuorassa matriisin sarakevektorien kattamaa tasoa vastaan A:

Toisin sanoen etsimme vektoria x=(alfa, beta), joka on:

Haluan muistuttaa, että tämä vektori x=(alfa, beta) on minimi neliöfunktio||e(alfa, beta)||^2:

Tässä olisi hyvä muistaa, että matriisi voidaan tulkita myös neliömuotoiseksi, esimerkiksi identiteettimatriisi ((1,0),(0,1)) voidaan tulkita funktiona x^2 + y^ 2:

neliömuoto

Kaikki tämä voimistelu tunnetaan nimellä lineaarinen regressio.

Laplacen yhtälö Dirichlet-rajaehdon kanssa

Nyt yksinkertaisin todellinen tehtävä: siellä on tietty kolmiomainen pinta, se on tasoitettava. Ladataan esimerkiksi malli kasvoistani:

Alkuperäinen sitoumus on saatavilla. Ulkoisten riippuvuuksien minimoimiseksi otin ohjelmiston renderöijani koodin jo Habreen. Ratkaisuja varten lineaarinen järjestelmä Käytän OpenNL:ää, se on erinomainen ratkaisu, joka on kuitenkin erittäin vaikea asentaa: sinun on kopioitava kaksi tiedostoa (.h+.c) projektisi kansioon. Kaikki tasoitus tehdään seuraavalla koodilla:

For (int d=0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&face = kasvot[i]; for (int j = 0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

X-, Y- ja Z-koordinaatit ovat erotettavissa, tasoitan ne erikseen. Eli ratkaisen kolme lineaariyhtälöjärjestelmää, joissa kussakin on mallissani olevien pisteiden lukumäärää vastaava määrä muuttujia. Matriisin A ensimmäisellä n rivillä on vain yksi 1 riviä kohden, ja vektorin b ensimmäisillä n rivillä on alkuperäiset mallikoordinaatit. Eli sidon jousen kärjen uuden sijainnin ja kärjen vanhan sijainnin väliin - uudet eivät saa siirtyä liian kauas vanhoista.

Kaikilla matriisin A myöhemmillä riveillä (faces.size()*3 = kaikkien verkon kolmioiden reunojen lukumäärä) on yksi esiintymä 1 ja yksi esiintyminen -1, vektorin b ollessa nollakomponentteja vastakkain. Tämä tarkoittaa, että laitan jousen kolmioverkkomme jokaiseen reunaan: kaikki reunat yrittävät saada saman kärjen kuin aloitus- ja loppupisteensä.

Jälleen kerran: kaikki kärjet ovat muuttujia, eivätkä ne voi liikkua kauas alkuperäisestä sijainnistaan, mutta samalla ne yrittävät tulla samanlaisiksi toistensa kanssa.

Tässä tulos:

Kaikki olisi hyvin, malli on todella tasoitettu, mutta se on siirtynyt pois alkuperäisestä reunastaan. Muutetaan koodia hieman:

For (int i=0; i<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

Matriisissamme A reunassa oleville pisteille en lisää riviä luokasta v_i = verts[i][d], vaan 1000*v_i = 1000*verts[i][d]. Mitä se muuttaa? Ja tämä muuttaa neliöllisen virhemuotomme. Nyt yksittäinen poikkeama ylhäältä reunassa ei maksa yhtä yksikköä, kuten ennen, vaan 1000*1000 yksikköä. Eli ripustimme vahvemman jousen ääripisteisiin, ratkaisu mieluummin venyttää muita voimakkaammin. Tässä tulos:

Kaksinkertaistetaan jousen vahvuus pisteiden välillä:
nlKerroin(face[ j ], 2); nlKerroin(kasvo[(j+1)%3], -2);

On loogista, että pinnasta on tullut tasaisempi:

Ja nyt jopa sata kertaa vahvempi:

Mikä tämä on? Kuvittele, että olemme kastaneet lankarenkaan saippuaveteen. Tämän seurauksena tuloksena oleva saippuakalvo yrittää saada mahdollisimman vähän kaarevuutta koskettaen reunaa - lankarengaamme. Juuri tämän saimme kiinnittämällä reunuksen ja pyytämällä sileää pintaa sisälle. Onnittelut, olemme juuri ratkaisseet Laplacen yhtälön Dirichlet-rajaehdoilla. Kuulostaa siistiltä? Mutta todellisuudessa sinun tarvitsee vain ratkaista yksi lineaarinen yhtälöjärjestelmä.

Poissonin yhtälö

Muistakaamme toinen hieno nimi.

Oletetaan, että minulla on tällainen kuva:

Näyttää hyvältä kaikille, mutta en pidä tuolista.

Leikkaan kuvan puoliksi:

Ja valitsen tuolin käsilläni:

Sitten vedän kuvan vasemmalle puolelle kaiken, mikä on maskissa valkoista, ja samalla sanon koko kuvassa, että kahden vierekkäisen pikselin eron tulee olla yhtä suuri kuin oikean kahden vierekkäisen pikselin ero. kuva:

For (int i=0; i

Tässä tulos:

Koodi ja kuvat saatavilla

Sillä on monia sovelluksia, koska se mahdollistaa likimääräisen esityksen tietystä funktiosta muilla yksinkertaisemmilla. LSM voi olla erittäin hyödyllinen havaintojen käsittelyssä, ja sitä käytetään aktiivisesti arvioimaan joitain suureita toisten satunnaisvirheitä sisältävien mittaustulosten perusteella. Tässä artikkelissa opit toteuttamaan pienimmän neliösumman laskelmia Excelissä.

Ongelman selvitys tietyllä esimerkillä

Oletetaan, että on kaksi indikaattoria X ja Y. Lisäksi Y riippuu X:stä. Koska OLS kiinnostaa meitä regressioanalyysin näkökulmasta (Excelissä sen menetelmät toteutetaan sisäänrakennettujen funktioiden avulla), meidän on heti siirryttävä tarkastelemaan erityinen ongelma.

Olkoon X siis ruokakaupan myyntipinta-ala neliömetrinä mitattuna ja Y vuosiliikevaihto miljoonissa ruplissa mitattuna.

On tehtävä ennuste liikevaihdosta (Y), jos sillä on tätä tai toista myyntitilaa. On selvää, että funktio Y = f (X) kasvaa, koska hypermarket myy enemmän tavaraa kuin kioski.

Muutama sana ennustukseen käytettyjen lähtötietojen oikeellisuudesta

Oletetaan, että meillä on taulukko, joka on rakennettu käyttämällä n myymälän tietoja.

Matemaattisten tilastojen mukaan tulokset ovat enemmän tai vähemmän oikeita, jos tutkitaan vähintään 5-6 kohteen tietoja. Lisäksi "poikkeavia" tuloksia ei voida käyttää. Erityisesti eliittipienen putiikin liikevaihto voi olla useita kertoja suurempi kuin "masmarket"-luokan suurten vähittäismyyntipisteiden liikevaihto.

Menetelmän ydin

Taulukon tiedot voidaan kuvata suorakulmaisessa tasossa pisteiden M 1 (x 1, y 1), ... M n (x n, y n) muodossa. Nyt tehtävän ratkaisu pelkistetään approksimoivan funktion y = f (x) valintaan, jonka graafi kulkee mahdollisimman läheltä pisteitä M 1, M 2, .. M n.

Tietysti voit käyttää korkean asteen polynomia, mutta tämä vaihtoehto ei ole vain vaikea toteuttaa, vaan myös yksinkertaisesti virheellinen, koska se ei heijasta päätrendiä, joka on havaittava. Järkevin ratkaisu on etsiä suoraa y = ax + b, joka parhaiten approksimoi kokeellista dataa tai tarkemmin sanottuna kertoimia a ja b.

Tarkkuusarviointi

Millä tahansa likiarvolla sen tarkkuuden arvioiminen on erityisen tärkeää. Merkitään e i:llä pisteen x i toiminnallisten ja kokeellisten arvojen ero (poikkeama), eli e i = y i - f (x i).

On selvää, että arvioidaksesi likiarvon tarkkuutta, voit käyttää poikkeamien summaa, eli kun valitset suoran X:n riippuvuuden likimääräiselle esitykselle Y:stä, sinun tulee antaa etusijalle se, jonka arvo on pienin. summa e i kaikissa tarkasteltavissa olevissa kohdissa. Kaikki ei kuitenkaan ole niin yksinkertaista, koska positiivisten poikkeamien ohella on myös negatiivisia.

Ongelma voidaan ratkaista poikkeamamoduuleilla tai niiden neliöillä. Viimeinen menetelmä on yleisimmin käytetty. Sitä käytetään monilla aloilla, mukaan lukien regressioanalyysi (toteutettu Excelissä kahdella sisäänrakennetulla funktiolla), ja se on pitkään osoittanut tehokkuutensa.

Pienimmän neliön menetelmä

Kuten tiedät, Excelissä on sisäänrakennettu AutoSum-toiminto, jonka avulla voit laskea kaikkien valitulla alueella sijaitsevien arvojen arvot. Näin ollen mikään ei estä meitä laskemasta lausekkeen arvoa (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

Matemaattisessa merkinnässä tämä näyttää tältä:

Koska päätös tehtiin alun perin likimääräiseksi suoralla viivalla, meillä on:

Siten tehtävä löytää suora, joka parhaiten kuvaa suureiden X ja Y ominaisriippuvuutta, tulee laskemaan kahden muuttujan funktion minimi:

Tätä varten sinun on rinnastettava uusien muuttujien a ja b osittaiset derivaatat nollaan ja ratkaistava primitiivinen järjestelmä, joka koostuu kahdesta yhtälöstä, joissa on 2 muodoltaan tuntematonta:

Muutaman yksinkertaisen muunnoksen jälkeen, mukaan lukien jakaminen kahdella ja summien manipulointi, saamme:

Ratkaisemalla sen esimerkiksi Cramerin menetelmällä saamme stationaarisen pisteen tietyillä kertoimilla a * ja b *. Tämä on minimi, eli liikkeen liikevaihdon ennustamiseen tietyllä alueella sopii suora y = a * x + b *, joka on regressiomalli kyseessä olevalle esimerkille. Tarkkaa tulosta ei tietenkään löydy, mutta se auttaa saamaan käsityksen siitä, kannattaako tietyn alueen ostaminen kauppaluotolla.

Kuinka ottaa pienimmän neliösumman käyttöön Excelissä

Excelissä on toiminto arvojen laskemiseen pienimmän neliösumman avulla. Sillä on seuraava muoto: "TREND" (tunnetut Y-arvot; tunnetut X-arvot; uudet X-arvot; vakio). Sovelletaan OLS:n laskentakaavaa Excelissä taulukkoomme.

Tätä varten syötä "="-merkki soluun, jossa Excelin pienimmän neliösumman menetelmällä suoritetun laskennan tulos tulee näkyä, ja valitse "TREND"-funktio. Täytä avautuvassa ikkunassa tarvittavat kentät korostaen:

Y:n tunnettujen arvojen alue (tässä tapauksessa tiedot kaupan liikevaihdosta);
alue x 1 , …x n , eli liiketilan koko;
sekä tunnetut että tuntemattomat x:n arvot, joille sinun on selvitettävä liikevaihdon koko (katso alta tietoja niiden sijainnista laskentataulukossa).

Lisäksi kaava sisältää loogisen muuttujan "Const". Jos syötät 1 vastaavaan kenttään, sinun tulee suorittaa laskelmat olettaen, että b = 0.

Jos sinun on selvitettävä ennuste useammalle kuin yhdelle x-arvolle, kaavan syöttämisen jälkeen sinun ei pitäisi painaa "Enter", vaan sinun on kirjoitettava näppäimistöllä yhdistelmä "Shift" + "Control" + "Enter".

Jotkut ominaisuudet

Regressioanalyysi voi olla jopa nukkejen saatavilla. Excel-kaavaa tuntemattomien muuttujien joukon arvon ennustamiseen – TREND – voivat käyttää myös ne, jotka eivät ole koskaan kuulleet pienimmän neliösumman käytöstä. Riittää, kun tietää joitakin sen työn ominaisuuksia. Erityisesti:

Jos järjestät muuttujan y tunnettujen arvojen alueen yhdelle riville tai sarakkeelle, ohjelma havaitsee jokaisen rivin (sarakkeen), jolla on tunnetut x:n arvot, erillisenä muuttujana.
Jos aluetta, jolla on tunnettu x, ei ole määritetty TREND-ikkunassa, käytettäessä funktiota Excelissä, ohjelma käsittelee sitä taulukkona, joka koostuu kokonaisluvuista, joiden lukumäärä vastaa aluetta annetuilla arvoilla. muuttuja y.
"Ennustettujen" arvojen taulukon tulostamiseksi trendin laskentalauseke on syötettävä taulukkokaavana.
Jos uusia x:n arvoja ei ole määritetty, TREND-funktio pitää niitä yhtä suurena kuin tunnetut arvot. Jos niitä ei ole määritetty, taulukko 1 otetaan argumentiksi; 2; 3; 4;…, joka on oikeassa suhteessa jo määritettyjen parametrien y alueeseen.
Uudet x-arvot sisältävällä alueella on oltava sama tai useampi rivi tai sarake kuin annetut y-arvot sisältävällä alueella. Toisin sanoen sen on oltava verrannollinen riippumattomiin muuttujiin.
Taulukko, jossa on tunnetut x-arvot, voi sisältää useita muuttujia. Jos kuitenkin puhumme vain yhdestä, vaaditaan, että alueet annetuilla x:n ja y:n arvoilla ovat verrannollisia. Useamman muuttujan tapauksessa on välttämätöntä, että alue annetuilla y-arvoilla mahtuu yhteen sarakkeeseen tai yhteen riviin.

PREDICTION-toiminto

Toteutettu useilla toiminnoilla. Yksi niistä on nimeltään "PREDICTION". Se on samanlainen kuin "TREND", eli se antaa laskelmien tuloksen pienimmän neliösumman menetelmällä. Kuitenkin vain yhdelle X:lle, jonka Y:n arvoa ei tunneta.

Nyt tiedät Excelissä kaavoja nukkeja varten, joiden avulla voit ennustaa tietyn indikaattorin tulevan arvon lineaarisen trendin mukaan.

Pienimmän neliön menetelmä käytetään arvioimaan regressioyhtälön parametreja.

Yksi menetelmistä ominaisuuksien välisten stokastisten suhteiden tutkimiseksi on regressioanalyysi.
Regressioanalyysi on regressioyhtälön johtaminen, jonka avulla saadaan satunnaismuuttujan (tulosattribuutin) keskiarvo, jos toisen (tai muun) muuttujan (tekijä-attribuutin) arvo tunnetaan. Se sisältää seuraavat vaiheet:

yhteysmuodon valinta (analyyttisen regressioyhtälön tyyppi);
yhtälöparametrien estimointi;
analyyttisen regressioyhtälön laadun arviointi.

Useimmiten lineaarista muotoa käytetään kuvaamaan piirteiden tilastollista suhdetta. Lineaarisiin suhteisiin keskittyminen selittyy sen parametrien selkeällä taloudellisella tulkinnalla, muuttujien rajoitetulla vaihtelulla ja sillä, että useimmissa tapauksissa epälineaariset suhdemuodot muunnetaan (logaritmilla tai muuttujien korvaamalla) lineaariseen muotoon laskelmien suorittamista varten. .
Lineaarisen parittaisen suhteen tapauksessa regressioyhtälö saa muotoa: y i =a+b·x i +u i . Tämän yhtälön parametrit a ja b on arvioitu tilastollisista havaintotiedoista x ja y. Tällaisen arvioinnin tulos on yhtälö: , jossa , ovat parametrien a ja b estimaatteja, on regressioyhtälöstä saadun attribuutin (muuttujan) arvo (laskettu arvo).

Useimmiten käytetään parametrien arvioimiseen pienimmän neliösumman menetelmä (LSM).
Pienimmän neliösumman menetelmä tarjoaa parhaat (yhdenmukaiset, tehokkaat ja puolueettomat) estimaatit regressioyhtälön parametreille. Mutta vain, jos tietyt satunnaistermiä (u) ja riippumatonta muuttujaa (x) koskevat oletukset täyttyvät (katso OLS-oletukset).

Ongelma lineaarisen pariyhtälön parametrien estimoimiseksi pienimmän neliösumman menetelmällä on seuraava: saada sellaiset parametrien estimaatit , joissa tuloksena olevan ominaisuuden - y i - todellisten arvojen neliöpoikkeamien summa lasketuista arvoista on minimaalinen.
Muodollisesti OLS-kriteeri voidaan kirjoittaa näin: .

Pienimmän neliösumman menetelmien luokittelu

Pienimmän neliön menetelmä.
Maksimitodennäköisyysmenetelmä (normaalissa klassisessa lineaarisessa regressiomallissa oletetaan regressiojäännösten normaaliutta).
Virheiden autokorrelaatiossa ja heteroskedastisuuden tapauksessa käytetään yleistettyä pienimmän neliösumman OLS-menetelmää.
Painotettu pienimmän neliösumman menetelmä (OLS:n erikoistapaus heteroskedastisilla jäännöksillä).

Havainnollistetaan pointtia klassinen pienimmän neliösumman menetelmä graafisesti. Tätä varten rakennetaan havaintodataan (x i, y i, i=1;n) perustuva sirontakuvaaja suorakaiteen muotoiseen koordinaattijärjestelmään (tällaista sirontakuvaajaa kutsutaan korrelaatiokentällä). Yritetään valita suora, joka on lähinnä korrelaatiokentän pisteitä. Pienimmän neliösumman menetelmän mukaan viiva valitaan siten, että korrelaatiokentän pisteiden ja tämän suoran välisten pystyetäisyyksien neliöiden summa on minimaalinen.

Tämän ongelman matemaattinen merkintä: .
Arvot y i ja x i =1...n ovat meille tiedossa, nämä ovat havaintotietoja. S-funktiossa ne edustavat vakioita. Tämän funktion muuttujat ovat parametrien - , . Kahden muuttujan funktion minimin löytämiseksi on tarpeen laskea tämän funktion osittaiset derivaatat kullekin parametrille ja rinnastaa ne nollaan, ts. .
Tuloksena saamme kahden normaalin lineaarisen yhtälön järjestelmän:
Ratkaisemalla tämän järjestelmän löydämme tarvittavat parametriarviot:

Regressioyhtälön parametrien laskennan oikeellisuus voidaan tarkistaa vertaamalla summia (laskelmien pyöristämisestä voi aiheutua eroja).
Voit laskea parametriarviot rakentamalla taulukon 1.
Regressiokertoimen b etumerkki ilmaisee suhteen suunnan (jos b >0, suhde on suora, jos b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Muodollisesti parametrin a arvo on y:n keskiarvo, kun x on nolla. Jos attribuuttitekijällä ei ole eikä voi olla nolla-arvoa, niin yllä oleva parametrin a tulkinta ei ole järkevä.

Ominaisuuksien välisen suhteen läheisyyden arviointi suoritetaan käyttämällä lineaarista parikorrelaatiokerrointa - r x,y. Se voidaan laskea kaavalla: . Lisäksi lineaarinen parikorrelaatiokerroin voidaan määrittää regressiokertoimella b: .
Lineaarisen parin korrelaatiokertoimen hyväksyttävien arvojen alue on -1 - +1. Korrelaatiokertoimen etumerkki ilmaisee suhteen suunnan. Jos r x, y >0, yhteys on suora; jos r x, y<0, то связь обратная.
Jos tämä kerroin on suuruudeltaan lähellä yksikköä, ominaisuuksien välinen suhde voidaan tulkita melko läheiseksi lineaariseksi. Jos sen moduuli on yhtä suuri kuin yksi ê r x , y ê =1, niin ominaisuuksien välinen suhde on funktionaalinen lineaarinen. Jos ominaisuudet x ja y ovat lineaarisesti riippumattomia, niin r x,y on lähellä nollaa.
Voit myös käyttää taulukkoa 1 laskeaksesi r x,y.

pöytä 1

N havaintoja	x i	y i	x i ∙y i
1	x 1	v 1	x 1 v 1
2	x 2	v 2	x 2 v 2
...
n	x n	y n	x n y n
Sarakkeen summa	∑x	∑y	∑xy
Keskiarvo

Tuloksena olevan regressioyhtälön laadun arvioimiseksi laske teoreettinen määrityskerroin - R 2 yx:

,
missä d 2 on y:n varianssi, joka on selitetty regressioyhtälöllä;
e 2 - y:n jäännösvarianssi (regressioyhtälön selittämätön);
s 2 y - y:n kokonaisvarianssi.
Determinaatiokerroin kuvaa regressiolla selitetyn regression (ja siten tekijän x) y:n variaation (dispersion) osuutta kokonaisvariaatiossa (dispersiossa) y. Determinaatiokerroin R 2 yx saa arvot välillä 0 - 1. Vastaavasti arvo 1-R 2 yx kuvaa varianssin y osuutta, joka aiheutuu muiden mallissa huomioimattomien tekijöiden vaikutuksesta ja spesifikaatiovirheistä.
Lineaarisella regressiolla R 2 yx = r 2 yx.