Koristite metodu najmanjih kvadrata da pronađete pravu liniju. Gdje se koristi metoda najmanjih kvadrata?

  • Tutorial

Uvod

Ja sam matematičar i programer. Najveći skok koji sam napravio u karijeri je kada sam naučio da kažem: "Ništa ne razumem!" Sad se ne stidim da kažem svetioniku nauke da mi drži predavanje, da ne razumem šta mi on, svetilo, govori. I to je veoma teško. Da, priznati svoje neznanje je teško i sramotno. Ko voli da prizna da ne zna osnove nečega? Zbog moje profesije, moram prisustvovati velike količine prezentacije i predavanja, gdje, priznajem, u velikoj većini slučajeva želim spavati jer ništa ne razumijem. Ali ne razumijem jer veliki problem trenutne situacije u nauci leži u matematici. Pretpostavlja se da su svi slušaoci upoznati sa apsolutno svim oblastima matematike (što je apsurdno). Priznati da ne znate šta je derivat (o čemu ćemo govoriti malo kasnije) je sramotno.

Ali naučio sam da kažem da ne znam šta je množenje. Da, ne znam šta je podalgebra nad Lijevom algebrom. Da, ne znam zašto su potrebni u životu kvadratne jednačine. Inače, ako ste sigurni da znate, onda imamo o čemu da razgovaramo! Matematika je niz trikova. Matematičari pokušavaju da zbune i zastraše javnost; gdje nema zabune, nema ugleda, nema autoriteta. Da, prestižno je govoriti što apstraktnijim jezikom, što je potpuna glupost.

Znate li šta je derivat? Najvjerovatnije ćete mi reći o granici omjera razlike. Viktor Petrovič Havin mi je rekao na prvoj godini matematike i mehanike na Državnom univerzitetu u Sankt Peterburgu odlučan izvod kao koeficijent prvog člana Taylorovog reda funkcije u tački (ovo je bila posebna gimnastika za određivanje Taylorovog reda bez izvoda). Dugo sam se smijao ovoj definiciji dok konačno nisam shvatio o čemu se radi. Izvod nije ništa drugo nego jednostavna mjera koliko je funkcija koju razlikujemo slična funkciji y=x, y=x^2, y=x^3.

Sada imam čast da držim predavanja studentima koji uplašen matematike. Ako se bojite matematike, mi smo na istom putu. Čim pokušate da pročitate neki tekst i učini vam se da je previše komplikovan, znajte da je loše napisan. Tvrdim da ne postoji nijedna oblast matematike o kojoj se ne može raspravljati "na prste" a da se ne izgubi tačnost.

Zadatak za blisku budućnost: Zadao sam svojim učenicima da shvate šta je linearni kvadratni regulator. Ne stidite se, potrošite tri minuta svog života i pratite link. Ako ništa ne razumete, onda smo na istom putu. Ni ja (profesionalni matematičar-programer) nisam ništa razumio. I uvjeravam vas, ovo možete shvatiti „na prstima“. On trenutno Ne znam šta je to, ali uvjeravam vas da možemo to shvatiti.

Dakle, prvo predavanje koje ću održati svojim studentima nakon što mi dotrče užasnuto i kažu da je linearno-kvadratni regulator strašna stvar koju nikada nećete savladati u životu je metode najmanjih kvadrata . Možete li odlučiti linearne jednačine? Ako čitate ovaj tekst, onda najvjerovatnije ne.

Dakle, date dvije tačke (x0, y0), (x1, y1), na primjer, (1,1) i (3,2), zadatak je pronaći jednadžbu prave koja prolazi kroz ove dvije tačke:

ilustracija

Ova linija bi trebala imati jednačinu poput sljedeće:

Ovdje su nam alfa i beta nepoznate, ali su poznate dvije tačke ove linije:

Ovu jednačinu možemo napisati u matričnom obliku:

Ovdje bismo trebali napraviti lirsku digresiju: ​​šta je matrica? Matrica nije ništa drugo do dvodimenzionalni niz. Ovo je način pohranjivanja podataka. Od nas zavisi kako tačno interpretirati određenu matricu. Periodično ću to tumačiti kao linearno preslikavanje, periodično kao kvadratni oblik, a ponekad samo kao skup vektora. Ovo će sve biti razjašnjeno u kontekstu.

Zamijenimo konkretne matrice njihovim simboličkim prikazom:

Tada se (alfa, beta) može lako pronaći:

Konkretnije za naše prethodne podatke:

Što dovodi do sljedeće jednačine prave koja prolazi kroz tačke (1,1) i (3,2):

Dobro, ovde je sve jasno. Nađimo jednačinu prave koja prolazi tri tačke: (x0,y0), (x1,y1) i (x2,y2):

Oh-oh-oh, ali imamo tri jednadžbe za dvije nepoznanice! Standardni matematičar će reći da nema rješenja. Šta će reći programer? I prvo će prepisati prethodni sistem jednačina u sljedećem obliku:

U našem slučaju vektori i,j,b su trodimenzionalni, stoga (u opštem slučaju) ne postoji rešenje za ovaj sistem. Bilo koji vektor (alpha\*i + beta\*j) leži u ravni koju pokrivaju vektori (i, j). Ako b ne pripada ovoj ravni, onda nema rješenja (jednakost se ne može postići u jednadžbi). sta da radim? Hajde da tražimo kompromis. Označimo sa e (alfa, beta) koliko tačno nismo postigli ravnopravnost:

I mi ćemo pokušati minimizirati ovu grešku:

Zašto kvadrat?

Ne tražimo samo minimum norme, već minimum kvadrata norme. Zašto? Minimalna tačka sama po sebi se poklapa, a kvadrat daje glatku funkciju (kvadratna funkcija argumenata (alfa, beta)), dok jednostavno dužina daje funkciju u obliku konusa, nediferencirajuću u minimalnoj tački. Brr. Kvadrat je pogodniji.

Očigledno, greška je minimizirana kada je vektor e ortogonalno na ravan koju pokrivaju vektori i I j.

Ilustracija

Drugim riječima: tražimo pravu liniju tako da je zbroj kvadrata dužina udaljenosti od svih tačaka do ove prave linije minimalan:

AŽURIRANJE: Ovdje imam problem, udaljenost do prave treba mjeriti vertikalno, a ne ortogonalnom projekcijom. Ovaj komentator je u pravu.

Ilustracija

Potpuno drugačijim riječima (pažljivo, loše formalizirano, ali treba biti jasno): uzimamo sve moguće linije između svih parova tačaka i tražimo prosječnu liniju između svih:

Ilustracija

Još jedno objašnjenje na prstima: pričvršćujemo oprugu između svih tačaka podataka (ovdje imamo tri) i prave linije koju tražimo i ravne linije stanje ravnoteže postoji upravo ono što tražimo.

Minimalni kvadratni oblik

Dakle, s obzirom na ovaj vektor b i ravan prošaranu vektorima stupaca matrice A(u ovom slučaju (x0,x1,x2) i (1,1,1)), tražimo vektor e sa minimalnim kvadratom dužine. Očigledno, minimum je dostižan samo za vektor e, ortogonalno na ravan koju pokrivaju vektori stupaca matrice A:

Drugim riječima, tražimo vektor x=(alfa, beta) takav da:

Da vas podsjetim da je ovaj vektor x=(alfa, beta) minimum kvadratna funkcija||e(alfa, beta)||^2:

Ovdje bi bilo korisno zapamtiti da se matrica može tumačiti i kao kvadratni oblik, na primjer, matrica identiteta ((1,0),(0,1)) se može interpretirati kao funkcija x^2 + y^ 2:

kvadratni oblik

Sva ova gimnastika poznata je pod nazivom linearna regresija.

Laplaceova jednadžba sa Dirichletovim graničnim uvjetom

Sada najjednostavniji stvarni zadatak: postoji određena triangulirana površina, potrebno je izgladiti. Na primjer, učitajmo model mog lica:

Originalno urezivanje je dostupno. Da smanjim spoljne zavisnosti, uzeo sam kod svog softverskog renderera, već na Habré-u. Za rješavanje linearni sistem Ja koristim OpenNL, odličan je rešavač, koji je, međutim, veoma težak za instaliranje: potrebno je da kopirate dva fajla (.h+.c) u fasciklu sa vašim projektom. Svo izglađivanje se radi sa sljedećim kodom:

Za (int d=0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&face = lica[i];<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

Koordinate X, Y i Z su razdvojive, ja ih izglađujem zasebno. Odnosno, rješavam tri sistema linearnih jednačina, od kojih svaki ima broj varijabli jednak broju vrhova u mom modelu. Prvih n redova matrice A ima samo jednu 1 po redu, a prvih n redova vektora b imaju originalne koordinate modela. Odnosno, vezujem oprugu između nove pozicije temena i stare pozicije temena - novi se ne bi trebali previše udaljavati od starih.

Svi naredni redovi matrice A (faces.size()*3 = broj ivica svih trouglova u mreži) imaju jedno pojavljivanje 1 i jedno pojavljivanje -1, pri čemu vektor b ima nula komponenti nasuprot. To znači da stavljam oprugu na svaku ivicu naše trouglaste mreže: sve ivice pokušavaju da dobiju isti vrh kao njihova početna i završna tačka.

Još jednom: svi vrhovi su varijable, i ne mogu se udaljiti od svog prvobitnog položaja, ali u isto vrijeme pokušavaju da postanu slični jedni drugima.

Evo rezultata:

Sve bi bilo u redu, model je zaista izglađen, ali se udaljio od prvobitne ivice. Promenimo malo kod:

Za (int i=0; i<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

U našoj matrici A, za vrhove koji se nalaze na ivici, ne dodajem red iz kategorije v_i = verts[i][d], već 1000*v_i = 1000*verts[i][d]. Kakva je to razlika? I ovo mijenja naš kvadratni oblik greške. Sada će jedno odstupanje od vrha na rubu koštati ne jednu jedinicu, kao prije, već 1000*1000 jedinica. Odnosno, okačili smo jaču oprugu na ekstremne vrhove, rješenje će radije istegnuti ostale jače. Evo rezultata:

Udvostručimo snagu opruge između vrhova:
nlKoeficijent(lice[j], 2);

nlKoeficijent(lice[(j+1)%3], -2);

Logično je da je površina postala glatkija:

A sada čak sto puta jače:

sta je ovo Zamislite da smo umočili žičani prsten u vodu sa sapunom. Kao rezultat toga, rezultirajući film sapuna pokušat će imati najmanju moguću zakrivljenost, dodirujući granicu - naš žičani prsten. Upravo to smo dobili tako što smo popravili ivicu i tražili glatku površinu unutra. Čestitamo, upravo smo riješili Laplaceovu jednačinu sa Dirichletovim graničnim uslovima. Zvuči cool? Ali u stvarnosti, trebate samo riješiti jedan sistem linearnih jednačina.

Poissonova jednadžba

Prisjetimo se još jednog cool imena.

Recimo da imam ovakvu sliku:

Svima izgleda dobro, ali meni se ne sviđa stolica.



Preseći ću sliku na pola:

Zatim ću sve što je bijelo na maski povući na lijevu stranu slike, a istovremeno ću kroz cijelu sliku reći da razlika između dva susjedna piksela treba biti jednaka razlici između dva susjedna piksela na prava slika:

Za (int i=0; i

Evo rezultata:

Dostupni kod i slike

Široko se koristi u ekonometriji u obliku jasne ekonomske interpretacije njenih parametara.

Linearna regresija se svodi na pronalaženje jednačine oblika

ili

Jednačina oblika dozvoljava na osnovu specificiranih vrijednosti parametara X imaju teorijske vrijednosti rezultantne karakteristike, zamjenjujući stvarne vrijednosti faktora u nju X.

Izgradnja linearna regresija svodi se na procjenu njegovih parametara - A I V. Procjene parametara linearne regresije mogu se pronaći korištenjem različitih metoda.

Klasičan pristup procjeni parametara linearne regresije temelji se na metoda najmanjih kvadrata(MNC).

Metoda najmanjih kvadrata nam omogućava da dobijemo takve procjene parametara A I V, pri čemu je zbir kvadrata odstupanja stvarnih vrijednosti rezultantne karakteristike (y) od izračunatog (teorijskog) minimum:

Da biste pronašli minimum funkcije, morate izračunati parcijalne izvode za svaki od parametara A I b i postavite ih jednakima nuli.

Označimo kroz S, onda:

Transformacijom formule dobijamo sledeći sistem normalnih jednačina za procenu parametara A I V:

Rješavajući sistem normalnih jednačina (3.5) bilo metodom sekvencijalne eliminacije varijabli ili metodom determinanti, nalazimo tražene procjene parametara A I V.

Parametar V nazvan koeficijent regresije. Njegova vrijednost pokazuje prosječnu promjenu rezultata sa promjenom faktora za jednu jedinicu.

Jednačina regresije je uvijek dopunjena indikatorom bliskosti veze. Kada se koristi linearna regresija, takav pokazatelj je koeficijent linearne korelacije. Postoje različite modifikacije formule koeficijenta linearne korelacije. Neki od njih su dati u nastavku:

Kao što je poznato, koeficijent linearne korelacije je u granicama: -1 1.

Za procjenu kvaliteta odabira linearne funkcije izračunava se kvadrat

Koeficijent linearne korelacije tzv koeficijent determinacije. Koeficijent determinacije karakterizira udio varijanse rezultirajuće karakteristike y, objašnjeno regresijom, u ukupnoj varijansi rezultirajuće osobine:

Shodno tome, vrijednost 1 karakterizira udio varijanse y, uzrokovane uticajem drugih faktora koji nisu uzeti u obzir u modelu.

Pitanja za samokontrolu

1. Suština metode najmanjih kvadrata?

2. Koliko varijabli pruža parna regresija?

3. Koji koeficijent određuje bliskost veze između promjena?

4. U kojim granicama se utvrđuje koeficijent determinacije?

5. Procjena parametra b u korelaciono-regresionoj analizi?

1. Christopher Dougherty. Uvod u ekonometriju. - M.: INFRA - M, 2001 - 402 str.

2. S.A. Borodich. Ekonometrija. Minsk DOO “Novo znanje” 2001.


3. R.U. Rakhmetova Kratki kurs iz ekonometrije. Vodič za učenje. Almaty. 2004. -78p.

4. I.I. Eliseeva Econometrics. - M.: “Finansije i statistika”, 2002

5. Mjesečni informativno-analitički časopis.

Nelinearni ekonomski modeli. Modeli nelinearne regresije. Transformacija varijabli.

Nelinearni ekonomski modeli..

Transformacija varijabli.

Koeficijent elastičnosti.

Ako postoje nelinearni odnosi između ekonomskih fenomena, onda se oni izražavaju pomoću odgovarajućih nelinearnih funkcija: na primjer, jednakostranična hiperbola , parabole drugog stepena i sl.

Postoje dvije klase nelinearnih regresija:

1. Regresije koje su nelinearne u odnosu na objašnjavajuće varijable uključene u analizu, ali linearne u odnosu na procijenjene parametre, na primjer:

Polinomi različitih stepeni - , ;

Jednakostranična hiperbola - ;

Semilogaritamska funkcija - .

2. Regresije koje su nelinearne u parametrima koji se procjenjuju, na primjer:

Snaga - ;

Demonstrativna - ;

Eksponencijalno - .

Ukupan zbroj kvadrata odstupanja pojedinačnih vrijednosti rezultirajuće karakteristike at od prosječne vrijednosti uzrokovano je uticajem mnogih razloga. Uvjetno podijelimo cijeli niz razloga u dvije grupe: faktor koji se proučava x I drugi faktori.

Ako faktor ne utječe na rezultat, tada je linija regresije na grafu paralelna s osom Oh I

Tada je cijela varijansa rezultirajuće karakteristike posljedica utjecaja drugih faktora i ukupni zbir kvadrata odstupanja će se poklopiti sa ostatkom. Ako drugi faktori ne utiču na rezultat, onda y tied With X funkcionalno i rezidualni zbir kvadrata je nula. U ovom slučaju, zbir kvadrata odstupanja objašnjenih regresijom je isti kao i ukupni zbir kvadrata.

Kako sve tačke korelacionog polja ne leže na regresijskoj liniji, njihovo rasipanje se uvek javlja kao rezultat uticaja faktora X, odnosno regresija at By X, i uzrokovane drugim uzrocima (neobjašnjive varijacije). Pogodnost linije regresije za predviđanje zavisi od toga koji deo ukupne varijacije osobine at objašnjava objašnjenu varijaciju

Očigledno, ako je zbir kvadrata odstupanja zbog regresije veći od preostalog zbira kvadrata, tada je jednadžba regresije statistički značajna i faktor X ima značajan uticaj na rezultat u.

, tj. sa brojem slobode nezavisne varijacije karakteristike. Broj stepeni slobode povezan je sa brojem jedinica populacije n i brojem konstanti koje se određuju iz njega. U odnosu na problem koji se proučava, broj stepeni slobode treba da pokaže koliko je nezavisnih odstupanja od n

Procjena značaja regresione jednačine u cjelini data je korištenjem F-Fišerov kriterijum. U ovom slučaju se postavlja nulta hipoteza da je koeficijent regresije jednak nuli, tj. b = 0, a samim tim i faktor X ne utiče na rezultat u.

Neposrednom izračunavanju F-testa prethodi analiza varijanse. Centralno mjesto u njemu zauzima dekompozicija ukupnog zbira kvadrata odstupanja varijable at od prosječne vrijednosti at na dva dijela - "objašnjeno" i "neobjašnjeno":

- ukupan zbir kvadrata odstupanja;

- zbir kvadrata odstupanja objašnjenih regresijom;

- rezidualni zbir kvadrata odstupanja.

Svaki zbir odstupanja na kvadrat povezan je sa brojem stepeni slobode , tj. sa brojem slobode nezavisne varijacije karakteristike. Broj stepena slobode povezan je sa brojem populacijskih jedinica n i sa brojem konstanti određenim iz njega. U odnosu na problem koji se proučava, broj stepeni slobode treba da pokaže koliko je nezavisnih odstupanja od n moguće potrebno za formiranje date sume kvadrata.

Disperzija po stepenu slobodeD.

F-odnosi (F-test):

Ako je nulta hipoteza tačna, tada se faktor i preostale varijanse ne razlikuju jedna od druge. Za H 0 potrebno je opovrgavanje kako bi disperzija faktora nekoliko puta premašila disperziju ostatka. Engleski statističar Snedekor razvio je tabele kritičnih vrednosti F-relacije na različitim nivoima značaja nulte hipoteze i različitog broja stepeni slobode. Vrijednost tabele F-kriterijum je maksimalna vrijednost omjera varijansi koja se može pojaviti u slučaju slučajne divergencije za dati nivo vjerovatnoće prisustva nulte hipoteze. Izračunata vrijednost F-relacije se smatraju pouzdanim ako je o veće od tabele.

U ovom slučaju se odbacuje nulta hipoteza o nepostojanju veze između znakova i izvodi se zaključak o značaju ovog odnosa: F činjenica > F tabela H 0 je odbijen.

Ako je vrijednost manja od prikazane u tabeli F činjenica ‹, F tabela, tada je vjerovatnoća nulte hipoteze veća od određenog nivoa i ne može se odbaciti bez ozbiljnog rizika od izvođenja pogrešnog zaključka o postojanju veze. U ovom slučaju, jednačina regresije se smatra statistički beznačajnom. Ali on ne odstupa.

Standardna greška koeficijenta regresije

Da bi se procijenila značajnost koeficijenta regresije, njegova vrijednost se upoređuje sa njegovom standardnom greškom, odnosno utvrđuje se stvarna vrijednost t-Učenički test: koji se zatim poredi sa tabelarnom vrednošću na određenom nivou značajnosti i broju stepeni slobode ( n- 2).

Standardna greška parametra A:

Značajnost koeficijenta linearne korelacije se provjerava na osnovu veličine greške koeficijent korelacije t r:

Ukupna varijansa osobina X:

Višestruka linearna regresija

Izgradnja modela

Višestruka regresija predstavlja regresiju efektivne karakteristike sa dva ili više faktora, odnosno model forme

Regresija može dati dobre rezultate u modeliranju ako se zanemari uticaj drugih faktora koji utiču na predmet proučavanja. Ponašanje pojedinih ekonomskih varijabli ne može se kontrolisati, odnosno nije moguće osigurati jednakost svih ostalih uslova za procjenu uticaja jednog faktora koji se proučava. U ovom slučaju, trebali biste pokušati identificirati utjecaj drugih faktora tako što ćete ih uvesti u model, tj. konstruirati jednadžbu višestruke regresije: y = a+b 1 x 1 +b 2 +…+b p x p + .

Osnovni cilj višestruke regresije je da se izgradi model sa velikim brojem faktora, pri čemu se utvrđuje uticaj svakog od njih posebno, kao i njihov kombinovani uticaj na modelirani indikator. Specifikacija modela uključuje dva niza pitanja: izbor faktora i izbor vrste regresijske jednačine

Metoda najmanjih kvadrata (OLS) omogućava procjenu različitih veličina koristeći rezultate mnogih mjerenja koja sadrže slučajne greške.

Karakteristike MNE

Osnovna ideja ove metode je da se zbir grešaka na kvadrat smatra kriterijem za tačnost rješavanja problema, koji nastoje minimizirati. Pri korištenju ove metode mogu se koristiti i numerički i analitički pristupi.

Konkretno, kao numerička implementacija, metoda najmanjih kvadrata uključuje uzimanje što više mjerenja nepoznate slučajne varijable. Štaviše, što je više proračuna, to će rješenje biti preciznije. Na osnovu ovog skupa proračuna (početnih podataka) dobija se još jedan skup procenjenih rešenja iz kojih se zatim bira najbolje. Ako je skup rješenja parametrizovan, tada će se metoda najmanjih kvadrata svesti na pronalaženje optimalne vrijednosti parametara.

Kao analitički pristup implementaciji LSM-a na skup početnih podataka (mjerenja) i očekivani skup rješenja, određuje se određeno (funkcionalno) koje se može izraziti formulom dobijenom kao određena hipoteza koja zahtijeva potvrdu. U ovom slučaju, metoda najmanjih kvadrata se svodi na pronalaženje minimuma ovog funkcionala na skupu kvadrata grešaka originalnih podataka.

Imajte na umu da to nisu same greške, već kvadrati grešaka. Zašto? Činjenica je da su često odstupanja mjerenja od tačne vrijednosti i pozitivna i negativna. Prilikom određivanja prosjeka, jednostavno zbrajanje može dovesti do pogrešnog zaključka o kvaliteti procjene, jer će poništavanje pozitivnih i negativnih vrijednosti smanjiti snagu uzorkovanja višestrukih mjerenja. I, shodno tome, tačnost procjene.

Da se to ne bi dogodilo, kvadratna odstupanja se zbrajaju. Štaviše, da bi se izjednačila dimenzija izmjerene vrijednosti i konačne procjene, izdvaja se zbir grešaka na kvadrat

Neke MNC aplikacije

OLS se široko koristi u raznim oblastima. Na primjer, u teoriji vjerojatnosti i matematičkoj statistici, metoda se koristi za određivanje takve karakteristike slučajne varijable kao što je standardna devijacija, koja određuje širinu raspona vrijednosti slučajne varijable.

Aproksimiramo funkciju polinomom stepena 2. Da bismo to učinili, izračunavamo koeficijente normalnog sistema jednadžbi:

, ,

Kreirajmo normalan sistem najmanjih kvadrata, koji ima oblik:

Rješenje sistema je lako pronaći:, , .

Tako se nalazi polinom 2. stepena: .

Teorijske informacije

Povratak na stranicu<Введение в вычислительную математику. Примеры>

Primjer 2. Pronalaženje optimalnog stepena polinoma.

Povratak na stranicu<Введение в вычислительную математику. Примеры>

Primjer 3. Izvođenje normalnog sistema jednadžbi za nalaženje parametara empirijske zavisnosti.

Hajde da izvedemo sistem jednačina za određivanje koeficijenata i funkcija , koji izvodi aproksimaciju date funkcije po tačkama srednjeg kvadrata. Hajde da sastavimo funkciju i zapišite potreban ekstremni uslov za to:

Tada će normalan sistem poprimiti oblik:

Dobili smo linearni sistem jednadžbi za nepoznate parametre i, koji se lako rješava.

Teorijske informacije

Povratak na stranicu<Введение в вычислительную математику. Примеры>

Primjer.

Eksperimentalni podaci o vrijednostima varijabli X I at date su u tabeli.

Kao rezultat njihovog poravnanja, dobija se funkcija

Koristeći metoda najmanjih kvadrata, aproksimira ove podatke linearnom zavisnošću y=ax+b(pronaći parametre A I b). Saznajte koja od dvije linije bolje (u smislu metode najmanjih kvadrata) poravnava eksperimentalne podatke. Napravite crtež.

Suština metode najmanjih kvadrata (LSM).

Zadatak je pronaći koeficijente linearne zavisnosti na kojima je funkcija dvije varijable A I buzima najmanju vrijednost. Odnosno, dato A I b zbir kvadrata odstupanja eksperimentalnih podataka od pronađene prave će biti najmanji. Ovo je cijela poenta metode najmanjih kvadrata.

Dakle, rješavanje primjera se svodi na pronalaženje ekstrema funkcije dvije varijable.

Izvođenje formula za pronalaženje koeficijenata.

Sastavlja se i rješava sistem dvije jednačine sa dvije nepoznate. Pronalaženje parcijalnih izvoda funkcije po varijablama A I b, izjednačavamo ove izvode sa nulom.

Rezultirajući sistem jednačina rješavamo bilo kojom metodom (npr metodom supstitucije ili Cramerovu metodu) i dobiju formule za pronalaženje koeficijenata koristeći metodu najmanjih kvadrata (LSM).

Dato A I b funkcija uzima najmanju vrijednost. Dokaz za ovu činjenicu dat je u tekstu na kraju stranice.

To je cijela metoda najmanjih kvadrata. Formula za pronalaženje parametra a sadrži sume , , , i parametar n— količina eksperimentalnih podataka. Preporučujemo da se vrijednosti ovih iznosa izračunaju zasebno.

Koeficijent b pronađeno nakon izračuna a.

Vrijeme je da se prisjetimo originalnog primjera.

Rješenje.

U našem primjeru n=5. Ispunjavamo tablicu radi praktičnosti izračunavanja iznosa koji su uključeni u formule potrebnih koeficijenata.

Vrijednosti u četvrtom redu tabele dobijaju se množenjem vrijednosti 2. retka sa vrijednostima 3. reda za svaki broj i.

Vrijednosti u petom redu tabele dobijaju se kvadriranjem vrijednosti u 2. redu za svaki broj i.

Vrijednosti u posljednjoj koloni tabele su zbroji vrijednosti u redovima.

Za pronalaženje koeficijenata koristimo formule metode najmanjih kvadrata A I b. U njih zamjenjujemo odgovarajuće vrijednosti iz posljednje kolone tabele:

dakle, y = 0,165x+2,184— željena aproksimirajuća prava linija.

Ostaje da saznamo koja od linija y = 0,165x+2,184 ili bolje aproksimira originalne podatke, odnosno procjenjuje metodom najmanjih kvadrata.

Procjena greške metode najmanjih kvadrata.

Da biste to učinili, morate izračunati zbir kvadrata odstupanja originalnih podataka od ovih linija I , manja vrijednost odgovara liniji koja bolje aproksimira originalne podatke u smislu metode najmanjih kvadrata.

Od , onda ravno y = 0,165x+2,184 bolje aproksimira originalne podatke.

Grafička ilustracija metode najmanjih kvadrata (LS).

Sve je jasno vidljivo na grafikonima. Crvena linija je pronađena ravna linija y = 0,165x+2,184, plava linija je , ružičaste tačke su originalni podaci.

Zašto je to potrebno, čemu sve ove aproksimacije?

Ja ga lično koristim za rješavanje problema ujednačavanja podataka, interpolacije i ekstrapolacije (u originalnom primjeru od njih bi se možda tražilo da pronađu vrijednost uočene vrijednosti y at x=3 ili kada x=6 koristeći metodu najmanjih kvadrata). Ali o tome ćemo više govoriti kasnije u drugom dijelu stranice.

Vrh stranice

Dokaz.

Tako da kada se nađe A I b funkcija uzima najmanju vrijednost, potrebno je da u ovom trenutku matrica kvadratnog oblika diferencijala drugog reda za funkciju bilo pozitivno određeno. Hajde da to pokažemo.

Diferencijal drugog reda ima oblik:

To je

Prema tome, matrica kvadratnog oblika ima oblik

a vrijednosti elemenata ne ovise o A I b.

Pokažimo da je matrica pozitivno određena. Da biste to učinili, ugaoni minori moraju biti pozitivni.

Ugaoni minor prvog reda . Nejednakost je stroga jer se tačke ne poklapaju. U nastavku ćemo to implicirati.

Ugaoni minor drugog reda

Dokažimo to metodom matematičke indukcije.

Zaključak: pronađene vrijednosti A I b odgovaraju najmanjoj vrijednosti funkcije , dakle, su potrebni parametri za metodu najmanjih kvadrata.

Nemate vremena da to shvatite?
Naručite rješenje

Vrh stranice

Razvijanje prognoze metodom najmanjih kvadrata. Primjer rješenja problema

Ekstrapolacija je naučnoistraživačka metoda koja se zasniva na diseminaciji prošlih i sadašnjih trendova, obrazaca i veza sa budućim razvojem objekta prognoze. Metode ekstrapolacije uključuju metoda pokretnog prosjeka, metoda eksponencijalnog izglađivanja, metoda najmanjih kvadrata.

Essence metoda najmanjih kvadrata sastoji se u minimiziranju sume kvadrata odstupanja između posmatranih i izračunatih vrednosti. Izračunate vrijednosti se nalaze pomoću odabrane jednadžbe - jednadžbe regresije. Što je manja udaljenost između stvarnih vrijednosti i izračunatih, to je preciznija prognoza zasnovana na jednadžbi regresije.

Teorijska analiza suštine fenomena koji se proučava, čija se promjena odražava kroz vremensku seriju, služi kao osnova za odabir krive. Ponekad se u obzir uzimaju razmatranja o prirodi povećanja nivoa serije. Dakle, ako se rast proizvodnje očekuje u aritmetičkoj progresiji, onda se izravnavanje vrši pravolinijski. Ako se ispostavi da je rast u geometrijskoj progresiji, onda se izravnavanje mora obaviti pomoću eksponencijalne funkcije.

Radna formula za metodu najmanjih kvadrata : Y t+1 = a*X + b, gdje je t + 1 – period prognoze; Ut+1 – predviđeni indikator; a i b su koeficijenti; X je simbol vremena.

Izračunavanje koeficijenata a i b vrši se pomoću sljedećih formula:

gdje je, Uf – stvarne vrijednosti serije dinamike; n – broj nivoa vremenske serije;

Ujednačavanje vremenskih serija metodom najmanjih kvadrata služi da odrazi obrazac razvoja fenomena koji se proučava. U analitičkom izražavanju trenda, vrijeme se smatra nezavisnom varijablom, a nivoi serije djeluju kao funkcija ove nezavisne varijable.

Razvoj neke pojave ne zavisi od toga koliko je godina prošlo od početne tačke, već od toga koji su faktori uticali na njen razvoj, u kom pravcu i kojim intenzitetom. Odavde je jasno da je razvoj neke pojave tokom vremena rezultat djelovanja ovih faktora.

Ispravno utvrđivanje tipa krivulje, tipa analitičke zavisnosti od vremena jedan je od najtežih zadataka prediktivne analize. .

Odabir tipa funkcije koja opisuje trend, čiji se parametri određuju metodom najmanjih kvadrata, u većini slučajeva provodi se empirijski, konstruiranjem većeg broja funkcija i međusobnom poređenjem prema vrijednosti srednja kvadratna greška, izračunata po formuli:

gdje su UV stvarne vrijednosti serije dinamike; Ur – izračunate (izglađene) vrijednosti serije dinamike; n – broj nivoa vremenske serije; p – broj parametara definisanih u formulama koje opisuju trend (trend razvoja).

Nedostaci metode najmanjih kvadrata :

  • kada pokušavate da opišete ekonomski fenomen koji se proučava pomoću matematičke jednačine, prognoza će biti tačna za kratak vremenski period i regresionu jednačinu treba ponovo izračunati kako nove informacije postanu dostupne;
  • složenost odabira jednadžbe regresije koja je rješiva ​​korištenjem standardnih kompjuterskih programa.

Primjer korištenja metode najmanjih kvadrata za razvoj prognoze

Zadatak . Postoje podaci koji karakterišu stopu nezaposlenosti u regionu, %

  • Konstruisati prognozu stope nezaposlenosti u regionu za novembar, decembar, januar koristeći sledeće metode: pokretni prosek, eksponencijalno izglađivanje, najmanji kvadrati.
  • Izračunajte greške u rezultirajućim prognozama koristeći svaku metodu.
  • Uporedite rezultate i izvucite zaključke.

Rješenje najmanjih kvadrata

Da bismo to riješili, sastavit ćemo tabelu u kojoj ćemo napraviti potrebne proračune:

ε = 28,63/10 = 2,86% tačnost prognoze visoko.

Zaključak : Poređenje rezultata dobijenih iz proračuna metoda pokretnog prosjeka , metoda eksponencijalnog izglađivanja i metodom najmanjih kvadrata, možemo reći da se prosječna relativna greška pri izračunavanju korištenjem metode eksponencijalnog glađenja nalazi u rasponu od 20-50%. To znači da je tačnost prognoze u ovom slučaju samo zadovoljavajuća.

U prvom i trećem slučaju tačnost prognoze je visoka, jer je prosječna relativna greška manja od 10%. Ali metoda pokretnog proseka omogućila je dobijanje pouzdanijih rezultata (prognoza za novembar - 1,52%, prognoza za decembar - 1,53%, prognoza za januar - 1,49%), pošto je prosečna relativna greška pri upotrebi ove metode najmanja - 1 .13%.

Metoda najmanjih kvadrata

Ostali članci na ovu temu:

Spisak korištenih izvora

  1. Naučno-metodološke preporuke za dijagnosticiranje društvenih rizika i predviđanje izazova, prijetnji i društvenih posljedica. Ruski državni socijalni univerzitet. Moskva. 2010;
  2. Vladimirova L.P. Predviđanje i planiranje u tržišnim uslovima: Udžbenik. dodatak. M.: Izdavačka kuća "Daškov i Ko", 2001;
  3. Novikova N.V., Pozdeeva O.G. Predviđanje nacionalne ekonomije: Obrazovno-metodički priručnik. Ekaterinburg: Uralska izdavačka kuća. stanje econ. Univ., 2007;
  4. Slutskin L.N. MBA kurs o poslovnom predviđanju. M.: Alpina Business Books, 2006.

MNC program

Unesite detalje

Podaci i aproksimacija y = a + b x

i- broj eksperimentalne tačke;
x i- vrijednost fiksnog parametra u tački i;
y i- vrijednost mjerenog parametra u tački i;
ωi- mjerenje težine u tački i;
y i, kalc.- razlika između izmjerene i regresijski izračunate vrijednosti y u tački i;
S x i (x i)- procjena greške x i prilikom merenja y u tački i.

Podaci i aproksimacija y = k x

i x i y i ωi y i, kalc. Δy i S x i (x i)

Kliknite na grafikon

Korisnički priručnik za MNC online program.

U polje podataka unesite u svaki poseban red vrijednosti `x` i `y` u jednoj eksperimentalnoj točki. Vrijednosti moraju biti odvojene razmakom (razmak ili tab).

Treća vrijednost može biti težina tačke `w`. Ako težina tačke nije navedena, ona je jednaka jedan. U velikoj većini slučajeva težine eksperimentalnih tačaka su nepoznate ili nisu izračunate, tj. svi eksperimentalni podaci se smatraju ekvivalentnim. Ponekad težine u proučavanom rasponu vrijednosti apsolutno nisu ekvivalentne i mogu se čak i teoretski izračunati. Na primjer, u spektrofotometriji, težine se mogu izračunati pomoću jednostavnih formula, iako se to uglavnom zanemaruje radi smanjenja troškova rada.

Podaci se mogu zalijepiti putem međuspremnika iz proračunske tablice u uredskom paketu kao što je Excel iz Microsoft Officea ili Calc iz Open Officea. Da biste to učinili, u proračunskoj tabeli odaberite opseg podataka za kopiranje, kopirajte ga u međuspremnik i zalijepite podatke u polje podataka na ovoj stranici.

Za izračunavanje metodom najmanjih kvadrata potrebne su najmanje dvije točke za određivanje dva koeficijenta `b` - tangenta ugla nagiba prave i `a` - vrijednosti koju presječe linija na osi `y`.

Da biste procijenili grešku izračunatih koeficijenata regresije, potrebno je postaviti broj eksperimentalnih tačaka na više od dvije.

Metoda najmanjih kvadrata (LSM).

Što je veći broj eksperimentalnih tačaka, to je tačnija statistička procjena koeficijenata (zbog smanjenja Studentovog koeficijenta) i to je procjena bliža procjeni opšteg uzorka.

Dobivanje vrijednosti u svakoj eksperimentalnoj točki često je povezano sa značajnim troškovima rada, pa se često provodi kompromisni broj eksperimenata koji daje procjenu kojom se može upravljati i ne dovodi do pretjeranih troškova rada. Po pravilu, broj eksperimentalnih tačaka za linearnu zavisnost najmanjih kvadrata sa dva koeficijenta bira se u području od 5-7 tačaka.

Kratka teorija najmanjih kvadrata za linearne odnose

Recimo da imamo skup eksperimentalnih podataka u obliku parova vrijednosti [`y_i`, `x_i`], gdje je `i` broj jednog eksperimentalnog mjerenja od 1 do `n`; `y_i` - vrijednost izmjerene vrijednosti u tački `i`; `x_i` - vrijednost parametra koji smo postavili u tački `i`.

Kao primjer, razmotrite djelovanje Ohmovog zakona. Promjenom napona (razlike potencijala) između dijelova električnog kola mjerimo količinu struje koja prolazi kroz ovu dionicu. Fizika nam daje eksperimentalno utvrđenu ovisnost:

`I = U/R`,
gdje je `I` trenutna snaga; `R` - otpor; `U` - napon.

U ovom slučaju, `y_i` je izmjerena vrijednost struje, a `x_i` je vrijednost napona.

Kao drugi primjer, razmotrite apsorpciju svjetlosti otopinom tvari u otopini. Hemija nam daje formulu:

`A = ε l C`,
gdje je `A` optička gustoća otopine; `ε` - propusnost otopljene tvari; `l` - dužina puta kada svjetlost prolazi kroz kivetu s otopinom; `C` je koncentracija otopljene supstance.

U ovom slučaju, `y_i` je izmjerena vrijednost optičke gustoće `A`, a `x_i` je vrijednost koncentracije supstance koju navedemo.

Razmotrićemo slučaj kada je relativna greška u specifikaciji `x_i` znatno manja od relativne greške u merenju `y_i`. Također ćemo pretpostaviti da su sve mjerene vrijednosti `y_i` slučajne i normalno raspoređene, tj. pridržavati se normalnog zakona distribucije.

U slučaju linearne zavisnosti `y` od `x`, možemo napisati teorijsku zavisnost:
`y = a + b x`.

Sa geometrijske tačke gledišta, koeficijent `b` označava tangentu ugla nagiba prave prema osi `x`, a koeficijent `a` - vrijednost `y` u tački presjeka linije linija sa `y` osom (na `x = 0`).

Pronalaženje parametara regresijske linije.

U eksperimentu, izmjerene vrijednosti `y_i` ne mogu tačno ležati na teoretskoj pravoj liniji zbog grešaka mjerenja, koje su uvijek svojstvene stvarnom životu. Prema tome, linearna jednačina mora biti predstavljena sistemom jednačina:
`y_i = a + b x_i + ε_i` (1),
gdje je `ε_i` nepoznata greška mjerenja `y` u `i`-tom eksperimentu.

Zavisnost (1) se također naziva regresija, tj. zavisnost dvije veličine jedna od druge sa statističkom značajnošću.

Zadatak obnavljanja zavisnosti je da se pronađu koeficijenti `a` i `b` iz eksperimentalnih tačaka [`y_i`, `x_i`].

Za pronalaženje koeficijenata `a` i `b` obično se koristi metoda najmanjih kvadrata(MNC). To je poseban slučaj principa maksimalne vjerovatnoće.

Prepišimo (1) u obliku `ε_i = y_i - a - b x_i`.

Tada će zbir grešaka na kvadrat biti
`Φ = suma_(i=1)^(n) ε_i^2 = suma_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

Princip najmanjih kvadrata (najmanjih kvadrata) je minimiziranje sume (2) u odnosu na parametre `a` i `b`.

Minimum se postiže kada su parcijalni derivati ​​zbira (2) u odnosu na koeficijente `a` i `b` jednaki nuli:
`frac(parcijalni Φ)(djelomični a) = frac(djelomični zbir_(i=1)^(n) (y_i - a - b x_i)^2)(djelomični a) = 0`
`frac(parcijalni Φ)(djelomični b) = frac(djelomični zbir_(i=1)^(n) (y_i - a - b x_i)^2)(djelomični b) = 0`

Proširujući derivacije, dobijamo sistem od dve jednačine sa dve nepoznanice:
`suma_(i=1)^(n) (2a + 2bx_i — 2y_i) = suma_(i=1)^(n) (a + bx_i — y_i) = 0`
`suma_(i=1)^(n) (2bx_i^2 + 2ax_i — 2x_iy_i) = suma_(i=1)^(n) (bx_i^2 + ax_i — x_iy_i) = 0`

Otvaramo zagrade i prenosimo sume nezavisne od traženih koeficijenata na drugu polovinu, dobijamo sistem linearnih jednadžbi:
`zbroj_(i=1)^(n) y_i = a n + b suma_(i=1)^(n) bx_i`
`suma_(i=1)^(n) x_iy_i = a zbroj_(i=1)^(n) x_i + b suma_(i=1)^(n) x_i^2`

Rješavajući rezultirajući sistem, nalazimo formule za koeficijente `a` i `b`:

`a = frac(sum_(i=1)^(n) y_i sum_(i=1)^(n) x_i^2 — sum_(i=1)^(n) x_i sum_(i=1)^(n) ) x_iy_i) (n suma_(i=1)^(n) x_i^2 — (suma_(i=1)^(n) x_i)^2)` (3.1)

`b = frac(n sum_(i=1)^(n) x_iy_i — sum_(i=1)^(n) x_i sum_(i=1)^(n) y_i) (n sum_(i=1)^ (n) x_i^2 — (suma_(i=1)^(n) x_i)^2)` (3.2)

Ove formule imaju rješenja kada je `n > 1` (prava se može konstruirati koristeći najmanje 2 tačke) i kada je determinanta `D = n sum_(i=1)^(n) x_i^2 - (suma_(i= 1 )^(n) x_i)^2 != 0`, tj. kada su tačke `x_i` u eksperimentu različite (tj. kada linija nije okomita).

Procjena grešaka koeficijenata regresijske linije

Za precizniju procjenu greške u izračunavanju koeficijenata `a` i `b`, poželjan je veći broj eksperimentalnih tačaka. Kada je `n = 2`, nemoguće je procijeniti grešku koeficijenata, jer aproksimirajuća prava će jednoznačno prolaziti kroz dvije tačke.

Greška slučajne varijable `V` je određena pomoću zakon akumulacije grešaka
`S_V^2 = suma_(i=1)^p (frac(parcijalni f)(djelomični z_i))^2 S_(z_i)^2`,
gdje je `p` broj parametara `z_i` sa greškom `S_(z_i)`, koji utiču na grešku `S_V`;
`f` je funkcija ovisnosti `V` od `z_i`.

Zapišimo zakon akumulacije greške za grešku koeficijenata `a` i `b`
`S_a^2 = suma_(i=1)^(n)(frac(parcijalni a)(djelomični y_i))^2 S_(y_i)^2 + suma_(i=1)^(n)(frac(djelomični a )(parcijalni x_i))^2 S_(x_i)^2 = S_y^2 suma_(i=1)^(n)(frac(djelomični a)(djelomični y_i))^2 `,
`S_b^2 = suma_(i=1)^(n)(frac(parcijalni b)(djelomični y_i))^2 S_(y_i)^2 + suma_(i=1)^(n)(frac(djelomični b )(djelomični x_i))^2 S_(x_i)^2 = S_y^2 suma_(i=1)^(n)(frac(djelomični b)(djelomični y_i))^2 `,
jer `S_(x_i)^2 = 0` (prethodno smo rezervisali da je greška `x` zanemarljiva).

`S_y^2 = S_(y_i)^2` - greška (varijansa, kvadrat standardne devijacije) u mjerenju `y`, pod pretpostavkom da je greška uniformna za sve vrijednosti `y`.

Zamjenom formula za izračunavanje `a` i `b` u rezultirajuće izraze dobijamo

`S_a^2 = S_y^2 frac(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 — x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n suma_(i=1)^(n) x_i^2 — (suma_(i=1)^(n) x_i)^2) suma_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4.1)

`S_b^2 = S_y^2 frac(sum_(i=1)^(n) (n x_i — sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n suma_(i=1)^(n) x_i^2 — (suma_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2)

U većini stvarnih eksperimenata, vrijednost `Sy` se ne mjeri. Da biste to učinili, potrebno je izvršiti nekoliko paralelnih mjerenja (eksperimenata) na jednoj ili više tačaka plana, što povećava vrijeme (i eventualno cijenu) eksperimenta. Stoga se obično pretpostavlja da se odstupanje `y` od linije regresije može smatrati slučajnim. Procjena varijanse `y` u ovom slučaju se izračunava pomoću formule.

`S_y^2 = S_(y, odmor)^2 = frac(suma_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

Delitelj `n-2` se pojavljuje jer se naš broj stupnjeva slobode smanjio zbog izračunavanja dva koeficijenta koristeći isti uzorak eksperimentalnih podataka.

Ova procjena se također naziva rezidualna varijansa u odnosu na liniju regresije `S_(y, rest)^2`.

Značajnost koeficijenata se procjenjuje korištenjem Studentovog t testa

`t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

Ako su izračunati kriterijumi `t_a`, `t_b` manji od tabelarnih kriterijuma `t(P, n-2)`, onda se smatra da se odgovarajući koeficijent ne razlikuje značajno od nule sa datom verovatnoćom `P`.

Da biste ocijenili kvalitetu opisa linearne veze, možete uporediti `S_(y, odmor)^2` i `S_(bar y)` u odnosu na srednju vrijednost koristeći Fisherov kriterij.

`S_(bar y) = frac(suma_(i=1)^n (y_i — bar y)^2) (n-1) = frac(suma_(i=1)^n (y_i — (suma_(i= 1)^n y_i) /n)^2) (n-1)` - procjena uzorka varijanse `y` u odnosu na srednju vrijednost.

Da bi se procijenila efikasnost jednadžbe regresije koja opisuje ovisnost, izračunava se Fisherov koeficijent
`F = S_(bar y) / S_(y, odmor)^2`,
koji se poredi sa tabelarnim Fisherovim koeficijentom `F(p, n-1, n-2)`.

Ako je `F > F(P, n-1, n-2)`, razlika između opisa odnosa `y = f(x)` pomoću regresijske jednačine i opisa pomoću srednje vrijednosti smatra se statistički značajnom s vjerovatnoćom `P`. One. regresija bolje opisuje zavisnost od širenja `y` oko srednje vrednosti.

Kliknite na grafikon
da dodate vrednosti u tabelu

Metoda najmanjih kvadrata. Metoda najmanjih kvadrata znači određivanje nepoznatih parametara a, b, c, prihvaćene funkcionalne zavisnosti

Metoda najmanjih kvadrata se odnosi na određivanje nepoznatih parametara a, b, c,… prihvaćena funkcionalna zavisnost

y = f(x,a,b,c,…),

koji bi obezbedio minimum srednjeg kvadrata (varijanse) greške

, (24)

gdje je x i, y i skup parova brojeva dobijenih iz eksperimenta.

Pošto je uslov za ekstremum funkcije nekoliko varijabli uslov da su njeni parcijalni derivati ​​jednaki nuli, tada se parametri a, b, c,… određuju se iz sistema jednačina:

; ; ; … (25)

Mora se imati na umu da se metoda najmanjih kvadrata koristi za odabir parametara nakon tipa funkcije y = f(x) definisano

Ako se iz teorijskih razmatranja ne mogu izvući zaključci o tome kakva bi empirijska formula trebala biti, onda se treba voditi vizualnim prikazima, prvenstveno grafičkim prikazima posmatranih podataka.

U praksi su najčešće ograničene na sljedeće vrste funkcija:

1) linearni ;

2) kvadratni a.

Primjer.

Eksperimentalni podaci o vrijednostima varijabli X I at date su u tabeli.

Kao rezultat njihovog poravnanja, dobija se funkcija

Koristeći metoda najmanjih kvadrata, aproksimira ove podatke linearnom zavisnošću y=ax+b(pronaći parametre A I b). Saznajte koja od dvije linije bolje (u smislu metode najmanjih kvadrata) poravnava eksperimentalne podatke. Napravite crtež.

Suština metode najmanjih kvadrata (LSM).

Zadatak je pronaći koeficijente linearne zavisnosti na kojima je funkcija dvije varijable A I b uzima najmanju vrijednost. Odnosno, dato A I b zbir kvadrata odstupanja eksperimentalnih podataka od pronađene prave će biti najmanji. Ovo je cijela poenta metode najmanjih kvadrata.

Dakle, rješavanje primjera se svodi na pronalaženje ekstrema funkcije dvije varijable.

Izvođenje formula za pronalaženje koeficijenata.

Sastavlja se i rješava sistem dvije jednačine sa dvije nepoznate. Pronalaženje parcijalnih izvoda funkcije po varijablama A I b, izjednačavamo ove izvode sa nulom.

Rezultirajući sistem jednačina rješavamo bilo kojom metodom (npr metodom supstitucije ili Cramerova metoda) i dobiti formule za pronalaženje koeficijenata metodom najmanjih kvadrata (LSM).

Dato A I b funkcija uzima najmanju vrijednost. Dokaz ove činjenice je dat ispod u tekstu na kraju stranice.

To je cijela metoda najmanjih kvadrata. Formula za pronalaženje parametra a sadrži sume ,,, i parametar n- količina eksperimentalnih podataka. Preporučujemo da se vrijednosti ovih iznosa izračunaju zasebno. Koeficijent b pronađeno nakon izračuna a.

Vrijeme je da se prisjetimo originalnog primjera.

Rješenje.

U našem primjeru n=5. Ispunjavamo tablicu radi praktičnosti izračunavanja iznosa koji su uključeni u formule potrebnih koeficijenata.

Vrijednosti u četvrtom redu tabele dobijaju se množenjem vrijednosti 2. retka sa vrijednostima 3. reda za svaki broj i.

Vrijednosti u petom redu tabele dobijaju se kvadriranjem vrijednosti u 2. redu za svaki broj i.

Vrijednosti u posljednjoj koloni tabele su zbroji vrijednosti u redovima.

Za pronalaženje koeficijenata koristimo formule metode najmanjih kvadrata A I b. U njih zamjenjujemo odgovarajuće vrijednosti iz posljednje kolone tabele:

dakle, y = 0,165x+2,184- željena aproksimirajuća prava linija.

Ostaje da saznamo koja od linija y = 0,165x+2,184 ili bolje aproksimira originalne podatke, odnosno procjenjuje metodom najmanjih kvadrata.

Procjena greške metode najmanjih kvadrata.

Da biste to učinili, morate izračunati zbir kvadrata odstupanja originalnih podataka od ovih linija I , manja vrijednost odgovara liniji koja bolje aproksimira originalne podatke u smislu metode najmanjih kvadrata.

Od , onda ravno y = 0,165x+2,184 bolje aproksimira originalne podatke.

Grafička ilustracija metode najmanjih kvadrata (LS).

Sve je jasno vidljivo na grafikonima. Crvena linija je pronađena ravna linija y = 0,165x+2,184, plava linija je , ružičaste tačke su originalni podaci.

U praksi, prilikom modeliranja različitih procesa - posebno ekonomskih, fizičkih, tehničkih, društvenih - široko se koristi jedna ili ona metoda izračunavanja približnih vrijednosti funkcija iz njihovih poznatih vrijednosti u određenim fiksnim točkama.

Ova vrsta problema aproksimacije funkcije često se javlja:

    prilikom konstruiranja približnih formula za izračunavanje vrijednosti karakterističnih veličina procesa koji se proučava pomoću tabličnih podataka dobivenih kao rezultat eksperimenta;

    u numeričkoj integraciji, diferencijaciji, rješavanju diferencijalnih jednadžbi, itd.;

    ako je potrebno, izračunajte vrijednosti funkcija u srednjim točkama razmatranog intervala;

    pri određivanju vrijednosti karakterističnih veličina procesa izvan razmatranog intervala, posebno pri predviđanju.

Ako za modeliranje određenog procesa određenog tablicom konstruiramo funkciju koja približno opisuje ovaj proces na temelju metode najmanjih kvadrata, ona će se zvati aproksimirajuća funkcija (regresija), a sam problem konstruiranja aproksimirajućih funkcija će se zvati problem aproksimacije.

Ovaj članak govori o mogućnostima MS Excel paketa za rješavanje ove vrste problema, osim toga daje metode i tehnike za konstruiranje (kreiranje) regresija za tabelarne funkcije (što je osnova regresione analize).

Excel ima dvije opcije za pravljenje regresije.

    Dodavanje odabranih regresija (linija trenda) dijagramu izgrađenom na osnovu tabele podataka za karakteristike procesa koji se proučavaju (dostupno samo ako je dijagram konstruisan);

    Koristeći ugrađene statističke funkcije Excel radnog lista, što vam omogućava da dobijete regresije (linije trenda) direktno na osnovu izvorne tabele podataka.

Dodavanje linija trenda grafikonu

Za tabelu podataka koja opisuje proces i predstavljena je dijagramom, Excel ima efikasan alat za analizu regresije koji vam omogućava:

    izgraditi na osnovu metode najmanjih kvadrata i dodati pet tipova regresija dijagramu, koji modeliraju proces koji se proučava sa različitim stepenom tačnosti;

    dodati konstruisanu jednadžbu regresije dijagramu;

    odrediti stepen korespondencije odabrane regresije sa podacima prikazanim na grafikonu.

Na osnovu podataka grafikona, Excel vam omogućava da dobijete linearne, polinomske, logaritamske, stepenaste i eksponencijalne tipove regresije, koje su određene jednadžbom:

y = y(x)

gdje je x nezavisna varijabla koja često uzima vrijednosti niza prirodnih brojeva (1; 2; 3; ...) i proizvodi, na primjer, odbrojavanje vremena procesa koji se proučava (karakteristike).

1 . Linearna regresija je dobra za modeliranje karakteristika čije se vrijednosti povećavaju ili smanjuju konstantnom brzinom. Ovo je najjednostavniji model za konstruisanje za proces koji se proučava. Konstruiše se u skladu sa jednačinom:

y = mx + b

gdje je m tangenta nagiba linearne regresije prema x-osi; b - koordinata tačke preseka linearne regresije sa ordinatnom osom.

2 . Polinomska linija trenda korisna je za opisivanje karakteristika koje imaju nekoliko različitih ekstrema (maksimuma i minimuma). Izbor stepena polinoma određen je brojem ekstrema ispitivane karakteristike. Dakle, polinom drugog stepena može dobro opisati proces koji ima samo jedan maksimum ili minimum; polinom trećeg stepena - ne više od dva ekstrema; polinom četvrtog stepena - ne više od tri ekstrema, itd.

U ovom slučaju, linija trenda se konstruiše u skladu sa jednadžbom:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

gdje su koeficijenti c0, c1, c2,... c6 konstante čije se vrijednosti određuju tokom izgradnje.

3 . Logaritamska linija trenda se uspješno koristi pri modeliranju karakteristika čije se vrijednosti u početku brzo mijenjaju, a zatim se postupno stabiliziraju.

y = c ln(x) + b

4 . Linija trenda po stepenu daje dobre rezultate ako vrijednosti odnosa koji se proučavaju karakterizira stalna promjena stope rasta. Primjer takve zavisnosti je graf jednoliko ubrzanog kretanja automobila. Ako u podacima postoje nula ili negativne vrijednosti, ne možete koristiti liniju trenda snage.

Konstruisano u skladu sa jednačinom:

y = c xb

gdje su koeficijenti b, c konstante.

5 . Eksponencijalnu liniju trenda treba koristiti kada se stopa promjene podataka kontinuirano povećava. Za podatke koji sadrže nulte ili negativne vrijednosti, ova vrsta aproksimacije također nije primjenjiva.

Konstruisano u skladu sa jednačinom:

y = c ebx

gdje su koeficijenti b, c konstante.

Prilikom odabira linije trenda, Excel automatski izračunava vrijednost R2, koja karakterizira pouzdanost aproksimacije: što je vrijednost R2 bliža jedinici, to pouzdanije linija trenda aproksimira proces koji se proučava. Ako je potrebno, vrijednost R2 se uvijek može prikazati na grafikonu.

Određeno formulom:

Da dodate liniju trenda seriji podataka:

    aktivirajte grafikon na osnovu niza podataka, tj. kliknite unutar područja grafikona. Stavka Dijagram će se pojaviti u glavnom meniju;

    nakon klika na ovu stavku, na ekranu će se pojaviti meni u kojem treba odabrati naredbu Dodaj liniju trenda.

Iste radnje se lako mogu implementirati pomicanjem pokazivača miša preko grafa koji odgovara jednoj od serija podataka i desnim klikom; U kontekstualnom meniju koji se pojavi izaberite naredbu Dodaj liniju trenda. Dijalog Trendline će se pojaviti na ekranu sa otvorenom karticom Type (Slika 1).

Nakon ovoga trebate:

Odaberite željeni tip linije trenda na kartici Tip (Linearni tip je odabran prema zadanim postavkama). Za tip polinoma, u polju Stepen navedite stepen izabranog polinoma.

1 . Polje Izgrađene serije navodi sve serije podataka u dotičnom grafikonu. Da biste dodali liniju trenda određenoj seriji podataka, odaberite njeno ime u polju Izgrađena serija.

Ako je potrebno, odlaskom na karticu Parameters (Slika 2), možete podesiti sljedeće parametre za liniju trenda:

    promijenite naziv linije trenda u polju Naziv aproksimativne (izglađene) krive.

    podesite broj perioda (unaprijed ili unazad) za prognozu u polju Prognoza;

    prikazati jednadžbu linije trenda u oblasti dijagrama, za koju treba da omogućite potvrdni okvir za prikaz jednačine na dijagramu;

    prikažite vrijednost pouzdanosti aproksimacije R2 u području dijagrama, za šta biste trebali omogućiti potvrdni okvir Postavi vrijednost pouzdanosti aproksimacije na dijagram (R^2);

    postavite tačku preseka linije trenda sa Y osom, za koju treba da omogućite checkbox za presek krive sa Y osom u tački;

    Kliknite na dugme OK da zatvorite dijaloški okvir.

Da biste počeli uređivati ​​već nacrtanu liniju trenda, postoje tri načina:

    koristite naredbu Odabrana linija trenda iz izbornika Format, nakon što ste prethodno odabrali liniju trenda;

    izaberite komandu Formatiraj liniju trenda iz kontekstnog menija, koja se poziva desnim klikom na liniju trenda;

    dvaput kliknite na liniju trenda.

Na ekranu će se pojaviti dijaloški okvir Trend Line Format (slika 3), koji sadrži tri kartice: Pogled, Tip, Parametri, a sadržaj posljednje dvije potpuno se poklapa sa sličnim karticama dijaloga Trend Line (Sl. 1). -2). Na kartici Prikaz možete postaviti vrstu linije, njenu boju i debljinu.

Za brisanje linije trenda koja je već nacrtana, odaberite liniju trenda koju želite izbrisati i pritisnite tipku Delete.

Prednosti razmatranog alata regresione analize su:

    relativna lakoća konstruisanja linije trenda na grafikonima bez kreiranja tabele podataka za to;

    prilično široka lista tipova predloženih linija trenda, a ova lista uključuje najčešće korištene vrste regresije;

    sposobnost predviđanja ponašanja procesa koji se proučava proizvoljnim (u granicama zdravog razuma) brojem koraka naprijed i nazad;

    sposobnost dobijanja jednadžbe linije trenda u analitičkom obliku;

    mogućnost, ako je potrebno, dobijanja procjene pouzdanosti aproksimacije.

Nedostaci uključuju sljedeće:

    izgradnja linije trenda se izvodi samo ako postoji dijagram izgrađen na nizu podataka;

    proces generiranja niza podataka za karakteristiku koja se proučava na temelju jednadžbi linije trenda dobivenih za nju je donekle zatrpan: potrebne regresijske jednadžbe se ažuriraju sa svakom promjenom vrijednosti izvorne serije podataka, ali samo unutar područja grafikona , dok niz podataka formiran na osnovu trenda stare jednačine linije ostaje nepromijenjen;

    U izveštajima zaokretnog grafikona, promena prikaza grafikona ili povezanog izveštaja izvedene tabele ne čuva postojeće linije trenda, što znači da pre nego što nacrtate linije trenda ili na drugi način formatirate izveštaj zaokretnog grafikona, trebalo bi da se uverite da izgled izveštaja ispunjava zahtevane zahteve.

Linije trenda se mogu koristiti za dopunu nizova podataka predstavljenih na grafikonima kao što su grafikoni, histogrami, ravni nestandardizirani dijagrami područja, trakasti grafikoni, dijagrami raspršivanja, mjehurasti grafikoni i berzanski grafikoni.

Ne možete dodati linije trenda serijama podataka u 3D, normaliziranim, radarskim, tortnim i krofnim grafikonima.

Korištenje ugrađenih funkcija programa Excel

Excel takođe ima alat za regresijsku analizu za crtanje linija trenda izvan područja grafikona. Postoji veliki broj statističkih funkcija radnog lista koje možete koristiti u tu svrhu, ali sve vam dozvoljavaju samo da izgradite linearne ili eksponencijalne regresije.

Excel ima nekoliko funkcija za konstruiranje linearne regresije, posebno:

    TREND;

  • KOSINA i REZ.

I također nekoliko funkcija za konstruiranje eksponencijalne linije trenda, posebno:

    LGRFPRIBL.

Treba napomenuti da su tehnike za konstruisanje regresija korišćenjem funkcija TREND i RAST skoro iste. Isto se može reći i za par funkcija LINEST i LGRFPRIBL. Za ove četiri funkcije, kreiranje tablice vrijednosti koristi Excel funkcije kao što su formule niza, što donekle otežava proces izgradnje regresija. Napomenimo i to da se konstrukcija linearne regresije, po našem mišljenju, najlakše ostvaruje korištenjem funkcija SLOPE i INTERCEPT, pri čemu prva određuje nagib linearne regresije, a druga segment koji se presječe regresijom na y osi.

Prednosti ugrađenog funkcijskog alata za regresionu analizu su:

    prilično jednostavan, ujednačen proces generisanja serije podataka karakteristike koja se proučava za sve ugrađene statističke funkcije koje definiraju linije trenda;

    standardna metodologija za konstruisanje linija trenda na osnovu generisanih serija podataka;

    sposobnost predviđanja ponašanja procesa koji se proučava potrebnim brojem koraka naprijed ili nazad.

Nedostaci uključuju činjenicu da Excel nema ugrađene funkcije za kreiranje drugih (osim linearnih i eksponencijalnih) tipova linija trenda. Ova okolnost često ne dopušta odabir dovoljno preciznog modela procesa koji se proučava, kao i dobijanje prognoza koje su bliske stvarnosti. Osim toga, kada se koriste funkcije TREND i GROWTH, jednadžbe linija trenda nisu poznate.

Treba napomenuti da autori nisu imali za cilj da predstave tok regresione analize sa bilo kojim stepenom potpunosti. Njegov glavni zadatak je da na konkretnim primjerima pokaže mogućnosti Excel paketa pri rješavanju aproksimacijskih problema; demonstrirati koje efikasne alate Excel ima za pravljenje regresija i predviđanja; ilustruju kako takve probleme može relativno lako riješiti čak i korisnik koji nema opsežno znanje o regresijskoj analizi.

Primjeri rješavanja konkretnih problema

Pogledajmo rješavanje konkretnih problema pomoću navedenih Excel alata.

Problem 1

Sa tabelom podataka o dobiti autotransportnog preduzeća za 1995-2002. potrebno je da uradite sledeće:

    Napravite dijagram.

    Dodajte linearne i polinomske (kvadratne i kubične) linije trenda na grafikon.

    Koristeći jednačine linije trenda, dobijte tabelarne podatke o dobiti preduzeća za svaku liniju trenda za 1995-2004.

    Napravite prognozu dobiti preduzeća za 2003. i 2004. godinu.

Rješenje problema

    U opseg ćelija A4:C11 Excel radnog lista unesite radni list prikazan na sl. 4.

    Nakon odabira raspona ćelija B4:C11, gradimo dijagram.

    Aktiviramo konstruisani dijagram i, prema gore opisanoj metodi, nakon odabira tipa linije trenda u dijaloškom okviru Trend Linija (vidi sliku 1), naizmenično dodajemo linearne, kvadratne i kubične linije trenda dijagramu. U istom dijaloškom okviru otvorite karticu Parametri (pogledajte sliku 2), u polje Naziv aproksimirajuće (izglađene) krive unesite naziv trenda koji se dodaje, a u polje Forecast forward for: periods postavite vrijednost 2, budući da je planirana prognoza dobiti za dvije godine unaprijed. Za prikaz jednačine regresije i vrijednosti pouzdanosti aproksimacije R2 u području dijagrama, omogućite potvrdne okvire za prikaz jednačine na ekranu i postavite vrijednost pouzdanosti aproksimacije (R^2) na dijagram. Za bolju vizuelnu percepciju, menjamo vrstu, boju i debljinu konstruisanih linija trenda, za šta koristimo karticu View dijaloškog okvira Trend Line Format (vidi sliku 3). Rezultirajući dijagram sa dodanim linijama trenda prikazan je na Sl. 5.

    Dobiti tabelarne podatke o dobiti preduzeća za svaku liniju trenda za 1995-2004.

Koristimo jednadžbe linije trenda predstavljene na Sl. 5. Da biste to učinili, u ćelije raspona D3:F3 unesite tekstualne informacije o tipu odabrane linije trenda: Linearni trend, Kvadratični trend, Kubni trend. Zatim unesite formulu linearne regresije u ćeliju D4 i, koristeći marker za popunjavanje, kopirajte ovu formulu s relativnim referencama na raspon ćelija D5:D13. Treba napomenuti da svaka ćelija sa formulom linearne regresije iz opsega ćelija D4:D13 ima kao argument odgovarajuću ćeliju iz opsega A4:A13. Slično, za kvadratnu regresiju popunite raspon ćelija E4:E13, a za kubičnu regresiju popunite raspon ćelija F4:F13. Tako je napravljena prognoza dobiti preduzeća za 2003. i 2004. godinu. koristeći tri trenda. Dobivena tabela vrijednosti prikazana je na Sl. 6.

    Napravite dijagram.

    Problem 2

    Dodajte logaritamske, stručne i eksponencijalne linije trenda na grafikon.

    Izvesti jednadžbe dobijenih linija trenda, kao i vrijednosti pouzdanosti aproksimacije R2 za svaku od njih.

    Koristeći jednačine linije trenda, dobiti tabelarne podatke o dobiti preduzeća za svaku liniju trenda za 1995-2002.

Rješenje problema

Prateći metodologiju datu u rješavanju problema 1, dobijamo dijagram sa dodanim logaritamskim, potencijskim i eksponencijalnim linijama trenda (slika 7). Zatim, koristeći dobijene jednadžbe linije trenda, popunjavamo tabelu vrijednosti za profit preduzeća, uključujući i predviđene vrijednosti za 2003. i 2004. godinu. (Sl. 8).

Na sl. 5 i sl. može se vidjeti da model sa logaritamskim trendom odgovara najnižoj vrijednosti pouzdanosti aproksimacije

R2 = 0,8659

Najveće vrijednosti R2 odgovaraju modelima sa polinomskim trendom: kvadratni (R2 = 0,9263) i kubični (R2 = 0,933).

Problem 3

Uz tabelu podataka o dobiti autotransportnog preduzeća za 1995-2002, datu u zadatku 1, morate izvršiti sljedeće korake.

    Dobijte serije podataka za linearne i eksponencijalne linije trenda koristeći funkcije TREND i GROW.

    Koristeći funkcije TREND i RAST, napravite prognozu dobiti preduzeća za 2003. i 2004. godinu.

    Konstruirajte dijagram za originalne podatke i rezultirajući niz podataka.

Rješenje problema

Koristimo radni list za zadatak 1 (vidi sliku 4). Počnimo s funkcijom TREND:

    odaberite raspon ćelija D4:D11, koje treba popuniti vrijednostima funkcije TREND koje odgovaraju poznatim podacima o dobiti poduzeća;

    Pozovite komandu Funkcija iz menija Insert. U dijalogu Čarobnjak za funkcije koji se pojavi, izaberite funkciju TREND iz kategorije Statistike, a zatim kliknite na dugme U redu. Ista operacija se može izvršiti klikom na dugme (Insert Function) na standardnoj traci sa alatkama.

    U dijaloškom okviru Argumenti funkcije koji se pojavi unesite opseg ćelija C4:C11 u polje Poznate_vrijednosti_y; u polju Poznate_vrijednosti_x - opseg ćelija B4:B11;

    Da bi unesena formula postala formula niza, koristite kombinaciju tipki + +.

Formula koju smo uneli u traku sa formulama će izgledati ovako: =(TREND(C4:C11,B4:B11)).

Kao rezultat toga, raspon ćelija D4:D11 je ispunjen odgovarajućim vrijednostima funkcije TREND (slika 9).

Da se napravi prognoza dobiti preduzeća za 2003. i 2004. godinu. potrebno:

    odaberite raspon ćelija D12:D13 u koje će biti unesene vrijednosti predviđene funkcijom TREND.

    pozovite funkciju TREND i u dijaloškom okviru Argumenti funkcije koji se pojavi unesite u polje Poznate_vrijednosti_y - opseg ćelija C4:C11; u polju Poznate_vrijednosti_x - opseg ćelija B4:B11; a u polju Nove_vrijednosti_x - opseg ćelija B12:B13.

    pretvorite ovu formulu u formulu niza koristeći kombinaciju tipki Ctrl + Shift + Enter.

    Unesena formula će izgledati ovako: =(TREND(C4:C11;B4:B11;B12:B13)), a opseg ćelija D12:D13 će biti popunjen predviđenim vrijednostima funkcije TREND (vidi Sl. 9).

Niz podataka se na sličan način popunjava pomoću funkcije GROWTH, koja se koristi u analizi nelinearnih zavisnosti i radi na potpuno isti način kao i njen linearni pandan TREND.

Slika 10 prikazuje tabelu u načinu prikaza formule.

Za početne podatke i dobijene serije podataka, dijagram prikazan na Sl. 11.

Problem 4

Sa tabelom podataka o prijemu zahtjeva za usluge od strane dispečerske službe autotransportnog preduzeća za period od 1. do 11. u tekućem mjesecu, morate izvršiti sljedeće radnje.

    Dobijte niz podataka za linearnu regresiju: ​​korištenjem funkcija SLOPE i INTERCEPT; koristeći funkciju LINEST.

    Dobijte seriju podataka za eksponencijalnu regresiju koristeći LGRFPRIBL funkciju.

    Koristeći gore navedene funkcije, napravite prognozu prijema prijava u dispečersku službu za period od 12. do 14. u tekućem mjesecu.

    Napravite dijagram za originalnu i primljenu seriju podataka.

Rješenje problema

Imajte na umu da, za razliku od funkcija TREND i GROWTH, nijedna od gore navedenih funkcija (SLOPE, INTERCEPT, LINEST, LGRFPRIB) nije regresija. Ove funkcije igraju samo pomoćnu ulogu, određujući potrebne parametre regresije.

Za linearne i eksponencijalne regresije izgrađene pomoću funkcija SLOPE, INTERCEPT, LINEST, LGRFPRIB, izgled njihovih jednačina je uvijek poznat, za razliku od linearnih i eksponencijalnih regresija koje odgovaraju funkcijama TREND i GROWTH.

1 . Izgradimo linearnu regresiju sa jednadžbom:

y = mx+b

koristeći funkcije SLOPE i INTERCEPT, pri čemu je nagib regresije m određen funkcijom SLOPE, a slobodni termin b funkcijom INTERCEPT.

Da bismo to učinili, provodimo sljedeće radnje:

    unesite originalnu tablicu u raspon ćelija A4:B14;

    vrijednost parametra m će biti određena u ćeliji C19. Odaberite funkciju nagiba iz kategorije Statistike; unesite opseg ćelija B4:B14 u polje poznate_vrijednosti_y i raspon ćelija A4:A14 u polje poznate_vrijednosti_x.

    Formula će biti unesena u ćeliju C19: =SLOPE(B4:B14,A4:A14);

    Zatim unesite formulu linearne regresije u ćeliju C4 u obliku: =$C*A4+$D. U ovoj formuli ćelije C19 i D19 su napisane sa apsolutnim referencama (adresa ćelije ne bi trebalo da se menja tokom mogućeg kopiranja). Apsolutni referentni znak $ može se otkucati ili sa tastature ili pomoću tastera F4, nakon postavljanja kursora na adresu ćelije.

2 Koristeći ručicu za popunjavanje, kopirajte ovu formulu u raspon ćelija C4:C17. Dobijamo traženu seriju podataka (slika 12). Zbog činjenice da je broj aplikacija cijeli broj, trebali biste podesiti format broja sa brojem decimalnih mjesta na 0 na kartici Broj prozora Format ćelije.

y = mx+b

. Sada napravimo linearnu regresiju datu jednadžbom:

koristeći funkciju LINEST.

    Da biste to učinili:

    Unesite funkciju LINEST u raspon ćelija C20:D20 kao formulu niza: =(LINEST(B4:B14,A4:A14)). Kao rezultat, dobijamo vrijednost parametra m u ćeliji C20, a vrijednost parametra b u ćeliji D20;

    unesite formulu u ćeliju D4: =$C*A4+$D;

3 kopirajte ovu formulu koristeći marker za popunjavanje u raspon ćelija D4:D17 i dobijte željenu seriju podataka.

. Gradimo eksponencijalnu regresiju pomoću jednačine:

    pomoću funkcije LGRFPRIBL se izvodi slično:

    U opseg ćelija C21:D21 unosimo funkciju LGRFPRIBL kao formulu niza: =( LGRFPRIBL (B4:B14,A4:A14)). U ovom slučaju, vrijednost parametra m će biti određena u ćeliji C21, a vrijednost parametra b će biti određena u ćeliji D21;

    formula se unosi u ćeliju E4: =$D*$C^A4;

korišćenjem markera za popunjavanje, ova formula se kopira u opseg ćelija E4:E17, gde će se nalaziti serija podataka za eksponencijalnu regresiju (vidi sliku 12).

Na sl. Slika 13 prikazuje tabelu u kojoj možete vidjeti funkcije koje koristimo sa potrebnim rasponima ćelija, kao i formule. Magnituda 2 R pozvao.

koeficijent determinacije

Zadatak konstruisanja regresijske zavisnosti je da se pronađe vektor koeficijenata m modela (1) na kome koeficijent R poprima maksimalnu vrednost.

Za procjenu značaja R koristi se Fišerov F test, izračunat pomoću formule n Gdje

- veličina uzorka (broj eksperimenata);

k je broj koeficijenata modela. n I Ako F premašuje neku kritičnu vrijednost za podatke k

Dakle, značaj R ne određuje samo njegova vrijednost, već i odnos između broja eksperimenata i broja koeficijenata (parametara) modela. Zaista, korelacijski odnos za n=2 za jednostavan linearni model je jednak 1 (jedna prava linija se uvijek može povući kroz 2 tačke na ravni). Međutim, ako su eksperimentalni podaci slučajne varijable, takvoj vrijednosti R treba vjerovati s velikim oprezom. Obično, da bi dobili značajan R i pouzdanu regresiju, oni nastoje osigurati da broj eksperimenata značajno premašuje broj koeficijenata modela (n>k).

Da biste izgradili model linearne regresije potrebno vam je:

1) pripremiti listu od n redaka i m stupaca koji sadrže eksperimentalne podatke (kolona koja sadrži izlaznu vrijednost Y mora biti prvi ili zadnji na listi); Na primjer, uzmimo podatke iz prethodnog zadatka, dodajući kolonu pod nazivom "Period No.", numerirajte brojeve perioda od 1 do 12. (ovo će biti vrijednosti X)

2) idite na meni Podaci/Analiza podataka/Regresija

Ako nedostaje stavka "Analiza podataka" u meniju "Alati", onda treba da odete na stavku "Dodaci" u istom meniju i označite polje za potvrdu "Paket analize".

3) u dijaloškom okviru "Regresija" postavite:

· interval unosa Y;

· ulazni interval X;

· izlazni interval - gornja lijeva ćelija intervala u koji će biti smješteni rezultati proračuna (preporučljivo je postaviti ih na novi radni list);

4) kliknite na "OK" i analizirajte rezultate.