Метод на най-малките квадрати за примери за линейни функции. Къде се използва методът на най-малките квадрати?

  • Урок

Въведение

Аз съм математик и програмист. Най-големият скок, който направих в кариерата си, беше, когато се научих да казвам: "Не разбирам нищо!"Сега не ме е срам да кажа на светилото на науката, че ми чете лекция, че не разбирам какво ми говори той, светилото. И е много трудно. Да, да признаеш невежеството си е трудно и неудобно. Кой обича да признава, че не знае основите на нещо? Поради професията си трябва да присъствам големи количествапрезентации и лекции, където, признавам си, в по-голямата част от случаите искам да спя, защото нищо не разбирам. Но не разбирам, защото огромният проблем на настоящата ситуация в науката се крие в математиката. Предполага се, че всички слушатели са запознати с абсолютно всички области на математиката (което е абсурдно). Признаването, че не знаете какво е производно (ще говорим за това какво е малко по-късно), е срамно.

Но се научих да казвам, че не знам какво е умножение. Да, не знам какво е подалгебра върху алгебра на Лъжа. Да, не знам защо са необходими в живота квадратни уравнения. Между другото, ако сте сигурни, че знаете, тогава имаме за какво да говорим! Математиката е поредица от трикове. Математиците се опитват да объркат и сплашат обществеността; където няма объркване, няма репутация, няма авторитет. Да, престижно е да се говори на възможно най-абстрактен език, което е пълна глупост.

Знаете ли какво е производно? Най-вероятно ще ми кажете за границата на съотношението на разликата. В първата година по математика и механика в Санкт Петербургския държавен университет Виктор Петрович Хавин ми каза определенпроизводна като коефициент на първия член от реда на Тейлър на функцията в точка (това беше отделна гимнастика за определяне на реда на Тейлър без производни). Дълго време се смях на това определение, докато накрая разбрах за какво става дума. Производната не е нищо повече от проста мярка за това колко подобна е функцията, която диференцираме, с функцията y=x, y=x^2, y=x^3.

Сега имам честта да изнасям лекции на студенти, които страхувам сематематика. Ако те е страх от математиката, ние сме на същия път. Щом се опитате да прочетете някакъв текст и ви се струва, че е прекалено сложен, знайте, че е лошо написан. Твърдя, че няма нито една област на математиката, която да не може да се обсъжда „на пръсти“, без да се губи точност.

Задача за близкото бъдеще: Възложих на моите ученици да разберат какво е линеен квадратичен регулатор. Не се срамувайте, отделете три минути от живота си и последвайте връзката. Ако не разбирате нещо, значи сме на същия път. И аз (професионален математик-програмист) нищо не разбрах. И ви уверявам, че можете да разберете това „на пръстите си“. На този моментНе знам какво е, но ви уверявам, че можем да го разберем.

И така, първата лекция, която ще изнеса на моите студенти, след като дотичат при мен ужасени и кажат, че линейно-квадратичният регулатор е ужасно нещо, което никога няма да овладеете в живота си, е методи най-малки квадрати . Можете ли да решите линейни уравнения? Ако четете този текст, най-вероятно не.

И така, при дадени две точки (x0, y0), (x1, y1), например (1,1) и (3,2), задачата е да се намери уравнението на правата, минаваща през тези две точки:

илюстрация

Този ред трябва да има уравнение като следното:

Тук алфа и бета са неизвестни за нас, но две точки от тази линия са известни:

Можем да напишем това уравнение в матрична форма:

Тук трябва да направим едно лирично отклонение: какво е матрица? Матрицата не е нищо повече от двуизмерен масив. Това е начин за съхраняване на данни; не трябва да му се придават други значения. От нас зависи как точно да интерпретираме дадена матрица. Периодично ще го тълкувам като линейно картографиране, периодично като квадратна форма, а понякога просто като набор от вектори. Всичко това ще бъде изяснено в контекста.

Нека заменим конкретните матрици с тяхното символно представяне:

Тогава (алфа, бета) могат лесно да бъдат намерени:

По-конкретно за нашите предишни данни:

Което води до следното уравнение на правата, минаваща през точките (1,1) и (3,2):

Добре, тук всичко е ясно. Нека намерим уравнението на правата, минаваща през нея триточки: (x0,y0), (x1,y1) и (x2,y2):

О-о-о, но имаме три уравнения за две неизвестни! Един стандартен математик ще каже, че няма решение. Какво ще каже програмистът? И той първо ще пренапише предишната система от уравнения в следната форма:

В нашия случай вектори i,j,bса триизмерни, следователно (в общия случай) няма решение на тази система. Всеки вектор (алфа\*i + бета\*j) лежи в равнината, обхваната от векторите (i, j). Ако b не принадлежи на тази равнина, тогава няма решение (не може да се постигне равенство в уравнението). Какво да правя? Да потърсим компромис. Нека означим с e(алфа, бета)колко точно не сме постигнали равенство:

И ние ще се опитаме да минимизираме тази грешка:

Защо квадрат?

Ние търсим не просто минимума на нормата, а минимума на квадрата на нормата. Защо? Самата минимална точка съвпада и квадратът дава гладка функция (квадратична функция на аргументите (алфа, бета)), докато просто дължината дава конусовидна функция, недиференцируема в минималната точка. брр. Квадратът е по-удобен.

Очевидно грешката е сведена до минимум, когато векторът дортогонална на равнината, обхваната от векторите азИ й.

Илюстрация

С други думи: търсим права линия, така че сумата от квадратите на дължините на разстоянията от всички точки до тази права линия да е минимална:

АКТУАЛИЗАЦИЯ: Имам проблем тук, разстоянието до правата линия трябва да се измерва вертикално, а не чрез ортогонална проекция. Този коментатор е прав.

Илюстрация

С напълно различни думи (внимателно, зле формализирани, но трябва да е ясно): вземаме всички възможни линии между всички двойки точки и търсим средната линия между всички:

Илюстрация

Друго обяснение на пръстите: прикрепяме пружина между всички точки от данни (тук имаме три) и правата линия, която търсим, и правата линия равновесно състояниеима точно това, което търсим.

Минимална квадратна форма

И така, даден е този вектор bи равнина, обхваната от колонните вектори на матрицата А(в този случай (x0,x1,x2) и (1,1,1)), ние търсим вектора дс минимална квадратна дължина. Очевидно минимумът е постижим само за вектора д, ортогонална на равнината, обхваната от колонните вектори на матрицата А:

С други думи, ние търсим вектор x=(алфа, бета), така че:

Нека ви напомня, че този вектор x=(алфа, бета) е минимумът квадратична функция||e(алфа, бета)||^2:

Тук би било полезно да запомните, че матрицата може да се интерпретира и като квадратна форма, например матрицата на идентичност ((1,0),(0,1)) може да се интерпретира като функция x^2 + y^ 2:

квадратна форма

Цялата тази гимнастика е известна под името линейна регресия.

Уравнение на Лаплас с гранично условие на Дирихле

Сега най-простата истинска задача: има определена триъгълна повърхност, необходимо е да я изгладите. Например, нека заредим модел на моето лице:

Оригиналният ангажимент е наличен. За да минимизирам външните зависимости, взех кода на моя софтуерен рендер, който вече е на Habré. За решения линейна системаИзползвам OpenNL, той е отличен солвър, който обаче е много труден за инсталиране: трябва да копирате два файла (.h+.c) в папката с вашия проект. Цялото изглаждане се извършва със следния код:

За (int d=0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&лице = лица[i]; за (int j=0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

Координатите X, Y и Z са разделими, изглаждам ги отделно. Тоест решавам три системи от линейни уравнения, всяка с брой променливи, равен на броя на върховете в моя модел. Първите n реда на матрица A имат само едно 1 на ред, а първите n реда на вектор b имат координатите на оригиналния модел. Тоест връзвам пружина между новата позиция на върха и старата позиция на върха - новите не трябва да се отдалечават много от старите.

Всички следващи редове на матрица A (faces.size()*3 = брой ръбове на всички триъгълници в мрежата) имат едно появяване на 1 и едно появяване на -1, като векторът b има нулеви противоположни компоненти. Това означава, че поставям пружина на всеки ръб на нашата триъгълна мрежа: всички ръбове се опитват да получат същия връх като тяхната начална и крайна точка.

Още веднъж: всички върхове са променливи и не могат да се движат далеч от първоначалната си позиция, но в същото време се опитват да станат подобни един на друг.

Ето резултата:

Всичко би било наред, моделът наистина е изгладен, но се е отдалечил от първоначалния си ръб. Нека променим малко кода:

За (int i=0; i<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

В нашата матрица A, за върховете, които са на ръба, добавям не ред от категорията v_i = verts[i][d], а 1000*v_i = 1000*verts[i][d]. Какво променя? И това променя нашата квадратична форма на грешка. Сега едно отклонение от върха на ръба ще струва не една единица, както преди, а 1000*1000 единици. Тоест, окачихме по-силна пружина на крайните върхове, решението ще предпочете да опъне останалите по-силно. Ето резултата:

Нека удвоим силата на пружината между върховете:
nlКоефициент(лице[j], 2); nlКоефициент(лице[(j+1)%3], -2);

Логично е, че повърхността е станала по-гладка:

И сега дори сто пъти по-силен:

Какво е това? Представете си, че сме потопили телеен пръстен в сапунена вода. В резултат на това полученият сапунен филм ще се опита да има възможно най-малко кривина, докосвайки границата - нашия телеен пръстен. Точно това получихме, като фиксирахме границата и поискахме гладка повърхност отвътре. Поздравления, току-що решихме уравнението на Лаплас с гранични условия на Дирихле. Звучи яко? Но в действителност просто трябва да решите една система от линейни уравнения.

Уравнение на Поасон

Нека си спомним още едно готино име.

Да приемем, че имам изображение като това:

Изглежда добре на всички, но столът не ми харесва.

Ще разполовя снимката:



И ще избера стол с ръцете си:

След това ще дръпна всичко, което е бяло в маската в лявата част на картината, и в същото време в цялата картина ще кажа, че разликата между два съседни пиксела трябва да е равна на разликата между два съседни пиксела отдясно снимка:

За (int i=0; i

Ето резултата:

Налични код и снимки

Метод на най-малките квадрати

В последния урок по темата ще се запознаем с най-известното приложение FNP, който намира най-широко приложение в различни области на науката и практическата дейност. Това може да бъде физика, химия, биология, икономика, социология, психология и така нататък и така нататък. По волята на съдбата често ми се налага да се справям с икономиката и затова днес ще организирам за вас пътуване до една невероятна страна, наречена Иконометрия=) ...Как да не искаш?! Там е много добре - просто трябва да вземете решение! ...Но това, което вероятно определено искате, е да се научите как да решавате проблеми метод на най-малките квадрати. И особено прилежните читатели ще се научат да ги решават не само точно, но и МНОГО БЪРЗО ;-) Но първо общо изложение на проблема+ придружаващ пример:

Нека да изследваме показатели в определена предметна област, които имат количествено изражение. В същото време има всички основания да се смята, че индикаторът зависи от индикатора. Това предположение може да бъде или научна хипотеза, или да се основава на основен здрав разум. Да оставим науката настрана обаче и да разгледаме по-апетитните области – а именно хранителните магазини. Да означим с:

– търговска площ на магазин за хранителни стоки, кв.м.,
– годишен оборот на магазин за хранителни стоки, милиона рубли.

Абсолютно ясно е, че колкото по-голяма е площта на магазина, толкова по-голям в повечето случаи ще бъде неговият оборот.

Да предположим, че след извършване на наблюдения/експерименти/изчисления/танци с тамбура имаме на разположение числени данни:

С магазините за хранителни стоки мисля, че всичко е ясно: - това е площта на 1-ви магазин, - годишният му оборот, - площта на 2-ри магазин, - годишният му оборот и т.н. Между другото, изобщо не е необходимо да имате достъп до класифицирани материали - доста точна оценка на търговския оборот може да се получи с помощта на математическа статистика. Но нека не се разсейваме, курсът по търговски шпионаж вече е платен =)

Табличните данни също могат да бъдат записани под формата на точки и изобразени в познатата форма Декартова система .

Да отговорим на един важен въпрос: Колко точки са необходими за качествено изследване?

Колкото по-голям, толкова по-добре. Минималният приемлив набор се състои от 5-6 точки. Освен това, когато количеството данни е малко, „аномалните“ резултати не могат да бъдат включени в извадката. Така например малък елитен магазин може да спечели порядъци повече от „колегите си“, като по този начин изкриви общия модел, който трябва да намерите!



Казано много просто, трябва да изберем функция, графиккойто минава възможно най-близо до точките . Тази функция се нарича приближаващ (приближение - приближение)или теоретична функция . Най-общо казано, тук веднага се появява очевиден „претендент“ - полином с висока степен, чиято графика минава през ВСИЧКИ точки. Но тази опция е сложна и често просто неправилна. (тъй като графиката ще се „върти“ през цялото време и ще отразява слабо основната тенденция).

По този начин търсената функция трябва да бъде доста проста и в същото време адекватно да отразява зависимостта. Както може би се досещате, един от методите за намиране на такива функции се нарича метод на най-малките квадрати. Първо, нека да разгледаме неговата същност в общи линии. Нека някаква функция апроксимира експериментални данни:


Как да оценим точността на това приближение? Нека изчислим и разликите (отклоненията) между експерименталните и функционалните стойности (изучаваме чертежа). Първата мисъл, която идва на ум, е да преценим колко голяма е сумата, но проблемът е, че разликите могат да бъдат отрицателни (Например, ) и отклоненията в резултат на такова сумиране ще се компенсират взаимно. Следователно, като оценка на точността на приближението, е необходимо да се вземе сумата модулиотклонения:

или свито: (ако някой не знае: е иконата за сума и – спомагателна променлива „брояч“, която приема стойности от 1 до ) .

Чрез приближаване на експериментални точки с различни функции, ще получим различни стойности и очевидно, когато тази сума е по-малка, тази функция е по-точна.

Такъв метод съществува и се нарича метод на най-малък модул. На практика обаче той стана много по-разпространен метод на най-малките квадрати, при които възможните отрицателни стойности се елиминират не от модула, а чрез квадратиране на отклоненията:



, след което усилията са насочени към избор на функция, така че сумата на квадратите на отклоненията беше възможно най-малък. Всъщност от тук идва и името на метода.

И сега се връщаме към друг важен момент: както беше отбелязано по-горе, избраната функция трябва да е доста проста - но има и много такива функции: линеен , хиперболичен , експоненциален , логаритмичен , квадратна и т.н. И, разбира се, тук веднага бих искал да „намаля сферата на дейност“. Кой клас функции да избера за изследване? Примитивна, но ефективна техника:

– Най-лесният начин е да изобразите точки върху чертежа и анализирайте местоположението им. Ако те са склонни да се движат по права линия, тогава трябва да потърсите уравнение на права с оптимални стойности и . С други думи, задачата е да се намерят ТАКИВА коефициенти, така че сумата на квадратите на отклоненията да е най-малка.

Ако точките са разположени, например, по хипербола, тогава очевидно е ясно, че линейната функция ще даде лошо приближение. В този случай ние търсим най-„благоприятните“ коефициенти за уравнението на хипербола – тези, които дават минималния сбор от квадрати .

Сега имайте предвид, че и в двата случая говорим за функции на две променливи, чиито аргументи са търсени параметри на зависимост:

И по същество трябва да решим стандартен проблем - намери минимална функция на две променливи.

Нека си спомним нашия пример: да предположим, че точките на „магазин“ обикновено са разположени в права линия и има всички основания да се смята, че линейна зависимостоборот от търговски площи. Нека намерим ТАКИВА коефициенти “a” и “be”, така че сумата от квадратите на отклоненията беше най-малкият. Всичко е както обикновено - първо Частични производни от 1-ви ред. Според правило за линейностМожете да разграничите точно под иконата за сума:

Ако искате да използвате тази информация за есе или курсова работа, ще бъда много благодарен за връзката в списъка с източници; такива подробни изчисления ще намерите на няколко места:

Нека създадем стандартна система:

Ние намаляваме всяко уравнение с „две“ и в допълнение „разбиваме“ сумите:

Забележка : независимо анализирайте защо „a“ и „be“ могат да бъдат извадени отвъд иконата за сума. Между другото, формално това може да стане със сумата

Нека пренапишем системата в „приложна“ форма:

след което алгоритъмът за решаване на нашия проблем започва да се появява:

Знаем ли координатите на точките? Ние знаем. суми можем ли да го намерим? Лесно. Нека направим най-простото система от две линейни уравнения с две неизвестни(„а“ и „бъди“). Решаваме системата, напр. Методът на Крамър, в резултат на което получаваме неподвижна точка. Проверка достатъчно условие за екстремум, можем да проверим, че в този момент функцията достига точно минимум. Проверката включва допълнителни изчисления и затова ще я оставим зад кулисите (при необходимост може да се види липсващата рамкаТук ) . Правим окончателното заключение:

функция по най-добрия начин (поне в сравнение с всяка друга линейна функция)сближава експерименталните точки . Грубо казано, неговата графика минава възможно най-близо до тези точки. В традицията иконометрияполучената апроксимираща функция също се нарича уравнение на двойка линейна регресия .

Разглежданият проблем е от голямо практическо значение. В нашата примерна ситуация, ур. ви позволява да предвидите какъв търговски оборот ("Игрек")магазинът ще има при една или друга стойност на търговската площ (едно или друго значение на "х"). Да, получената прогноза ще бъде само прогноза, но в много случаи ще се окаже доста точна.

Ще анализирам само един проблем с „реални“ числа, тъй като в него няма трудности - всички изчисления са на ниво училищна програма за 7-8 клас. В 95 процента от случаите ще бъдете помолени да намерите само линейна функция, но в самия край на статията ще покажа, че не е по-трудно да намерите уравненията на оптималната хипербола, експоненциалната и някои други функции.

Всъщност остава само да раздадете обещаните лакомства - за да се научите да решавате подобни примери не само точно, но и бързо. Ние внимателно изучаваме стандарта:

Задача

В резултат на изследване на връзката между два показателя бяха получени следните двойки числа:

Използвайки метода на най-малките квадрати, намерете линейната функция, която най-добре приближава емпиричната (опитен)данни. Направете чертеж, върху който да построите експериментални точки и графика на апроксимиращата функция в декартова правоъгълна координатна система . Намерете сумата от квадратите на отклоненията между емпиричните и теоретичните стойности. Разберете дали функцията би била по-добра (от гледна точка на метода на най-малките квадрати)доближете експерименталните точки.

Моля, обърнете внимание, че значенията на „x“ са естествени и това има характерно смислово значение, за което ще говоря малко по-късно; но те, разбира се, могат да бъдат и дробни. Освен това, в зависимост от съдържанието на конкретна задача, стойностите на „X“ и „игра“ могат да бъдат напълно или частично отрицателни. Е, дадена ни е „безлична“ задача и започваме решение:

Намираме коефициентите на оптималната функция като решение на системата:

С цел по-компактен запис, променливата „брояч“ може да бъде пропусната, тъй като вече е ясно, че сумирането се извършва от 1 до .

По-удобно е да се изчислят необходимите количества в таблична форма:


Изчисленията могат да се извършват на микрокалкулатор, но е много по-добре да използвате Excel - както по-бързо, така и без грешки; вижте кратко видео:

Така получаваме следното система:

Тук можете да умножите второто уравнение по 3 и извадете 2-то от 1-вото уравнение член по член. Но това е късмет - на практика системите често не са подарък и в такива случаи спестява Методът на Крамър:
, което означава, че системата има уникално решение.

Да проверим. Разбирам, че не искате, но защо да пропускате грешки, когато те абсолютно не могат да бъдат пропуснати? Нека заместим намереното решение в лявата част на всяко уравнение на системата:

Получават се десните части на съответните уравнения, което означава, че системата е решена правилно.

Така желаната апроксимираща функция: – от всички линейни функцииТя е тази, която най-добре приближава експерименталните данни.

За разлика от прав зависимост на оборота на магазина от неговата площ, установената зависимост е обратен (принцип "колкото повече, толкова по-малко"), и този факт веднага се разкрива от негатива наклон. функция ни казва, че с увеличаване на определен показател с 1 единица, стойността на зависимия показател намалява средно аритметичнос 0,65 единици. Както се казва, колкото по-висока е цената на елдата, толкова по-малко се продава.

За да начертаем графиката на апроксимиращата функция, намираме нейните две стойности:

и изпълнете чертежа:

Построената права се нарича тренд линия (а именно линейна линия на тенденция, т.е. в общия случай тенденцията не е непременно права линия). Всеки е запознат с израза „да бъдеш в тенденция“ и смятам, че този термин не се нуждае от допълнителни коментари.

Нека изчислим сумата на квадратите на отклоненията между емпирични и теоретични стойности. Геометрично това е сумата от квадратите на дължините на сегментите „малина“. (две от които са толкова малки, че дори не се виждат).

Нека обобщим изчисленията в таблица:


Отново могат да се направят ръчно, за всеки случай ще дам пример за 1-ва точка:

но е много по-ефективно да го направите по вече познатия начин:

Повтаряме още веднъж: Какъв е смисълът на получения резултат?от всички линейни функции y функция индикаторът е най-малкият, тоест в своето семейство той е най-доброто приближение. И тук, между другото, последният въпрос на проблема не е случаен: какво ще стане, ако предложената експоненциална функция би ли било по-добре да сближим експерименталните точки?

Нека намерим съответната сума от квадратни отклонения - за да ги различим, ще ги обознача с буквата "епсилон". Техниката е абсолютно същата:


И отново, за всеки случай, изчисленията за 1-ва точка:

В Excel използваме стандартната функция EXP (синтаксисът може да бъде намерен в помощта на Excel).

Заключение: , което означава, че експоненциалната функция приближава експерименталните точки по-лошо от права линия .

Но тук трябва да се отбележи, че "по-лошо" е още не означава, Какво не е наред. Сега построих графика на тази експоненциална функция - и тя също минава близо до точките - толкова много, че без аналитични изследвания е трудно да се каже коя функция е по-точна.

Това завършва решението и се връщам към въпроса за естествените стойности на аргумента. В различни изследвания, обикновено икономически или социологически, естествените „X“ се използват за номериране на месеци, години или други равни интервали от време. Помислете например за следния проблем:

За оборота на дребно на магазина за първото полугодие има следните данни:

Използвайки аналитично подреждане по права линия, определете обема на оборота за юли.

Да, няма проблем: номерираме месеците 1, 2, 3, 4, 5, 6 и използваме обичайния алгоритъм, в резултат на което получаваме уравнение - единственото нещо е, че когато става въпрос за време, те обикновено използват буквата "те" (въпреки че това не е критично). Полученото уравнение показва, че през първото полугодие търговският оборот се е увеличил средно с 27,74 единици. на месец. Да вземем прогнозата за юли (месец № 7): д.е.

И има безброй задачи като тази. Желаещите могат да ползват допълнителна услуга, а именно моята Ексел калкулатор (демо версия), който решава анализирания проблем почти моментално!Налична е работеща версия на програмата в замянаили за символична такса.

В края на урока, кратка информация за намирането на зависимости от някои други типове. Всъщност няма много какво да се каже, тъй като основният подход и алгоритъмът за решение остават същите.

Да приемем, че разположението на експерименталните точки прилича на хипербола. След това, за да намерите коефициентите на най-добрата хипербола, трябва да намерите минимума на функцията - всеки може да извърши подробни изчисления и да стигне до подобна система:

От формална техническа гледна точка се получава от „линейна“ система (нека го обозначим със звездичка)замяна на "x" с . Е, какво ще кажете за сумите? изчисляване, след което до оптималните коефициенти „а“ и „бе“ на една ръка разстояние.

Ако има всички основания да се смята, че точките са разположени по логаритмична крива, след което, за да намерим оптималните стойности, намираме минимума на функцията . Формално, в системата (*) трябва да се замени с:

Когато извършвате изчисления в Excel, използвайте функцията LN. Признавам, че не би ми било особено трудно да създам калкулатори за всеки от разглежданите случаи, но все пак би било по-добре, ако сами „програмирате“ изчисленията. Видео уроци в помощ.

С експоненциалната зависимост ситуацията е малко по-сложна. За да намалим материята до линейния случай, ние вземаме функцията логаритъм и използваме свойства на логаритъма:

Сега, сравнявайки получената функция с линейната функция, стигаме до извода, че в системата (*) трябва да се замени с , а – с . За удобство нека обозначим:

Моля, имайте предвид, че системата е разрешена по отношение на и, и следователно, след като намерите корените, не трябва да забравяте да намерите самия коефициент.

За да доближим експерименталните точки оптимална парабола , трябва да се намери минимална функция на три променливи . След извършване на стандартни действия получаваме следното „работещо“ система:

Да, разбира се, тук има повече суми, но няма никакви затруднения, когато използвате любимото си приложение. И накрая, ще ви кажа как бързо да извършите проверка с помощта на Excel и да изградите желаната линия на тренда: създайте точкова диаграма, изберете някоя от точките с мишката и щракнете с десния бутон изберете опцията „Добавяне на тренд линия“. След това изберете типа диаграма и в раздела "Настроики"активирайте опцията „Покажи уравнението на диаграмата“. Добре

Както винаги, искам да завърша статията с красива фраза и почти написах „Бъдете в тенденция!“ Но навреме промени решението си. И не защото е стереотипно. Не знам как е за никого, но аз не искам да следвам прокламираната американска и особено европейска тенденция =) Затова пожелавам на всеки от вас да се придържа към собствената си линия!

http://www.grandars.ru/student/vysshaya-matematika/metod-naimenshih-kvadratov.html

Методът на най-малките квадрати е един от най-разпространените и най-разработените поради своята простота и ефективност на методите за оценка на параметрите на линейни иконометрични модели. В същото време, когато го използвате, трябва да се внимава, тъй като моделите, конструирани с него, може да не отговарят на редица изисквания за качеството на техните параметри и в резултат на това да не отразяват моделите на развитие на процеса „добре“ достатъчно.

Нека разгледаме по-подробно процедурата за оценка на параметрите на линеен иконометричен модел с помощта на метода на най-малките квадрати. Такъв модел най-общо може да бъде представен чрез уравнение (1.2):

y t = a 0 + a 1 x 1t +...+ a n x nt + ε t.

Първоначалните данни при оценяване на параметрите a 0 , a 1 ,..., a n е вектор от стойности на зависимата променлива г= (y 1, y 2, ..., y T)" и матрицата от стойности на независими променливи

в която първата колона, състояща се от единици, съответства на коефициента на модела.

Методът на най-малките квадрати получи името си въз основа на основния принцип, че оценките на параметрите, получени на негова основа, трябва да удовлетворяват: сумата от квадратите на грешката на модела трябва да бъде минимална.

Примери за решаване на задачи по метода на най-малките квадрати

Пример 2.1.Търговското предприятие разполага с мрежа от 12 магазина, информация за дейността на които е представена в табл. 2.1.

Ръководството на предприятието би искало да знае как размерът на годишния оборот зависи от търговската площ на магазина.

Таблица 2.1

Номер на магазина Годишен оборот, милиони рубли. Търговска площ, хил. м2
19,76 0,24
38,09 0,31
40,95 0,55
41,08 0,48
56,29 0,78
68,51 0,98
75,01 0,94
89,05 1,21
91,13 1,29
91,26 1,12
99,84 1,29
108,55 1,49

Решение на най-малките квадрати.Нека обозначим годишния оборот на магазина, милиони рубли; - търговска площ на магазина, хиляди m2.

Фиг.2.1. Точкова диаграма за пример 2.1

За да определим формата на функционалната връзка между променливите и ще изградим точкова диаграма (фиг. 2.1).

Въз основа на диаграмата на разсейване можем да заключим, че годишният оборот зависи положително от търговската площ (т.е. y ще нараства с увеличаване на ). Най-подходящата форма на функционална връзка е линеен.

Информация за допълнителни изчисления е представена в табл. 2.2. Използвайки метода на най-малките квадрати, ние оценяваме параметрите на линеен еднофакторен иконометричен модел

Таблица 2.2

T y t х 1т y t 2 х 1т 2 x 1t y t
19,76 0,24 390,4576 0,0576 4,7424
38,09 0,31 1450,8481 0,0961 11,8079
40,95 0,55 1676,9025 0,3025 22,5225
41,08 0,48 1687,5664 0,2304 19,7184
56,29 0,78 3168,5641 0,6084 43,9062
68,51 0,98 4693,6201 0,9604 67,1398
75,01 0,94 5626,5001 0,8836 70,5094
89,05 1,21 7929,9025 1,4641 107,7505
91,13 1,29 8304,6769 1,6641 117,5577
91,26 1,12 8328,3876 1,2544 102,2112
99,84 1,29 9968,0256 1,6641 128,7936
108,55 1,49 11783,1025 2,2201 161,7395
С 819,52 10,68 65008,554 11,4058 858,3991
Средно аритметично 68,29 0,89

По този начин,

Следователно, с увеличаване на търговските площи с 1 хил. м2, при равни други условия, средният годишен оборот се увеличава с 67,8871 милиона рубли.

Пример 2.2.Ръководството на компанията забеляза, че годишният оборот зависи не само от търговската площ на магазина (вижте пример 2.1), но и от средния брой посетители. Съответната информация е представена в табл. 2.3.

Таблица 2.3

Решение.Нека обозначим - средният брой посетители на ти магазин на ден, хиляди души.

За да определим формата на функционалната връзка между променливите и ще изградим точкова диаграма (фиг. 2.2).

Въз основа на диаграмата на разсейване можем да заключим, че годишният оборот зависи положително от средния брой посетители на ден (т.е. y ще нараства с нарастване). Формата на функционалната зависимост е линейна.

Ориз. 2.2. Точкова диаграма за пример 2.2

Таблица 2.4

T х 2т x 2t 2 y t x 2t x 1t x 2t
8,25 68,0625 163,02 1,98
10,24 104,8575 390,0416 3,1744
9,31 86,6761 381,2445 5,1205
11,01 121,2201 452,2908 5,2848
8,54 72,9316 480,7166 6,6612
7,51 56,4001 514,5101 7,3598
12,36 152,7696 927,1236 11,6184
10,81 116,8561 962,6305 13,0801
9,89 97,8121 901,2757 12,7581
13,72 188,2384 1252,0872 15,3664
12,27 150,5529 1225,0368 15,8283
13,92 193,7664 1511,016 20,7408
С 127,83 1410,44 9160,9934 118,9728
Средно аритметично 10,65

Като цяло е необходимо да се определят параметрите на двуфакторен иконометричен модел

y t = a 0 + a 1 x 1t + a 2 x 2t + ε t

Информацията, необходима за по-нататъшни изчисления, е представена в табл. 2.4.

Нека оценим параметрите на линеен двуфакторен иконометричен модел, използвайки метода на най-малките квадрати.

По този начин,

Оценката на коефициента =61,6583 показва, че при равни други условия, с увеличаване на търговската площ с 1 хил. м 2, годишният оборот ще се увеличи средно с 61,6583 милиона рубли.

Оценката на коефициента = 2,2748 показва, че при равни други условия нараства средният брой посетители на 1 хил. души. на ден, годишният оборот ще се увеличи средно с 2,2748 милиона рубли.

Пример 2.3.Използвайки информацията, представена в табл. 2.2 и 2.4, оценяват параметъра на еднофакторния иконометричен модел

където е центрираната стойност на годишния оборот на магазина, милиони рубли; - центрирана стойност на средния дневен брой посетители на t-тия магазин, хиляди души. (вижте примери 2.1-2.2).

Решение.Допълнителна информация, необходима за изчисленията, е представена в табл. 2.5.

Таблица 2.5

-48,53 -2,40 5,7720 116,6013
-30,20 -0,41 0,1702 12,4589
-27,34 -1,34 1,8023 36,7084
-27,21 0,36 0,1278 -9,7288
-12,00 -2,11 4,4627 25,3570
0,22 -3,14 9,8753 -0,6809
6,72 1,71 2,9156 11,4687
20,76 0,16 0,0348 3,2992
22,84 -0,76 0,5814 -17,413
22,97 3,07 9,4096 70,4503
31,55 1,62 2,6163 51,0267
40,26 3,27 10,6766 131,5387
Количество 48,4344 431,0566

Използвайки формула (2.35), получаваме

По този начин,

http://www.cleverstudents.ru/articles/mnk.html

Пример.

Експериментални данни за стойностите на променливите хИ приса дадени в таблицата.

В резултат на подравняването им се получава функцията

Използвайки метод на най-малките квадрати, апроксимирайте тези данни чрез линейна зависимост y=ax+b(намерете параметри АИ b). Открийте коя от двете линии по-добре (в смисъла на метода на най-малките квадрати) подравнява експерименталните данни. Направете рисунка.

Решение.

В нашия пример n=5. Попълваме таблицата за удобство при изчисляване на сумите, които са включени във формулите на необходимите коефициенти.

Стойностите в четвъртия ред на таблицата се получават чрез умножаване на стойностите на 2-ри ред по стойностите на 3-ти ред за всяко число аз.

Стойностите в петия ред на таблицата се получават чрез повдигане на квадрат на стойностите във 2-ри ред за всяко число аз.

Стойностите в последната колона на таблицата са сумите от стойностите в редовете.

Използваме формулите на метода на най-малките квадрати, за да намерим коефициентите АИ b. Заменяме съответните стойности от последната колона на таблицата в тях:

следователно y = 0,165x+2,184- желаната апроксимираща права линия.

Остава да разберем коя от линиите y = 0,165x+2,184или приближава по-добре оригиналните данни, тоест прави оценка, използвайки метода на най-малките квадрати.

Доказателство.

Така че, когато се намери АИ bфункция приема най-малката стойност, необходимо е в тази точка матрицата на квадратната форма на диференциала от втори ред за функцията беше положително категоричен. Нека го покажем.

Диференциалът от втори ред има формата:

Това е

Следователно матрицата на квадратна форма има формата

и стойностите на елементите не зависят от АИ b.

Нека покажем, че матрицата е положително определена. За да направите това, ъгловите минори трябва да са положителни.

Ъглов минор от първи ред . Неравенството е строго, тъй като точките

Апроксимацията на експериментални данни е метод, основан на замяна на експериментално получени данни с аналитична функция, която най-близо преминава или съвпада в възлови точки с първоначалните стойности (данни, получени по време на експеримент или експеримент). Понастоящем има два начина за дефиниране на аналитична функция:

Чрез конструиране на интерполационен полином от n степен, който преминава директно през всички точкидаден масив от данни. В този случай апроксимиращата функция се представя под формата на: интерполационен полином във форма на Лагранж или интерполационен полином във форма на Нютон.

Чрез конструиране на апроксимиращ полином от n-степен, който преминава в непосредствена близост до точкиот даден масив от данни. По този начин апроксимиращата функция изглажда всички произволни шумове (или грешки), които могат да възникнат по време на експеримента: измерените стойности по време на експеримента зависят от случайни фактори, които се колебаят според собствените си случайни закони (измерване или грешки на инструмента, неточност или експериментални грешки). В този случай апроксимиращата функция се определя чрез метода на най-малките квадрати.

Метод на най-малките квадрати(в англоезичната литература Ordinary Least Squares, OLS) е математически метод, базиран на определяне на апроксимираща функция, която се конструира в най-близка близост до точки от даден масив от експериментални данни. Близостта на оригиналната и апроксимиращата функция F(x) се определя от числена мярка, а именно: сумата от квадратите на отклоненията на експерименталните данни от апроксимиращата крива F(x) трябва да бъде най-малката.

Апроксимираща крива, конструирана чрез метода на най-малките квадрати

Използва се методът на най-малките квадрати:

За решаване на свръхопределени системи от уравнения, когато броят на уравненията надвишава броя на неизвестните;

Да намери решение в случай на обикновени (не свръхопределени) нелинейни системи от уравнения;

За приближаване на точкови стойности с някаква апроксимираща функция.

Апроксимиращата функция с помощта на метода на най-малките квадрати се определя от условието за минималната сума на квадратите на отклоненията на изчислената апроксимираща функция от даден масив от експериментални данни. Този критерий на метода на най-малките квадрати се записва като следния израз:

Стойностите на изчислената апроксимираща функция в възловите точки,

Даден масив от експериментални данни в възлови точки.

Квадратният критерий има редица „добри“ свойства, като например диференцируемост, предоставяйки уникално решение на проблема с приближението с полиномиални апроксимиращи функции.

В зависимост от условията на задачата, апроксимиращата функция е полином от степен m

Степента на апроксимиращата функция не зависи от броя на възловите точки, но нейният размер винаги трябва да бъде по-малък от размерността (броя точки) на даден експериментален масив от данни.

∙ Ако степента на апроксимиращата функция е m=1, тогава апроксимираме табличната функция с права линия (линейна регресия).

∙ Ако степента на апроксимиращата функция е m=2, тогава апроксимираме табличната функция с квадратна парабола (квадратична апроксимация).

∙ Ако степента на апроксимиращата функция е m=3, тогава апроксимираме табличната функция с кубична парабола (кубична апроксимация).

В общия случай, когато е необходимо да се построи апроксимиращ полином от степен m за дадени таблични стойности, условието за минимум на сумата на квадратите на отклоненията по всички възлови точки се пренаписва в следния вид:

- неизвестни коефициенти на апроксимиращия полином от степен m;

Броят на зададените стойности на таблицата.

Необходимо условие за съществуването на минимум на функция е равенството на нула на нейните частни производни по отношение на неизвестни променливи . В резултат на това получаваме следната система от уравнения:

Нека трансформираме получената линейна система от уравнения: отворете скобите и преместете свободните членове в дясната страна на израза. В резултат на това получената система от линейни алгебрични изрази ще бъде записана в следната форма:

Тази система от линейни алгебрични изрази може да бъде пренаписана в матрична форма:

В резултат се получава система от линейни уравнения с размерност m+1, която се състои от m+1 неизвестни. Тази система може да бъде решена с помощта на всеки метод за решаване на линейни алгебрични уравнения (например методът на Гаус). В резултат на решението ще бъдат намерени неизвестни параметри на апроксимиращата функция, които осигуряват минималната сума на квадратите на отклоненията на апроксимиращата функция от оригиналните данни, т.е. най-доброто възможно квадратично приближение. Трябва да се помни, че ако дори една стойност на изходните данни се промени, всички коефициенти ще променят своите стойности, тъй като те са напълно определени от изходните данни.

Апроксимация на изходни данни чрез линейна зависимост

(линейна регресия)

Като пример, нека разгледаме техниката за определяне на апроксимиращата функция, която е посочена под формата на линейна зависимост. В съответствие с метода на най-малките квадрати условието за минимум на сумата от квадратите на отклоненията се записва в следната форма:

Координати на възлите на таблицата;

Неизвестни коефициенти на апроксимиращата функция, която е зададена като линейна зависимост.

Необходимо условие за съществуването на минимум на функция е равенството на нула на нейните частни производни по отношение на неизвестни променливи. В резултат на това получаваме следната система от уравнения:

Нека трансформираме получената линейна система от уравнения.

Решаваме получената система от линейни уравнения. Коефициентите на апроксимиращата функция в аналитична форма се определят, както следва (метод на Крамер):

Тези коефициенти осигуряват изграждането на линейна апроксимираща функция в съответствие с критерия за минимизиране на сумата от квадратите на апроксимиращата функция от дадените таблични стойности (експериментални данни).

Алгоритъм за прилагане на метода на най-малките квадрати

1. Изходни данни:

Посочен е масив от експериментални данни с брой измервания N

Посочва се степента на апроксимиращия полином (m).

2. Алгоритъм за изчисление:

2.1. Определят се коефициентите за построяване на система от уравнения с размерности

Коефициенти на системата от уравнения (лявата страна на уравнението)

- индекс на номера на колоната на квадратната матрица на системата от уравнения

Свободни членове на система от линейни уравнения (дясната страна на уравнението)

- индекс на номера на реда на квадратната матрица на системата от уравнения

2.2. Образуване на система от линейни уравнения с размерност .

2.3. Решаване на система от линейни уравнения за определяне на неизвестните коефициенти на апроксимиращ полином от степен m.

2.4 Определяне на сумата от квадратните отклонения на апроксимиращия полином от първоначалните стойности във всички възлови точки

Намерената стойност на сумата от квадратите на отклоненията е минималната възможна.

Приближение с помощта на други функции

Трябва да се отбележи, че когато се апроксимират оригиналните данни в съответствие с метода на най-малките квадрати, логаритмичната функция, експоненциалната функция и степенната функция понякога се използват като апроксимираща функция.

Логаритмично приближение

Нека разгледаме случая, когато апроксимиращата функция е дадена от логаритмична функция от формата:

Има много приложения, тъй като позволява приблизително представяне на дадена функция от други по-прости. LSM може да бъде изключително полезен при обработката на наблюдения и се използва активно за оценка на някои количества въз основа на резултатите от измервания на други, съдържащи случайни грешки. В тази статия ще научите как да прилагате изчисления на най-малките квадрати в Excel.

Изложение на проблема с помощта на конкретен пример

Да предположим, че има два индикатора X и Y. Освен това Y зависи от X. Тъй като OLS ни интересува от гледна точка на регресионния анализ (в Excel неговите методи се изпълняват с помощта на вградени функции), трябва незабавно да преминем към разглеждане на специфичен проблем.

И така, нека X е търговската площ на магазин за хранителни стоки, измерена в квадратни метри, а Y е годишният оборот, измерен в милиони рубли.

Необходимо е да се направи прогноза какъв оборот (Y) ще има магазинът, ако има тази или онази търговска площ. Очевидно функцията Y = f (X) нараства, тъй като хипермаркетът продава повече стоки от щанда.

Няколко думи за коректността на първоначалните данни, използвани за прогнозиране

Да кажем, че имаме таблица, изградена с помощта на данни за n магазина.

Според математическата статистика резултатите ще бъдат повече или по-малко правилни, ако се изследват данни за поне 5-6 обекта. Освен това не могат да се използват „аномални“ резултати. По-специално, елитен малък бутик може да има оборот, който е няколко пъти по-голям от оборота на големите търговски обекти от класа „masmarket“.

Същността на метода

Данните от таблицата могат да бъдат изобразени на декартова равнина под формата на точки M 1 (x 1, y 1), ... M n (x n, y n). Сега решението на проблема ще се сведе до избора на апроксимираща функция y = f (x), която има графика, минаваща възможно най-близо до точките M 1, M 2, .. M n.

Разбира се, можете да използвате полином с висока степен, но тази опция е не само трудна за изпълнение, но и просто неправилна, тъй като няма да отразява основната тенденция, която трябва да бъде открита. Най-разумното решение е да се търси правата линия y = ax + b, която най-добре приближава експерименталните данни или по-точно коефициентите a и b.

Оценка на точността

При всяко приближение оценката на неговата точност е от особено значение. Нека обозначим с e i разликата (отклонението) между функционалните и експерименталните стойности за точка x i, т.е. e i = y i - f (x i).

Очевидно, за да оцените точността на приближението, можете да използвате сумата от отклонения, т.е. когато избирате права линия за приблизително представяне на зависимостта на X от Y, трябва да дадете предпочитание на тази с най-малката стойност на sum e i във всички разглеждани точки. Но не всичко е толкова просто, тъй като наред с положителните отклонения ще има и отрицателни.

Проблемът може да бъде решен с помощта на модули за отклонение или техните квадрати. Последният метод е най-широко използваният. Използва се в много области, включително регресионен анализ (имплементиран в Excel с помощта на две вградени функции), и отдавна е доказал своята ефективност.

Метод на най-малките квадрати

Excel, както знаете, има вградена функция AutoSum, която ви позволява да изчислявате стойностите на всички стойности, разположени в избрания диапазон. Така нищо няма да ни попречи да изчислим стойността на израза (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

В математическа нотация това изглежда така:

Тъй като първоначално беше взето решение за приблизително използване на права линия, имаме:

По този начин задачата за намиране на правата линия, която най-добре описва конкретната зависимост на величините X и Y, се свежда до изчисляване на минимума на функция от две променливи:

За да направите това, трябва да приравните частните производни по отношение на новите променливи a и b на нула и да решите примитивна система, състояща се от две уравнения с 2 неизвестни от вида:

След някои прости трансформации, включително деление на 2 и манипулиране на суми, получаваме:

Решавайки го, например, използвайки метода на Крамер, получаваме стационарна точка с определени коефициенти a * и b *. Това е минимумът, т.е. за да се предвиди какъв оборот ще има даден магазин за определен район, е подходяща правата линия y = a * x + b *, която е регресионен модел за въпросния пример. Разбира се, това няма да ви позволи да намерите точния резултат, но ще ви помогне да получите представа дали закупуването на конкретна зона на кредит от магазина ще се изплати.

Как да внедрите най-малките квадрати в Excel

Excel има функция за изчисляване на стойности с помощта на най-малките квадрати. Той има следната форма: „ТЕНДЕНЦИЯ“ (известни Y стойности; известни X стойности; нови X стойности; константа). Нека приложим формулата за изчисляване на OLS в Excel към нашата таблица.

За да направите това, въведете знака “=” в клетката, в която трябва да се покаже резултатът от изчислението по метода на най-малките квадрати в Excel и изберете функцията “TREND”. В прозореца, който се отваря, попълнете съответните полета, като маркирате:

  • диапазон от известни стойности за Y (в този случай данни за търговския оборот);
  • диапазон x 1 , …x n , т.е. размерът на търговската площ;
  • както известни, така и неизвестни стойности на x, за които трябва да разберете размера на оборота (за информация относно тяхното местоположение в работния лист вижте по-долу).

Освен това формулата съдържа логическата променлива „Const“. Ако въведете 1 в съответното поле, това ще означава, че трябва да извършите изчисленията, като приемете, че b = 0.

Ако трябва да разберете прогнозата за повече от една стойност x, тогава след въвеждане на формулата не трябва да натискате „Enter“, а трябва да въведете комбинацията „Shift“ + „Control“ + „Enter“ на клавиатурата.

Някои функции

Регресионният анализ може да бъде достъпен дори за манекени. Формулата на Excel за прогнозиране на стойността на масив от неизвестни променливи - TREND - може да се използва дори от тези, които никога не са чували за най-малките квадрати. Достатъчно е само да знаете някои от характеристиките на работата му. В частност:

  • Ако подредите диапазона от известни стойности на променливата y в един ред или колона, тогава всеки ред (колона) с известни стойности на x ще се възприема от програмата като отделна променлива.
  • Ако в прозореца TREND не е зададен диапазон с известно x, тогава при използване на функцията в Excel програмата ще го третира като масив, състоящ се от цели числа, чийто брой съответства на диапазона с дадените стойности на променлива y.
  • За да изведете масив от „предсказани“ стойности, изразът за изчисляване на тенденцията трябва да бъде въведен като формула за масив.
  • Ако не са посочени нови стойности на x, тогава функцията TREND ги счита за равни на известните. Ако те не са посочени, тогава масив 1 се приема като аргумент; 2; 3; 4;…, което е съизмеримо с диапазона с вече посочени параметри y.
  • Диапазонът, съдържащ новите x стойности, трябва да има същите или повече редове или колони като диапазона, съдържащ дадените y стойности. С други думи, трябва да е пропорционален на независимите променливи.
  • Масив с известни x стойности може да съдържа множество променливи. Ако обаче говорим само за един, тогава се изисква диапазоните с дадените стойности на x и y да бъдат пропорционални. В случай на няколко променливи е необходимо диапазонът с дадените стойности на y да се побере в една колона или един ред.

Функция PREDICTION

Изпълнява се с помощта на няколко функции. Един от тях се нарича „ПРЕДВИДЕНИЕ“. Той е подобен на „TREND“, т.е. дава резултат от изчисления, използвайки метода на най-малките квадрати. Но само за един X, за който стойността на Y е неизвестна.

Вече знаете формули в Excel за манекени, които ви позволяват да предвидите бъдещата стойност на определен индикатор според линейна тенденция.

Метод на най-малките квадратиизползвани за оценка на параметрите на регресионното уравнение.
Брой линии (изходни данни)

Един от методите за изследване на стохастичните връзки между характеристиките е регресионният анализ.
Регресионният анализ е извеждането на регресионно уравнение, с помощта на което се намира средната стойност на случайна променлива (атрибут на резултата), ако е известна стойността на друга (или други) променливи (фактор-атрибути). Тя включва следните стъпки:

  1. избор на формата на връзка (тип уравнение на аналитична регресия);
  2. оценка на параметрите на уравнението;
  3. оценка на качеството на аналитичното регресионно уравнение.
Най-често се използва линейна форма за описание на статистическата връзка на характеристиките. Фокусът върху линейните зависимости се обяснява с ясната икономическа интерпретация на неговите параметри, ограничената вариация на променливите и факта, че в повечето случаи нелинейните форми на зависимости се преобразуват (чрез логаритъм или заместване на променливи) в линейна форма за извършване на изчисления .
В случай на линейна връзка по двойки, регресионното уравнение ще приеме формата: y i =a+b·x i +u i . Параметрите a и b на това уравнение се оценяват от данните от статистическите наблюдения x и y. Резултатът от такава оценка е уравнението: , където , са оценки на параметрите a и b , е стойността на резултантния атрибут (променлива), получена от регресионното уравнение (изчислена стойност).

Най-често се използва за оценка на параметри метод на най-малките квадрати (LSM).
Методът на най-малките квадрати предоставя най-добрите (последователни, ефективни и безпристрастни) оценки на параметрите на регресионното уравнение. Но само ако са изпълнени определени допускания относно произволния член (u) и независимата променлива (x) (вижте допусканията на OLS).

Проблемът за оценяване на параметрите на уравнение на линейна двойка с помощта на метода на най-малките квадратие както следва: да се получат такива оценки на параметрите , , при които сумата от квадратните отклонения на действителните стойности на резултантната характеристика - y i от изчислените стойности - е минимална.
Формално OLS тестможе да се напише така: .

Класификация на методите на най-малките квадрати

  1. Метод на най-малките квадрати.
  2. Метод на максималното правдоподобие (за нормален класически линеен регресионен модел се постулира нормалност на регресионните остатъци).
  3. Обобщеният метод на най-малките квадрати OLS се използва в случай на автокорелация на грешки и в случай на хетероскедастичност.
  4. Метод на претеглени най-малки квадрати (специален случай на OLS с хетероскедастични остатъци).

Нека илюстрираме идеята класически метод на най-малките квадрати графично. За да направим това, ще изградим диаграма на разсейване въз основа на данни от наблюдения (x i, y i, i=1;n) в правоъгълна координатна система (такава диаграма на разсейване се нарича корелационно поле). Нека се опитаме да изберем права линия, която е най-близо до точките на корелационното поле. По метода на най-малките квадрати линията се избира така, че сумата от квадратите на вертикалните разстояния между точките на корелационното поле и тази линия да е минимална.

Математическа нотация за този проблем: .
Стойностите на y i и x i =1...n са ни известни; това са данни от наблюдения. Във функцията S те представляват константи. Променливите в тази функция са необходимите оценки на параметрите - , . За да се намери минимумът на функция на две променливи, е необходимо да се изчислят частните производни на тази функция за всеки от параметрите и да се приравнят към нула, т.е. .
В резултат на това получаваме система от 2 нормални линейни уравнения:
Решавайки тази система, намираме необходимите оценки на параметрите:

Правилността на изчислението на параметрите на регресионното уравнение може да се провери чрез сравняване на сумите (може да има известно несъответствие поради закръгляване на изчисленията).
За да изчислите оценките на параметрите, можете да съставите таблица 1.
Знакът на регресионния коефициент b показва посоката на връзката (ако b >0, връзката е пряка, ако b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Формално, стойността на параметър a е средната стойност на y с x равно на нула. Ако атрибут-факторът няма и не може да има нулева стойност, тогава горната интерпретация на параметър a няма смисъл.

Оценяване на близостта на връзката между характеристиките извършва се с помощта на корелационния коефициент на линейна двойка - r x,y. Може да се изчисли по формулата: . Освен това корелационният коефициент на линейната двойка може да се определи чрез регресионния коефициент b: .
Диапазонът на приемливите стойности на коефициента на корелация на линейната двойка е от –1 до +1. Знакът на коефициента на корелация показва посоката на връзката. Ако r x, y >0, тогава връзката е директна; ако r x, y<0, то связь обратная.
Ако този коефициент е близък до единица по величина, тогава връзката между характеристиките може да се тълкува като доста близка линейна. Ако неговият модул е ​​равен на единица ê r x , y ê =1, то връзката между характеристиките е функционално линейна. Ако характеристиките x и y са линейно независими, тогава r x,y е близо до 0.
За да изчислите r x,y, можете също да използвате таблица 1.

маса 1

N наблюденияx iy ix i ∙y i
1 х 1y 1x 1 y 1
2 х 2y 2x 2 y 2
...
нx ny nx n y n
Колона Сума∑x∑y∑xy
Средна стойност
За да оцените качеството на полученото регресионно уравнение, изчислете теоретичния коефициент на детерминация - R 2 yx:

,
където d 2 е дисперсията на y, обяснена от регресионното уравнение;
e 2 - остатъчна (необяснена от регресионното уравнение) дисперсия на y;
s 2 y - обща (обща) дисперсия на y.
Коефициентът на детерминация характеризира съотношението на вариация (дисперсия) на резултантния атрибут y, обяснено чрез регресия (и, следователно, фактор x) в общата вариация (дисперсия) y. Коефициентът на определяне R 2 yx приема стойности от 0 до 1. Съответно стойността 1-R 2 yx характеризира съотношението на дисперсията y, причинена от влиянието на други фактори, които не са взети предвид в модела и грешките в спецификацията.
При сдвоена линейна регресия, R 2 yx =r 2 yx.