Използвайте метода на най-малките квадрати, за да намерите права линия. Къде се използва методът на най-малките квадрати?

  • Урок

Въведение

Аз съм математик и програмист. Най-големият скок, който направих в кариерата си, беше, когато се научих да казвам: "Не разбирам нищо!"Сега не ме е срам да кажа на светилото на науката, че ми чете лекция, че не разбирам какво ми говори той, светилото. И е много трудно. Да, да признаеш невежеството си е трудно и неудобно. Кой обича да признава, че не знае основите на нещо? Поради професията си трябва да присъствам големи количествапрезентации и лекции, където, признавам си, в по-голямата част от случаите искам да спя, защото нищо не разбирам. Но не разбирам, защото огромният проблем на настоящата ситуация в науката се крие в математиката. Предполага се, че всички слушатели са запознати с абсолютно всички области на математиката (което е абсурдно). Признаването, че не знаете какво е производно (ще говорим за това какво е малко по-късно), е срамно.

Но се научих да казвам, че не знам какво е умножение. Да, не знам какво е подалгебра върху алгебра на Лъжа. Да, не знам защо са необходими в живота квадратни уравнения. Между другото, ако сте сигурни, че знаете, тогава имаме за какво да говорим! Математиката е поредица от трикове. Математиците се опитват да объркат и сплашат обществеността; където няма объркване, няма репутация, няма авторитет. Да, престижно е да се говори на възможно най-абстрактен език, което е пълна глупост.

Знаете ли какво е производно? Най-вероятно ще ми кажете за границата на съотношението на разликата. В първата година по математика и механика в Санкт Петербургския държавен университет Виктор Петрович Хавин ми каза определенпроизводна като коефициент на първия член от реда на Тейлър на функцията в точка (това беше отделна гимнастика за определяне на реда на Тейлър без производни). Дълго време се смях на това определение, докато накрая разбрах за какво става дума. Производната не е нищо повече от проста мярка за това колко подобна е функцията, която диференцираме, с функцията y=x, y=x^2, y=x^3.

Сега имам честта да изнасям лекции на студенти, които страхувам сематематика. Ако те е страх от математиката, ние сме на същия път. Щом се опитате да прочетете някакъв текст и ви се струва, че е прекалено сложен, знайте, че е лошо написан. Твърдя, че няма нито една област на математиката, която да не може да се обсъжда „на пръсти“, без да се губи точност.

Задача за близкото бъдеще: Възложих на моите ученици да разберат какво е линеен квадратичен регулатор. Не се срамувайте, отделете три минути от живота си и последвайте връзката. Ако не разбирате нещо, значи сме на същия път. И аз (професионален математик-програмист) нищо не разбрах. И ви уверявам, че можете да разберете това „на пръстите си“. На този моментНе знам какво е, но ви уверявам, че можем да го разберем.

И така, първата лекция, която ще изнеса на моите студенти, след като дотичат при мен ужасени и кажат, че линейно-квадратичният регулатор е ужасно нещо, което никога няма да овладеете в живота си, е методи най-малки квадрати . Можете ли да решите линейни уравнения? Ако четете този текст, най-вероятно не.

И така, при дадени две точки (x0, y0), (x1, y1), например (1,1) и (3,2), задачата е да се намери уравнението на правата, минаваща през тези две точки:

илюстрация

Този ред трябва да има уравнение като следното:

Тук алфа и бета са неизвестни за нас, но две точки от тази линия са известни:

Можем да напишем това уравнение в матрична форма:

Тук трябва да направим едно лирично отклонение: какво е матрица? Матрицата не е нищо повече от двуизмерен масив. Това е начин за съхраняване на данни; не трябва да му се придават други значения. От нас зависи как точно да интерпретираме дадена матрица. Периодично ще го тълкувам като линейно картографиране, периодично като квадратна форма, а понякога просто като набор от вектори. Всичко това ще бъде изяснено в контекста.

Нека заменим конкретните матрици с тяхното символно представяне:

Тогава (алфа, бета) могат лесно да бъдат намерени:

По-конкретно за нашите предишни данни:

Което води до следното уравнение на правата, минаваща през точките (1,1) и (3,2):

Добре, тук всичко е ясно. Нека намерим уравнението на правата, минаваща през нея триточки: (x0,y0), (x1,y1) и (x2,y2):

О-о-о, но имаме три уравнения за две неизвестни! Един стандартен математик ще каже, че няма решение. Какво ще каже програмистът? И той първо ще пренапише предишната система от уравнения в следната форма:

В нашия случай вектори i,j,bса триизмерни, следователно (в общия случай) няма решение на тази система. Всеки вектор (алфа\*i + бета\*j) лежи в равнината, обхваната от векторите (i, j). Ако b не принадлежи на тази равнина, тогава няма решение (не може да се постигне равенство в уравнението). Какво да правя? Да потърсим компромис. Нека означим с e(алфа, бета)колко точно не сме постигнали равенство:

И ние ще се опитаме да минимизираме тази грешка:

Защо квадрат?

Ние търсим не просто минимума на нормата, а минимума на квадрата на нормата. Защо? Самата минимална точка съвпада и квадратът дава гладка функция (квадратична функция на аргументите (алфа, бета)), докато просто дължината дава конусовидна функция, недиференцируема в минималната точка. брр. Квадратът е по-удобен.

Очевидно грешката е сведена до минимум, когато векторът дортогонална на равнината, обхваната от векторите азИ й.

Илюстрация

С други думи: търсим права линия, така че сумата от квадратите на дължините на разстоянията от всички точки до тази права линия да е минимална:

АКТУАЛИЗАЦИЯ: Имам проблем тук, разстоянието до правата линия трябва да се измерва вертикално, а не чрез ортогонална проекция. Този коментатор е прав.

Илюстрация

С напълно различни думи (внимателно, зле формализирани, но трябва да е ясно): вземаме всички възможни линии между всички двойки точки и търсим средната линия между всички:

Илюстрация

Друго обяснение на пръстите: прикрепяме пружина между всички точки от данни (тук имаме три) и правата линия, която търсим, и правата линия равновесно състояниеима точно това, което търсим.

Минимална квадратна форма

И така, даден е този вектор bи равнина, обхваната от колонните вектори на матрицата А(в този случай (x0,x1,x2) и (1,1,1)), ние търсим вектора дс минимална квадратна дължина. Очевидно минимумът е постижим само за вектора д, ортогонална на равнината, обхваната от колонните вектори на матрицата А:

С други думи, ние търсим вектор x=(алфа, бета), така че:

Нека ви напомня, че този вектор x=(алфа, бета) е минимумът квадратична функция||e(алфа, бета)||^2:

Тук би било полезно да запомните, че матрицата може да се интерпретира и като квадратна форма, например матрицата на идентичност ((1,0),(0,1)) може да се интерпретира като функция x^2 + y^ 2:

квадратна форма

Цялата тази гимнастика е известна под името линейна регресия.

Уравнение на Лаплас с гранично условие на Дирихле

Сега най-простата истинска задача: има определена триъгълна повърхност, необходимо е да я изгладите. Например, нека заредим модел на моето лице:

Оригиналният ангажимент е наличен. За да минимизирам външните зависимости, взех кода на моя софтуерен рендер, който вече е на Habré. За решения линейна системаИзползвам OpenNL, той е отличен солвър, който обаче е много труден за инсталиране: трябва да копирате два файла (.h+.c) в папката с вашия проект. Цялото изглаждане се извършва със следния код:

За (int d=0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&лице = лица[i]; за (int j=0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

Координатите X, Y и Z са разделими, изглаждам ги отделно. Тоест решавам три системи от линейни уравнения, всяка с брой променливи, равен на броя на върховете в моя модел. Първите n реда на матрица A имат само едно 1 на ред, а първите n реда на вектор b имат координатите на оригиналния модел. Тоест връзвам пружина между новата позиция на върха и старата позиция на върха - новите не трябва да се отдалечават много от старите.

Всички следващи редове на матрица A (faces.size()*3 = брой ръбове на всички триъгълници в мрежата) имат едно появяване на 1 и едно появяване на -1, като векторът b има нулеви противоположни компоненти. Това означава, че поставям пружина на всеки ръб на нашата триъгълна мрежа: всички ръбове се опитват да получат същия връх като тяхната начална и крайна точка.

Още веднъж: всички върхове са променливи и не могат да се движат далеч от първоначалната си позиция, но в същото време се опитват да станат подобни един на друг.

Ето резултата:

Всичко би било наред, моделът наистина е изгладен, но се е отдалечил от първоначалния си ръб. Нека променим малко кода:

За (int i=0; i<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

В нашата матрица A, за върховете, които са на ръба, добавям не ред от категорията v_i = verts[i][d], а 1000*v_i = 1000*verts[i][d]. Какво променя? И това променя нашата квадратична форма на грешка. Сега едно отклонение от върха на ръба ще струва не една единица, както преди, а 1000*1000 единици. Тоест, окачихме по-силна пружина на крайните върхове, решението ще предпочете да опъне останалите по-силно. Ето резултата:

Нека удвоим силата на пружината между върховете:
nlКоефициент(лице[j], 2); nlКоефициент(лице[(j+1)%3], -2);

Логично е, че повърхността е станала по-гладка:

И сега дори сто пъти по-силен:

Какво е това? Представете си, че сме потопили телеен пръстен в сапунена вода. В резултат на това полученият сапунен филм ще се опита да има възможно най-малко кривина, докосвайки границата - нашия телеен пръстен. Точно това получихме, като фиксирахме границата и поискахме гладка повърхност отвътре. Поздравления, току-що решихме уравнението на Лаплас с гранични условия на Дирихле. Звучи яко? Но в действителност просто трябва да решите една система от линейни уравнения.

Уравнение на Поасон

Нека си спомним още едно готино име.

Да приемем, че имам изображение като това:

Изглежда добре на всички, но столът не ми харесва.

Ще разполовя снимката:



И ще избера стол с ръцете си:

След това ще дръпна всичко, което е бяло в маската в лявата част на картината, и в същото време в цялата картина ще кажа, че разликата между два съседни пиксела трябва да е равна на разликата между два съседни пиксела отдясно снимка:

За (int i=0; i

Ето резултата:

Налични код и снимки

Той се използва широко в иконометрията под формата на ясна икономическа интерпретация на неговите параметри.

Линейната регресия се свежда до намиране на уравнение на формата

или

Уравнение на формата позволява въз основа на определени стойности на параметри химат теоретични стойности на резултантната характеристика, замествайки действителните стойности на фактора в нея х.

Строителство линейна регресиясе свежда до оценка на неговите параметри - АИ V.Оценките на параметрите на линейната регресия могат да бъдат намерени с помощта на различни методи.

Класическият подход за оценка на параметрите на линейната регресия се основава на метод на най-малките квадрати(MNC).

Методът на най-малките квадрати ни позволява да получим такива оценки на параметрите АИ V,при което сумата от квадратните отклонения на действителните стойности на резултантната характеристика (y)от изчислено (теоретично) минимум:

За да намерите минимума на функция, трябва да изчислите частните производни за всеки от параметрите АИ bи ги задайте равни на нула.

Нека обозначим през S, тогава:

Трансформирайки формулата, получаваме следната система от нормални уравнения за оценка на параметрите АИ V:

Решавайки системата от нормални уравнения (3.5) или чрез метода на последователно елиминиране на променливите, или чрез метода на детерминантите, намираме необходимите оценки на параметрите АИ V.

Параметър Vнаречен коефициент на регресия. Стойността му показва средната промяна в резултата с промяна на коефициента с една единица.

Регресионното уравнение винаги се допълва с индикатор за близостта на връзката. При използване на линейна регресия такъв индикатор е коефициентът на линейна корелация. Съществуват различни модификации на формулата за коефициента на линейна корелация. Някои от тях са дадени по-долу:

Както е известно, коефициентът на линейна корелация е в границите: -1 1.

За да се оцени качеството на избора на линейна функция, се изчислява квадратът

Линеен коефициент на корелация, наречен коефициент на детерминация.Коефициентът на детерминация характеризира съотношението на дисперсията на получената характеристика y,обяснено чрез регресия, в общата дисперсия на получената черта:

Съответно стойността 1 характеризира дела на дисперсията y,причинени от влиянието на други фактори, които не са взети предвид в модела.

Въпроси за самоконтрол

1. Същността на метода на най-малките квадрати?

2. Колко променливи предоставя регресията по двойки?

3. Какъв коефициент определя близостта на връзката между промените?

4. В какви граници се определя коефициентът на детерминация?

5. Оценка на параметър b при корелационно-регресионен анализ?

1. Кристофър Доуърти. Въведение в иконометрията. - М.: ИНФРА - М, 2001 - 402 с.

2. S.A. Бородич. Иконометрия. Минск LLC “Нови знания” 2001.


3. R.U. Рахметова Кратък курс по иконометрия. Урок. Алмати. 2004. -78с.

4. И.И. Елисеева Иконометрия. - М .: "Финанси и статистика", 2002 г

5. Месечно информационно-аналитично списание.

Нелинейни икономически модели. Нелинейни регресионни модели. Трансформация на променливи.

Нелинейни икономически модели..

Трансформация на променливи.

Коефициент на еластичност.

Ако има нелинейни връзки между икономическите явления, тогава те се изразяват с помощта на съответните нелинейни функции: например равностранна хипербола , параболи от втора степен и т.н.

Има два класа нелинейни регресии:

1. Регресии, които са нелинейни по отношение на обяснителните променливи, включени в анализа, но линейни по отношение на оценените параметри, например:

Полиноми от различни степени - , ;

Равностранна хипербола - ;

Полулогаритмична функция - .

2. Регресии, които са нелинейни в параметрите, които се оценяват, например:

Мощност - ;

Демонстративни - ;

Експоненциален - .

Общата сума на квадратните отклонения на отделните стойности на получената характеристика приот средната стойност е причинена от влиянието на много причини. Нека условно разделим целия набор от причини на две групи: изследван фактор xИ други фактори.

Ако факторът не влияе на резултата, тогава регресионната линия на графиката е успоредна на оста оИ

Тогава цялата дисперсия на получената характеристика се дължи на влиянието на други фактори и общата сума на квадратите на отклоненията ще съвпадне с остатъка. Ако други фактори не влияят на резултата, тогава y вързанис хфункционално и остатъчната сума на квадратите е нула. В този случай сумата от квадратните отклонения, обяснена от регресията, е същата като общата сума от квадратите.

Тъй като не всички точки от корелационното поле лежат на регресионната линия, тяхното разсейване винаги възниква в резултат на влиянието на фактора х, тоест регресия приот Х,и причинени от други причини (необяснима вариация). Пригодността на една регресионна линия за прогнозиране зависи от това каква е частта от общата вариация на признака приотчита обяснената вариация

Очевидно е, че ако сумата от квадратните отклонения, дължащи се на регресия, е по-голяма от остатъчната сума на квадратите, тогава уравнението на регресията е статистически значимо и факторът хима значително влияние върху резултата u.

, т.е. с броя на свободата на независимо изменение на характеристика. Броят на степените на свобода е свързан с броя на единиците от съвкупността n и броя на константите, определени от него. Във връзка с разглеждания проблем броят на степените на свобода трябва да покаже колко независими отклонения от П

Оценката на значимостта на регресионното уравнение като цяло е дадена с помощта на Е- Критерий на Фишер. В този случай се излага нулева хипотеза, че регресионният коефициент е равен на нула, т.е. b = 0 и следователно факторът хне влияе на резултата u.

Непосредственото изчисляване на F-теста се предхожда от дисперсионен анализ. Централно място в него заема разлагането на общата сума на квадратите на отклоненията на променлива приот средната стойност прина две части - "обяснено" и "необяснено":

- обща сума на квадратите на отклоненията;

- сума на квадратите на отклоненията, обяснени с регресия;

- остатъчна сума на квадратите на отклоненията.

Всеки сбор от квадратни отклонения е свързан с броя на степените на свобода , т.е. с броя на свободата на независимо изменение на характеристика. Броят на степените на свобода е свързан с броя на единиците на съвкупността ни с определения от него брой константи. Във връзка с разглеждания проблем броят на степените на свобода трябва да покаже колко независими отклонения от Пвъзможни необходими за образуване на даден сбор от квадрати.

Дисперсия по степен на свободад.

F-съотношения (F-тест):

Ако нулевата хипотеза е вярна, тогава факторът и остатъчните дисперсии не се различават една от друга. За H 0 е необходимо опровержение, така че факторната дисперсия да надвишава остатъчната дисперсия няколко пъти. Английският статистик Снедекор разработи таблици на критичните стойности Е-връзки на различни нива на значимост на нулевата хипотеза и различен брой степени на свобода. Таблица стойност Е-критерий е максималната стойност на съотношението на дисперсиите, която може да възникне в случай на случайна дивергенция за дадено ниво на вероятност за наличие на нулевата хипотеза. Изчислена стойност Е-отношенията се считат за надеждни, ако o е по-голямо от таблицата.

В този случай нулевата хипотеза за липсата на връзка между признаците се отхвърля и се прави заключение за значимостта на тази връзка: F факт > F таблица H 0 се отхвърля.

Ако стойността е по-малка от табличната F факт ‹, F таблица, тогава вероятността за нулевата хипотеза е по-висока от определено ниво и не може да бъде отхвърлена без сериозен риск от извеждане на грешно заключение за наличието на връзка. В този случай регресионното уравнение се счита за статистически незначимо. Но той не се отклонява.

Стандартна грешка на регресионния коефициент

За да се оцени значимостта на регресионния коефициент, неговата стойност се сравнява със стандартната му грешка, т.е. определя се действителната стойност T- Тест на ученика: която след това се сравнява със стойността на таблицата при определено ниво на значимост и брой степени на свобода ( н- 2).

Стандартна грешка в параметъра А:

Значимостта на коефициента на линейна корелация се проверява въз основа на големината на грешката коефициент на корелация t r:

Обща вариация на признака х:

Множествена линейна регресия

Изграждане на модел

Множествена регресияпредставлява регресия на ефективна характеристика с два или повече фактора, т.е. модел на формата

Регресията може да даде добри резултати при моделирането, ако може да се пренебрегне влиянието на други фактори, засягащи обекта на изследване. Поведението на отделните икономически променливи не може да се контролира, т.е. не е възможно да се осигури еднаквост на всички други условия за оценка на влиянието на един изследван фактор. В този случай трябва да се опитате да идентифицирате влиянието на други фактори, като ги въведете в модела, т.е. изградете уравнение за множествена регресия: y = a+b 1 x 1 +b 2 +…+b p x p + .

Основната цел на множествената регресия е да се изгради модел с голям брой фактори, като същевременно се определи влиянието на всеки от тях поотделно, както и тяхното комбинирано въздействие върху моделирания показател. Спецификацията на модела включва две групи въпроси: избор на фактори и избор на типа на регресионното уравнение

Методът на най-малките квадрати (OLS) ви позволява да оценявате различни количества, като използвате резултатите от много измервания, съдържащи случайни грешки.

Характеристики на МНП

Основната идея на този метод е, че сумата от квадратните грешки се счита за критерий за точността на решаване на проблема, който се стреми да минимизира. При използването на този метод могат да се използват както числени, така и аналитични подходи.

По-специално, като числено изпълнение, методът на най-малките квадрати включва вземане на възможно най-много измервания на неизвестна случайна променлива. Освен това, колкото повече изчисления, толкова по-точно ще бъде решението. Въз основа на този набор от изчисления (първоначални данни) се получава друг набор от оценени решения, от които след това се избира най-доброто. Ако наборът от решения е параметризиран, тогава методът на най-малките квадрати ще бъде намален до намиране на оптималната стойност на параметрите.

Като аналитичен подход за прилагане на LSM върху набор от първоначални данни (измервания) и очакван набор от решения се определя определено (функционално), което може да бъде изразено чрез формула, получена като определена хипотеза, която изисква потвърждение. В този случай методът на най-малките квадрати се свежда до намиране на минимума на този функционал върху набор от квадратни грешки на оригиналните данни.

Моля, обърнете внимание, че това не са самите грешки, а квадратите на грешките. Защо? Факт е, че често отклоненията на измерванията от точната стойност са както положителни, така и отрицателни. При определяне на средната стойност простото сумиране може да доведе до неправилно заключение относно качеството на оценката, тъй като отмяната на положителните и отрицателните стойности ще намали силата на вземане на проби от множество измервания. И, следователно, точността на оценката.

За да не се случи това, квадратите на отклоненията се сумират. Освен това, за да се изравни размерът на измерената стойност и крайната оценка, се извлича сумата от квадратите на грешките

Някои MNC приложения

MNC се използва широко в различни области. Например в теорията на вероятностите и математическата статистика методът се използва за определяне на такава характеристика на случайна променлива като стандартното отклонение, което определя ширината на диапазона от стойности на случайната променлива.

Нека апроксимираме функцията с полином от степен 2. За да направим това, изчисляваме коефициентите на нормалната система от уравнения:

, ,

Нека създадем нормална система на най-малките квадрати, която има формата:

Решението на системата се намира лесно:, , .

Така се намира полином от 2-ра степен: .

Теоретична информация

Върнете се към страницата<Введение в вычислительную математику. Примеры>

Пример 2. Намиране на оптималната степен на полином.

Върнете се към страницата<Введение в вычислительную математику. Примеры>

Пример 3. Извеждане на нормална система от уравнения за намиране на параметрите на емпиричната зависимост.

Нека изведем система от уравнения за определяне на коефициентите и функциите , който извършва средноквадратичното приближение на дадена функция чрез точки. Нека съставим функция и запишете необходимото екстремално условие за него:

Тогава нормалната система ще приеме формата:

Получихме линейна система от уравнения за неизвестни параметри и, която лесно се решава.

Теоретична информация

Върнете се към страницата<Введение в вычислительную математику. Примеры>

Пример.

Експериментални данни за стойностите на променливите хИ приса дадени в таблицата.

В резултат на подравняването им се получава функцията

Използвайки метод на най-малките квадрати, апроксимирайте тези данни чрез линейна зависимост y=ax+b(намерете параметри АИ b). Открийте коя от двете линии по-добре (в смисъла на метода на най-малките квадрати) подравнява експерименталните данни. Направете рисунка.

Същността на метода на най-малките квадрати (МНК).

Задачата е да се намерят коефициентите на линейна зависимост, при които функцията на две променливи АИ bприема най-малката стойност. Тоест дадено АИ bсумата от квадратите на отклоненията на експерименталните данни от намерената права линия ще бъде най-малка. Това е целият смисъл на метода на най-малките квадрати.

Така решаването на примера се свежда до намиране на екстремума на функция на две променливи.

Извеждане на формули за намиране на коефициенти.

Съставя се и се решава система от две уравнения с две неизвестни. Намиране на частни производни на функция по променливи АИ b, ние приравняваме тези производни на нула.

Ние решаваме получената система от уравнения, използвайки произволен метод (напр по метода на заместванеили метод на Крамър) и да получите формули за намиране на коефициенти с помощта на метода на най-малките квадрати (LSM).

дадени АИ bфункция приема най-малката стойност. Доказателството за този факт е дадено по-долу в текста в края на страницата.

Това е целият метод на най-малките квадрати. Формула за намиране на параметъра асъдържа сумите , , и параметър н— количество експериментални данни. Препоръчваме да изчислите стойностите на тези суми отделно.

Коефициент bнамерени след изчисление а.

Време е да си припомним оригиналния пример.

Решение.

В нашия пример n=5. Попълваме таблицата за удобство при изчисляване на сумите, които са включени във формулите на необходимите коефициенти.

Стойностите в четвъртия ред на таблицата се получават чрез умножаване на стойностите на 2-ри ред по стойностите на 3-ти ред за всяко число аз.

Стойностите в петия ред на таблицата се получават чрез повдигане на квадрат на стойностите във 2-ри ред за всяко число аз.

Стойностите в последната колона на таблицата са сумите от стойностите в редовете.

Използваме формулите на метода на най-малките квадрати, за да намерим коефициентите АИ b. Заменяме съответните стойности от последната колона на таблицата в тях:

следователно y = 0,165x+2,184— желаната апроксимираща права линия.

Остава да разберем коя от линиите y = 0,165x+2,184или приближава по-добре оригиналните данни, тоест прави оценка, използвайки метода на най-малките квадрати.

Оценка на грешката на метода на най-малките квадрати.

За да направите това, трябва да изчислите сумата на квадратите на отклоненията на оригиналните данни от тези редове И , по-малка стойност съответства на линия, която по-добре приближава оригиналните данни по смисъла на метода на най-малките квадрати.

Тъй като , тогава направо y = 0,165x+2,184по-добре приближава оригиналните данни.

Графична илюстрация на метода на най-малките квадрати (LS).

Всичко се вижда ясно на графиките. Червената линия е намерената права линия y = 0,165x+2,184, синята линия е , розовите точки са оригиналните данни.

Защо е необходимо това, защо всички тези приближения?

Аз лично го използвам за решаване на проблеми с изглаждане на данни, проблеми с интерполация и екстраполация (в оригиналния пример те може да бъдат помолени да намерят стойността на наблюдавана стойност гпри х=3или кога х=6използвайки метода на най-малките квадрати). Но ще говорим повече за това по-късно в друг раздел на сайта.

Най-горе на страницата

Доказателство.

Така че, когато се намери АИ bфункция приема най-малката стойност, необходимо е в тази точка матрицата на квадратната форма на диференциала от втори ред за функцията беше положително категоричен. Нека го покажем.

Диференциалът от втори ред има формата:

Това е

Следователно матрицата на квадратна форма има формата

и стойностите на елементите не зависят от АИ b.

Нека покажем, че матрицата е положително определена. За да направите това, ъгловите минори трябва да са положителни.

Ъглов минор от първи ред . Неравенството е строго, защото точките не съвпадат. В това, което следва, ще посочим това.

Ъглов минор от втори ред

Нека докажем това по метода на математическата индукция.

Заключение: намерени стойности АИ bотговарят на най-малката стойност на функцията следователно са необходимите параметри за метода на най-малките квадрати.

Нямате време да го разберете?
Поръчайте решение

Най-горе на страницата

Разработване на прогноза по метода на най-малките квадрати. Пример за решение на проблем

Екстраполация е научен изследователски метод, който се основава на разпространението на минали и настоящи тенденции, модели и връзки с бъдещото развитие на прогнозния обект. Екстраполационните методи включват метод на пълзяща средна, метод на експоненциално изглаждане, метод на най-малките квадрати.

Същност метод на най-малките квадрати се състои в минимизиране на сумата от квадратните отклонения между наблюдаваните и изчислените стойности. Изчислените стойности се намират с помощта на избраното уравнение - регресионното уравнение. Колкото по-малко е разстоянието между действителните стойности и изчислените, толкова по-точна е прогнозата въз основа на регресионното уравнение.

Теоретичен анализ на същността на изследваното явление, промяната в която се отразява от времеви редове, служи като основа за избор на крива. Понякога се вземат предвид съображения за естеството на увеличението на нивата на серията. Така, ако се очаква нарастване на продукцията в аритметична прогресия, тогава изглаждането се извършва по права линия. Ако се окаже, че растежът е в геометрична прогресия, тогава изглаждането трябва да се направи с експоненциална функция.

Работна формула за метода на най-малките квадрати : Y t+1 = a*X + b, където t + 1 – прогнозен период; Уt+1 – прогнозен показател; a и b са коефициенти; X е символ на времето.

Изчисляването на коефициентите a и b се извършва по следните формули:

където Uf - действителните стойности на динамичната серия; n – брой нива на времеви редове;

Изглаждането на времевите редове с помощта на метода на най-малките квадрати служи за отразяване на модела на развитие на изследваното явление. При аналитичното изразяване на тенденция, времето се разглежда като независима променлива, а нивата на серията действат като функция на тази независима променлива.

Развитието на едно явление не зависи от това колко години са изминали от началото, а от това какви фактори са повлияли на неговото развитие, в каква посока и с каква интензивност. Оттук става ясно, че развитието на едно явление във времето е резултат от действието на тези фактори.

Правилното установяване на вида на кривата, вида на аналитичната зависимост от времето е една от най-трудните задачи на прогнозния анализ .

Изборът на типа функция, която описва тенденцията, чиито параметри се определят по метода на най-малките квадрати, се извършва в повечето случаи емпирично, чрез конструиране на редица функции и тяхното сравняване помежду си според стойността на средна квадратична грешка, изчислена по формулата:

където UV са действителните стойности на динамичната серия; Ur – изчислени (изгладени) стойности на динамичната серия; n – брой нива на времеви редове; p – броят на параметрите, дефинирани във формули, описващи тенденцията (тенденция на развитие).

Недостатъци на метода на най-малките квадрати :

  • когато се опитвате да опишете икономическия феномен, който се изучава, с помощта на математическо уравнение, прогнозата ще бъде точна за кратък период от време и регресионното уравнение трябва да бъде преизчислено, когато стане налична нова информация;
  • сложността на избора на регресионно уравнение, което е разрешимо с помощта на стандартни компютърни програми.

Пример за използване на метода на най-малките квадрати за разработване на прогноза

Задача . Има данни, характеризиращи нивото на безработица в региона, %

  • Изградете прогноза за нивото на безработица в региона за ноември, декември, януари, като използвате следните методи: пълзяща средна, експоненциално изглаждане, най-малки квадрати.
  • Изчислете грешките в получените прогнози, като използвате всеки метод.
  • Сравнете резултатите и направете изводи.

Решение на най-малките квадрати

За да разрешим това, ще съставим таблица, в която ще направим необходимите изчисления:

ε = 28,63/10 = 2,86% точност на прогнозатаВисоко.

Заключение : Сравняване на резултатите, получени от изчисленията метод на пълзяща средна , метод на експоненциално изглаждане и метода на най-малките квадрати, можем да кажем, че средната относителна грешка при изчисляване с помощта на метода на експоненциално изглаждане попада в диапазона от 20-50%. Това означава, че точността на прогнозата в този случай е само задоволителна.

В първия и третия случай точността на прогнозата е висока, тъй като средната относителна грешка е по-малка от 10%. Но методът на подвижната средна даде възможност да се получат по-надеждни резултати (прогноза за ноември - 1,52%, прогноза за декември - 1,53%, прогноза за януари - 1,49%), тъй като средната относителна грешка при използване на този метод е най-малката - 1 ,13%.

Метод на най-малките квадрати

Други статии по тази тема:

Списък на използваните източници

  1. Научни и методически препоръки за диагностициране на социални рискове и прогнозиране на предизвикателства, заплахи и социални последици. Руски държавен социален университет. Москва. 2010 г.;
  2. Владимирова Л.П. Прогнозиране и планиране в пазарни условия: Учебник. надбавка. М.: Издателство "Дашков и Ко", 2001 г.;
  3. Новикова Н.В., Поздеева О.Г. Прогнозиране на националната икономика: Учебно-методическо ръководство. Екатеринбург: Уралско издателство. състояние икон. университет, 2007;
  4. Слуцкин Л.Н. MBA курс по бизнес прогнозиране. М.: Alpina Business Books, 2006.

MNC програма

Въвеждане на данни

Данни и приближение y = a + b x

аз- номер на опитна точка;
x i- стойност на фиксиран параметър в точка аз;
y i- стойност на измервания параметър в точка аз;
ωi- тегло на измерване в точка аз;
y i, калк.- разлика между измерената и регресионно изчислената стойност гв точката аз;
S x i (x i)- оценка на грешката x iпри измерване гв точката аз.

Данни и приближение y = k x

аз x i y i ωi y i, калк. Δy i S x i (x i)

Кликнете върху графиката

Ръководство за потребителя на онлайн програмата MNC.

В полето за данни въведете на всеки отделен ред стойностите на `x` и `y` в една експериментална точка. Стойностите трябва да бъдат разделени с интервал (интервал или раздел).

Третата стойност може да бъде теглото на точката „w“. Ако теглото на точка не е посочено, то е равно на единица. В по-голямата част от случаите теглата на експерименталните точки са неизвестни или не са изчислени, т.е. всички експериментални данни се считат за еквивалентни. Понякога теглата в изследвания диапазон от стойности са абсолютно нееквивалентни и дори могат да бъдат изчислени теоретично. Например в спектрофотометрията теглата могат да се изчислят с помощта на прости формули, въпреки че това най-често се пренебрегва, за да се намалят разходите за труд.

Данните могат да бъдат поставени чрез клипборда от електронна таблица в офис пакет като Excel от Microsoft Office или Calc от Open Office. За да направите това, в електронната таблица изберете диапазона от данни за копиране, копирайте в клипборда и поставете данните в полето за данни на тази страница.

За изчисляване с помощта на метода на най-малките квадрати са необходими поне две точки за определяне на два коефициента `b` - тангенса на ъгъла на наклона на правата и `a` - стойността, пресечена от правата по оста `y`.

За да оцените грешката на изчислените коефициенти на регресия, трябва да зададете броя на експерименталните точки на повече от две.

Метод на най-малките квадрати (LSM).

Колкото по-голям е броят на експерименталните точки, толкова по-точна е статистическата оценка на коефициентите (поради намаляване на коефициента на Стюдънт) и толкова по-близо е оценката до оценката на общата извадка.

Получаването на стойности във всяка експериментална точка често е свързано със значителни разходи за труд, така че често се провеждат компромисен брой експерименти, които дават управляема оценка и не водят до прекомерни разходи за труд. По правило броят на експерименталните точки за линейна зависимост на най-малките квадрати с два коефициента се избира в рамките на 5-7 точки.

Кратка теория на най-малките квадрати за линейни връзки

Да кажем, че имаме набор от експериментални данни под формата на двойки стойности [`y_i`, `x_i`], където `i` е номерът на едно експериментално измерване от 1 до `n`; `y_i` - стойността на измерената величина в точка `i`; `x_i` - стойността на параметъра, който задаваме в точка `i`.

Като пример разгледайте действието на закона на Ом. Чрез промяна на напрежението (потенциалната разлика) между секциите на електрическата верига измерваме количеството ток, преминаващ през тази секция. Физиката ни дава експериментално установена зависимост:

„I = U/R“,
където `I` е силата на тока; `R` - съпротивление; `U` - напрежение.

В този случай `y_i` е текущата стойност, която се измерва, а `x_i` е стойността на напрежението.

Като друг пример, помислете за абсорбцията на светлина от разтвор на вещество в разтвор. Химията ни дава формулата:

`A = ε l C`,
където "А" е оптичната плътност на разтвора; `ε` - пропускливост на разтвореното вещество; `l` - дължина на пътя при преминаване на светлината през кювета с разтвор; `C` е концентрацията на разтвореното вещество.

В този случай `y_i` е измерената стойност на оптичната плътност `A`, а `x_i` е стойността на концентрацията на веществото, което посочваме.

Ще разгледаме случая, когато относителната грешка в присвояването `x_i` е значително по-малка от относителната грешка в измерването `y_i`. Ще приемем също, че всички измерени стойности "y_i" са произволни и нормално разпределени, т.е. се подчиняват на нормалния закон за разпределение.

В случай на линейна зависимост на `y` от `x`, можем да запишем теоретичната зависимост:
`y = a + b x`.

От геометрична гледна точка коефициентът `b` означава тангенса на ъгъла на наклона на правата към оста `x`, а коефициентът `a` - стойността на `y` в точката на пресичане на линия с оста „y“ (при „x = 0“).

Намиране на параметрите на регресионната линия.

При експеримент измерените стойности на `y_i` не могат точно да лежат на теоретичната права линия поради грешки в измерването, които винаги са присъщи на реалния живот. Следователно линейното уравнение трябва да бъде представено чрез система от уравнения:
`y_i = a + b x_i + ε_i` (1),
където `ε_i` е неизвестната грешка на измерване на `y` в `i`-тия експеримент.

Зависимост (1) също се нарича регресия, т.е. зависимостта на две величини една от друга със статистическа значимост.

Задачата за възстановяване на зависимостта е да се намерят коефициентите `a` и `b` от експерименталните точки [`y_i`, `x_i`].

За намиране на коефициентите `a` и `b` обикновено се използва метод на най-малките квадрати(MNC). Това е специален случай на принципа на максималната вероятност.

Нека пренапишем (1) във формата `ε_i = y_i - a - b x_i`.

Тогава сумата от квадратите на грешките ще бъде
`Φ = сума_(i=1)^(n) ε_i^2 = сума_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

Принципът на най-малките квадрати (най-малките квадрати) е да се минимизира сумата (2) по отношение на параметрите `a` и `b`.

Минимумът се постига, когато частните производни на сумата (2) по отношение на коефициентите `a` и `b` са равни на нула:
`frac(partial Φ)(partial a) = frac(partial sum_(i=1)^(n) (y_i - a - b x_i)^2)(partial a) = 0`
`frac(partial Φ)(partial b) = frac(partial sum_(i=1)^(n) (y_i - a - b x_i)^2)(partial b) = 0`

Разширявайки производните, получаваме система от две уравнения с две неизвестни:
`сума_(i=1)^(n) (2a + 2bx_i — 2y_i) = сума_(i=1)^(n) (a + bx_i — y_i) = 0`
`сума_(i=1)^(n) (2bx_i^2 + 2ax_i — 2x_iy_i) = сума_(i=1)^(n) (bx_i^2 + ax_i — x_iy_i) = 0`

Отваряме скобите и прехвърляме сумите, независими от необходимите коефициенти, към другата половина, получаваме система от линейни уравнения:
`сума_(i=1)^(n) y_i = a n + b сума_(i=1)^(n) bx_i`
`сума_(i=1)^(n) x_iy_i = сума_(i=1)^(n) x_i + b сума_(i=1)^(n) x_i^2`

Решавайки получената система, намираме формули за коефициентите `a` и `b`:

`a = frac(sum_(i=1)^(n) y_i sum_(i=1)^(n) x_i^2 — sum_(i=1)^(n) x_i sum_(i=1)^(n ) x_iy_i) (n сума_(i=1)^(n) x_i^2 — (сума_(i=1)^(n) x_i)^2)` (3.1)

`b = frac(n сума_(i=1)^(n) x_iy_i — сума_(i=1)^(n) x_i сума_(i=1)^(n) y_i) (n сума_(i=1)^ (n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.2)

Тези формули имат решения, когато `n > 1` (линията може да бъде конструирана с помощта на поне 2 точки) и когато детерминантата `D = n sum_(i=1)^(n) x_i^2 - (sum_(i= 1 )^(n) x_i)^2 != 0`, т.е. когато точките `x_i` в експеримента са различни (т.е. когато линията не е вертикална).

Оценка на грешките на коефициентите на регресионната линия

За по-точна оценка на грешката при изчисляване на коефициентите `a` и `b` е желателно голям брой експериментални точки. Когато `n = 2`, е невъзможно да се оцени грешката на коефициентите, т.к апроксимиращата права еднозначно ще минава през две точки.

Определя се грешката на случайната величина `V` закон за натрупване на грешки
`S_V^2 = сума_(i=1)^p (frac(частично f)(частично z_i))^2 S_(z_i)^2`,
където `p` е броят на параметрите `z_i` с грешка `S_(z_i)`, които влияят на грешката `S_V`;
„f“ е функция на зависимостта на „V“ от „z_i“.

Нека запишем закона за натрупване на грешката за грешката на коефициентите `a` и `b`
`S_a^2 = сума_(i=1)^(n)(frac(частично a)(частично y_i))^2 S_(y_i)^2 + сума_(i=1)^(n)(frac(частично a )(частично x_i))^2 S_(x_i)^2 = S_y^2 сума_(i=1)^(n)(frac(частично a)(частично y_i))^2 `,
`S_b^2 = сума_(i=1)^(n)(frac(частично b)(частично y_i))^2 S_(y_i)^2 + сума_(i=1)^(n)(frac(частично b )(частично x_i))^2 S_(x_i)^2 = S_y^2 сума_(i=1)^(n)(frac(частично b)(частично y_i))^2 `,
защото `S_(x_i)^2 = 0` (преди това направихме уговорка, че грешката `x` е незначителна).

`S_y^2 = S_(y_i)^2` - грешка (дисперсия, квадрат на стандартното отклонение) при измерването на `y`, като се приеме, че грешката е еднаква за всички стойности на `y`.

Замествайки формули за изчисляване на `a` и `b` в получените изрази, получаваме

`S_a^2 = S_y^2 frac(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 — x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n сума_(i=1)^(n) x_i^2 — (сума_(i=1)^(n) x_i)^2) сума_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4.1)

`S_b^2 = S_y^2 frac(sum_(i=1)^(n) (n x_i — sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n сума_(i=1)^(n) x_i^2 — (сума_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2)

В повечето реални експерименти стойността на „Sy“ не се измерва. За целта е необходимо да се извършат няколко паралелни измервания (експерименти) в една или няколко точки от плана, което увеличава времето (и евентуално цената) на експеримента. Следователно обикновено се приема, че отклонението на `y` от регресионната линия може да се счита за случайно. Оценката на дисперсията `y` в този случай се изчислява по формулата.

`S_y^2 = S_(y, почивка)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

Делителят „n-2“ се появява, защото броят на нашите степени на свобода е намалял поради изчисляването на два коефициента, използвайки една и съща извадка от експериментални данни.

Тази оценка се нарича още остатъчна дисперсия спрямо линията на регресия „S_(y, почивка)^2“.

Значимостта на коефициентите се оценява с помощта на t теста на Student

`t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

Ако изчислените критерии `t_a`, `t_b` са по-малки от табличните критерии `t(P, n-2)`, тогава се счита, че съответният коефициент не се различава значително от нула с дадена вероятност `P`.

За да оцените качеството на описанието на линейна връзка, можете да сравните „S_(y, rest)^2“ и „S_(bar y)“ спрямо средната стойност, като използвате критерия на Фишер.

`S_(bar y) = frac(sum_(i=1)^n (y_i — bar y)^2) (n-1) = frac(sum_(i=1)^n (y_i — (sum_(i= 1)^n y_i) /n)^2) (n-1)` - примерна оценка на дисперсията `y` спрямо средната стойност.

За да се оцени ефективността на регресионното уравнение за описание на зависимостта, се изчислява коефициентът на Фишер
`F = S_(лента y) / S_(y, почивка)^2`,
който се сравнява с табличния коефициент на Фишер `F(p, n-1, n-2)`.

Ако `F > F(P, n-1, n-2)`, разликата между описанието на връзката `y = f(x)` с помощта на регресионното уравнение и описанието с помощта на средната стойност се счита за статистически значима с вероятност „П“. Тези. регресията описва зависимостта по-добре от разпространението на „y“ около средната стойност.

Кликнете върху графиката
за добавяне на стойности към таблицата

Метод на най-малките квадрати. Методът на най-малките квадрати означава определяне на неизвестни параметри a, b, c, приетата функционална зависимост

Методът на най-малките квадрати се отнася до определянето на неизвестни параметри а, б, в,…приета функционална зависимост

y = f(x,a,b,c,…),

което би осигурило минимум от средния квадрат (дисперсия) на грешката

, (24)

където x i, y i е набор от двойки числа, получени от експеримента.

Тъй като условието за екстремума на функция на няколко променливи е условието нейните частни производни да са равни на нула, тогава параметрите а, б, в,…се определят от системата от уравнения:

; ; ; … (25)

Трябва да се помни, че методът на най-малките квадрати се използва за избор на параметри след типа на функцията y = f(x)дефинирани

Ако от теоретични съображения не могат да се направят заключения за това каква трябва да бъде емпиричната формула, тогава човек трябва да се ръководи от визуални представяния, предимно от графични представяния на наблюдаваните данни.

На практика те най-често се ограничават до следните видове функции:

1) линеен ;

2) квадратично а.

Пример.

Експериментални данни за стойностите на променливите хИ приса дадени в таблицата.

В резултат на подравняването им се получава функцията

Използвайки метод на най-малките квадрати, апроксимирайте тези данни чрез линейна зависимост y=ax+b(намерете параметри АИ b). Открийте коя от двете линии по-добре (в смисъла на метода на най-малките квадрати) подравнява експерименталните данни. Направете рисунка.

Същността на метода на най-малките квадрати (МНК).

Задачата е да се намерят коефициентите на линейна зависимост, при които функцията на две променливи АИ b приема най-малката стойност. Тоест дадено АИ bсумата от квадратите на отклоненията на експерименталните данни от намерената права линия ще бъде най-малка. Това е целият смисъл на метода на най-малките квадрати.

Така решаването на примера се свежда до намиране на екстремума на функция на две променливи.

Извеждане на формули за намиране на коефициенти.

Съставя се и се решава система от две уравнения с две неизвестни. Намиране на частни производни на функция по променливи АИ b, ние приравняваме тези производни на нула.

Ние решаваме получената система от уравнения, използвайки произволен метод (напр по метода на заместванеили Методът на Крамер) и получете формули за намиране на коефициенти с помощта на метода на най-малките квадрати (LSM).

дадени АИ bфункция приема най-малката стойност. Дадено е доказателство за този факт по-долу в текста в края на страницата.

Това е целият метод на най-малките квадрати. Формула за намиране на параметъра асъдържа сумите ,, и параметър н- количество експериментални данни. Препоръчваме да изчислите стойностите на тези суми отделно. Коефициент bнамерени след изчисление а.

Време е да си припомним оригиналния пример.

Решение.

В нашия пример n=5. Попълваме таблицата за удобство при изчисляване на сумите, които са включени във формулите на необходимите коефициенти.

Стойностите в четвъртия ред на таблицата се получават чрез умножаване на стойностите на 2-ри ред по стойностите на 3-ти ред за всяко число аз.

Стойностите в петия ред на таблицата се получават чрез повдигане на квадрат на стойностите във 2-ри ред за всяко число аз.

Стойностите в последната колона на таблицата са сумите от стойностите в редовете.

Използваме формулите на метода на най-малките квадрати, за да намерим коефициентите АИ b. Заменяме съответните стойности от последната колона на таблицата в тях:

следователно y = 0,165x+2,184- желаната апроксимираща права линия.

Остава да разберем коя от линиите y = 0,165x+2,184или приближава по-добре оригиналните данни, тоест прави оценка, използвайки метода на най-малките квадрати.

Оценка на грешката на метода на най-малките квадрати.

За да направите това, трябва да изчислите сумата на квадратите на отклоненията на оригиналните данни от тези редове И , по-малка стойност съответства на линия, която по-добре приближава оригиналните данни по смисъла на метода на най-малките квадрати.

Тъй като , тогава направо y = 0,165x+2,184по-добре приближава оригиналните данни.

Графична илюстрация на метода на най-малките квадрати (LS).

Всичко се вижда ясно на графиките. Червената линия е намерената права линия y = 0,165x+2,184, синята линия е , розовите точки са оригиналните данни.

На практика при моделиране на различни процеси - по-специално икономически, физически, технически, социални - широко се използва един или друг метод за изчисляване на приблизителните стойности на функциите от техните известни стойности в определени фиксирани точки.

Този вид проблем с апроксимацията на функция често възниква:

    при конструиране на приблизителни формули за изчисляване на стойностите на характерните величини на изследвания процес, като се използват таблични данни, получени в резултат на експеримента;

    при числено интегриране, диференциране, решаване на диференциални уравнения и др.;

    ако е необходимо, изчислете стойностите на функциите в междинните точки на разглеждания интервал;

    при определяне на стойностите на характерните величини на процес извън разглеждания интервал, по-специално при прогнозиране.

Ако, за да моделираме определен процес, определен от таблица, конструираме функция, която приблизително описва този процес въз основа на метода на най-малките квадрати, тя ще се нарича апроксимираща функция (регресия), а самата задача за конструиране на апроксимиращи функции ще се нарича проблем с приближението.

Тази статия разглежда възможностите на пакета MS Excel за решаване на този тип проблеми, освен това предоставя методи и техники за конструиране (създаване) на регресии за таблични функции (което е в основата на регресионния анализ).

Excel има две опции за изграждане на регресии.

    Добавяне на избрани регресии (трендови линии) към диаграма, изградена на базата на таблица с данни за изследваната характеристика на процеса (достъпно само ако е изградена диаграма);

    Използване на вградените статистически функции на работния лист на Excel, което ви позволява да получавате регресии (линии на тенденции) директно от таблицата с изходни данни.

Добавяне на трендови линии към диаграма

За таблица с данни, която описва процес и е представена чрез диаграма, Excel разполага с ефективен инструмент за регресионен анализ, който ви позволява да:

    изградете на базата на метода на най-малките квадрати и добавете пет вида регресии към диаграмата, които моделират изследвания процес с различна степен на точност;

    добавете построеното регресионно уравнение към диаграмата;

    определяне на степента на съответствие на избраната регресия с данните, показани на диаграмата.

Въз основа на данни от диаграма, Excel ви позволява да получите линейни, полиномиални, логаритмични, степенни, експоненциални типове регресии, които се определят от уравнението:

y = y(x)

където x е независима променлива, която често приема стойностите на поредица от естествени числа (1; 2; 3; ...) и произвежда, например, обратно броене на времето на процеса, който се изследва (характеристики).

1 . Линейната регресия е добра за моделиране на характеристики, чиито стойности се увеличават или намаляват с постоянна скорост. Това е най-простият модел за конструиране на процеса, който се изследва. Той е конструиран в съответствие с уравнението:

y = mx + b

където m е тангенса на наклона на линейната регресия към оста x; b - координата на пресечната точка на линейната регресия с ординатната ос.

2 . Полиномиалната тренд линия е полезна за описание на характеристики, които имат няколко различни крайности (максимуми и минимуми). Изборът на степен на полином се определя от броя на екстремумите на изследваната характеристика. По този начин полином от втора степен може добре да опише процес, който има само един максимум или минимум; полином от трета степен - не повече от два екстремума; полином от четвърта степен - не повече от три екстремума и т.н.

В този случай тренд линията се конструира в съответствие с уравнението:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

където коефициентите c0, c1, c2,... c6 са константи, чиито стойности се определят по време на конструирането.

3 . Логаритмичната тренд линия се използва успешно при моделиране на характеристики, чиито стойности първоначално се променят бързо и след това постепенно се стабилизират.

y = c ln(x) + b

4 . Линията на тенденцията на степенния закон дава добри резултати, ако стойностите на изследваната връзка се характеризират с постоянна промяна в скоростта на растеж. Пример за такава зависимост е графиката на равномерно ускорено движение на автомобил. Ако има нулеви или отрицателни стойности в данните, не можете да използвате линия на тенденция на мощността.

Конструиран в съответствие с уравнението:

y = c xb

където коефициентите b, c са константи.

5 . Трябва да се използва експоненциална тренд линия, когато скоростта на промяна в данните непрекъснато нараства. За данни, съдържащи нулеви или отрицателни стойности, този тип приближение също не е приложим.

Конструиран в съответствие с уравнението:

y = c ebx

където коефициентите b, c са константи.

Когато избира линия на тенденция, Excel автоматично изчислява стойността на R2, която характеризира надеждността на приближението: колкото по-близо е стойността на R2 до единица, толкова по-надеждно линията на тенденция приближава изследвания процес. Ако е необходимо, стойността на R2 винаги може да се покаже на диаграмата.

Определя се по формулата:

За да добавите линия на тенденция към серия от данни:

    активирайте диаграма въз основа на поредица от данни, т.е. щракнете в областта на диаграмата. Елементът Диаграма ще се появи в главното меню;

    след като щракнете върху този елемент, на екрана ще се появи меню, в което трябва да изберете командата Добавяне на тренд линия.

Същите действия могат лесно да бъдат изпълнени чрез преместване на показалеца на мишката върху графиката, съответстваща на една от сериите данни, и щракване с десния бутон; В контекстното меню, което се показва, изберете командата Добавяне на линия на тенденция. На екрана ще се появи диалоговият прозорец Trendline с отворен раздел Type (фиг. 1).

След това имате нужда от:

Изберете необходимия тип линия на тренда в раздела Тип (типът Линеен е избран по подразбиране). За тип Полином в полето Степен посочете степента на избрания полином.

1 . Полето Изградено върху серия изброява всички серии от данни във въпросната диаграма. За да добавите линия на тенденция към конкретна серия от данни, изберете нейното име в полето Изградено върху серия.

Ако е необходимо, като отидете в раздела Параметри (фиг. 2), можете да зададете следните параметри за линията на тренда:

    променете името на тренд линията в полето Име на апроксимиращата (изгладена) крива.

    задайте броя на периодите (напред или назад) за прогнозата в полето Прогноза;

    показване на уравнението на тренд линията в областта на диаграмата, за което трябва да активирате отметката за показване на уравнение на диаграмата;

    покажете стойността на надеждност на приближението R2 в областта на диаграмата, за която трябва да поставите отметка в квадратчето Поставете стойността на надеждност на приближението върху диаграмата (R^2);

    задайте пресечната точка на линията на тренда с оста Y, за което трябва да активирате отметката за пресичане на кривата с оста Y в точка;

    Щракнете върху бутона OK, за да затворите диалоговия прозорец.

За да започнете да редактирате вече начертана тренд линия, има три начина:

    използвайте командата Selected trend line от меню Format, като предварително сте избрали тренд линията;

    изберете командата Форматиране на линията на тренда от контекстното меню, което се извиква с щракване с десен бутон върху линията на тренда;

    щракнете двукратно върху тренд линията.

На екрана ще се появи диалоговият прозорец Формат на линията на тренда (Фиг. 3), съдържащ три раздела: Изглед, Тип, Параметри, като съдържанието на последните два напълно съвпада с подобни раздели на диалоговия прозорец Линия на тренда (Фиг. 1 -2). В раздела Изглед можете да зададете вида на линията, нейния цвят и дебелина.

За да изтриете линия на тенденция, която вече е била начертана, изберете линията на тенденция, която ще бъде изтрита, и натиснете клавиша Delete.

Предимствата на разглеждания инструмент за регресионен анализ са:

    относителната лекота на конструиране на тренд линия върху диаграми, без да се създава таблица с данни за нея;

    доста широк списък от видове предложени линии на тренд, като този списък включва най-често използваните видове регресия;

    способността да се прогнозира поведението на изследвания процес чрез произволен (в рамките на здравия разум) брой стъпки напред и назад;

    способността да се получи уравнението на тренд линията в аналитична форма;

    възможността, ако е необходимо, да се получи оценка на надеждността на приближението.

Недостатъците включват следното:

    изграждането на тренд линия се извършва само ако има диаграма, изградена върху серия от данни;

    процесът на генериране на серия от данни за изследваната характеристика въз основа на уравненията на тренд линията, получени за нея, е донякъде претрупан: необходимите регресионни уравнения се актуализират с всяка промяна в стойностите на оригиналната серия от данни, но само в областта на диаграмата , докато серията от данни, формирана на базата на старото линейно уравнение, тенденцията остава непроменена;

    В отчетите с обобщена диаграма промяната на изгледа на диаграма или свързан отчет с обобщена таблица не запазва съществуващите линии на тенденции, което означава, че преди да начертаете линии на тенденция или по друг начин да форматирате отчет с обобщена диаграма, трябва да се уверите, че оформлението на отчета отговаря на необходимите изисквания.

Линиите на тенденциите могат да се използват за допълване на серии от данни, представени на диаграми като графики, хистограми, плоски нестандартизирани площни диаграми, стълбовидни диаграми, точкови диаграми, балонови диаграми и борсови диаграми.

Не можете да добавяте линии на тенденции към серии от данни в 3D, нормализирани, радарни, кръгови и кръгови диаграми.

Използване на вградените функции на Excel

Excel също има инструмент за регресионен анализ за начертаване на линии на тенденции извън областта на диаграмата. Има редица функции за статистически работен лист, които можете да използвате за тази цел, но всички те ви позволяват да създавате само линейни или експоненциални регресии.

Excel има няколко функции за конструиране на линейна регресия, по-специално:

    ТЕНДЕНЦИЯ;

  • НАКЛОН и РЕЗ.

Както и няколко функции за конструиране на експоненциална тренд линия, по-специално:

    LGRFPRIBL.

Трябва да се отбележи, че техниките за конструиране на регресии с помощта на функциите TREND и GROWTH са почти еднакви. Същото може да се каже и за двойката функции LINEST и LGRFPRIBL. За тези четири функции създаването на таблица със стойности използва функции на Excel като формули за масиви, което донякъде пречи на процеса на изграждане на регресии. Нека също така да отбележим, че конструкцията на линейна регресия, според нас, се осъществява най-лесно с помощта на функциите SLOPE и INTERCEPT, където първата от тях определя наклона на линейната регресия, а втората определя сегмента, пресечен от регресията върху у-оста.

Предимствата на инструмента за вградени функции за регресионен анализ са:

    сравнително прост, еднообразен процес на генериране на поредици от данни на изследваната характеристика за всички вградени статистически функции, които определят линии на тенденция;

    стандартна методология за конструиране на трендови линии въз основа на генерирани серии от данни;

    способността да се предвиди поведението на изследвания процес чрез необходимия брой стъпки напред или назад.

Недостатъците включват факта, че Excel няма вградени функции за създаване на други (освен линейни и експоненциални) типове линии на тренд. Това обстоятелство често не позволява да се избере достатъчно точен модел на изследвания процес, както и да се получат прогнози, които са близки до реалността. Освен това, когато използвате функциите TREND и GROWTH, уравненията на линиите на тренда не са известни.

Трябва да се отбележи, че авторите не си поставиха за цел да представят хода на регресионния анализ с някаква степен на пълнота. Основната му задача е да покаже на конкретни примери възможностите на пакета Excel при решаване на апроксимационни задачи; демонстрират какви ефективни инструменти има Excel за изграждане на регресии и прогнозиране; илюстрират как такива проблеми могат да бъдат решени относително лесно дори от потребител, който няма задълбочени познания за регресионен анализ.

Примери за решаване на конкретни проблеми

Нека да разгледаме решаването на конкретни проблеми с помощта на изброените инструменти на Excel.

Проблем 1

С таблица с данни за печалбата на автотранспортно предприятие за 1995-2002 г. трябва да направите следното:

    Изградете диаграма.

    Добавете линейни и полиномни (квадратични и кубични) трендови линии към диаграмата.

    Използвайки уравненията на линията на тренда, вземете таблични данни за печалбите на предприятието за всяка линия на тренда за 1995-2004 г.

    Направете прогноза за печалбата на предприятието за 2003 и 2004 г.

Решението на проблема

    В диапазона от клетки A4:C11 на работния лист на Excel въведете работния лист, показан на фиг. 4.

    След като избрахме диапазона от клетки B4:C11, изграждаме диаграма.

    Активираме изградената диаграма и, съгласно описания по-горе метод, след като изберем вида на линията на тренда в диалоговия прозорец Линия на тренда (виж Фиг. 1), последователно добавяме линейни, квадратни и кубични линии на тренд към диаграмата. В същия диалогов прозорец отворете раздела Параметри (вижте фиг. 2), в полето Име на апроксимиращата (изгладена) крива въведете името на добавяния тренд и в полето Прогноза напред за: периоди задайте стойност 2, тъй като се планира да се направи прогноза за печалба за две години напред. За да покажете уравнението на регресията и стойността на надеждност на приближението R2 в областта на диаграмата, активирайте квадратчетата за отметка показване на уравнението на екрана и поставете стойността на надеждност на приближението (R^2) върху диаграмата. За по-добро визуално възприятие променяме вида, цвета и дебелината на изградените трендови линии, за което използваме раздела Изглед на диалоговия прозорец Формат на трендовата линия (виж Фиг. 3). Получената диаграма с добавени линии на тенденция е показана на фиг. 5.

    Да се ​​получат таблични данни за печалбите на предприятията за всяка тренд линия за 1995-2004 г. Нека използваме уравненията на трендовата линия, представени на фиг. 5. За целта в клетките на диапазона D3:F3 въведете текстова информация за вида на избраната тренд линия: Линеен тренд, Квадратичен тренд, Кубичен тренд. След това въведете формулата за линейна регресия в клетка D4 и, като използвате маркера за запълване, копирайте тази формула с относителни препратки към диапазона от клетки D5:D13. Трябва да се отбележи, че всяка клетка с формула за линейна регресия от диапазона от клетки D4:D13 има като аргумент съответстваща клетка от диапазона A4:A13. По същия начин, за квадратична регресия, попълнете диапазона от клетки E4:E13, а за кубична регресия, попълнете диапазона от клетки F4:F13. Така е съставена прогноза за печалбата на предприятието за 2003 и 2004 г. използвайки три тенденции. Получената таблица със стойности е показана на фиг. 6.

Проблем 2

    Изградете диаграма.

    Добавете логаритмични, степенни и експоненциални тренд линии към диаграмата.

    Изведете уравненията на получените трендови линии, както и стойностите на надеждност на апроксимацията R2 за всяка от тях.

    Използвайки уравненията на тренд линията, получете таблични данни за печалбата на предприятието за всяка тренд линия за 1995-2002 г.

    Направете прогноза за печалбата на компанията за 2003 и 2004 г., като използвате тези линии на тенденция.

Решението на проблема

Следвайки методологията, дадена при решаването на задача 1, получаваме диаграма с добавени към нея логаритмични, степенни и експоненциални линии на тренда (фиг. 7). След това, използвайки получените уравнения на линията на тенденцията, попълваме таблица със стойности за печалбата на предприятието, включително прогнозираните стойности за 2003 и 2004 г. (фиг. 8).

На фиг. 5 и фиг. може да се види, че моделът с логаритмичен тренд отговаря на най-ниската стойност на надеждност на приближението

R2 = 0,8659

Най-високите стойности на R2 съответстват на модели с полиномен тренд: квадратичен (R2 = 0,9263) и кубичен (R2 = 0,933).

Проблем 3

С таблицата с данни за печалбата на автомобилно транспортно предприятие за 1995-2002 г., дадена в задача 1, трябва да изпълните следните стъпки.

    Получавайте серии от данни за линейни и експоненциални трендови линии с помощта на функциите TREND и GROW.

    Използвайки функциите TREND и GROWTH, направете прогноза за печалбата на предприятието за 2003 и 2004 г.

    Изградете диаграма за оригиналните данни и получената поредица от данни.

Решението на проблема

Нека използваме работния лист за задача 1 (виж Фиг. 4). Да започнем с функцията TREND:

    изберете диапазона от клетки D4: D11, който трябва да бъде попълнен със стойностите на функцията TREND, съответстващи на известните данни за печалбата на предприятието;

    Извикайте командата Функция от менюто Вмъкване. В диалоговия прозорец на съветника за функции, който се появява, изберете функцията TREND от категорията Statistical и след това щракнете върху бутона OK. Същата операция може да се извърши чрез щракване върху бутона (Вмъкване на функция) в стандартната лента с инструменти.

    В диалоговия прозорец Аргументи на функцията, който се появява, въведете диапазона от клетки C4:C11 в полето Known_values_y; в поле Известни_стойности_x - диапазонът от клетки B4:B11;

    За да направите въведената формула формула за масив, използвайте клавишната комбинация + + .

Формулата, която въведохме в лентата с формули, ще изглежда така: =(ТРЕНД(C4:C11,B4:B11)).

В резултат на това диапазонът от клетки D4:D11 се запълва със съответните стойности на функцията TREND (фиг. 9).

Да се ​​направи прогноза за печалбата на предприятието за 2003 и 2004 г. необходимо:

    изберете диапазона от клетки D12:D13, където ще бъдат въведени стойностите, предвидени от функцията TREND.

    извикайте функцията TREND и в появилия се диалогов прозорец Arguments на функцията въведете в полето Known_values_y - диапазона от клетки C4:C11; в поле Известни_стойности_x - диапазонът от клетки B4:B11; а в полето New_values_x - диапазона от клетки B12:B13.

    превърнете тази формула във формула за масив, като използвате клавишната комбинация Ctrl + Shift + Enter.

    Въведената формула ще изглежда така: =(TREND(C4:C11;B4:B11;B12:B13)), а диапазонът от клетки D12:D13 ще бъде запълнен с прогнозираните стойности на функцията TREND (вижте фиг. 9).

Сериите от данни се попълват по подобен начин с помощта на функцията GROWTH, която се използва при анализа на нелинейни зависимости и работи по абсолютно същия начин като нейния линеен аналог TREND.

Фигура 10 показва таблицата в режим на показване на формула.

За първоначалните данни и получените серии от данни, диаграмата, показана на фиг. единадесет.

Проблем 4

С таблицата с данни за получаване на заявления за услуги от диспечерската служба на автомобилно транспортно предприятие за периода от 1 до 11 число на текущия месец трябва да извършите следните действия.

    Получаване на серии от данни за линейна регресия: използване на функциите SLOPE и INTERCEPT; с помощта на функцията LINEST.

    Получете поредица от данни за експоненциална регресия с помощта на функцията LGRFPRIBL.

    Използвайки горните функции, направете прогноза за получаването на заявления в диспечерската служба за периода от 12 до 14 число на текущия месец.

    Създайте диаграма за оригиналната и получената серия от данни.

Решението на проблема

Обърнете внимание, че за разлика от функциите TREND и GROWTH, нито една от изброените по-горе функции (SLOPE, INTERCEPT, LINEST, LGRFPRIB) не е регресия. Тези функции играят само спомагателна роля, определяйки необходимите регресионни параметри.

За линейни и експоненциални регресии, изградени с помощта на функциите SLOPE, INTERCEPT, LINEST, LGRFPRIB, външният вид на техните уравнения винаги е известен, за разлика от линейните и експоненциалните регресии, съответстващи на функциите TREND и GROWTH.

1 . Нека изградим линейна регресия с уравнението:

y = mx+b

с помощта на функциите SLOPE и INTERCEPT, като регресионният наклон m се определя от функцията SLOPE, а свободният член b от функцията INTERCEPT.

За целта извършваме следните действия:

    въведете оригиналната таблица в диапазона от клетки A4:B14;

    стойността на параметъра m ще бъде определена в клетка C19. Изберете функцията Slope от категорията Statistical; въведете диапазона от клетки B4:B14 в полетоknown_values_y и диапазона от клетки A4:A14 в полетоknown_values_x. Формулата ще бъде въведена в клетка C19: =SLOPE(B4:B14,A4:A14);

    С помощта на подобна техника се определя стойността на параметър b в клетка D19. И съдържанието му ще изглежда така: =СЕГМЕНТ(B4:B14,A4:A14). По този начин стойностите на параметрите m и b, необходими за конструиране на линейна регресия, ще бъдат съхранени съответно в клетки C19, D19;

    След това въведете формулата за линейна регресия в клетка C4 във формата: =$C*A4+$D. В тази формула клетки C19 и D19 са записани с абсолютни препратки (адресът на клетката не трябва да се променя при евентуално копиране). Абсолютният референтен знак $ може да бъде въведен или от клавиатурата, или с помощта на клавиша F4, след поставяне на курсора върху адреса на клетката. С помощта на манипулатора за попълване копирайте тази формула в диапазона от клетки C4:C17. Получаваме необходимите серии от данни (фиг. 12). Поради факта, че броят на заявките е цяло число, трябва да зададете числовия формат с броя на десетичните знаци на 0 в раздела Число на прозореца Формат на клетката.

2 . Сега нека изградим линейна регресия, дадена от уравнението:

y = mx+b

с помощта на функцията LINEST.

За това:

    Въведете функцията LINEST като формула за масив в диапазона от клетки C20:D20: =(LINEST(B4:B14,A4:A14)). В резултат на това получаваме стойността на параметър m в клетка C20 и стойността на параметър b в клетка D20;

    въведете формулата в клетка D4: =$C*A4+$D;

    копирайте тази формула с помощта на маркера за запълване в диапазона от клетки D4:D17 и вземете желаната поредица от данни.

3 . Изграждаме експоненциална регресия с уравнението:

с помощта на функцията LGRFPRIBL се изпълнява по подобен начин:

    В диапазона от клетки C21:D21 въвеждаме функцията LGRFPRIBL като формула за масив: =( LGRFPRIBL (B4:B14,A4:A14)). В този случай стойността на параметър m ще бъде определена в клетка C21, а стойността на параметър b ще бъде определена в клетка D21;

    формулата се въвежда в клетка E4: =$D*$C^A4;

    използвайки маркера за запълване, тази формула се копира в диапазона от клетки E4:E17, където ще бъдат разположени серията данни за експоненциална регресия (вижте Фиг. 12).

На фиг. Фигура 13 показва таблица, в която можете да видите функциите, които използваме с необходимите диапазони от клетки, както и формули.

величина Р 2 Наречен коефициент на детерминация.

Задачата за изграждане на регресионна зависимост е да се намери векторът на коефициентите m на модела (1), при който коефициентът R придобива максимална стойност.

За да се оцени значимостта на R, се използва F-тестът на Фишер, изчислен по формулата

Където н- размер на извадката (брой експерименти);

k е броят на коефициентите на модела.

Ако F надвиши някаква критична стойност за данните нИ ки приетата вероятност за доверие, тогава стойността на R се счита за значима. Таблици с критични стойности на F са дадени в справочници по математическа статистика.

По този начин значимостта на R се определя не само от неговата стойност, но и от съотношението между броя на експериментите и броя на коефициентите (параметрите) на модела. Наистина, съотношението на корелация за n=2 за прост линеен модел е равно на 1 (една права линия винаги може да бъде начертана през 2 точки на равнина). Въпреки това, ако експерименталните данни са случайни променливи, на такава стойност на R трябва да се вярва с голяма предпазливост. Обикновено, за да получат значително R и надеждна регресия, те се стремят да гарантират, че броят на експериментите значително надвишава броя на коефициентите на модела (n>k).

За да изградите линеен регресионен модел, имате нужда от:

1) подгответе списък от n реда и m колони, съдържащи експериментални данни (колона, съдържаща изходната стойност Yтрябва да е първи или последен в списъка); Например, нека вземем данните от предишната задача, като добавим колона, наречена „Номер на период“, номерирайте номерата на периодите от 1 до 12. (това ще бъдат стойностите х)

2) отидете в менюто Данни/Анализ на данни/Регресия

Ако елементът „Анализ на данни“ в менюто „Инструменти“ липсва, тогава трябва да отидете на елемента „Добавки“ в същото меню и да поставите отметка в квадратчето „Пакет за анализ“.

3) в диалоговия прозорец "Регресия" задайте:

· входен интервал Y;

· входен интервал X;

· изходен интервал - горната лява клетка на интервала, в който ще бъдат поставени резултатите от изчислението (препоръчително е да ги поставите на нов работен лист);

4) щракнете върху "Ok" и анализирайте резултатите.