Предоставени са регресионни коефициенти. Коефициентът на регресионното уравнение показва корелационен и регресионен анализ

РЕГРЕСИОНЕН КОЕФИЦИЕНТ

- Английскикоефициент, регресия; НемскиРегресионноеф. Една от характеристиките на връзката между зависимата променлива y и независимата променлива x. К.р. показва с колко единици се увеличава стойността, взета от y, ако променливата x се промени с една единица от нейната промяна. Геометрично К. р. е наклонът на правата линия y.

Антинази. Енциклопедия по социология, 2009

Вижте какво е "КОЕФИЦИЕНТ НА ​​РЕГРЕСИЯ" в други речници:

    регресионен коефициент- - [Л. Г. Суменко. Английско-руски речник по информационни технологии. М.: Държавно предприятие ЦНИИС, 2003.] Теми информационни технологиикато цяло EN регресионен коефициент... Ръководство за технически преводач

    Коефициент на регресия- 35. Коефициент на регресия Параметър на модела за регресионен анализ Източник: GOST 24026 80: Изследователски тестове. Планиране на експеримента. Термини и дефиниции...

    регресионен коефициент- Коефициент на независимата променлива в регресионното уравнение... Речник на социологическата статистика

    РЕГРЕСИОНЕН КОЕФИЦИЕНТ- Английски коефициент, регресия; Немски Регресионноеф. Една от характеристиките на връзката между зависимата променлива y и независимата променлива x. К.р. показва с колко единици се увеличава стойността, взета от y, ако променливата x се промени на... ... Речникпо социология

    примерен регресионен коефициент- 2,44. примерен регресионен коефициент Коефициент на променлива в уравнението на регресионна крива или повърхност Източник: GOST R 50779.10 2000: Статистически методи. Вероятност и основни статистики. Термини и дефиниции... Речник-справочник на термините на нормативната и техническата документация

    Коефициент на частична регресия- статистическа мярка, показваща степента на влияние на независима променлива върху зависима променлива в ситуация, в която взаимното влияние на всички други променливи в модела е под контрола на изследователя... Социологически речник Социум

    РЕГРЕСИИ, ТЕГЛО- Синоним на понятието регресионен коефициент... Обяснителен речник по психология

    КОЕФИЦИЕНТ НА ​​НАСЛЕДСТВЕНОСТ- Показател за относителния дял на генетичната изменчивост в общата фенотипна изменчивост на даден признак. Най-разпространените методи за оценка на наследимостта на икономически полезни признаци са: където h2 е коефициентът на наследственост; r вътрешнокласен...... Термини и определения, използвани в развъждането, генетиката и репродукцията на селскостопанските животни

    - (R на квадрат) е пропорцията на дисперсията в зависимата променлива, обяснена от разглеждания модел на зависимост, т.е. обяснителните променливи. По-точно, това е едно минус дела на необяснима дисперсия (вариация на случайната грешка на модела или условна... ... Wikipedia

    Коефициент на независимата променлива в регресионното уравнение. Така например в уравнението на линейната регресия, свързващо случайните променливи Y и X, R. коефициентите b0 и b1 са равни: където r е корелационният коефициент на X и Y, . Изчисляване на оценките на R.K. (избрани... ... Математическа енциклопедия

Книги

  • Въведение в иконометрията (CDpc), Яновски Леонид Петрович, Буховец Алексей Георгиевич. Дадени са основите на иконометрията и статистическия анализ на едномерни динамични редове. Обръща се голямо внимание на класическата сдвоена и множествена регресия, класическите и обобщените методи...
  • Бързо четене. Ефективен симулатор (CDpc), . Програмата е насочена към потребители, които искат възможно най-скороовладейте техниката на бързо четене. Курсът е изграден на принципа "теория - практика". Теоретичен материал и практически…

Какво е регресия?

Разгледайте две непрекъснати променливи x=(x 1, x 2, .., x n), y=(y 1, y 2, ..., y n).

Нека поставим точките върху двуизмерна точкова диаграма и кажем, че имаме линейна връзка, ако данните са апроксимирани с права линия.

Ако вярваме в това гзависи от х, и промени в гса причинени именно от промени в х, можем да определим линията на регресия (регресия гНа х), което най-добре описва линейната връзка между тези две променливи.

Статистическата употреба на думата регресия идва от явлението, известно като регресия към средната стойност, приписвано на сър Франсис Галтън (1889).

Той показа, че въпреки че високите бащи са склонни да имат високи синове, средният ръст на синовете е по-нисък от този на техните високи бащи. Средният ръст на синовете "регресира" и се "премести назад" към средния ръст на всички бащи в населението. Така средно високите бащи имат по-ниски (но все пак доста високи) синове, а ниските бащи имат по-високи (но все още доста ниски) синове.

Регресионна линия

Математическо уравнение, което оценява проста (по двойки) линейна регресионна линия:

хнаречена независима променлива или предиктор.

Y- зависима променлива или променлива на отговора. Това е стойността, която очакваме г(средно), ако знаем стойността х, т.е. е "предвидената стойност" г»

  • а- свободен член (пресечна точка) на линията за оценка; това е смисъла Y, Кога х=0(Фиг. 1).
  • b- наклон или градиент на прогнозната линия; представлява сумата, с която Yсе увеличава средно, ако увеличим хза една единица.
  • аИ bсе наричат ​​регресионни коефициенти на оценената линия, въпреки че този термин често се използва само за b.

Линейната регресия по двойки може да бъде разширена, за да включва повече от една независима променлива; в този случай е известен като множествена регресия.

Фиг. 1. Линия на линейна регресия, показваща пресечната точка a и наклона b (количеството Y нараства, когато x се увеличава с една единица)

Метод на най-малките квадрати

Извършваме регресионен анализ, използвайки извадка от наблюдения, където аИ b- извадкови оценки на истинските (общи) параметри, α и β, които определят линейната регресионна линия в популацията (генерална популация).

Повечето прост методопределяне на коефициенти аИ bе метод най-малки квадрати (MNC).

Напасването се оценява чрез разглеждане на остатъците (вертикалното разстояние на всяка точка от линията, напр. остатък = наблюдавано г- предсказано г, Ориз. 2).

Линията на най-добро прилягане е избрана така, че сумата от квадратите на остатъците да е минимална.

Ориз. 2. Линия на линейна регресия с изобразени остатъци (вертикални пунктирани линии) за всяка точка.

Предположения за линейна регресия

Така че за всяка наблюдавана стойност остатъкът е равен на разликата и съответната прогнозирана стойност.Всеки остатък може да бъде положителен или отрицателен.

Можете да използвате остатъци, за да тествате следните допускания зад линейната регресия:

  • Остатъците обикновено се разпределят със средна стойност нула;

Ако предположенията за линейност, нормалност и/или постоянна дисперсия са съмнителни, можем да трансформираме или изчислим нова регресионна линия, за която тези предположения са изпълнени (например да използваме логаритмична трансформация и т.н.).

Аномални стойности (отклонения) и точки на влияние

„Влиятелно“ наблюдение, ако е пропуснато, променя една или повече оценки на параметрите на модела (т.е. наклон или пресечна точка).

Отклонение (наблюдение, което е в противоречие с повечето стойности в набор от данни) може да бъде "влиятелно" наблюдение и може лесно да бъде открито визуално чрез проверка на двумерна диаграма на разсейване или остатъчна диаграма.

Както за извънредни стойности, така и за „влиятелни“ наблюдения (точки) се използват модели, както със, така и без тяхното включване, като се обръща внимание на промените в оценките (регресионни коефициенти).

Когато извършвате анализ, не трябва автоматично да отхвърляте отклонения или точки на влияние, тъй като простото им игнориране може да повлияе на получените резултати. Винаги изучавайте причините за тези отклонения и ги анализирайте.

Хипотеза за линейна регресия

При конструирането на линейна регресия се тества нулевата хипотеза, че общият наклон на регресионната линия β е равен на нула.

Ако наклонът на линията е нула, няма линейна зависимост между и: промяната не засяга

За да тествате нулевата хипотеза, че истинският наклон е нула, можете да използвате следния алгоритъм:

Изчислете тестовата статистика, равна на съотношението , което е обект на разпределение със степени на свобода, където стандартната грешка на коефициента


,

- оценка на дисперсията на остатъците.

Обикновено, ако се достигне нивото на значимост, нулевата хипотеза се отхвърля.


където е процентната точка на разпределението със степени на свобода, което дава вероятността за двустранен тест

Това е интервалът, който съдържа общия наклон с вероятност от 95%.

За големи извадки, да речем, можем да приближим със стойност от 1,96 (т.е. тестовата статистика ще има тенденция да бъде нормално разпределена)

Оценка на качеството на линейната регресия: коефициент на детерминация R 2

Поради линейната връзка и ние очакваме това да се промени като и го наречете вариация, която се дължи или се обяснява с регресия. Остатъчната вариация трябва да бъде възможно най-малка.

Ако е така, тогава повечето отвариацията ще бъде обяснена с регресия и точките ще лежат близо до линията на регресия, т.е. линията пасва добре на данните.

Пропорцията на общата дисперсия, която се обяснява с регресия, се нарича коефициент на детерминация, обикновено изразен като процент и означен R 2(в сдвоената линейна регресия това е количеството r 2, квадрат на корелационния коефициент), ви позволява субективно да оцените качеството на регресионното уравнение.

Разликата представлява процентът на дисперсията, който не може да бъде обяснен с регресия.

Няма официален тест за оценка; трябва да разчитаме на субективна преценка, за да определим съответствието на регресионната линия.

Прилагане на регресионна линия към прогнозата

Можете да използвате регресионна линия, за да предвидите стойност от стойност в най-крайния край на наблюдавания диапазон (никога не екстраполирайте извън тези граници).

Ние прогнозираме средната стойност на наблюдаемите величини, които имат определена стойност, като включим тази стойност в уравнението на регресионната линия.

Така че, ако прогнозираме като Използвайте тази прогнозирана стойност и нейната стандартна грешка, за да оцените доверителния интервал за истинската средна съвкупност.

Повтарянето на тази процедура за различни стойности ви позволява да конструирате доверителни граници за този ред. Това е лентата или зоната, която съдържа истинската линия, например при 95% ниво на сигурност.

Прости планове за регресия

Простите регресионни проекти съдържат един непрекъснат предиктор. Ако има 3 наблюдения с предикторни стойности P, като 7, 4 и 9, и дизайнът включва ефект от първи ред P, тогава проектната матрица X ще бъде

А регресионно уравнениеизползването на P за X1 изглежда така

Y = b0 + b1 P

Ако един прост регресионен дизайн съдържа ефект по-висок редза P, например, квадратичен ефект, тогава стойностите в колона X1 в проектната матрица ще бъдат повдигнати до втората степен:

и уравнението ще приеме формата

Y = b0 + b1 P2

Сигма-ограничени и свръхпараметризирани методи за кодиране не се прилагат за прости регресионни дизайни и други дизайни, съдържащи само непрекъснати предиктори (защото просто няма категорични предиктори). Независимо от избрания метод на кодиране, стойностите на непрекъснатите променливи се увеличават съответно и се използват като стойности за X променливите. В този случай не се извършва прекодиране. Освен това, когато описвате регресионни планове, можете да пропуснете разглеждането на проектната матрица X и да работите само с регресионното уравнение.

Пример: Прост регресионен анализ

Този пример използва данните, представени в таблицата:

Ориз. 3. Таблица с изходни данни.

Данни, събрани от сравнение на преброяванията от 1960 г. и 1970 г. в произволно избрани 30 окръга. Имената на окръгите са представени като имена на наблюдения. Информацията за всяка променлива е представена по-долу:

Ориз. 4. Таблица с променливи спецификации.

Изследователски проблем

За този пример ще бъде анализирана връзката между нивото на бедност и степента, която прогнозира процента на семействата, които са под прага на бедността. Следователно ще третираме променлива 3 (Pt_Poor) като зависима променлива.

Можем да изложим хипотеза: промените в числеността на населението и процента на семействата, които са под прага на бедността, са свързани. Изглежда разумно да се очаква, че бедността води до миграция навън, така че ще има отрицателна корелация между процента на хората под прага на бедността и промяната на населението. Следователно ще третираме променлива 1 (Pop_Chng) като променлива за прогнозиране.

Вижте резултатите

Коефициенти на регресия

Ориз. 5. Коефициенти на регресия на Pt_Poor върху Pop_Chng.

В пресечната точка на реда Pop_Chng и колоната Param. нестандартизираният коефициент за регресията на Pt_Poor върху Pop_Chng е -0,40374. Това означава, че за всяка една единица намаление на населението има увеличение на нивото на бедност от 0,40374. Горната и долната (по подразбиране) 95% доверителни граници за този нестандартизиран коефициент не включват нула, така че регресионният коефициент е значим на ниво p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Променливо разпределение

Коефициентите на корелация могат да бъдат значително надценени или подценени, ако в данните присъстват големи отклонения. Нека проучим разпределението на зависимата променлива Pt_Poor по области. За да направим това, нека изградим хистограма на променливата Pt_Poor.

Ориз. 6. Хистограма на променливата Pt_Poor.

Както можете да видите, разпределението на тази променлива се различава значително от нормалното разпределение. Въпреки това, въпреки че дори два окръга (двете десни колони) имат по-висок процент семейства, които са под прага на бедността, отколкото се очаква при нормално разпределение, те изглеждат „в рамките на обхвата“.

Ориз. 7. Хистограма на променливата Pt_Poor.

Тази преценка е донякъде субективна. Основно правило е, че отклоненията трябва да се вземат предвид, ако наблюдението (или наблюденията) не попадат в интервала (средно ± 3 пъти стандартно отклонение). В този случай си струва да повторите анализа със и без извънредни стойности, за да сте сигурни, че те нямат голям ефект върху корелацията между членовете на популацията.

Точкова диаграма

Ако една от хипотезите е a priori за връзката между дадени променливи, тогава е полезно да я тествате върху графиката на съответната диаграма на разсейване.

Ориз. 8. Точкова диаграма.

Точковата диаграма показва ясна отрицателна корелация (-.65) между двете променливи. Той също така показва 95% доверителен интервал за регресионната линия, т.е. има 95% вероятност регресионната линия да лежи между двете пунктирани криви.

Критерии за значимост

Ориз. 9. Таблица, съдържаща критерии за значимост.

Тестът за регресионния коефициент Pop_Chng потвърждава, че Pop_Chng е тясно свързан с Pt_Poor, p<.001 .

Долен ред

Този пример показа как да се анализира прост регресионен дизайн. Бяха представени и интерпретации на нестандартизирани и стандартизирани регресионни коефициенти. Обсъжда се значението на изучаването на разпределението на отговора на зависима променлива и се демонстрира техника за определяне на посоката и силата на връзката между предиктор и зависима променлива.

Регресионният анализ е статистически метод за изследване, който ви позволява да покажете зависимостта на определен параметър от една или повече независими променливи. В предкомпютърната ера използването му е било доста трудно, особено когато става въпрос за големи обеми данни. Днес, след като научихте как да създавате регресия в Excel, можете да решавате сложни статистически проблеми само за няколко минути. По-долу са конкретни примери от областта на икономиката.

Видове регресия

Самото това понятие е въведено в математиката през 1886 г. Регресията се случва:

  • линеен;
  • параболичен;
  • улегнал;
  • експоненциален;
  • хиперболичен;
  • демонстративен;
  • логаритмичен.

Пример 1

Нека разгледаме проблема за определяне на зависимостта на броя на напусналите членове на екипа от средната заплата в 6 промишлени предприятия.

Задача. В шест предприятия са анализирани средната месечна работна заплата и броят на доброволно напусналите служители. В табличен вид имаме:

Брой хора, които напускат

Заплата

30 000 рубли

35 000 рубли

40 000 рубли

45 000 рубли

50 000 рубли

55 000 рубли

60 000 рубли

За задачата за определяне на зависимостта на броя на напусналите работници от средната заплата в 6 предприятия, регресионният модел има формата на уравнението Y = a 0 + a 1 x 1 +...+a k x k, където x i са влияещи променливи, a i са регресионните коефициенти, а k е броят на факторите.

За този проблем Y е индикаторът за напускане на служители, а влияещият фактор е заплатата, която означаваме с X.

Използване на възможностите на процесора за електронни таблици Excel

Регресионният анализ в Excel трябва да бъде предшестван от прилагане на вградени функции към съществуващи таблични данни. За тези цели обаче е по-добре да използвате много полезната добавка „Analysis Pack“. За да го активирате трябва:

  • от раздела „Файл“ отидете в секцията „Опции“;
  • в прозореца, който се отваря, изберете реда „Добавки“;
  • кликнете върху бутона „Отиди“, разположен по-долу, вдясно от реда „Управление“;
  • поставете отметка в квадратчето до името „Пакет за анализ“ и потвърдете действията си, като щракнете върху „Ok“.

Ако всичко е направено правилно, необходимият бутон ще се появи от дясната страна на раздела „Данни“, разположен над работния лист на Excel.

в Excel

Сега, когато разполагаме с всички необходими виртуални инструменти за извършване на иконометрични изчисления, можем да започнем да решаваме нашия проблем. За това:

  • Кликнете върху бутона „Анализ на данни“;
  • в прозореца, който се отваря, щракнете върху бутона „Регресия“;
  • в раздела, който се показва, въведете диапазона от стойности за Y (броят на напусналите служители) и за X (техните заплати);
  • Потвърждаваме действията си с натискане на бутона „Ok“.

В резултат на това програмата автоматично ще попълни нова електронна таблица с данни от регресионен анализ. Забележка! Excel ви позволява ръчно да зададете местоположението, което предпочитате за тази цел. Например, това може да е същият лист, където се намират стойностите Y и X, или дори нова работна книга, специално предназначена да съхранява такива данни.

Анализ на регресионните резултати за R-квадрат

В Excel данните, получени по време на обработката на данните в разглеждания пример, имат формата:

На първо място, трябва да обърнете внимание на стойността на R-квадрат. Представлява коефициента на детерминация. В този пример R-квадрат = 0,755 (75,5%), т.е. изчислените параметри на модела обясняват връзката между разглежданите параметри със 75,5%. Колкото по-висока е стойността на коефициента на детерминация, толкова по-подходящ е избраният модел за конкретна задача. Счита се, че правилно описва реалната ситуация, когато стойността на R-квадрат е над 0,8. Ако R-квадрат<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Анализ на коефициентите

Числото 64.1428 показва каква ще бъде стойността на Y, ако всички променливи xi в модела, който разглеждаме, бъдат нулирани. С други думи, може да се твърди, че стойността на анализирания параметър се влияе и от други фактори, които не са описани в конкретен модел.

Следващият коефициент -0.16285, разположен в клетка B18, показва тежестта на влиянието на променливата X върху Y. Това означава, че средната месечна заплата на служителите в рамките на разглеждания модел влияе върху броя на напусналите с тежест -0.16285, т.е. степента на неговото влияние е съвсем малка. Знакът "-" показва, че коефициентът е отрицателен. Това е очевидно, тъй като всеки знае, че колкото по-висока е заплатата в предприятието, толкова по-малко хора изразяват желание да прекратят трудовия договор или да напуснат.

Множествена регресия

Този термин се отнася до уравнение на връзка с няколко независими променливи от формата:

y=f(x 1 +x 2 +…x m) + ε, където y е резултантната характеристика (зависима променлива), а x 1, x 2,…x m са факторни характеристики (независими променливи).

Оценка на параметъра

За множествената регресия (MR) тя се извършва с помощта на метода на най-малките квадрати (OLS). За линейни уравнения от формата Y = a + b 1 x 1 +…+b m x m + ε конструираме система от нормални уравнения (вижте по-долу)

За да разберете принципа на метода, разгледайте случай с два фактора. Тогава имаме ситуация, описана с формулата

От тук получаваме:

където σ е дисперсията на съответния признак, отразен в индекса.

OLS е приложимо към уравнението на MR в стандартизирана скала. В този случай получаваме уравнението:

в които t y, t x 1, … t xm са стандартизирани променливи, за които средните стойности са равни на 0; β i са стандартизираните регресионни коефициенти, а стандартното отклонение е 1.

Моля, имайте предвид, че всички β i в този случай са посочени като нормализирани и централизирани, следователно тяхното сравнение помежду си се счита за правилно и приемливо. Освен това е обичайно да се отсяват факторите, като се отхвърлят тези с най-ниските стойности на βi.

Проблем с използване на уравнение на линейна регресия

Да предположим, че имаме таблица с динамиката на цените за конкретен продукт N през последните 8 месеца. Необходимо е да се вземе решение за целесъобразността на закупуването на партида от него на цена от 1850 рубли/т.

номер на месеца

име на месеца

цена на продукта N

1750 рубли на тон

1755 рубли на тон

1767 рубли на тон

1760 рубли на тон

1770 рубли на тон

1790 рубли на тон

1810 рубли на тон

1840 рубли на тон

За да разрешите този проблем в процесора за електронни таблици на Excel, трябва да използвате инструмента „Анализ на данни“, който вече е известен от примера, представен по-горе. След това изберете секцията „Регресия“ и задайте параметрите. Трябва да се помни, че в полето „Интервал на въвеждане Y“ трябва да се въведе диапазон от стойности за зависимата променлива (в този случай цените на стоките през определени месеци от годината), а в „Интервал на въвеждане X“ - за независимата променлива (номер на месеца). Потвърдете действието, като щракнете върху „Ok“. На нов лист (ако е посочено) получаваме данни за регресия.

Използвайки ги, построяваме линейно уравнение от вида y=ax+b, където параметрите a и b са коефициентите на линията с името на номера на месеца и коефициентите и линиите „Y-пресечна“ от листа с резултатите от регресионния анализ. Така уравнението на линейната регресия (LR) за задача 3 се записва като:

Цена на продукта N = 11.714* номер на месеца + 1727.54.

или в алгебрична нотация

y = 11,714 x + 1727,54

Анализ на резултатите

За да се реши дали полученото уравнение на линейна регресия е адекватно, се използват коефициентите на множествена корелация (MCC) и детерминация, както и тестът на Fisher и t тестът на Student. В електронната таблица на Excel с регресионни резултати те се наричат ​​съответно множество R, R-квадрат, F-статистика и t-статистика.

KMC R дава възможност да се оцени близостта на вероятностната връзка между независимите и зависимите променливи. Високата му стойност показва доста силна връзка между променливите „Брой месец“ и „Цена на продукт N в рубли за 1 тон“. Естеството на тази връзка обаче остава неизвестно.

Квадратът на коефициента на определяне R2 (RI) е числена характеристика на съотношението на общото разсейване и показва разсейването на коя част от експерименталните данни, т.е. стойностите на зависимата променлива съответстват на уравнението на линейната регресия. В разглежданата задача тази стойност е равна на 84,8%, т.е. статистическите данни се описват с висока степен на точност от полученото SD.

F-статистиката, наричана още тест на Фишер, се използва за оценка на значимостта на линейна връзка, опровергавайки или потвърждавайки хипотезата за нейното съществуване.

(Тест на Студент) помага да се оцени значимостта на коефициента с неизвестен или свободен член на линейната зависимост. Ако стойността на t-теста > t cr, тогава хипотезата за незначимостта на свободния член линейно уравнениеотхвърлени.

В разглежданата задача за свободния член с помощта на инструменти на Excel се получи, че t = 169.20903 и p = 2.89E-12, т.е. имаме нулева вероятност правилната хипотеза за незначимостта на свободния член да бъде отхвърлена. . За коефициента за неизвестното t=5.79405 и p=0.001158. С други думи, вероятността правилната хипотеза за незначимостта на коефициента за неизвестно да бъде отхвърлена е 0,12%.

По този начин може да се твърди, че полученото уравнение на линейна регресия е адекватно.

Проблемът с осъществимостта на закупуването на пакет от акции

Множествената регресия в Excel се извършва с помощта на същия инструмент за анализ на данни. Нека разгледаме конкретен проблем с приложението.

Ръководството на компанията NNN трябва да вземе решение за целесъобразността на закупуването на 20% дял в МММ АД. Цената на пакета (SP) е 70 милиона щатски долара. Специалистите на NNN са събрали данни за подобни транзакции. Беше решено да се оцени стойността на пакета акции според такива параметри, изразени в милиони щатски долари, като:

  • дължими сметки (VK);
  • годишен обем на оборота (VO);
  • вземания (VD);
  • себестойност на дълготрайните активи (COF).

Освен това се използва параметърът на просрочените заплати на предприятието (V3 P) в хиляди щатски долари.

Решение, използващо процесор за електронни таблици Excel

На първо място, трябва да създадете таблица с изходни данни. Изглежда така:

  • извикайте прозореца „Анализ на данни“;
  • изберете секцията „Регресия“;
  • В полето “Input interval Y” въведете диапазона от стойности на зависимите променливи от колона G;
  • Щракнете върху иконата с червена стрелка вдясно от прозореца „Интервал на въвеждане X“ и маркирайте диапазона от всички стойности от колони B, C, D, F на листа.

Маркирайте елемента „Нов работен лист“ и щракнете върху „Ok“.

Получаване на регресионен анализ за даден проблем.

Проучване на резултатите и изводи

Ние „събираме“ регресионното уравнение от закръглените данни, представени по-горе в електронната таблица на Excel:

SP = 0.103*SOF + 0.541*VO - 0.031*VK +0.405*VD +0.691*VZP - 265.844.

В по-позната математическа форма може да се запише като:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Данните за МММ АД са представени в таблицата:

Като ги заместим в регресионното уравнение, получаваме цифра от 64,72 милиона щатски долара. Това означава, че акциите на МММ АД не си струва да се купуват, тъй като тяхната стойност от 70 милиона щатски долара е доста завишена.

Както можете да видите, използването на електронната таблица на Excel и регресионното уравнение направи възможно вземането на информирано решение относно осъществимостта на много специфична транзакция.

Сега знаете какво е регресия. Обсъдените по-горе примери в Excel ще ви помогнат да решите практически проблеми в областта на иконометрията.

В предишни публикации анализът често се фокусираше върху една цифрова променлива, като възвръщаемост на взаимни фондове, времена за зареждане на уеб страници или консумация на безалкохолни напитки. В тази и следващите бележки ще разгледаме методите за прогнозиране на стойностите на числова променлива в зависимост от стойностите на една или повече други числови променливи.

Материалът ще бъде илюстриран с междусекторен пример. Прогнозиране на обема на продажбите в магазин за дрехи.Вече 25 години веригата магазини за дискаунт дрехи Sunflowers непрекъснато се разширява. В момента обаче компанията няма систематичен подход при избора на нови обекти. Местоположението, в което една компания възнамерява да отвори нов магазин, се определя въз основа на субективни съображения. Критериите за избор са благоприятни условия за наем или идея на мениджъра за идеалното местоположение на магазина. Представете си, че сте ръководител на отдела за специални проекти и планиране. Имате задача да разработите стратегически план за отваряне на нови магазини. Този план трябва да включва прогноза за годишните продажби за новооткрити магазини. Вярвате, че търговските площи са пряко свързани с приходите и искате да вземете това предвид в процеса на вземане на решения. Как разработвате статистически модел за прогнозиране на годишните продажби въз основа на размера на нов магазин?

Обикновено регресионният анализ се използва за прогнозиране на стойностите на променлива. Целта му е да разработи статистически модел, който може да предскаже стойностите на зависима променлива или отговор от стойностите на поне една независима или обяснителна променлива. В тази бележка ще разгледаме проста линейна регресия - статистически метод, който ви позволява да предвидите стойностите на зависима променлива Yчрез стойности на независими променливи х. Следващите бележки ще опишат модел на множествена регресия, предназначен да предскаже стойностите на независима променлива Yвъз основа на стойностите на няколко зависими променливи ( X 1, X 2, …, X k).

Изтеглете бележката в или формат, примери във формат

Видове регресионни модели

Където ρ 1 – коефициент на автокорелация; Ако ρ 1 = 0 (без автокорелация), д≈ 2; Ако ρ 1 ≈ 1 (положителна автокорелация), д≈ 0; Ако ρ 1 = -1 (отрицателна автокорелация), д ≈ 4.

На практика прилагането на критерия на Дърбин-Уотсън се основава на сравняване на стойността дс критични теоретични стойности dLИ d Uза даден брой наблюдения н, брой независими променливи на модела к(за проста линейна регресия к= 1) и ниво на значимост α. Ако д< d L , хипотезата за независимостта на случайните отклонения се отхвърля (следователно има положителна автокорелация); Ако D>dU, хипотезата не се отхвърля (т.е. няма автокорелация); Ако dL< D < d U , не са налице достатъчно основания за постановяване на решение. Когато изчислената стойност днадвишава 2, след това с dLИ d UНе се сравнява самият коефициент д, и изразът (4 – д).

За да изчислим статистиката на Durbin-Watson в Excel, нека се обърнем към долната таблица на фиг. 14 Теглене на баланс. Числителят в израз (10) се изчислява с помощта на функцията =SUMMAR(масив1;масив2), а знаменателят =SUMMAR(масив) (фиг. 16).

Ориз. 16. Формули за изчисляване на статистиката на Дърбин-Уотсън

В нашия пример д= 0,883. Основният въпрос е: каква стойност на статистиката на Дърбин-Уотсън трябва да се счита за достатъчно малка, за да се заключи, че съществува положителна автокорелация? Необходимо е да се съпостави стойността на D с критичните стойности ( dLИ d U), в зависимост от броя на наблюденията ни ниво на значимост α (фиг. 17).

Ориз. 17. Критични стойности на статистиката на Durbin-Watson (фрагмент от таблица)

По този начин, в проблема за обема на продажбите в магазин, доставящ стоки до дома, има една независима променлива ( к= 1), 15 наблюдения ( н= 15) и ниво на значимост α = 0,05. следователно dL= 1,08 и дU= 1,36. Тъй като д = 0,883 < dL= 1,08, има положителна автокорелация между остатъците, не може да се използва методът на най-малките квадрати.

Тестване на хипотези за наклона и коефициента на корелация

По-горе регресията беше използвана единствено за прогнозиране. За определяне на регресионни коефициенти и прогнозиране на стойността на променлива Yза дадена стойност на променлива хИзползван е методът на най-малките квадрати. В допълнение, ние изследвахме средната квадратична грешка на оценката и коефициента на смесена корелация. Ако анализът на остатъците потвърди, че условията за приложимост на метода на най-малките квадрати не са нарушени и простият линеен регресионен модел е адекватен, въз основа на извадковите данни, може да се твърди, че има линейна връзка между променливите в население.

ПриложениеT -критерии за наклон.Чрез тестване дали наклонът на популацията β 1 е равен на нула, можете да определите дали има статистически значима връзка между променливите хИ Y. Ако тази хипотеза бъде отхвърлена, може да се твърди, че между променливите хИ Yима линейна връзка. Нулевата и алтернативната хипотеза са формулирани по следния начин: H 0: β 1 = 0 (няма линейна зависимост), H1: β 1 ≠ 0 (има линейна зависимост). А-приори T-статистиката е равна на разликата между наклона на извадката и хипотетичната стойност на наклона на популацията, разделена на средната квадратична грешка на оценката на наклона:

(11) T = (b 1 β 1 ) / S b 1

Където b 1 – наклон на директна регресия върху извадкови данни, β1 – хипотетичен наклон на директна съвкупност, , и тестови статистики TТо има T-разпределение с n – 2степени на свобода.

Нека проверим дали има статистически значима връзка между размера на магазина и годишните продажби при α = 0,05. T-критерият се показва заедно с други параметри, когато се използва Пакет за анализ(опция Регресия). Пълните резултати от пакета за анализ са показани на фиг. 4, фрагмент, свързан с t-статистиката - на фиг. 18.

Ориз. 18. Резултати от приложението T

Тъй като броят на магазините н= 14 (виж фиг. 3), критична стойност T-статистиката при ниво на значимост α = 0,05 може да се намери с помощта на формулата: t L=STUDENT.ARV(0,025;12) = –2,1788, където 0,025 е половината от нивото на значимост, а 12 = н – 2; t U=STUDENT.OBR(0,975;12) = +2,1788.

Тъй като T-статистика = 10,64 > t U= 2.1788 (фиг. 19), нулева хипотеза H 0отхвърлени. От друга страна, Р- стойност за х= 10,6411, изчислено по формулата =1-STUDENT.DIST(D3,12,TRUE), е приблизително равно на нула, така че хипотезата H 0отново отхвърлен. Фактът че Р-стойност от почти нула означава, че ако няма истинска линейна връзка между размерите на магазина и годишните продажби, би било практически невъзможно да се открие с помощта на линейна регресия. Следователно съществува статистически значима линейна връзка между средните годишни продажби в магазина и размера на магазина.

Ориз. 19. Тестване на хипотезата за наклона на населението при ниво на значимост 0,05 и 12 степени на свобода

ПриложениеЕ -критерии за наклон.Алтернативен подход за тестване на хипотези за наклона на проста линейна регресия е използването Е- критерии. Нека ви го напомним Е-test се използва за тестване на връзката между две вариации (за повече подробности вижте). Когато се тества хипотезата за наклона, мярката за случайни грешки е дисперсията на грешката (сумата от квадратните грешки, разделена на броя на степените на свобода), така че Е-критерият използва съотношението на дисперсията, обяснено от регресията (т.е. стойността ССР, разделено на броя на независимите променливи к), към дисперсията на грешката ( MSE = S Yх 2 ).

А-приори Е-статистиката е равна на средния квадрат на регресия (MSR), разделен на дисперсията на грешката (MSE): Е = MSR/ MSE, Където MSR=ССР / к, MSE =SSE/(н– k – 1), k– брой независими променливи в регресионния модел. Тестова статистика ЕТо има Е-разпределение с кИ н– к – 1степени на свобода.

За дадено ниво на значимост α решаващото правило се формулира по следния начин: ако F>FU, нулевата хипотеза се отхвърля; иначе не се отхвърля. Резултатите се представят във формата осева таблицаанализът на дисперсията е показан на фиг. 20.

Ориз. 20. Анализ на дисперсионна таблица за проверка на хипотезата за статистическата значимост на регресионния коефициент

По същия начин T-критерий Е-критерият се показва в таблицата, когато се използва Пакет за анализ(опция Регресия). Пълни резултати от работата Пакет за анализса показани на фиг. 4, фрагмент, свързан с Е-статистика – на фиг. 21.

Ориз. 21. Резултати от приложението Е-критерии, получени с помощта на пакета за анализ на Excel

F-статистиката е 113,23 и Р-стойност близка до нула (клетка ЗначениеЕ). Ако нивото на значимост α е 0,05, определете критичната стойност Е-разпределения с една и 12 степени на свобода могат да се получат с помощта на формулата Ф У=F.OBR(1-0.05;1;12) = 4.7472 (фиг. 22). Тъй като Е = 113,23 > Ф У= 4,7472 и Р- стойност близка до 0< 0,05, нулевая гипотеза H 0се отхвърля, т.е. Размерът на магазина е тясно свързан с годишните му продажби.

Ориз. 22. Тестване на хипотезата за наклона на населението при ниво на значимост 0,05 с една и 12 степени на свобода

Доверителен интервал, съдържащ наклон β 1 .За да тествате хипотезата, че има линейна връзка между променливите, можете да конструирате доверителен интервал, съдържащ наклона β 1 и да проверите дали хипотетичната стойност β 1 = 0 принадлежи на този интервал. Центърът на доверителния интервал, съдържащ наклона β 1, е наклонът на извадката b 1 , а неговите граници са количествата b 1 ±тн –2 S b 1

Както е показано на фиг. 18, b 1 = +1,670, н = 14, S b 1 = 0,157. T 12 =STUDENT.ARV(0,975;12) = 2,1788. следователно b 1 ±тн –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, или + 1,328 ≤ β 1 ≤ +2,012. По този начин има вероятност от 0,95, че наклонът на населението е между +1,328 и +2,012 (т.е. $1,328,000 до $2,012,000). Тъй като тези стойности са по-големи от нула, има статистически значима линейна зависимост между годишните продажби и площта на магазина. Ако доверителният интервал съдържаше нула, нямаше да има връзка между променливите. В допълнение, доверителният интервал означава, че всяко увеличение на площта на магазина с 1000 кв. фута води до увеличение на средния обем на продажбите между $1,328,000 и $2,012,000.

ИзползванеT -критерии за коефициента на корелация.беше въведен коефициент на корелация r, което е мярка за връзката между две числови променливи. Може да се използва, за да се определи дали има статистически значима връзка между две променливи. Нека обозначим коефициента на корелация между популациите на двете променливи със символа ρ. Нулевата и алтернативната хипотеза са формулирани, както следва: H 0: ρ = 0 (няма корелация), H 1: ρ ≠ 0 (има корелация). Проверка на наличието на корелация:

Където r = + , Ако b 1 > 0, r = – , Ако b 1 < 0. Тестовая статистика TТо има T-разпределение с n – 2степени на свобода.

В проблема за веригата магазини Слънчогледи r 2= 0,904, а b 1- +1.670 (виж фиг. 4). Тъй като b 1> 0, коефициентът на корелация между годишните продажби и размера на магазина е r= +√0,904 = +0,951. Нека тестваме нулевата хипотеза, че няма корелация между тези променливи, използвайки T-статистика:

При ниво на значимост α = 0,05, нулевата хипотеза трябва да бъде отхвърлена, тъй като T= 10,64 > 2,1788. Следователно може да се твърди, че има статистически значима връзка между годишните продажби и размера на магазина.

Когато се обсъждат изводи относно наклона на съвкупността, доверителните интервали и тестовете за хипотези се използват взаимозаменяемо. Въпреки това, изчисляването на доверителния интервал, съдържащ коефициента на корелация, се оказва по-трудно, тъй като типът на извадковото разпределение на статистиката rзависи от истинския коефициент на корелация.

Оценка на математическото очакване и прогнозиране на индивидуалните стойности

Този раздел обсъжда методите за оценка на математическото очакване на отговор Yи прогнози за индивидуални стойности Yза дадени стойности на променливата х.

Изграждане на доверителен интервал.В пример 2 (вижте раздела по-горе Метод на най-малките квадрати) регресионното уравнение направи възможно прогнозирането на стойността на променливата Y х. При проблема с избора на място за търговски обект средният годишен обем на продажбите в магазин с площ от 4000 кв. фута се равнява на 7,644 милиона долара, но тази оценка на математическото очакване на общото население е точкова. За да се оцени математическото очакване на населението, беше предложена концепцията за доверителен интервал. По подобен начин можем да въведем концепцията доверителен интервал за математическото очакване на отговорапри зададена стойностпроменлива х:

Където , = b 0 + b 1 X i– прогнозираната стойност е променлива Yпри х = X i, S YX– средна квадратична грешка, н– размер на извадката, хаз- определена стойност на променливата х, µ Y|х = хазочаквана стойностпроменлива Yпри х = Xi, SSX =

Анализът на формула (13) показва, че ширината на доверителния интервал зависи от няколко фактора. При дадено ниво на значимост увеличаването на амплитудата на флуктуациите около регресионната линия, измерена с помощта на средната квадратична грешка, води до увеличаване на ширината на интервала. От друга страна, както може да се очаква, увеличаването на размера на извадката е придружено от стесняване на интервала. Освен това ширината на интервала се променя в зависимост от стойностите хаз. Ако стойността на променливата Yпредвидени за количества х, близо до средната стойност , доверителният интервал се оказва по-тесен, отколкото при прогнозиране на отговора за стойности, далеч от средните.

Да кажем, че когато избираме местоположение на магазин, искаме да изградим 95% доверителен интервал за средните годишни продажби на всички магазини, чиято площ е 4000 квадратни метра. крака:

Следователно средният годишен обем на продажбите във всички магазини с площ от 4000 кв. фута, с 95% вероятност се намира в диапазона от 6,971 до 8,317 милиона долара.

Изчислете доверителния интервал за прогнозираната стойност.В допълнение към доверителния интервал за математическото очакване на отговора за дадена стойност на променливата х, често е необходимо да се знае доверителният интервал за прогнозираната стойност. Въпреки че формулата за изчисляване на такъв доверителен интервал е много подобна на формула (13), този интервал съдържа прогнозираната стойност, а не оценката на параметъра. Интервал за прогнозиран отговор Yх = Xiза конкретна стойност на променлива хазопределя се по формулата:

Да предположим, че когато избираме местоположение за търговски обект, искаме да изградим 95% доверителен интервал за прогнозирания годишен обем на продажбите за магазин, чиято площ е 4000 квадратни метра. крака:

Следователно прогнозираният годишен обем на продажбите за магазин с площ от 4000 кв. фута, с 95% вероятност се намира в диапазона от 5,433 до 9,854 милиона долара.Както виждаме, доверителният интервал за прогнозираната стойност на отговора е много по-широк от доверителния интервал за нейното математическо очакване. Това е така, защото променливостта при прогнозиране на индивидуалните стойности е много по-голяма, отколкото при оценката на математическото очакване.

Клопки и етични проблеми, свързани с използването на регресия

Трудности, свързани с регресионния анализ:

  • Игнориране на условията за приложимост на метода на най-малките квадрати.
  • Погрешна оценка на условията за приложимост на метода на най-малките квадрати.
  • Неправилен избор на алтернативни методи, когато са нарушени условията за приложимост на метода на най-малките квадрати.
  • Прилагане на регресионен анализ без задълбочено познаване на предмета на изследване.
  • Екстраполиране на регресия извън диапазона на обяснителната променлива.
  • Объркване между статистически и причинно-следствени връзки.

Широкото използване на електронни таблици и софтуерза статистически изчисления елиминира изчислителните проблеми, които възпрепятстваха използването на регресионен анализ. Това обаче доведе до факта, че регресионният анализ беше използван от потребители, които нямаха достатъчно квалификация и знания. Как могат потребителите да знаят за алтернативни методи, ако много от тях нямат най-малката идеяза условията за приложимост на метода на най-малките квадрати и не знаете как да проверите тяхното изпълнение?

Изследователят не бива да се увлича с изчерпване на числа - изчисляване на отместване, наклон и смесен коефициент на корелация. Има нужда от по-задълбочени познания. Нека илюстрираме това с класически пример, взет от учебниците. Anscombe показа, че и четирите набора от данни, показани на фиг. 23, имат същите регресионни параметри (фиг. 24).

Ориз. 23. Четири изкуствени набора от данни

Ориз. 24. Регресионен анализ на четири изкуствени масива от данни; приключи с Пакет за анализ(щракнете върху снимката, за да я увеличите)

Така че, от гледна точка на регресионния анализ, всички тези набори от данни са напълно идентични. Ако анализът беше приключил дотук, щяхме да загубим много полезна информация. Това се доказва от диаграмите на разсейване (Фигура 25) и остатъчните графики (Фигура 26), конструирани за тези набори от данни.

Ориз. 25. Диаграми на разсейване за четири набора от данни

Графиките на разсейване и остатъчните графики показват, че тези данни се различават една от друга. Единственото множество, разпределено по права линия, е множество A. Графиката на остатъците, изчислена от множество A, няма никакъв модел. Това не може да се каже за набори B, C и D. Диаграмата на разсейване, начертана за набор B, показва ясно изразен квадратичен модел. Това заключение се потвърждава от остатъчната диаграма, която има параболична форма. Диаграмата на разсейване и остатъчната диаграма показват, че наборът от данни B съдържа отклонение. В тази ситуация е необходимо да се изключи отклонението от набора от данни и да се повтори анализът. Метод за откриване и елиминиране на отклонения в наблюденията се нарича анализ на влиянието. След елиминиране на отклонението, резултатът от повторното оценяване на модела може да бъде напълно различен. Диаграмата на разсейване, начертана от данни от набор G, илюстрира необичайна ситуация, в която емпиричният модел е значително зависим от индивидуален отговор ( X 8 = 19, Y 8 = 12,5). Такива регресионни модели трябва да се изчисляват особено внимателно. Така че диаграмите на разсейване и остатъци са изключително големи необходим инструментрегресионен анализ и трябва да бъде неразделна част от него. Без тях регресионният анализ не е надежден.

Ориз. 26. Остатъчни графики за четири набора от данни

Как да избегнем клопки в регресионния анализ:

  • Анализ на възможните връзки между променливите хИ Yвинаги започвайте с начертаване на точкова диаграма.
  • Преди да интерпретирате резултатите от регресионния анализ, проверете условията за неговата приложимост.
  • Начертайте остатъците спрямо независимата променлива. Това ще даде възможност да се определи колко добре емпиричният модел съответства на резултатите от наблюдението и да се открие нарушение на постоянството на дисперсията.
  • Използвайте хистограми, графики на стъбла и листа, графики с кутии и графики на нормално разпределение, за да тествате предположението за нормално разпределение на грешките.
  • Ако условията за приложимост на метода на най-малките квадрати не са изпълнени, използвайте алтернативни методи (например модели на квадратична или множествена регресия).
  • Ако условията за приложимост на метода на най-малките квадрати са изпълнени, е необходимо да се провери хипотезата за статистическата значимост на регресионните коефициенти и да се построят доверителни интервали, съдържащи математическото очакване и прогнозираната стойност на отговора.
  • Избягвайте да прогнозирате стойности на зависимата променлива извън диапазона на независимата променлива.
  • Имайте предвид, че статистическите връзки не винаги са причина и следствие. Не забравяйте, че корелацията между променливите не означава, че има причинно-следствена връзка между тях.

Резюме.Както е показано на блоковата диаграма (Фигура 27), бележката описва простия модел на линейна регресия, условията за неговата приложимост и как да тествате тези условия. Разглеждан T-критерий за проверка на статистическата значимост на наклона на регресията. Използван е регресионен модел за прогнозиране на стойностите на зависимата променлива. Разгледан е пример, свързан с избора на местоположение за търговски обект, в който се изследва зависимостта на годишния обем на продажбите от площта на магазина. Получената информация ви позволява по-точно да изберете местоположение за магазин и да предвидите годишния обем на продажбите му. Следващите бележки ще продължат обсъждането на регресионния анализ и също ще разгледат множество регресионни модели.

Ориз. 27. Схема на структурата на бележките

Използвани са материали от книгата Левин и др.Статистика за мениджъри. – М.: Уилямс, 2004. – стр. 792–872

Ако зависимата променлива е категорична, трябва да се използва логистична регресия.

Използване на графичния метод.
Този метод се използва за визуално изобразяване на формата на връзка между изследваните икономически показатели. За целта се начертава графика в правоъгълна координатна система, като се нанася по ординатната ос. индивидуални ценностирезултантната характеристика Y, а оста x е индивидуалните стойности на факторната характеристика X.
Множеството от точки на резултатната и факторната характеристика се наричат корелационно поле.
Въз основа на корелационното поле можем да предположим (за популацията), че връзката между всички възможни стойности на X и Y е линейна.

Уравнение на линейна регресияима формата y = bx + a + ε
Тук ε - случайна грешка(отклонение, възмущение).
Причини за наличието на случайна грешка:
1. Липса на включване на значими обяснителни променливи в регресионния модел;
2. Агрегиране на променливи. Например функцията на общото потребление е опит да се изрази най-общо съвкупността от индивидуални решения за разходи. Това е само приближение на индивидуални отношения, които имат различни параметри.
3. Неправилно описание на структурата на модела;
4. Неправилна функционална спецификация;
5. Грешки при измерване.
Тъй като отклоненията ε i за всяко конкретно наблюдение i са случайни и техните стойности в извадката са неизвестни, тогава:
1) от наблюдения x i и y i могат да се получат само оценки на параметрите α и β
2) Оценките на параметрите α и β на регресионния модел са съответно стойностите a и b, които са случайни по природа, т.к. съответстват на произволна извадка;
Тогава оценяващото регресионно уравнение (конструирано от примерни данни) ще има формата y = bx + a + ε, където e i са наблюдаваните стойности (оценки) на грешките ε i , а a и b са съответно оценки на параметрите α и β на регресионния модел, които трябва да бъдат намерени.
За оценка на параметрите α и β - се използва методът на най-малките квадрати (метод на най-малките квадрати).
Система от нормални уравнения.

За нашите данни системата от уравнения има формата:

10a + 356b = 49
356a + 2135b = 9485

От първото уравнение изразяваме a и го заместваме във второто уравнение
Получаваме b = 68,16, a = 11,17

Регресионно уравнение:
y = 68,16 x - 11,17

1. Параметри на регресионното уравнение.
Примерни средства.



Примерни отклонения.


Стандартно отклонение

1.1. Коефициент на корелация
Изчисляваме индикатора за близост на връзката. Този показател е примерният коефициент на линейна корелация, който се изчислява по формулата:

Коефициентът на линейна корелация приема стойности от –1 до +1.
Връзките между характеристиките могат да бъдат слаби и силни (близки). Техните критерии се оценяват по скалата на Chaddock:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
В нашия пример връзката между черта Y и фактор X е много висока и пряка.

1.2. Регресионно уравнение(оценка на регресионно уравнение).

Уравнението на линейната регресия е y = 68,16 x -11,17
Коефициентите на уравнение на линейна регресия могат да получат икономическо значение. Коефициент на регресионно уравнениепоказва колко единици. резултатът ще се промени, когато факторът се промени с 1 единица.
Коефициентът b = 68,16 показва средната промяна на ефективния показател (в мерни единици y) с увеличаване или намаляване на стойността на фактора x за единица от неговото измерване. В този пример, с увеличение от 1 единица, y се увеличава средно с 68,16.
Коефициентът a = -11.17 формално показва прогнозираното ниво на y, но само ако x = 0 е близо до стойностите на извадката.
Но ако x = 0 е далеч от примерните стойности на x, тогава буквалното тълкуване може да доведе до неправилни резултати и дори ако регресионната линия описва наблюдаваните примерни стойности сравнително точно, няма гаранция, че това също ще такъв е случаят при екстраполиране наляво или надясно.
Като заместим подходящите x стойности в регресионното уравнение, можем да определим подравнените (прогнозирани) стойности на показателя за ефективност y(x) за всяко наблюдение.
Връзката между y и x определя знака на регресионния коефициент b (ако > 0 - пряка връзка, в противен случай - обратна). В нашия пример връзката е директна.

1.3. Коефициент на еластичност.
Не е препоръчително да се използват регресионни коефициенти (в пример b) за пряка оценка на влиянието на факторите върху резултатна характеристика, ако има разлика в мерните единици на резултатния показател y и факторната характеристика x.
За тези цели се изчисляват коефициентите на еластичност и бета коефициентите. Коефициентът на еластичност се намира по формулата:


Той показва с какъв процент средно се променя ефективният атрибут y, когато факторният атрибут x се промени с 1%. Не отчита степента на колебание на факторите.
В нашия пример коефициентът на еластичност е по-голям от 1. Следователно, ако X се промени с 1%, Y ще се промени с повече от 1%. С други думи, X значително засяга Y.
Бета коефициентпоказва с каква част от стойността на средната му квадратно отклонениесредната стойност на получената характеристика ще се промени, когато характеристиката на фактора се промени със стойността на нейното стандартно отклонение със стойността на останалите независими променливи, фиксирани на постоянно ниво:

Тези. увеличение на x със стандартното отклонение на този показател ще доведе до увеличение на средната Y с 0,9796 стандартни отклонения на този показател.

1.4. Грешка в приближението.
Нека оценим качеството на регресионното уравнение, като използваме грешката на абсолютното приближение.


Тъй като грешката е повече от 15%, не е препоръчително да използвате това уравнение като регресия.

1.6. Коефициент на определяне.
Квадратът на (множествения) коефициент на корелация се нарича коефициент на детерминация, който показва съотношението на вариацията в резултантния атрибут, обяснена с вариацията във факторния атрибут.
Най-често при тълкуване на коефициента на детерминация той се изразява в проценти.
R2 = 0,982 = 0,9596
тези. в 95,96% от случаите промените в x водят до промени в y. С други думи, точността на избора на регресионното уравнение е висока. Останалите 4,04% от промяната на Y се обясняват с фактори, които не са взети предвид в модела.

х г х 2 y 2 x y y(x) (y i -y cp) 2 (y-y(x)) 2 (x i -x cp) 2 |y - y x |:y
0.371 15.6 0.1376 243.36 5.79 14.11 780.89 2.21 0.1864 0.0953
0.399 19.9 0.1592 396.01 7.94 16.02 559.06 15.04 0.163 0.1949
0.502 22.7 0.252 515.29 11.4 23.04 434.49 0.1176 0.0905 0.0151
0.572 34.2 0.3272 1169.64 19.56 27.81 87.32 40.78 0.0533 0.1867
0.607 44.5 .3684 1980.25 27.01 30.2 0.9131 204.49 0.0383 0.3214
0.655 26.8 0.429 718.24 17.55 33.47 280.38 44.51 0.0218 0.2489
0.763 35.7 0.5822 1274.49 27.24 40.83 61.54 26.35 0.0016 0.1438
0.873 30.6 0.7621 936.36 26.71 48.33 167.56 314.39 0.0049 0.5794
2.48 161.9 6.17 26211.61 402 158.07 14008.04 14.66 2.82 0.0236
7.23 391.9 9.18 33445.25 545.2 391.9 16380.18 662.54 3.38 1.81

2. Оценка на параметрите на регресионното уравнение.
2.1. Значение на коефициента на корелация.

Използвайки таблицата на Стюдънт с ниво на значимост α=0,05 и степени на свобода k=7, намираме t crit:
t crit = (7;0,05) = 1,895
където m = 1 е броят на обяснителните променливи.
Ако t наблюдавано > t критично, тогава получената стойност на корелационния коефициент се счита за значима (нулевата хипотеза, според която корелационният коефициент е равен на нула, се отхвърля).
Тъй като t obs > t crit, ние отхвърляме хипотезата, че коефициентът на корелация е равен на 0. С други думи, коефициентът на корелация е статистически значим
При сдвоена линейна регресия t 2 r = t 2 b и след това тестване на хипотезите за значимостта на коефициентите на регресия и корелация е еквивалентно на тестване на хипотезата за значимостта на уравнението на линейната регресия.

2.3. Анализ на точността на определяне на оценките на коефициента на регресия.
Безпристрастна оценка на дисперсията на смущенията е стойността:


S 2 y = 94,6484 - необяснима дисперсия (мярка за разпространението на зависимата променлива около регресионната линия).
S y = 9.7287 - стандартна грешка на оценката (стандартна грешка на регресия).
S a - стандартно отклонение случайна величинаа.


S b - стандартно отклонение на случайна променлива b.

2.4. Доверителни интервали за зависимата променлива.
Икономическото прогнозиране, базирано на конструирания модел, предполага, че съществуващите връзки между променливите се поддържат за предварителния период.
За да се предвиди зависимата променлива на резултантния атрибут, е необходимо да се знаят прогнозираните стойности на всички фактори, включени в модела.
Прогнозираните стойности на факторите се заместват в модела и се получават прогнозни точкови оценки на изследвания показател. (a + bx p ± ε)
Където

Нека изчислим границите на интервала, в който 95% от възможните стойности на Y ще бъдат концентрирани с неограничен брой наблюдения и X p = 1 (-11.17 + 68.16*1 ± 6.4554)
(50.53;63.44)

Индивидуални доверителни интервали заYпри дадена стойностх.
(a + bx i ± ε)
Където

x i y = -11,17 + 68,16x i εi y мин ymax
0.371 14.11 19.91 -5.8 34.02
0.399 16.02 19.85 -3.83 35.87
0.502 23.04 19.67 3.38 42.71
0.572 27.81 19.57 8.24 47.38
0.607 30.2 19.53 10.67 49.73
0.655 33.47 19.49 13.98 52.96
0.763 40.83 19.44 21.4 60.27
0.873 48.33 19.45 28.88 67.78
2.48 158.07 25.72 132.36 183.79

С вероятност от 95% е възможно да се гарантира, че стойността Y за неограничен брой наблюдения няма да излезе извън границите на намерените интервали.

2.5. Тестване на хипотези относно коефициентите на уравнение на линейна регресия.
1) t-статистика. t тест на ученика.
Нека проверим хипотезата H 0 за равенството на индивидуалните регресионни коефициенти на нула (ако алтернативата не е равна на H 1) при ниво на значимост α=0,05.
t crit = (7;0,05) = 1,895


Тъй като 12,8866 > 1,895, статистическата значимост на регресионния коефициент b се потвърждава (отхвърляме хипотезата, че този коефициент е равен на нула).


Тъй като 2,0914 > 1,895, статистическата значимост на регресионния коефициент a се потвърждава (отхвърляме хипотезата, че този коефициент е равен на нула).

Доверителен интервал за коефициентите на регресионното уравнение.
Нека определим доверителните интервали на регресионните коефициенти, които с надеждност от 95% ще бъдат както следва:
(b - t критичен S b ; b + t критичен S b)
(68.1618 - 1.895 5.2894; 68.1618 + 1.895 5.2894)
(58.1385;78.1852)
С вероятност от 95% може да се каже, че стойността на този параметър ще бъде в намерения интервал.
(a - t a)
(-11.1744 - 1.895 5.3429; -11.1744 + 1.895 5.3429)
(-21.2992;-1.0496)
С вероятност от 95% може да се каже, че стойността на този параметър ще бъде в намерения интервал.

2) F-статистика. Критерий на Фишер.
Тестването на значимостта на регресионен модел се извършва с помощта на F теста на Фишер, чиято изчислена стойност се намира като съотношението на дисперсията на първоначалната серия от наблюдения на изследвания индикатор и безпристрастната оценка на дисперсията на остатъчната последователност за този модел.
Ако изчислената стойност с lang=EN-US>n-m-1) степени на свобода е по-голяма от табличната стойност при дадено ниво на значимост, тогава моделът се счита за значим.

където m е броят на факторите в модела.
Статистическата значимост на сдвоената линейна регресия се оценява с помощта на следния алгоритъм:
1. Изложена е нулева хипотеза, че уравнението като цяло е статистически незначимо: H 0: R 2 =0 при ниво на значимост α.
2. След това определете действителната стойност на F-критерия:


където m=1 за регресия по двойки.
3. Табличната стойност се определя от таблиците за разпределение на Фишер за дадено ниво на значимост, като се има предвид, че броят на степените на свобода за общата сума на квадратите (по-голяма дисперсия) е 1, а броят на степените на свобода за остатъка е 1. сумата на квадратите (по-малка дисперсия) при линейна регресия е n-2.
4. Ако действителната стойност на F-теста е по-малка от стойността на таблицата, тогава те казват, че няма причина да се отхвърли нулевата хипотеза.
В противен случай нулевата хипотеза се отхвърля и алтернативната хипотеза за статистическата значимост на уравнението като цяло се приема с вероятност (1-α).
Таблична стойност на критерия със степени на свобода k1=1 и k2=7, Fkp = 5,59
Тъй като действителната стойност на F > Fkp, коефициентът на детерминация е статистически значим (Намерената оценка на регресионното уравнение е статистически надеждна).

Проверка за автокорелация на остатъците.
Важна предпоставка за конструиране на качествен регресионен модел с помощта на OLS е независимостта на стойностите на случайните отклонения от стойностите на отклоненията във всички други наблюдения. Това гарантира, че няма корелация между каквито и да било отклонения и по-специално между съседни отклонения.
Автокорелация (серийна корелация)се определя като корелация между наблюдаваните индикатори, подредени във времето (времеви серии) или пространство (кръстосани серии). Автокорелацията на остатъците (дисперсиите) е често срещана при регресионния анализ при използване на данни от времеви редове и много рядка при използване на данни от напречно сечение.
При икономическите проблеми се среща много по-често положителна автокорелация, отколкото отрицателна автокорелация. В повечето случаи положителната автокорелация се дължи на насоченото постоянно влияние на някои фактори, които не са взети предвид в модела.
Отрицателна автокорелациявсъщност означава, че едно положително отклонение е последвано от отрицателно и обратно. Тази ситуация може да възникне, ако една и съща връзка между търсенето за студени напиткии вземете предвид доходите на базата на сезонни данни (зима-лято).
Между основните причини, предизвикващи автокорелация, могат да се разграничат следните:
1. Грешки в спецификацията. Неотчитането на важна обяснителна променлива в модела или неправилен избор на формата на зависимост обикновено води до системни отклонения на точките на наблюдение от регресионната линия, което може да доведе до автокорелация.
2. Инерция. Много икономически показатели (инфлация, безработица, БВП и т.н.) имат определена цикличност, свързана с вълнообразността на бизнес активността. Следователно промяната в показателите не се случва моментално, а има известна инерция.
3. Ефект на паяжина. В много производствени и други области икономическите индикатори реагират на промените в икономическите условия със закъснение (времево забавяне).
4. Изглаждане на данните. Често данните за определен дълъг период от време се получават чрез осредняване на данните за съставните му интервали. Това може да доведе до известно изглаждане на колебанията, възникнали в рамките на разглеждания период, което от своя страна може да предизвика автокорелация.
Последиците от автокорелацията са подобни на последиците от хетероскедастичността: заключенията от t- и F-статистиките, които определят значимостта на коефициента на регресия и коефициента на детерминация, вероятно ще бъдат неправилни.

Автокорелационно откриване

1. Графичен метод
Има редица опции за графично дефиниране на автокорелация. Един от тях свързва отклоненията e i с моментите на тяхното получаване i. В този случай или времето на получаване на статистически данни, или поредният номер на наблюдението се нанасят по абсцисната ос, а отклоненията e i (или оценките на отклоненията) се нанасят по ординатната ос.
Естествено е да се предположи, че ако има определена връзка между отклоненията, тогава има автокорелация. Липсата на зависимост най-вероятно ще означава липса на автокорелация.
Автокорелацията става по-ясна, ако начертаете зависимостта на e i от e i-1.

Тест на Дърбин-Уотсън.
Този критерий е най-известният за откриване на автокорелация.
При статистически анализ на регресионното уравнение за начална фазачесто проверяват осъществимостта на една предпоставка: условията за статистическа независимост на отклоненията помежду си. В този случай се проверява некорелацията на съседните стойности e i.

г y(x) e i = y-y(x) д 2 (e i - e i-1) 2
15.6 14.11 1.49 2.21 0
19.9 16.02 3.88 15.04 5.72
22.7 23.04 -0.3429 0.1176 17.81
34.2 27.81 6.39 40.78 45.28
44.5 30.2 14.3 204.49 62.64
26.8 33.47 -6.67 44.51 439.82
35.7 40.83 -5.13 26.35 2.37
30.6 48.33 -17.73 314.39 158.7
161.9 158.07 3.83 14.66 464.81
662.54 1197.14

За анализиране на корелацията на отклоненията се използва статистика на Дърбин-Уотсън:

Критичните стойности d 1 и d 2 се определят въз основа на специални таблици за необходимото ниво на значимост α, броя на наблюденията n = 9 и броя на обяснителните променливи m = 1.
Няма автокорелация, ако е изпълнено следното условие:
d 1< DW и d 2 < DW < 4 - d 2 .
Без да се позовавате на таблици, можете да използвате приблизително правило и да приемете, че няма автокорелация на остатъците, ако 1,5< DW < 2.5. Для более надежного вывода целесообразно обращаться к табличным значениям.