Des coefficients de régression sont fournis. Le coefficient de l'équation de régression montre une analyse de corrélation et de régression

COEFFICIENT DE RÉGRESSION

- Anglais coefficient, régression; Allemand Régressionskoeffizient. Une des caractéristiques de la relation entre la variable dépendante y et la variable indépendante x. K.r. montre de combien d'unités la valeur prise par y augmente si la variable x change d'une unité de sa variation. Géométriquement K. r. est la pente de la droite y.

Antinazi. Encyclopédie de sociologie, 2009

Voyez ce qu'est « COEFFICIENT DE RÉGRESSION » dans d'autres dictionnaires :

    Coefficient de régression- - [L.G. Sumenko. Dictionnaire anglais-russe sur les technologies de l'information. M. : Entreprise d'État TsNIIS, 2003.] Sujets informatique en général coefficient de régression EN... Guide du traducteur technique

    Coefficient de régression- 35. Coefficient de régression Paramètre du modèle d'analyse de régression Source : GOST 24026 80 : Tests de recherche. Planification des expériences. Termes et définitions …

    Coefficient de régression- Coefficient de la variable indépendante dans l'équation de régression... Dictionnaire de statistiques sociologiques

    COEFFICIENT DE RÉGRESSION- Anglais coefficient, régression; Allemand Régressionskoeffizient. Une des caractéristiques de la relation entre la variable dépendante y et la variable indépendante x. K.r. montre de combien d'unités la valeur prise par y augmente si la variable x devient... ... Dictionnaire en sociologie

    coefficient de régression de l'échantillon- 2.44. coefficient de régression d'échantillon Coefficient d'une variable dans l'équation d'une courbe ou d'une surface de régression Source : GOST R 50779.10 2000 : Méthodes statistiques. Probabilités et statistiques de base. Termes et définitions … Dictionnaire-ouvrage de référence des termes de la documentation normative et technique

    Coefficient de régression partielle- une mesure statistique indiquant le degré d'influence d'une variable indépendante sur une variable dépendante dans une situation où l'influence mutuelle de toutes les autres variables du modèle est sous le contrôle du chercheur... Dictionnaire sociologique Socium

    RÉGRESSIONS, POIDS- Un synonyme de la notion de coefficient de régression... Dictionnaire explicatif de la psychologie

    COEFFICIENT D’HERITABILITÉ- Un indicateur de la part relative de la variabilité génétique dans la variation phénotypique totale d'un caractère. Les méthodes les plus courantes pour estimer l'héritabilité de caractères économiquement utiles sont les suivantes : où h2 est le coefficient d'héritabilité ; r intraclasse... ... Termes et définitions utilisés en élevage, génétique et reproduction des animaux de ferme

    - (R au carré) est la proportion de variance de la variable dépendante expliquée par le modèle de dépendance considéré, c'est-à-dire les variables explicatives. Plus précisément, c'est un moins la part de variance inexpliquée (variance de l'erreur aléatoire du modèle, ou conditionnelle... ... Wikipédia

    Coefficient de la variable indépendante dans l'équation de régression. Ainsi, par exemple, dans l'équation de régression linéaire reliant les variables aléatoires Y et X, les coefficients R. b0 et b1 sont égaux : où r est le coefficient de corrélation de X et Y, . Calcul des estimations de R.K. (sélectionné... ... Encyclopédie mathématique

Livres

  • Introduction à l'économétrie (CDpc), Yanovsky Leonid Petrovich, Bukhovets Alexey Georgievich. Les bases de l'économétrie et de l'analyse statistique des séries temporelles univariées sont données. Une grande attention est accordée aux méthodes classiques de régression paire et multiple, classiques et généralisées...
  • Lecture rapide. Simulateur efficace (CDpc), . Le programme s'adresse aux utilisateurs qui souhaitent dès que possible maîtriser la technique de lecture rapide. Le cours est construit sur le principe « théorie – pratique ». Matériel théorique et pratique…

Qu’est-ce que la régression ?

Considérons deux variables continues x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Plaçons les points sur un nuage de points bidimensionnel et disons que nous avons relation linéaire, si les données sont approximées par une ligne droite.

Si nous croyons que oui dépend de X, et des changements dans oui sont causés précisément par des changements dans X, on peut déterminer la droite de régression (régression oui sur X), qui décrit le mieux la relation linéaire entre ces deux variables.

L'usage statistique du mot régression vient du phénomène connu sous le nom de régression vers la moyenne, attribué à Sir Francis Galton (1889).

Il a montré que même si les pères de grande taille ont tendance à avoir des fils de grande taille, la taille moyenne des fils est plus petite que celle de leurs pères de grande taille. La taille moyenne des fils a « régressé » et « reculé » vers la taille moyenne de tous les pères de la population. Ainsi, en moyenne, les pères de grande taille ont des fils plus petits (mais quand même assez grands), et les pères de petite taille ont des fils plus grands (mais quand même assez petits).

Ligne de régression

Une équation mathématique qui estime une droite de régression linéaire simple (par paires) :

X appelée variable indépendante ou prédicteur.

Oui- variable dépendante ou variable réponse. C'est la valeur que nous attendons pour oui(en moyenne) si on connaît la valeur X, c'est à dire. est la "valeur prédite" oui»

  • un- membre libre (intersection) de la ligne d'évaluation ; c'est le sens Oui, Quand x=0(Fig. 1).
  • b- pente ou pente de la ligne estimée ; il représente le montant par lequel Oui augmente en moyenne si on augmente X pour une unité.
  • un Et b sont appelés coefficients de régression de la droite estimée, bien que ce terme soit souvent utilisé uniquement pour b.

La régression linéaire par paires peut être étendue pour inclure plusieurs variables indépendantes ; dans ce cas, on l'appelle régression multiple.

Fig. 1. Ligne de régression linéaire montrant l'ordonnée à l'origine a et la pente b (la quantité Y augmente à mesure que x augmente d'une unité)

Méthode des moindres carrés

Nous effectuons une analyse de régression en utilisant un échantillon d'observations où un Et b- des estimations par échantillon des vrais paramètres (généraux), α et β, qui déterminent la droite de régression linéaire dans la population (population générale).

La plupart méthode simple détermination des coefficients un Et b est méthode moindres carrés (MNC).

L'ajustement est évalué en examinant les résidus (la distance verticale de chaque point à partir de la ligne, par exemple résidu = observé oui- prédit oui, Riz. 2).

La droite de meilleur ajustement est choisie de manière à ce que la somme des carrés des résidus soit minimale.

Riz. 2. Ligne de régression linéaire avec les résidus représentés (lignes pointillées verticales) pour chaque point.

Hypothèses de régression linéaire

Ainsi, pour chaque valeur observée, le reste est égal à la différence et à la valeur prédite correspondante. Chaque reste peut être positif ou négatif.

Vous pouvez utiliser des résidus pour tester les hypothèses suivantes derrière la régression linéaire :

  • Les résidus sont normalement distribués avec une moyenne de zéro ;

Si les hypothèses de linéarité, de normalité et/ou de variance constante sont discutables, nous pouvons transformer ou calculer une nouvelle droite de régression pour laquelle ces hypothèses sont satisfaites (par exemple, utiliser une transformation logarithmique, etc.).

Valeurs anormales (valeurs aberrantes) et points d'influence

Une observation « influente », si elle est omise, modifie une ou plusieurs estimations des paramètres du modèle (c'est-à-dire la pente ou l'origine).

Une valeur aberrante (une observation qui n'est pas cohérente avec la majorité des valeurs d'un ensemble de données) peut être une observation « influente » et peut être facilement détectée visuellement en inspectant un nuage de points bivarié ou un diagramme résiduel.

Tant pour les observations aberrantes que pour les observations « influentes » (points), des modèles sont utilisés, avec ou sans leur inclusion, et une attention particulière est portée aux changements dans les estimations (coefficients de régression).

Lorsque vous effectuez une analyse, vous ne devez pas automatiquement éliminer les valeurs aberrantes ou les points d'influence, car le simple fait de les ignorer peut affecter les résultats obtenus. Étudiez toujours les raisons de ces valeurs aberrantes et analysez-les.

Hypothèse de régression linéaire

Lors de la construction d'une régression linéaire, l'hypothèse nulle est testée selon laquelle la pente générale de la droite de régression β est égale à zéro.

Si la pente de la droite est nulle, il n’y a pas de relation linéaire entre et : le changement n’affecte pas

Pour tester l'hypothèse nulle selon laquelle la vraie pente est nulle, vous pouvez utiliser l'algorithme suivant :

Calculer la statistique de test égale au rapport , qui est soumis à une distribution avec degrés de liberté, où l'erreur type du coefficient


,

- estimation de la dispersion des résidus.

Généralement, si le seuil de signification est atteint, l’hypothèse nulle est rejetée.


où est le point de pourcentage de la distribution avec degrés de liberté, qui donne la probabilité d'un test bilatéral

C'est l'intervalle qui contient la pente générale avec une probabilité de 95 %.

Pour de grands échantillons, par exemple, nous pouvons approximer une valeur de 1,96 (c'est-à-dire que la statistique du test aura tendance à être distribuée normalement)

Évaluation de la qualité de la régression linéaire : coefficient de détermination R 2

En raison de la relation linéaire et nous nous attendons à ce que cela change à mesure que , et appelons cela la variation due ou expliquée par la régression. La variation résiduelle doit être aussi faible que possible.

Si c'est le cas, alors la plupart de la variation sera expliquée par la régression, et les points seront proches de la droite de régression, c'est-à-dire la ligne correspond bien aux données.

La proportion de la variance totale expliquée par la régression est appelée coefficient de détermination, généralement exprimé en pourcentage et noté R2(dans la régression linéaire appariée, c'est la quantité r2, carré du coefficient de corrélation), permet d'évaluer subjectivement la qualité de l'équation de régression.

La différence représente le pourcentage de variance qui ne peut être expliqué par la régression.

Il n’existe aucun test formel à évaluer ; nous devons nous fier à un jugement subjectif pour déterminer la qualité de l’ajustement de la droite de régression.

Application d'une ligne de régression à la prévision

Vous pouvez utiliser une droite de régression pour prédire une valeur à partir d’une valeur située à l’extrémité de la plage observée (n’extrapolez jamais au-delà de ces limites).

Nous prédisons la moyenne des observables qui ont une valeur particulière en insérant cette valeur dans l'équation de la droite de régression.

Donc, si nous prédisons comme Utilisez cette valeur prédite et son erreur standard pour estimer un intervalle de confiance pour la vraie moyenne de la population.

Répéter cette procédure pour différentes valeurs permet de construire des limites de confiance pour cette ligne. Il s'agit de la bande ou de la zone qui contient la vraie ligne, par exemple à un niveau de confiance de 95 %.

Plans de régression simples

Les plans de régression simples contiennent un prédicteur continu. S'il y a 3 observations avec des valeurs prédictives P, telles que 7, 4 et 9, et que le plan inclut un effet de premier ordre P, alors la matrice du plan X sera

UN équation de régression utiliser P pour X1 ressemble à

Y = b0 + b1P

Si un plan de régression simple contient un effet ordre supérieur pour P, par exemple, un effet quadratique, alors les valeurs de la colonne X1 de la matrice de conception seront élevées à la puissance deux :

et l'équation prendra la forme

Y = b0 + b1 P2

Les méthodes de codage contraintes sigma et surparamétrées ne s'appliquent pas aux plans de régression simples et aux autres plans contenant uniquement des prédicteurs continus (car il n'y a tout simplement pas de prédicteurs catégoriels). Quelle que soit la méthode de codage choisie, les valeurs des variables continues sont incrémentées en conséquence et utilisées comme valeurs pour les variables X. Dans ce cas, aucun recodage n’est effectué. De plus, lors de la description des plans de régression, vous pouvez omettre la prise en compte de la matrice de conception X et travailler uniquement avec l'équation de régression.

Exemple : analyse de régression simple

Cet exemple utilise les données présentées dans le tableau :

Riz. 3. Tableau des données initiales.

Données compilées à partir d’une comparaison des recensements de 1960 et 1970 dans 30 comtés sélectionnés au hasard. Les noms de comtés sont présentés sous forme de noms d'observation. Les informations concernant chaque variable sont présentées ci-dessous :

Riz. 4. Tableau des spécifications des variables.

Problème de recherche

Pour cet exemple, la corrélation entre le taux de pauvreté et le degré qui prédit le pourcentage de familles se trouvant en dessous du seuil de pauvreté sera analysée. Par conséquent, nous traiterons la variable 3 (Pt_Poor) comme variable dépendante.

Nous pouvons émettre une hypothèse : l’évolution de la taille de la population et le pourcentage de familles vivant sous le seuil de pauvreté sont liés. Il semble raisonnable de s’attendre à ce que la pauvreté conduise à l’émigration, il y aurait donc une corrélation négative entre le pourcentage de personnes vivant en dessous du seuil de pauvreté et l’évolution de la population. Par conséquent, nous traiterons la variable 1 (Pop_Chng) comme une variable prédictive.

Voir les résultats

Coefficients de régression

Riz. 5. Coefficients de régression de Pt_Poor sur Pop_Chng.

A l'intersection de la ligne Pop_Chng et de la colonne Param. le coefficient non standardisé pour la régression de Pt_Poor sur Pop_Chng est de -0,40374. Cela signifie que pour chaque unité de diminution de la population, il y a une augmentation du taux de pauvreté de 0,40374. Les limites de confiance supérieure et inférieure (par défaut) à 95 % pour ce coefficient non standardisé n'incluent pas zéro, le coefficient de régression est donc significatif au niveau p.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Répartition variable

Les coefficients de corrélation peuvent devenir considérablement surestimés ou sous-estimés si d'importantes valeurs aberrantes sont présentes dans les données. Etudions la répartition de la variable dépendante Pt_Poor par quartier. Pour ce faire, construisons un histogramme de la variable Pt_Poor.

Riz. 6. Histogramme de la variable Pt_Poor.

Comme vous pouvez le constater, la distribution de cette variable diffère sensiblement de la distribution normale. Cependant, même si deux comtés (les deux colonnes de droite) ont un pourcentage de familles se trouvant en dessous du seuil de pauvreté plus élevé que prévu selon une distribution normale, ils semblent se situer « dans la fourchette ».

Riz. 7. Histogramme de la variable Pt_Poor.

Ce jugement est quelque peu subjectif. En règle générale, les valeurs aberrantes doivent être prises en compte si l'observation (ou les observations) ne se situe pas dans l'intervalle (moyenne ± 3 fois écart-type). Dans ce cas, il convient de répéter l’analyse avec et sans valeurs aberrantes pour s’assurer qu’elles n’ont pas d’effet majeur sur la corrélation entre les membres de la population.

Nuage de points

Si l’une des hypothèses porte a priori sur la relation entre des variables données, alors il est utile de la tester sur le graphique du nuage de points correspondant.

Riz. 8. Diagramme de dispersion.

Le nuage de points montre une nette corrélation négative (-0,65) entre les deux variables. Il montre également l'intervalle de confiance de 95 % pour la droite de régression, c'est-à-dire qu'il y a une probabilité de 95 % que la droite de régression se situe entre les deux courbes en pointillés.

Critères de signification

Riz. 9. Tableau contenant les critères de signification.

Le test du coefficient de régression Pop_Chng confirme que Pop_Chng est fortement lié à Pt_Poor , p<.001 .

Conclusion

Cet exemple montre comment analyser un plan de régression simple. Des interprétations de coefficients de régression non standardisés et standardisés ont également été présentées. L'importance d'étudier la distribution des réponses d'une variable dépendante est discutée et une technique permettant de déterminer la direction et la force de la relation entre un prédicteur et une variable dépendante est démontrée.

L'analyse de régression est une méthode de recherche statistique qui permet de montrer la dépendance d'un paramètre particulier à une ou plusieurs variables indépendantes. À l’ère pré-informatique, son utilisation était assez difficile, surtout lorsqu’il s’agissait de gros volumes de données. Aujourd'hui, après avoir appris à créer une régression dans Excel, vous pouvez résoudre des problèmes statistiques complexes en quelques minutes seulement. Vous trouverez ci-dessous des exemples spécifiques issus du domaine de l’économie.

Types de régression

Ce concept lui-même a été introduit en mathématiques en 1886. La régression se produit :

  • linéaire;
  • parabolique;
  • calme;
  • exponentiel;
  • hyperbolique;
  • démonstratif;
  • logarithmique.

Exemple 1

Considérons le problème de la détermination de la dépendance du nombre de membres de l'équipe qui ont démissionné par rapport au salaire moyen dans 6 entreprises industrielles.

Tâche. Dans six entreprises, le salaire mensuel moyen et le nombre de salariés qui ont démissionné volontairement ont été analysés. Sous forme de tableau, nous avons :

Nombre de personnes qui ont arrêté

Salaire

30 000 roubles

35 000 roubles

40 000 roubles

45 000 roubles

50 000 roubles

55 000 roubles

60 000 roubles

Pour déterminer la dépendance du nombre de travailleurs qui quittent leur emploi par rapport au salaire moyen dans 6 entreprises, le modèle de régression a la forme de l'équation Y = a 0 + a 1 x 1 +...+ak x k, où x i sont les variables d'influence, a i sont les coefficients de régression et k est le nombre de facteurs.

Pour ce problème, Y est l'indicateur de départ d'employés, et le facteur d'influence est le salaire, que nous désignons par X.

Utiliser les capacités du tableur Excel

L'analyse de régression dans Excel doit être précédée de l'application de fonctions intégrées aux données tabulaires existantes. Cependant, à ces fins, il est préférable d'utiliser le module complémentaire très utile « Analysis Pack ». Pour l'activer il vous faut :

  • depuis l'onglet « Fichier », allez dans la section « Options » ;
  • dans la fenêtre qui s'ouvre, sélectionnez la ligne « Modules complémentaires » ;
  • cliquez sur le bouton « Go » situé en bas, à droite de la ligne « Gestion » ;
  • cochez la case à côté du nom « Package d'analyse » et confirmez vos actions en cliquant sur « Ok ».

Si tout est fait correctement, le bouton requis apparaîtra sur le côté droit de l'onglet « Données », situé au-dessus de la feuille de calcul Excel.

dans Excel

Maintenant que nous disposons de tous les outils virtuels nécessaires pour effectuer des calculs économétriques, nous pouvons commencer à résoudre notre problème. Pour ça:

  • Cliquez sur le bouton « Analyse des données » ;
  • dans la fenêtre qui s'ouvre, cliquez sur le bouton « Régression » ;
  • dans l'onglet qui apparaît, saisissez la plage de valeurs pour Y (le nombre d'employés démissionnaires) et pour X (leurs salaires) ;
  • Nous confirmons nos actions en appuyant sur le bouton « Ok ».

En conséquence, le programme remplira automatiquement une nouvelle feuille de calcul avec les données d'analyse de régression. Note! Excel vous permet de définir manuellement l'emplacement que vous préférez à cet effet. Par exemple, il pourrait s'agir de la même feuille où se trouvent les valeurs Y et X, ou même d'un nouveau classeur spécialement conçu pour stocker ces données.

Analyse des résultats de régression pour le R-carré

Dans Excel, les données obtenues lors du traitement des données dans l'exemple considéré ont la forme :

Tout d’abord, vous devez faire attention à la valeur R au carré. Il représente le coefficient de détermination. Dans cet exemple, R carré = 0,755 (75,5 %), c'est-à-dire que les paramètres calculés du modèle expliquent la relation entre les paramètres considérés à 75,5 %. Plus la valeur du coefficient de détermination est élevée, plus le modèle sélectionné est adapté à une tâche spécifique. On considère que la situation réelle est correctement décrite lorsque la valeur R-carré est supérieure à 0,8. Si R au carré<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analyse des cotes

Le nombre 64,1428 montre quelle sera la valeur de Y si toutes les variables xi du modèle que nous considérons sont remises à zéro. En d’autres termes, on peut affirmer que la valeur du paramètre analysé est également influencée par d’autres facteurs qui ne sont pas décrits dans un modèle spécifique.

Le coefficient suivant -0,16285, situé dans la cellule B18, montre le poids de l'influence de la variable X sur Y. Cela signifie que le salaire mensuel moyen des salariés au sein du modèle considéré affecte le nombre de sortants avec un poids de -0,16285, soit le degré de son influence est complètement faible. Le signe "-" indique que le coefficient est négatif. C'est une évidence, puisque chacun sait que plus le salaire dans l'entreprise est élevé, moins les personnes expriment le désir de mettre fin au contrat de travail ou de démissionner.

Régression multiple

Ce terme fait référence à une équation de relation à plusieurs variables indépendantes de la forme :

y=f(x 1 +x 2 +…x m) + ε, où y est la caractéristique résultante (variable dépendante) et x 1, x 2,…x m sont des caractéristiques factorielles (variables indépendantes).

Estimation des paramètres

Pour la régression multiple (MR), elle est réalisée selon la méthode des moindres carrés (OLS). Pour les équations linéaires de la forme Y = a + b 1 x 1 +…+b m x m + ε nous construisons un système d'équations normales (voir ci-dessous)

Pour comprendre le principe de la méthode, considérons un cas à deux facteurs. On a alors une situation décrite par la formule

De là, nous obtenons :

où σ est la variance de la caractéristique correspondante reflétée dans l'indice.

OLS est applicable à l’équation MR sur une échelle standardisée. Dans ce cas, on obtient l'équation :

dans laquelle t y, t x 1, … t xm sont des variables standardisées, dont les valeurs moyennes sont égales à 0 ; β i sont les coefficients de régression standardisés et l'écart type est 1.

Veuillez noter que tous les β i dans ce cas sont spécifiés comme normalisés et centralisés, leur comparaison les uns avec les autres est donc considérée comme correcte et acceptable. De plus, il est habituel d’éliminer les facteurs en écartant ceux qui présentent les valeurs βi les plus faibles.

Problème utilisant l'équation de régression linéaire

Supposons que nous ayons un tableau de la dynamique des prix pour un produit spécifique N au cours des 8 derniers mois. Il est nécessaire de prendre une décision sur l'opportunité d'en acheter un lot au prix de 1850 roubles/t.

numéro du mois

nom du mois

prix du produit SUBST

1750 roubles par tonne

1755 roubles par tonne

1767 roubles par tonne

1760 roubles par tonne

1770 roubles par tonne

1790 roubles par tonne

1810 roubles par tonne

1840 roubles par tonne

Pour résoudre ce problème dans le tableur Excel, vous devez utiliser l'outil « Analyse des données », déjà connu grâce à l'exemple présenté ci-dessus. Ensuite, sélectionnez la section « Régression » et définissez les paramètres. Il ne faut pas oublier que dans le champ « Intervalle de saisie Y », une plage de valeurs doit être saisie pour la variable dépendante (dans ce cas, les prix des marchandises dans des mois spécifiques de l'année), et dans le champ « Intervalle de saisie X ». - pour la variable indépendante (numéro du mois). Confirmez l'action en cliquant sur « OK ». Sur une nouvelle feuille (si cela est indiqué), nous obtenons des données de régression.

En les utilisant, nous construisons une équation linéaire de la forme y=ax+b, où les paramètres a et b sont les coefficients de la ligne portant le nom du numéro du mois et les coefficients et lignes « Y-intersection » de la feuille avec les résultats de l’analyse de régression. Ainsi, l'équation de régression linéaire (LR) pour la tâche 3 s'écrit :

Prix ​​du produit N = 11,714* numéro du mois + 1727,54.

ou en notation algébrique

y = 11,714 x + 1727,54

Analyse des résultats

Pour décider si l'équation de régression linéaire résultante est adéquate, les coefficients de corrélation multiple (MCC) et de détermination sont utilisés, ainsi que le test de Fisher et le test t de Student. Dans la feuille de calcul Excel contenant les résultats de régression, ils sont appelés respectivement multiple R, R-carré, F-statistique et t-statistique.

KMC R permet d'évaluer l'étroitesse de la relation probabiliste entre les variables indépendantes et dépendantes. Sa valeur élevée indique un lien assez fort entre les variables « Nombre de mois » et « Prix du produit N en roubles pour 1 tonne ». Cependant, la nature de cette relation reste inconnue.

Le carré du coefficient de détermination R2 (RI) est une caractéristique numérique de la proportion de la dispersion totale et montre la dispersion de quelle partie des données expérimentales, c'est-à-dire les valeurs de la variable dépendante correspondent à l'équation de régression linéaire. Dans le problème considéré, cette valeur est égale à 84,8 %, c'est-à-dire que les données statistiques sont décrites avec un haut degré de précision par le SD résultant.

Les statistiques F, également appelées test de Fisher, sont utilisées pour évaluer la signification d'une relation linéaire, réfutant ou confirmant l'hypothèse de son existence.

(Test de Student) permet d'évaluer la significativité du coefficient à terme inconnu ou libre de la relation linéaire. Si la valeur du test t > t cr, alors l'hypothèse sur l'insignifiance du terme libre équation linéaire rejeté.

Dans le problème considéré pour le terme libre, à l'aide des outils Excel, il a été obtenu que t = 169,20903 et p = 2,89E-12, c'est-à-dire que nous avons une probabilité nulle que l'hypothèse correcte sur l'insignifiance du terme libre soit rejetée . Pour le coefficient pour l'inconnu t=5,79405 et p=0,001158. En d'autres termes, la probabilité que l'hypothèse correcte sur l'insignifiance du coefficient pour une inconnue soit rejetée est de 0,12 %.

Ainsi, on peut affirmer que l’équation de régression linéaire qui en résulte est adéquate.

Le problème de la faisabilité de l'achat d'un bloc d'actions

La régression multiple dans Excel est effectuée à l'aide du même outil d'analyse de données. Considérons un problème d'application spécifique.

La direction de la société NNN doit décider de l'opportunité d'acquérir une participation de 20 % dans MMM JSC. Le coût du package (SP) est de 70 millions de dollars américains. Les spécialistes de NNN ont collecté des données sur des transactions similaires. Il a été décidé d'évaluer la valeur du bloc d'actions selon des paramètres, exprimés en millions de dollars américains, tels que :

  • comptes créditeurs (VK);
  • volume de chiffre d'affaires annuel (VO) ;
  • comptes clients (VD);
  • coût des immobilisations (COF).

De plus, le paramètre des arriérés de salaires de l'entreprise (V3 P) en milliers de dollars américains est utilisé.

Solution utilisant un tableur Excel

Tout d'abord, vous devez créer un tableau de données sources. Cela ressemble à ceci :

  • appeler la fenêtre « Analyse des données » ;
  • sélectionnez la section « Régression » ;
  • Dans la case « Intervalle de saisie Y », saisissez la plage de valeurs des variables dépendantes de la colonne G ;
  • Cliquez sur l'icône avec une flèche rouge à droite de la fenêtre « Intervalle de saisie X » et mettez en surbrillance la plage de toutes les valeurs des colonnes B, C, D, F de la feuille.

Marquez l'élément « Nouvelle feuille de calcul » et cliquez sur « Ok ».

Obtenez une analyse de régression pour un problème donné.

Etude des résultats et conclusions

Nous « collectons » l'équation de régression à partir des données arrondies présentées ci-dessus sur la feuille de calcul Excel :

SP = 0,103*SOF + 0,541*VO - 0,031*VK +0,405*VD +0,691*VZP - 265,844.

Sous une forme mathématique plus familière, cela peut s’écrire :

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Les données pour MMM JSC sont présentées dans le tableau :

En les remplaçant dans l'équation de régression, nous obtenons un chiffre de 64,72 millions de dollars américains. Cela signifie que les actions de MMM JSC ne valent pas la peine d'être achetées, car leur valeur de 70 millions de dollars américains est assez gonflée.

Comme vous pouvez le constater, l'utilisation du tableur Excel et de l'équation de régression a permis de prendre une décision éclairée quant à la faisabilité d'une transaction bien précise.

Vous savez maintenant ce qu'est la régression. Les exemples Excel discutés ci-dessus vous aideront à résoudre des problèmes pratiques dans le domaine de l'économétrie.

Dans les articles précédents, l'analyse se concentrait souvent sur une seule variable numérique, telle que les rendements des fonds communs de placement, les temps de chargement des pages Web ou la consommation de boissons gazeuses. Dans cette note et les suivantes, nous examinerons les méthodes permettant de prédire les valeurs d'une variable numérique en fonction des valeurs d'une ou plusieurs autres variables numériques.

Le matériel sera illustré par un exemple transversal. Prévision du volume des ventes dans un magasin de vêtements. La chaîne de magasins de vêtements discount Tournesols est en constante expansion depuis 25 ans. Cependant, l’entreprise n’a actuellement pas d’approche systématique pour sélectionner de nouveaux points de vente. Le lieu dans lequel une entreprise a l'intention d'ouvrir un nouveau magasin est déterminé sur la base de considérations subjectives. Les critères de sélection sont des conditions de location avantageuses ou l’idée du gérant quant à l’emplacement idéal du magasin. Imaginez que vous êtes à la tête du service des projets spéciaux et de la planification. Vous avez pour mission d'élaborer un plan stratégique pour l'ouverture de nouveaux magasins. Ce plan doit inclure une prévision des ventes annuelles des magasins nouvellement ouverts. Vous pensez que l'espace de vente au détail est directement lié aux revenus et souhaitez en tenir compte dans votre processus décisionnel. Comment développer un modèle statistique pour prédire les ventes annuelles en fonction de la taille d’un nouveau magasin ?

En règle générale, l'analyse de régression est utilisée pour prédire les valeurs d'une variable. Son objectif est de développer un modèle statistique capable de prédire les valeurs d'une variable dépendante, ou réponse, à partir des valeurs d'au moins une variable indépendante ou explicative. Dans cette note, nous examinerons la régression linéaire simple - une méthode statistique qui vous permet de prédire les valeurs d'une variable dépendante. Oui par valeurs de variables indépendantes X. Les notes suivantes décriront un modèle de régression multiple conçu pour prédire les valeurs d'une variable indépendante Oui basé sur les valeurs de plusieurs variables dépendantes ( X 1, X 2, …, Xk).

Téléchargez la note au format ou, exemples au format

Types de modèles de régression

ρ 1 – coefficient d'autocorrélation ; Si ρ 1 = 0 (pas d'autocorrélation), D≈ 2 ; Si ρ 1 ≈ 1 (autocorrélation positive), D≈ 0 ; Si ρ 1 = -1 (autocorrélation négative), D ≈ 4.

En pratique, l'application du critère de Durbin-Watson repose sur la comparaison de la valeur D avec des valeurs théoriques critiques dL Et dU pour un nombre donné d'observations n, nombre de variables indépendantes du modèle k(pour une régression linéaire simple k= 1) et niveau de signification α. Si D< d L , l'hypothèse de l'indépendance des écarts aléatoires est rejetée (il existe donc une autocorrélation positive) ; Si D>dU, l’hypothèse n’est pas rejetée (c’est-à-dire qu’il n’y a pas d’autocorrélation) ; Si dL< D < d U , il n'existe pas de motifs suffisants pour prendre une décision. Lorsque la valeur calculée D dépasse 2, alors avec dL Et dU Ce n'est pas le coefficient lui-même qui est comparé D, et l'expression (4 – D).

Pour calculer les statistiques Durbin-Watson dans Excel, tournons-nous vers le tableau du bas de la Fig. 14 Retrait du solde. Le numérateur de l'expression (10) est calculé à l'aide de la fonction =SUMMAR(array1;array2) et le dénominateur =SUMMAR(array) (Fig. 16).

Riz. 16. Formules de calcul des statistiques de Durbin-Watson

Dans notre exemple D= 0,883. La question principale est la suivante : quelle valeur de la statistique de Durbin-Watson doit être considérée comme suffisamment petite pour conclure à l’existence d’une autocorrélation positive ? Il faut corréler la valeur de D avec les valeurs critiques ( dL Et dU), en fonction du nombre d'observations n et le niveau de signification α (Fig. 17).

Riz. 17. Valeurs critiques des statistiques de Durbin-Watson (fragment de tableau)

Ainsi, dans le problème du volume des ventes dans un magasin livrant des marchandises à domicile, il existe une variable indépendante ( k= 1), 15 observations ( n= 15) et le niveau de signification α = 0,05. Ainsi, dL= 1,08 et dU= 1,36. Parce que le D = 0,883 < dL= 1,08, il existe une autocorrélation positive entre les résidus, la méthode des moindres carrés ne peut pas être utilisée.

Tester des hypothèses sur la pente et le coefficient de corrélation

Ci-dessus, la régression a été utilisée uniquement à des fins de prévision. Pour déterminer les coefficients de régression et prédire la valeur d'une variable Oui pour une valeur de variable donnée X La méthode des moindres carrés a été utilisée. De plus, nous avons examiné l’erreur quadratique moyenne de l’estimation et le coefficient de corrélation mixte. Si l'analyse des résidus confirme que les conditions d'applicabilité de la méthode des moindres carrés ne sont pas violées et que le modèle de régression linéaire simple est adéquat, sur la base des données de l'échantillon, on peut affirmer qu'il existe une relation linéaire entre les variables du population.

Applicationt -critères de pente. En testant si la pente de population β 1 est égale à zéro, vous pouvez déterminer s'il existe une relation statistiquement significative entre les variables X Et Oui. Si cette hypothèse est rejetée, on peut affirmer qu'entre les variables X Et Oui il existe une relation linéaire. Les hypothèses nulles et alternatives sont formulées comme suit : H 0 : β 1 = 0 (il n'y a pas de dépendance linéaire), H1 : β 1 ≠ 0 (il y a une dépendance linéaire). Prieuré A t-la statistique est égale à la différence entre la pente de l'échantillon et la valeur hypothétique de la pente de la population, divisée par l'erreur quadratique moyenne de l'estimation de la pente :

(11) t = (b 1 β 1 ) / S b 1

b 1 – pente de régression directe sur des données d'échantillon, β1 – pente hypothétique de population directe, et statistiques de test t Il a t-distribution avec n-2 degrés de liberté.

Vérifions s'il existe une relation statistiquement significative entre la taille du magasin et les ventes annuelles à α = 0,05. t-le critère est affiché avec d'autres paramètres lorsqu'il est utilisé Pack d'analyse(option Régression). Les résultats complets du package d’analyse sont présentés dans la Fig. 4, fragment lié aux statistiques t - sur la Fig. 18.

Riz. 18. Résultats de la candidature t

Depuis le nombre de magasins n= 14 (voir Fig. 3), valeur critique t-les statistiques au niveau de signification de α = 0,05 peuvent être trouvées à l'aide de la formule : tL=ETUDIANT.ARV(0,025,12) = –2,1788, où 0,025 est la moitié du niveau de signification et 12 = n – 2; t U=ÉTUDIANT.OBR(0,975,12) = +2,1788.

Parce que le t-statistiques = 10,64 > t U= 2,1788 (Fig. 19), hypothèse nulle H 0 rejeté. D'un autre côté, R.-la valeur pour X= 10,6411, calculé par la formule =1-STUDENT.DIST(D3,12,TRUE), est approximativement égal à zéro, donc l'hypothèse H 0 encore une fois rejeté. Le fait que R.-une valeur presque nulle signifie que s'il n'y avait pas de véritable relation linéaire entre la taille des magasins et les ventes annuelles, il serait pratiquement impossible de la détecter à l'aide d'une régression linéaire. Il existe donc une relation linéaire statistiquement significative entre les ventes annuelles moyennes des magasins et la taille des magasins.

Riz. 19. Test de l'hypothèse sur la pente de population à un niveau de signification de 0,05 et 12 degrés de liberté

ApplicationF -critères de pente. Une approche alternative pour tester les hypothèses sur la pente de la régression linéaire simple consiste à utiliser F-critères. Rappelons que F-test est utilisé pour tester la relation entre deux variances (pour plus de détails, voir). Lors du test de l'hypothèse de la pente, la mesure des erreurs aléatoires est la variance d'erreur (la somme des erreurs quadratiques divisée par le nombre de degrés de liberté), donc F-critère utilise le rapport de la variance expliquée par la régression (c'est-à-dire la valeur RSS, divisé par le nombre de variables indépendantes k), à la variance d'erreur ( MSE = SYX 2 ).

Prieuré A F-la statistique est égale au carré moyen de régression (MSR) divisé par la variance d'erreur (MSE) : F = MSR/ MSE, Où MSR=RSS / k, MSE =ESS/(n– k – 1), k– nombre de variables indépendantes dans le modèle de régression. Statistiques des tests F Il a F-distribution avec k Et n– k – 1 degrés de liberté.

Pour un niveau de signification α donné, la règle de décision est formulée comme suit : si F>FU, l'hypothèse nulle est rejetée ; sinon, il n'est pas rejeté. Les résultats sont présentés sous la forme tableau croisé dynamique Les analyses de variance sont présentées dans la Fig. 20.

Riz. 20. Tableau d'analyse de variance pour tester l'hypothèse sur la signification statistique du coefficient de régression

De même t-critère F-le critère est affiché dans le tableau lorsqu'il est utilisé Pack d'analyse(option Régression). Résultats complets des travaux Pack d'analyse sont montrés sur la Fig. 4, fragment lié à F-statistiques – sur la Fig. 21.

Riz. 21. Résultats de la candidature F-critères obtenus à l'aide du package d'analyse Excel

La statistique F est de 113,23, et R.-valeur proche de zéro (cellule ImportanceF). Si le niveau de signification α est de 0,05, déterminez la valeur critique F-des distributions avec un et 12 degrés de liberté peuvent être obtenues en utilisant la formule F U=F.OBR(1-0,05;1;12) = 4,7472 (Fig. 22). Parce que le F = 113,23 > F U= 4,7472, et R.-valeur proche de 0< 0,05, нулевая гипотеза H 0 est rejeté, c'est-à-dire La taille d'un magasin est étroitement liée à ses ventes annuelles.

Riz. 22. Test de l'hypothèse de la pente de population à un niveau de signification de 0,05 avec un et 12 degrés de liberté

Intervalle de confiance contenant la pente β 1 . Pour tester l'hypothèse d'une relation linéaire entre les variables, vous pouvez construire un intervalle de confiance contenant la pente β 1 et vérifier que la valeur hypothétique β 1 = 0 appartient à cet intervalle. Le centre de l'intervalle de confiance contenant la pente β 1 est la pente de l'échantillon b 1 , et ses limites sont les quantités b 1 ±tn –2 S b 1

Comme le montre la fig. 18, b 1 = +1,670, n = 14, S b 1 = 0,157. t 12 =ÉTUDIANT.ARV(0,975,12) = 2,1788. Ainsi, b 1 ±tn –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, soit + 1,328 ≤ β 1 ≤ +2,012. Il existe donc une probabilité de 0,95 que la pente de la population se situe entre +1,328 et +2,012 (soit entre 1 328 000 $ et 2 012 000 $). Étant donné que ces valeurs sont supérieures à zéro, il existe une relation linéaire statistiquement significative entre les ventes annuelles et la superficie du magasin. Si l’intervalle de confiance contenait zéro, il n’y aurait aucune relation entre les variables. De plus, l’intervalle de confiance signifie que chaque augmentation de la superficie du magasin de 1 000 m². ft. entraîne une augmentation du volume moyen des ventes comprise entre 1 328 000 $ et 2 012 000 $.

Usaget -critères pour le coefficient de corrélation. le coefficient de corrélation a été introduit r, qui est une mesure de la relation entre deux variables numériques. Il peut être utilisé pour déterminer s’il existe une relation statistiquement significative entre deux variables. Notons le coefficient de corrélation entre les populations des deux variables par le symbole ρ. Les hypothèses nulle et alternative sont formulées comme suit : H 0: ρ = 0 (pas de corrélation), H1: ρ ≠ 0 (il existe une corrélation). Vérification de l'existence d'une corrélation :

r = + , Si b 1 > 0, r = – , Si b 1 < 0. Тестовая статистика t Il a t-distribution avec n-2 degrés de liberté.

Dans le problème de la chaîne de magasins Tournesols r2= 0,904, une b1- +1,670 (voir Fig. 4). Parce que le b1> 0, le coefficient de corrélation entre les ventes annuelles et la taille du magasin est r= +√0,904 = +0,951. Testons l'hypothèse nulle selon laquelle il n'y a pas de corrélation entre ces variables en utilisant t-statistiques:

Au niveau de signification de α = 0,05, l’hypothèse nulle doit être rejetée car t= 10,64 > 2,1788. Ainsi, on peut affirmer qu’il existe une relation statistiquement significative entre les ventes annuelles et la taille du magasin.

Lorsqu’on discute des inférences concernant la pente de la population, les intervalles de confiance et les tests d’hypothèses sont utilisés de manière interchangeable. Cependant, le calcul de l'intervalle de confiance contenant le coefficient de corrélation s'avère plus difficile, car le type de distribution d'échantillonnage de la statistique r dépend du véritable coefficient de corrélation.

Estimation de l'espérance mathématique et prédiction de valeurs individuelles

Cette section traite des méthodes d'estimation de l'espérance mathématique d'une réponse Oui et prédictions de valeurs individuelles Oui pour des valeurs données de la variable X.

Construire un intervalle de confiance. Dans l'exemple 2 (voir section ci-dessus Méthode des moindres carrés) l'équation de régression a permis de prédire la valeur de la variable Oui X. Dans le problème du choix d'un emplacement pour un point de vente, le volume annuel moyen des ventes dans un magasin d'une superficie de 4000 m². pieds était égal à 7,644 millions de dollars. Cependant, cette estimation des attentes mathématiques de la population générale est ponctuelle. Pour estimer l'espérance mathématique de la population, le concept d'intervalle de confiance a été proposé. De même, nous pouvons introduire le concept intervalle de confiance pour l'espérance mathématique de la réponseà valeur définie variable X:

, = b 0 + b 1 X je– la valeur prédite est variable Ouià X = X je, SYX– erreur quadratique moyenne, n- taille de l'échantillon, Xje- valeur spécifiée de la variable X, µ Oui|X = Xjevaleur attendue variable Ouià X = XI, SSX =

L'analyse de la formule (13) montre que la largeur de l'intervalle de confiance dépend de plusieurs facteurs. À un niveau de signification donné, une augmentation de l'amplitude des fluctuations autour de la droite de régression, mesurée à l'aide de l'erreur quadratique moyenne, entraîne une augmentation de la largeur de l'intervalle. D’un autre côté, comme on pouvait s’y attendre, une augmentation de la taille de l’échantillon s’accompagne d’un rétrécissement de l’intervalle. De plus, la largeur de l'intervalle change en fonction des valeurs Xje. Si la valeur de la variable Oui prévu pour les quantités X, proche de la valeur moyenne , l'intervalle de confiance s'avère plus étroit que lors de la prédiction de la réponse pour des valeurs éloignées de la moyenne.

Disons que lors du choix d'un emplacement de magasin, nous souhaitons construire un intervalle de confiance de 95 % pour les ventes annuelles moyennes de tous les magasins dont la superficie est de 4 000 mètres carrés. pieds:

Ainsi, le volume annuel moyen des ventes dans tous les magasins d'une superficie de 4 000 m². pieds, avec une probabilité de 95%, se situe entre 6,971 et 8,317 millions de dollars.

Calculez l'intervalle de confiance pour la valeur prédite. En plus de l'intervalle de confiance pour l'espérance mathématique de la réponse pour une valeur donnée de la variable X, il est souvent nécessaire de connaître l'intervalle de confiance de la valeur prédite. Bien que la formule permettant de calculer un tel intervalle de confiance soit très similaire à la formule (13), cet intervalle contient la valeur prédite plutôt que l'estimation du paramètre. Intervalle de réponse prévue OuiX = XI pour une valeur de variable spécifique Xje déterminé par la formule :

Supposons que, lors du choix d'un emplacement pour un point de vente, nous souhaitions construire un intervalle de confiance de 95 % pour le volume de ventes annuel prévu pour un magasin dont la superficie est de 4 000 mètres carrés. pieds:

Par conséquent, le volume de ventes annuel prévu pour un magasin d'une superficie de 4 000 m². pieds, avec une probabilité de 95 %, se situe entre 5,433 et 9,854 millions de dollars. Comme nous pouvons le constater, l'intervalle de confiance pour la valeur de réponse prédite est beaucoup plus large que l'intervalle de confiance pour son espérance mathématique. En effet, la variabilité dans la prédiction des valeurs individuelles est beaucoup plus grande que dans l'estimation de l'espérance mathématique.

Pièges et problèmes éthiques associés à l’utilisation de la régression

Difficultés associées à l'analyse de régression :

  • Ignorer les conditions d’applicabilité de la méthode des moindres carrés.
  • Évaluation erronée des conditions d’applicabilité de la méthode des moindres carrés.
  • Choix incorrect de méthodes alternatives lorsque les conditions d'applicabilité de la méthode des moindres carrés ne sont pas respectées.
  • Application de l'analyse de régression sans connaissance approfondie du sujet de recherche.
  • Extrapoler une régression au-delà de la plage de la variable explicative.
  • Confusion entre relations statistiques et causales.

Utilisation généralisée des feuilles de calcul et logiciel pour les calculs statistiques a éliminé les problèmes de calcul qui empêchaient l'utilisation de l'analyse de régression. Cependant, cela a conduit au fait que l'analyse de régression était utilisée par des utilisateurs qui ne disposaient pas de qualifications et de connaissances suffisantes. Comment les utilisateurs peuvent-ils connaître les méthodes alternatives si beaucoup d’entre eux ne disposent pas de la moindre idée sur les conditions d'applicabilité de la méthode des moindres carrés et ne sais pas comment vérifier leur respect ?

Le chercheur ne doit pas se laisser emporter par des calculs de chiffres - en calculant le décalage, la pente et le coefficient de corrélation mixte. Il a besoin de connaissances plus approfondies. Illustrons cela avec un exemple classique tiré des manuels scolaires. Anscombe a montré que les quatre ensembles de données présentés dans la Fig. 23, ont les mêmes paramètres de régression (Fig. 24).

Riz. 23. Quatre ensembles de données artificielles

Riz. 24. Analyse de régression de quatre ensembles de données artificielles ; fini avec Pack d'analyse(cliquez sur l'image pour agrandir l'image)

Ainsi, du point de vue de l’analyse de régression, tous ces ensembles de données sont complètement identiques. Si l’analyse s’était arrêtée là, nous aurions perdu beaucoup informations utiles. Ceci est démontré par les nuages ​​de points (Figure 25) et les tracés résiduels (Figure 26) construits pour ces ensembles de données.

Riz. 25. Nuages ​​de points pour quatre ensembles de données

Les nuages ​​de points et les tracés résiduels indiquent que ces données diffèrent les unes des autres. Le seul ensemble distribué le long d’une ligne droite est l’ensemble A. Le tracé des résidus calculés à partir de l’ensemble A n’a aucun motif. On ne peut pas en dire autant des ensembles B, C et D. Le nuage de points tracé pour l’ensemble B montre une tendance quadratique prononcée. Cette conclusion est confirmée par le tracé résiduel, qui a une forme parabolique. Le nuage de points et le tracé des résidus montrent que l'ensemble de données B contient une valeur aberrante. Dans cette situation, il est nécessaire d’exclure la valeur aberrante de l’ensemble de données et de répéter l’analyse. Une méthode permettant de détecter et d’éliminer les valeurs aberrantes dans les observations est appelée analyse d’influence. Après avoir éliminé la valeur aberrante, le résultat de la réestimation du modèle peut être complètement différent. Le nuage de points tracé à partir des données de l'ensemble G illustre une situation inhabituelle dans laquelle le modèle empirique dépend de manière significative d'une réponse individuelle ( X8 = 19, Oui 8 = 12,5). De tels modèles de régression doivent être calculés avec une attention particulière. Ainsi, les nuages ​​de points et les diagrammes résiduels sont extrêmement outil nécessaire analyse de régression et devrait en faire partie intégrante. Sans eux, l’analyse de régression n’est pas crédible.

Riz. 26. Graphiques résiduels pour quatre ensembles de données

Comment éviter les pièges de l'analyse de régression :

  • Analyse des relations possibles entre les variables X Et Oui commencez toujours par dessiner un nuage de points.
  • Avant d'interpréter les résultats de l'analyse de régression, vérifiez les conditions de son applicabilité.
  • Tracez les résidus par rapport à la variable indépendante. Cela permettra de déterminer dans quelle mesure le modèle empirique correspond aux résultats d'observation et de détecter une violation de la constance de la variance.
  • Utilisez des histogrammes, des diagrammes à tiges et à feuilles, des diagrammes en boîte et des diagrammes de distribution normale pour tester l'hypothèse d'une distribution d'erreurs normale.
  • Si les conditions d'applicabilité de la méthode des moindres carrés ne sont pas remplies, utilisez des méthodes alternatives (par exemple, des modèles de régression quadratique ou multiple).
  • Si les conditions d'applicabilité de la méthode des moindres carrés sont remplies, il est nécessaire de tester l'hypothèse sur la signification statistique des coefficients de régression et de construire des intervalles de confiance contenant l'espérance mathématique et la valeur de réponse prédite.
  • Évitez de prédire les valeurs de la variable dépendante en dehors de la plage de la variable indépendante.
  • Gardez à l’esprit que les relations statistiques ne sont pas toujours de cause à effet. N'oubliez pas que la corrélation entre les variables ne signifie pas qu'il existe une relation de cause à effet entre elles.

Résumé. Comme le montre le schéma fonctionnel (Figure 27), la note décrit le modèle de régression linéaire simple, les conditions de son applicabilité et comment tester ces conditions. Considéré t-critère pour tester la signification statistique de la pente de régression. Un modèle de régression a été utilisé pour prédire les valeurs de la variable dépendante. Un exemple est considéré lié au choix de l'emplacement d'un point de vente au détail, dans lequel la dépendance du volume des ventes annuelles sur la superficie du magasin est examinée. Les informations obtenues vous permettent de sélectionner plus précisément un emplacement pour un magasin et de prédire son volume de ventes annuel. Les notes suivantes poursuivront la discussion sur l'analyse de régression et examineront également plusieurs modèles de régression.

Riz. 27. Diagramme de structure des notes

Des documents du livre Levin et al. Statistics for Managers sont utilisés. – M. : Williams, 2004. – p. 792-872

Si la variable dépendante est catégorielle, une régression logistique doit être utilisée.

Utiliser la méthode graphique.
Cette méthode est utilisée pour représenter visuellement la forme de connexion entre les indicateurs économiques étudiés. Pour ce faire, un graphique est tracé dans un système de coordonnées rectangulaires, avec un tracé le long de l'axe des ordonnées. valeurs individuelles caractéristique résultante Y, et l'axe des x représente les valeurs individuelles de la caractéristique factorielle X.
L'ensemble des points des caractéristiques résultantes et factorielles est appelé champ de corrélation.
Sur la base du champ de corrélation, on peut émettre l'hypothèse (pour la population) que la relation entre toutes les valeurs possibles de X et Y est linéaire.

Équation de régression linéaire a la forme y = bx + a + ε
Ici ε - erreur aléatoire(déviation, indignation).
Raisons de l'existence d'une erreur aléatoire :
1. Défaut d’inclure des variables explicatives significatives dans le modèle de régression ;
2. Agrégation de variables. Par exemple, la fonction de consommation totale est une tentative d’exprimer de manière générale l’ensemble des décisions de dépenses individuelles. Il ne s’agit ici que d’une approximation de relations individuelles ayant des paramètres différents.
3. Description incorrecte de la structure du modèle ;
4. Spécification fonctionnelle incorrecte ;
5. Erreurs de mesure.
Puisque les écarts ε i pour chaque observation spécifique i sont aléatoires et que leurs valeurs dans l'échantillon sont inconnues, alors :
1) à partir des observations x i et y i, seules des estimations des paramètres α et β peuvent être obtenues
2) Les estimations des paramètres α et β du modèle de régression sont respectivement les valeurs a et b, qui sont de nature aléatoire, car correspondre à un échantillon aléatoire ;
Ensuite, l'équation de régression d'estimation (construite à partir de données d'échantillon) aura la forme y = bx + a + ε, où e i sont les valeurs observées (estimations) des erreurs ε i , et a et b sont, respectivement, des estimations de les paramètres α et β du modèle de régression qu’il convient de retrouver.
Pour estimer les paramètres α et β, la méthode des moindres carrés (méthode des moindres carrés) est utilisée.
Système d'équations normales.

Pour nos données, le système d’équations a la forme :

10a + 356b = 49
356a + 2135b = 9485

À partir de la première équation, nous exprimons a et le substituons dans la deuxième équation
On obtient b = 68,16, a = 11,17

Équation de régression:
y = 68,16 x - 11,17

1. Paramètres de l'équation de régression.
Échantillon signifie.



Exemples d'écarts.


Écart-type

1.1. Coefficient de corrélation
Nous calculons l'indicateur de proximité de la connexion. Cet indicateur est un exemple de coefficient de corrélation linéaire, calculé par la formule :

Le coefficient de corrélation linéaire prend des valeurs de –1 à +1.
Les liens entre les caractéristiques peuvent être faibles et forts (étroits). Leurs critères sont évalués selon l'échelle de Chaddock :
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Dans notre exemple, le lien entre le trait Y et le facteur X est très élevé et direct.

1.2. Équation de régression(estimation de l'équation de régression).

L'équation de régression linéaire est y = 68,16 x -11,17
Les coefficients d’une équation de régression linéaire peuvent avoir une signification économique. Coefficient de l'équation de régression montre combien d'unités. le résultat changera lorsque le facteur changera de 1 unité.
Le coefficient b = 68,16 montre l'évolution moyenne de l'indicateur effectif (en unités de mesure y) avec une augmentation ou une diminution de la valeur du facteur x par unité de sa mesure. Dans cet exemple, avec une augmentation de 1 unité, y augmente en moyenne de 68,16.
Le coefficient a = -11,17 montre formellement le niveau prédit de y, mais seulement si x = 0 est proche des valeurs de l'échantillon.
Mais si x = 0 est loin des valeurs d'échantillon de x , alors une interprétation littérale peut conduire à des résultats incorrects, et même si la droite de régression décrit assez précisément les valeurs d'échantillon observées, rien ne garantit que cela le sera également être le cas lors d’une extrapolation à gauche ou à droite.
En remplaçant les valeurs x appropriées dans l'équation de régression, nous pouvons déterminer les valeurs alignées (prévues) de l'indicateur de performance y(x) pour chaque observation.
La relation entre y et x détermine le signe du coefficient de régression b (si > 0 - relation directe, sinon - inverse). Dans notre exemple, la connexion est directe.

1.3. Coefficient d'élasticité.
Il n'est pas conseillé d'utiliser des coefficients de régression (dans l'exemple b) pour évaluer directement l'influence de facteurs sur une caractéristique résultante s'il existe une différence dans les unités de mesure de l'indicateur résultant y et de la caractéristique factorielle x.
À ces fins, des coefficients d'élasticité et des coefficients bêta sont calculés. Le coefficient d'élasticité est trouvé par la formule :


Il montre de quel pourcentage en moyenne l'attribut effectif y change lorsque l'attribut du facteur x change de 1 %. Il ne prend pas en compte le degré de fluctuation des facteurs.
Dans notre exemple, le coefficient d'élasticité est supérieur à 1. Ainsi, si X change de 1 %, Y changera de plus de 1 %. En d’autres termes, X affecte significativement Y.
Coefficient bêta montre par quelle partie de la valeur de sa moyenne écart carré la valeur moyenne de la caractéristique résultante changera lorsque la caractéristique factorielle changera de la valeur de son écart type avec la valeur des variables indépendantes restantes fixées à un niveau constant :

Ceux. une augmentation de x de l'écart type de cet indicateur entraînera une augmentation de la moyenne Y de 0,9796 écarts types de cet indicateur.

1.4. Erreur d'approximation.
Évaluons la qualité de l'équation de régression en utilisant l'erreur d'approximation absolue.


L’erreur étant supérieure à 15 %, il n’est pas conseillé d’utiliser cette équation comme régression.

1.6. Coefficient de détermination.
Le carré du coefficient de corrélation (multiple) est appelé coefficient de détermination, qui montre la proportion de variation de l'attribut résultant expliquée par la variation de l'attribut facteur.
Le plus souvent, lors de l'interprétation du coefficient de détermination, celui-ci est exprimé en pourcentage.
R2 = 0,982 = 0,9596
ceux. dans 95,96 % des cas, les modifications de x entraînent des modifications de y. En d’autres termes, la précision de la sélection de l’équation de régression est élevée. Les 4,04 % restants de la variation de Y s’expliquent par des facteurs non pris en compte dans le modèle.

X oui x2 et 2 xy y(x) (y je -y cp) 2 (a-y(x)) 2 (x je -x cp) 2 |y - yx |:y
0.371 15.6 0.1376 243.36 5.79 14.11 780.89 2.21 0.1864 0.0953
0.399 19.9 0.1592 396.01 7.94 16.02 559.06 15.04 0.163 0.1949
0.502 22.7 0.252 515.29 11.4 23.04 434.49 0.1176 0.0905 0.0151
0.572 34.2 0.3272 1169.64 19.56 27.81 87.32 40.78 0.0533 0.1867
0.607 44.5 .3684 1980.25 27.01 30.2 0.9131 204.49 0.0383 0.3214
0.655 26.8 0.429 718.24 17.55 33.47 280.38 44.51 0.0218 0.2489
0.763 35.7 0.5822 1274.49 27.24 40.83 61.54 26.35 0.0016 0.1438
0.873 30.6 0.7621 936.36 26.71 48.33 167.56 314.39 0.0049 0.5794
2.48 161.9 6.17 26211.61 402 158.07 14008.04 14.66 2.82 0.0236
7.23 391.9 9.18 33445.25 545.2 391.9 16380.18 662.54 3.38 1.81

2. Estimation des paramètres de l'équation de régression.
2.1. Importance du coefficient de corrélation.

En utilisant le tableau de Student avec un niveau de signification α=0,05 et des degrés de liberté k=7, on trouve t crit :
tcrit = (7;0,05) = 1,895
où m = 1 est le nombre de variables explicatives.
Si t observé > t critique, alors la valeur résultante du coefficient de corrélation est considérée comme significative (l'hypothèse nulle selon laquelle le coefficient de corrélation est égal à zéro est rejetée).
Puisque t obs > t crit, nous rejetons l’hypothèse selon laquelle le coefficient de corrélation est égal à 0. En d’autres termes, le coefficient de corrélation est statistiquement significatif
Dans la régression linéaire appariée t 2 r = t 2 b, puis tester les hypothèses sur la signification des coefficients de régression et de corrélation équivaut à tester l'hypothèse sur la signification de l'équation de régression linéaire.

2.3. Analyse de l'exactitude de la détermination des estimations des coefficients de régression.
Une estimation impartiale de la dispersion des perturbations est la valeur :


S 2 y = 94,6484 - variance inexpliquée (une mesure de la propagation de la variable dépendante autour de la droite de régression).
S y = 9,7287 - erreur type d'estimation (erreur type de régression).
S a - écart type Variable aléatoire un.


S b - écart type de la variable aléatoire b.

2.4. Intervalles de confiance pour la variable dépendante.
Les prévisions économiques basées sur le modèle construit supposent que les relations préexistantes entre les variables sont maintenues pendant la période de référence.
Pour prédire la variable dépendante de l'attribut résultant, il est nécessaire de connaître les valeurs prédites de tous les facteurs inclus dans le modèle.
Les valeurs prédites des facteurs sont substituées dans le modèle et des estimations ponctuelles prédictives de l'indicateur étudié sont obtenues. (une + bx p ± ε)


Calculons les limites de l'intervalle dans lequel 95% des valeurs possibles de Y seront concentrées avec un nombre illimité d'observations et X p = 1 (-11,17 + 68,16*1 ± 6,4554)
(50.53;63.44)

Intervalles de confiance individuels pourOuià une valeur donnéeX.
(une + bx je ± ε)

x je y = -11,17 + 68,16x je εi ymin ymax
0.371 14.11 19.91 -5.8 34.02
0.399 16.02 19.85 -3.83 35.87
0.502 23.04 19.67 3.38 42.71
0.572 27.81 19.57 8.24 47.38
0.607 30.2 19.53 10.67 49.73
0.655 33.47 19.49 13.98 52.96
0.763 40.83 19.44 21.4 60.27
0.873 48.33 19.45 28.88 67.78
2.48 158.07 25.72 132.36 183.79

Avec une probabilité de 95 %, il est possible de garantir que la valeur Y pour un nombre illimité d'observations ne sortira pas des limites des intervalles trouvés.

2.5. Tester des hypothèses concernant les coefficients d'une équation de régression linéaire.
1) statistiques t. Test T de l'étudiant.
Vérifions l'hypothèse H 0 sur l'égalité des coefficients de régression individuels à zéro (si l'alternative n'est pas égale à H 1) au niveau de signification α=0,05.
tcrit = (7;0,05) = 1,895


Puisque 12,8866 > 1,895, la signification statistique du coefficient de régression b est confirmée (nous rejetons l'hypothèse selon laquelle ce coefficient est égal à zéro).


Puisque 2,0914 > 1,895, la signification statistique du coefficient de régression a est confirmée (nous rejetons l'hypothèse selon laquelle ce coefficient est égal à zéro).

Intervalle de confiance pour les coefficients de l’équation de régression.
Déterminons les intervalles de confiance des coefficients de régression, qui avec une fiabilité de 95 % seront les suivants :
(b - t critique S b ; b + t critique S b)
(68.1618 - 1.895 5.2894; 68.1618 + 1.895 5.2894)
(58.1385;78.1852)
Avec une probabilité de 95 %, on peut affirmer que la valeur de ce paramètre se situera dans l'intervalle trouvé.
(à)
(-11.1744 - 1.895 5.3429; -11.1744 + 1.895 5.3429)
(-21.2992;-1.0496)
Avec une probabilité de 95 %, on peut affirmer que la valeur de ce paramètre se situera dans l'intervalle trouvé.

2) Statistiques F. Critère de Fisher.
Le test de la signification d'un modèle de régression est effectué à l'aide du test F de Fisher, dont la valeur calculée est le rapport entre la variance de la série originale d'observations de l'indicateur étudié et l'estimation non biaisée de la variance de la séquence résiduelle. pour ce modèle.
Si la valeur calculée avec lang=EN-US>n-m-1) degrés de liberté est supérieure à la valeur tabulée à un niveau de signification donné, alors le modèle est considéré comme significatif.

où m est le nombre de facteurs dans le modèle.
La signification statistique de la régression linéaire appariée est évaluée à l'aide de l'algorithme suivant :
1. Une hypothèse nulle est émise selon laquelle l'équation dans son ensemble est statistiquement non significative : H 0 : R 2 =0 au niveau de signification α.
2. Ensuite, déterminez la valeur réelle du critère F :


où m=1 pour la régression par paires.
3. La valeur tabulée est déterminée à partir des tableaux de distribution de Fisher pour un niveau de signification donné, en tenant compte du fait que le nombre de degrés de liberté pour la somme totale des carrés (variance plus grande) est de 1 et le nombre de degrés de liberté pour le résidu la somme des carrés (variance plus petite) dans la régression linéaire est n-2 .
4. Si la valeur réelle du test F est inférieure à la valeur du tableau, alors ils disent qu'il n'y a aucune raison de rejeter l'hypothèse nulle.
Dans le cas contraire, l’hypothèse nulle est rejetée et l’hypothèse alternative sur la signification statistique de l’équation dans son ensemble est acceptée avec probabilité (1-α).
Valeur tabulaire du critère avec degrés de liberté k1=1 et k2=7, Fkp = 5,59
Puisque la valeur réelle de F > Fkp, le coefficient de détermination est statistiquement significatif (l'estimation trouvée de l'équation de régression est statistiquement fiable).

Vérification de l'autocorrélation des résidus.
Une condition préalable importante pour construire un modèle de régression qualitative à l'aide des MCO est l'indépendance des valeurs des écarts aléatoires par rapport aux valeurs des écarts dans toutes les autres observations. Cela garantit qu'il n'y a aucune corrélation entre d'éventuels écarts et, en particulier, entre des écarts adjacents.
Autocorrélation (corrélation série) est définie comme la corrélation entre les indicateurs observés ordonnés dans le temps (séries temporelles) ou dans l’espace (séries croisées). L'autocorrélation des résidus (variances) est courante dans l'analyse de régression lors de l'utilisation de données de séries chronologiques et très rare lors de l'utilisation de données transversales.
Dans les problèmes économiques, c'est beaucoup plus courant autocorrélation positive, plutôt que autocorrélation négative. Dans la plupart des cas, une autocorrélation positive est causée par l’influence directionnelle constante de certains facteurs non pris en compte dans le modèle.
Autocorrélation négative signifie en fait qu’un écart positif est suivi d’un écart négatif et vice versa. Cette situation peut se produire si la même relation entre la demande de boissons froides et considérer les revenus sur la base de données saisonnières (hiver-été).
Parmi principales raisons provoquant l'autocorrélation, on distingue :
1. Erreurs de spécification. La non-prise en compte d'une variable explicative importante dans le modèle ou un choix incorrect de la forme de dépendance conduit généralement à des écarts systémiques des points d'observation par rapport à la droite de régression, ce qui peut conduire à une autocorrélation.
2. Inertie. De nombreux indicateurs économiques (inflation, chômage, PNB, etc.) présentent un certain caractère cyclique lié à l'ondulation de l'activité des entreprises. Par conséquent, le changement des indicateurs ne se produit pas instantanément, mais présente une certaine inertie.
3. Effet toile d'araignée. Dans de nombreux domaines de production et autres, les indicateurs économiques réagissent aux changements des conditions économiques avec un retard (décalage temporel).
4. Lissage des données. Souvent, les données sur une certaine période longue sont obtenues en faisant la moyenne des données sur les intervalles qui les constituent. Cela peut conduire à un certain lissage des fluctuations survenues au cours de la période considérée, ce qui peut provoquer une autocorrélation.
Les conséquences de l'autocorrélation sont similaires aux conséquences de l'hétéroscédasticité : les conclusions des statistiques t et F qui déterminent la signification du coefficient de régression et du coefficient de détermination sont probablement incorrectes.

Détection d'autocorrélation

1. Méthode graphique
Il existe un certain nombre d'options pour définir graphiquement l'autocorrélation. L'un d'eux relie les écarts e i aux moments de leur réception i. Dans ce cas, soit l'heure d'obtention des données statistiques, soit le numéro d'ordre de l'observation est porté le long de l'axe des abscisses, et les écarts e i (ou estimations des écarts) sont portés le long de l'axe des ordonnées.
Il est naturel de supposer que s’il existe un certain lien entre les écarts, une autocorrélation se produit. L’absence de dépendance indiquera très probablement l’absence d’autocorrélation.
L'autocorrélation devient plus claire si vous tracez la dépendance de e i sur e i-1.

Test de Durbin-Watson.
Ce critère est le plus connu pour détecter l’autocorrélation.
Lors de l'analyse statistique de l'équation de régression pour stade initial vérifient souvent la faisabilité d'un préalable : les conditions d'indépendance statistique des écarts entre eux. Dans ce cas, la décorrélation des valeurs voisines e i est vérifiée.

oui y(x) e je = y-y(x) e 2 (e je - e je-1) 2
15.6 14.11 1.49 2.21 0
19.9 16.02 3.88 15.04 5.72
22.7 23.04 -0.3429 0.1176 17.81
34.2 27.81 6.39 40.78 45.28
44.5 30.2 14.3 204.49 62.64
26.8 33.47 -6.67 44.51 439.82
35.7 40.83 -5.13 26.35 2.37
30.6 48.33 -17.73 314.39 158.7
161.9 158.07 3.83 14.66 464.81
662.54 1197.14

Pour analyser la corrélation des écarts, les statistiques de Durbin-Watson sont utilisées :

Les valeurs critiques d 1 et d 2 sont déterminées sur la base de tableaux spéciaux pour le niveau de signification requis α, le nombre d'observations n = 9 et le nombre de variables explicatives m = 1.
Il n’y a pas d’autocorrélation si la condition suivante est remplie :
j 1< DW и d 2 < DW < 4 - d 2 .
Sans vous référer aux tableaux, vous pouvez utiliser une règle approximative et supposer qu'il n'y a pas d'autocorrélation des résidus si 1,5< DW < 2.5. Для более надежного вывода целесообразно обращаться к табличным значениям.