Que montre l’équation de régression ? Régression dans Excel : équation, exemples

Calcul des coefficients de l'équation de régression

Le système d'équations (7.8) basé sur l'ED disponible ne peut pas être résolu sans ambiguïté, car le nombre d'inconnues est toujours supérieur au nombre d'équations. Pour surmonter ce problème, des hypothèses supplémentaires sont nécessaires. Bon sens suggère : il convient de choisir les coefficients du polynôme de manière à assurer une erreur minimale d'approximation de l'ED. Diverses mesures peuvent être utilisées pour évaluer les erreurs d’approximation. En tant que telle mesure, j'ai trouvé large application erreur quadratique moyenne. Sur cette base, une méthode spéciale d'estimation des coefficients des équations de régression a été développée - la méthode moindres carrés(MNC). Cette méthode vous permet d'obtenir des estimations du maximum de vraisemblance des coefficients inconnus de l'équation de régression sous l'option de distribution normale, mais elle peut être utilisée pour toute autre distribution de facteurs.

Le MNC repose sur les dispositions suivantes :

· les valeurs des valeurs d'erreur et des facteurs sont indépendantes, et donc décorrélées, c'est-à-dire on suppose que les mécanismes de génération d'interférences ne sont pas liés au mécanisme de génération de valeurs de facteurs ;

· valeur attendue l'erreur ε doit être égale à zéro (la composante constante est incluse dans le coefficient un 0), autrement dit, l’erreur est une grandeur centrée ;

· l'estimation par échantillon de la variance de l'erreur doit être minimale.

Considérons l'utilisation d'OLS en relation avec régression linéaire valeurs standardisées. Pour les grandeurs centrées tu j coefficient un 0 est égal à zéro, alors les équations de régression linéaire

. (7.9)

Entré ici signe spécial"^" désigne les valeurs de l'indicateur calculées à l'aide de l'équation de régression, contrairement aux valeurs obtenues à partir des résultats d'observation.

En utilisant la méthode des moindres carrés, de telles valeurs des coefficients de l'équation de régression sont déterminées qui fournissent un minimum inconditionnel à l'expression

Le minimum est trouvé en assimilant à zéro toutes les dérivées partielles de l'expression (7.10), prises en compte les coefficients inconnus, et en résolvant le système d'équations

(7.11)

Effectuer systématiquement les transformations et utiliser les estimations des coefficients de corrélation introduites précédemment

. (7.12)

Donc reçu T–1 équations linéaires, qui vous permettent de calculer les valeurs de manière unique une 2 , une 3 , …, une t.

Si le modèle linéaire est inexact ou si les paramètres sont mesurés de manière inexacte, alors dans ce cas, la méthode des moindres carrés nous permet de trouver les valeurs des coefficients auxquelles le modèle linéaire la meilleure façon décrit un objet réel au sens du critère d'écart type sélectionné.

Lorsqu’il n’y a qu’un seul paramètre, l’équation de régression linéaire devient

Coefficient un 2 se trouve à partir de l’équation

Alors, étant donné que r 2.2= 1, coefficient requis

un 2 = r y ,2 . (7.13)

La relation (7.13) confirme l'affirmation précédente selon laquelle le coefficient de corrélation est une mesure connexion linéaire deux paramètres standardisés.

Remplacement de la valeur trouvée du coefficient un 2 en une expression pour w, en tenant compte des propriétés des grandeurs centrées et normalisées, on obtient la valeur minimale de cette fonction égale à 1– r 2 ans,2. Valeur 1– r 2 ans,2 est appelée la variance résiduelle de la variable aléatoire oui par rapport à une variable aléatoire toi 2. Il caractérise l'erreur obtenue en remplaçant l'indicateur par une fonction du paramètre υ= un 2 u 2. Uniquement avec | r y,2| = 1, la variance résiduelle est nulle et il n'y a donc aucune erreur lors de l'approximation de l'indicateur avec une fonction linéaire.

Passer des valeurs d'indicateurs et de paramètres centrées et normalisées

peut être obtenu pour les valeurs originales

Cette équation est également linéaire par rapport au coefficient de corrélation. Il est facile de voir que le centrage et la normalisation pour la régression linéaire permettent de réduire d'une unité la dimension du système d'équations, c'est-à-dire simplifier la solution au problème de la détermination des coefficients et donner aux coefficients eux-mêmes une signification claire.

L'utilisation des moindres carrés pour les fonctions non linéaires n'est pratiquement pas différente du schéma considéré (seul le coefficient a0 dans l'équation d'origine n'est pas égal à zéro).

Par exemple, supposons qu'il soit nécessaire de déterminer les coefficients de régression parabolique

Écart d'erreur de l'échantillon

Sur cette base, nous pouvons obtenir le système d'équations suivant

Après transformations, le système d'équations prendra la forme

Compte tenu des propriétés des moments des grandeurs standardisées, on écrit

La détermination des coefficients de régression non linéaire repose sur la résolution d'un système d'équations linéaires. Pour ce faire, vous pouvez utiliser des packages universels de méthodes numériques ou des packages spécialisés pour le traitement des données statistiques.

À mesure que le degré de l’équation de régression augmente, le degré des moments de distribution des paramètres utilisés pour déterminer les coefficients augmente également. Ainsi, pour déterminer les coefficients de l'équation de régression du deuxième degré, on utilise les moments de distribution des paramètres jusqu'au quatrième degré inclus. On sait que la précision et la fiabilité de l’estimation des moments à partir d’un échantillon limité de DE diminuent fortement à mesure que leur ordre augmente. L’utilisation de polynômes de degré supérieur au second dans les équations de régression est inappropriée.

La qualité de l'équation de régression résultante est évaluée par le degré de proximité entre les résultats des observations de l'indicateur et les valeurs prédites par l'équation de régression dans points donnés espace de paramètres. Si les résultats sont proches, alors le problème de l’analyse de régression peut être considéré comme résolu. Sinon, vous devez modifier l'équation de régression (choisir un degré de polynôme différent ou un type d'équation complètement différent) et répéter les calculs pour estimer les paramètres.

S'il existe plusieurs indicateurs, le problème de l'analyse de régression est résolu indépendamment pour chacun d'eux.

En analysant l'essence de l'équation de régression, les points suivants doivent être notés. L'approche considérée ne fournit pas d'évaluation séparée (indépendante) des coefficients - une modification de la valeur d'un coefficient entraîne une modification des valeurs des autres. Les coefficients obtenus ne doivent pas être considérés comme la contribution du paramètre correspondant à la valeur de l'indicateur. L'équation de régression n'est qu'une bonne description analytique de l'ED existant, et non une loi décrivant la relation entre les paramètres et l'indicateur. Cette équation est utilisée pour calculer les valeurs de l'indicateur dans une plage donnée de changements de paramètres. Son utilité est limitée pour les calculs en dehors de cette plage, c'est-à-dire il peut être utilisé pour résoudre des problèmes d'interpolation et, dans une mesure limitée, pour l'extrapolation.



La principale raison de l'inexactitude de la prévision n'est pas tant l'incertitude de l'extrapolation de la droite de régression, mais plutôt la variation importante de l'indicateur due à des facteurs non pris en compte dans le modèle. La limitation de la capacité de prévision est la condition de stabilité des paramètres non pris en compte dans le modèle et la nature de l'influence des facteurs du modèle pris en compte. Si ça change brusquement environnement externe, alors l'équation de régression compilée perdra son sens. Vous ne pouvez pas substituer dans l'équation de régression des valeurs de facteurs qui diffèrent significativement de ceux présentés dans l'ED. Il est recommandé de ne pas dépasser le tiers de la plage de variation du paramètre tant pour les valeurs maximales que minimales du facteur.

La prévision obtenue en substituant la valeur attendue du paramètre dans l'équation de régression est un point. La probabilité qu’une telle prévision se réalise est négligeable. Il est conseillé de déterminer l'intervalle de confiance de la prévision. Pour valeurs individuelles indicateur, l'intervalle doit prendre en compte les erreurs de position de la ligne de régression et les écarts des valeurs individuelles par rapport à cette ligne. L'erreur moyenne dans la prédiction de l'indicateur y pour le facteur x sera

est l'erreur moyenne sur la position de la droite de régression dans la population à X = xk;

– évaluation de la variance de l'écart de l'indicateur par rapport à la droite de régression dans la population ;

xk– valeur attendue du facteur.

Les limites de confiance de la prévision, par exemple pour l'équation de régression (7.14), sont déterminées par l'expression

Terme gratuit négatif un 0 dans l'équation de régression pour les variables d'origine signifie que le domaine d'existence de l'indicateur n'inclut pas les valeurs nulles des paramètres. Si un 0 > 0, alors le domaine d'existence de l'indicateur comprend les valeurs nulles des paramètres, et le coefficient lui-même caractérise la valeur moyenne de l'indicateur en l'absence d'influences des paramètres.

Problème 7.2. Construisez une équation de régression pour la capacité du canal sur la base de l'échantillon spécifié dans le tableau. 7.1.

Solution. Par rapport à l'échantillon spécifié, la construction de la dépendance analytique dans sa partie principale a été réalisée dans le cadre analyse de corrélation: La bande passante dépend uniquement du paramètre de rapport signal/bruit. Il reste à substituer les valeurs des paramètres précédemment calculées dans l'expression (7.14). L’équation de la capacité prendra la forme

ŷ = 26,47–0,93×41,68×5,39/6,04+0,93×5,39/6,03× X = – 8,121+0,830X.

Les résultats du calcul sont présentés dans le tableau. 7.5.

Tableau 7.5

SUBST pp Bande passante canal Rapport signal sur bruit Valeur de la fonction Erreur
Oui X ŷ ε
26.37 41.98 26.72 -0.35
28.00 43.83 28.25 -0.25
27/83 42.83 27.42 0.41
31.67 47.28 31.12 0.55
23.50 38.75 24.04 -0.54
21.04 35.12 21.03 0.01
16.94 32.07 18.49 -1.55
37.56 54.25 36.90 0.66
18.84 32.70 19.02 -0.18
25.77 40.51 25.50 0.27
33.52 49.78 33.19 0.33
28.21 43.84 28.26 -0.05
28.76 44.03

Au cours de leurs études, les étudiants sont très souvent confrontés à des équations diverses. L'une d'elles - l'équation de régression - est abordée dans cet article. Ce type d'équation est utilisé spécifiquement pour décrire les caractéristiques de la relation entre des paramètres mathématiques. Ce type les égalités sont utilisées en statistique et en économétrie.

Définition de la régression

En mathématiques, la régression désigne une certaine quantité qui décrit la dépendance de la valeur moyenne d'un ensemble de données sur les valeurs d'une autre quantité. L'équation de régression montre, en fonction d'une caractéristique particulière, la valeur moyenne d'une autre caractéristique. La fonction de régression a la forme équation simple y = x, dans lequel y agit comme une variable dépendante et x comme une variable indépendante (facteur caractéristique). En fait, la régression s'exprime sous la forme y = f (x).

Quels sont les types de relations entre les variables ?

En général, il existe deux types de relations opposées : la corrélation et la régression.

Le premier est caractérisé par l'égalité des variables conditionnelles. Dans ce cas, on ne sait pas de manière fiable quelle variable dépend de l’autre.

S'il n'y a pas d'égalité entre les variables et que les conditions disent quelle variable est explicative et laquelle est dépendante, alors on peut parler de la présence d'une connexion du deuxième type. Afin de construire une équation de régression linéaire, il sera nécessaire de déterminer quel type de relation est observé.

Types de régressions

Aujourd'hui, il existe 7 types différents de régression : hyperbolique, linéaire, multiple, non linéaire, par paire, inverse, logarithmiquement linéaire.

Hyperbolique, linéaire et logarithmique

L'équation de régression linéaire est utilisée en statistique pour expliquer clairement les paramètres de l'équation. Cela ressemble à y = c+t*x+E. L'équation hyperbolique a la forme d'une hyperbole régulière y = c + m / x + E. Logarithmiquement équation linéaire exprime la relation à l'aide d'une fonction logarithmique : In y = In c + m* In x + In E.

Multiple et non linéaire

Deux de plus types complexes La régression est multiple et non linéaire. L'équation de régression multiple est exprimée par la fonction y = f(x 1, x 2 ... x c) + E. Dans cette situation, y agit comme une variable dépendante et x agit comme une variable explicative. La variable E est stochastique ; elle inclut l’influence d’autres facteurs dans l’équation. L'équation de régression non linéaire est un peu controversée. D’une part, par rapport aux indicateurs pris en compte, elle n’est pas linéaire, mais d’autre part, dans le rôle d’évaluation des indicateurs, elle est linéaire.

Types de régressions inverses et appariées

Un inverse est un type de fonction qui doit être converti en vue linéaire. Dans les programmes d'application les plus classiques, il se présente sous la forme d'une fonction y = 1/c + m*x+E. Une équation de régression par paires montre la relation entre les données en fonction de y = f (x) + E. Tout comme dans d'autres équations, y dépend de x et E est un paramètre stochastique.

Concept de corrélation

Il s'agit d'un indicateur démontrant l'existence d'une relation entre deux phénomènes ou processus. La force de la relation est exprimée sous forme de coefficient de corrélation. Sa valeur fluctue dans l'intervalle [-1;+1]. Indicateur négatif indique la disponibilité retour, positif - à propos d'une ligne droite. Si le coefficient prend une valeur égale à 0, alors il n’y a pas de relation. Plus la valeur est proche de 1, plus la relation entre les paramètres est forte ; plus proche de 0, plus elle est faible.

Méthodes

Les méthodes paramétriques de corrélation peuvent évaluer la force de la relation. Ils sont utilisés sur la base de l'estimation de la distribution pour étudier des paramètres qui obéissent à la loi de la distribution normale.

Les paramètres de l'équation de régression linéaire sont nécessaires pour identifier le type de dépendance, la fonction de l'équation de régression et évaluer les indicateurs de la formule de relation sélectionnée. Le champ de corrélation est utilisé comme méthode d'identification de connexion. Pour ce faire, toutes les données existantes doivent être représentées graphiquement. Toutes les données connues doivent être tracées dans un système de coordonnées rectangulaires bidimensionnelles. C'est ainsi que se forme un champ de corrélation. Les valeurs du facteur descriptif sont marquées le long de l'axe des abscisses, tandis que les valeurs du facteur dépendant sont marquées le long de l'axe des ordonnées. S'il existe une relation fonctionnelle entre les paramètres, ils sont alignés sous la forme d'une ligne.

Si le coefficient de corrélation de ces données est inférieur à 30 %, on peut parler d'une absence quasi totale de connexion. S'il est compris entre 30 % et 70 %, cela indique la présence de connexions moyennement étroites. Un indicateur de 100 % témoigne d'une connexion fonctionnelle.

Une équation de régression non linéaire, tout comme une équation linéaire, doit être complétée par un indice de corrélation (R).

Corrélation pour la régression multiple

Le coefficient de détermination est un indicateur du carré de corrélation multiple. Il parle de la relation étroite entre l'ensemble d'indicateurs présenté et la caractéristique étudiée. Il peut également parler de la nature de l'influence des paramètres sur le résultat. L'équation de régression multiple est estimée à l'aide de cet indicateur.

Afin de calculer l'indicateur de corrélation multiple, il est nécessaire de calculer son indice.

Méthode des moindres carrés

Cette méthode est un moyen d'estimer les facteurs de régression. Son essence est de minimiser la somme des écarts au carré obtenus en raison de la dépendance du facteur à l'égard de la fonction.

Une équation de régression linéaire par paire peut être estimée à l'aide d'une telle méthode. Ce type d'équations est utilisé lorsqu'une relation linéaire appariée est détectée entre les indicateurs.

Paramètres d'équation

Chaque paramètre de la fonction de régression linéaire a une signification spécifique. L'équation de régression linéaire appariée contient deux paramètres : c et m. Le paramètre m démontre la variation moyenne de l'indicateur final de la fonction y, à condition que la variable x diminue (augmente) d'une unité conventionnelle. Si la variable x est nulle, alors la fonction est égale au paramètre c. Si la variable x n'est pas nulle, alors le facteur c n'a pas de signification économique. La seule influence sur la fonction est le signe devant le facteur c. S'il y a un moins, alors on peut dire que l'évolution du résultat est lente par rapport au facteur. S'il y a un plus, cela indique un changement accéléré du résultat.

Chaque paramètre qui modifie la valeur de l'équation de régression peut être exprimé par une équation. Par exemple, le facteur c a la forme c = y - mx.

Données groupées

Il existe des conditions de tâche dans lesquelles toutes les informations sont regroupées par attribut x, mais pour un certain groupe, les valeurs moyennes correspondantes de l'indicateur dépendant sont indiquées. Dans ce cas, les valeurs moyennes caractérisent la façon dont l'indicateur en fonction de x évolue. Ainsi, les informations groupées permettent de trouver l'équation de régression. Il est utilisé comme analyse des relations. Cependant, cette méthode présente des inconvénients. Malheureusement, les indicateurs moyens sont souvent soumis à des fluctuations externes. Ces fluctuations ne reflètent pas le modèle de la relation ; elles masquent simplement son « bruit ». Les moyennes montrent des schémas de relation bien pires qu’une équation de régression linéaire. Cependant, ils peuvent servir de base pour trouver une équation. En multipliant le nombre d'une population individuelle par la moyenne correspondante, on peut obtenir la somme y au sein du groupe. Ensuite, vous devez additionner tous les montants reçus et trouver l'indicateur final y. Il est un peu plus difficile de faire des calculs avec l'indicateur somme xy. Si les intervalles sont petits, nous pouvons conditionnellement considérer que l'indicateur x pour toutes les unités (au sein du groupe) est le même. Vous devez le multiplier par la somme de y pour connaître la somme des produits de x et y. Ensuite, tous les montants sont additionnés et le montant total xy est obtenu.

Équation de régression multiple par paires : évaluer l'importance d'une relation

Comme indiqué précédemment, la régression multiple a une fonction de la forme y = f (x 1,x 2,…,x m)+E. Le plus souvent, une telle équation est utilisée pour résoudre le problème de l'offre et de la demande d'un produit, des revenus d'intérêts sur les actions rachetées et pour étudier les causes et le type de fonction de coût de production. Elle est également activement utilisée dans une grande variété d'études et de calculs macroéconomiques, mais au niveau microéconomique, cette équation est utilisée un peu moins fréquemment.

La tâche principale de la régression multiple est de construire un modèle de données contenant une énorme quantité d'informations afin de déterminer plus en détail quelle influence chacun des facteurs individuellement et dans leur totalité a sur l'indicateur à modéliser et ses coefficients. L'équation de régression peut prendre une grande variété de valeurs. Dans ce cas, pour évaluer la relation, deux types de fonctions sont généralement utilisés : linéaires et non linéaires.

La fonction linéaire est représentée sous la forme de la relation suivante : y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. Dans ce cas, a2, a m sont considérés comme des coefficients de régression « purs ». Ils sont nécessaires pour caractériser la variation moyenne du paramètre y avec une modification (diminution ou augmentation) de chaque paramètre x correspondant d'une unité, à condition de valeurs stables des autres indicateurs.

Les équations non linéaires ont, par exemple, la forme fonction de puissance y=ax 1 b1 x 2 b2 ...x m bm . Dans ce cas, les indicateurs b 1, b 2 ..... b m sont appelés coefficients d'élasticité, ils démontrent comment le résultat va changer (de combien %) avec une augmentation (diminution) de l'indicateur x correspondant de 1 % et avec un indicateur stable d’autres facteurs.

Quels facteurs doivent être pris en compte lors de la construction d'une régression multiple

Afin de construire correctement une régression multiple, il est nécessaire de déterminer à quels facteurs doivent faire l'objet d'une attention particulière.

Il est nécessaire de bien comprendre la nature des relations entre les facteurs économiques et ce qui est modélisé. Les facteurs qui devront être inclus doivent répondre aux critères suivants :

  • Doit faire l’objet d’une mesure quantitative. Afin d'utiliser un facteur décrivant la qualité d'un objet, il convient dans tous les cas de lui donner une forme quantitative.
  • Il ne devrait y avoir aucune intercorrélation de facteurs ni relation fonctionnelle. De telles actions entraînent le plus souvent des conséquences irréversibles - le système équations ordinaires devient inconditionnel, ce qui entraîne son manque de fiabilité et ses évaluations peu claires.
  • Dans le cas d'un énorme indicateur de corrélation, il n'existe aucun moyen de connaître l'influence isolée des facteurs sur le résultat final de l'indicateur. Les coefficients deviennent donc ininterprétables.

Méthodes de construction

Existe grande quantité méthodes et techniques qui expliquent comment les facteurs peuvent être sélectionnés pour une équation. Cependant, toutes ces méthodes reposent sur la sélection de coefficients à l'aide d'un indicateur de corrélation. Parmi eux figurent :

  • Méthode d'élimination.
  • Méthode de commutation.
  • Analyse de régression pas à pas.

La première méthode consiste à filtrer tous les coefficients de l'ensemble total. La deuxième méthode consiste à introduire de nombreux facteurs supplémentaires. Eh bien, la troisième est l’élimination des facteurs qui étaient auparavant utilisés pour l’équation. Chacune de ces méthodes a le droit d’exister. Ils ont leurs avantages et leurs inconvénients, mais ils peuvent tous résoudre à leur manière le problème de l'élimination des indicateurs inutiles. En règle générale, les résultats obtenus par chaque méthode sont assez proches.

Méthodes d'analyse multivariée

Ces méthodes de détermination des facteurs sont basées sur la considération combinaisons individuelles fonctionnalités interconnectées. Celles-ci incluent l'analyse discriminante, la reconnaissance de forme, l'analyse en composantes principales et l'analyse groupée. De plus, il existe également une analyse factorielle, mais elle est apparue grâce au développement de la méthode des composants. Tous s’appliquent dans certaines circonstances, sous réserve de certaines conditions et facteurs.

Dans les articles précédents, l'analyse se concentrait souvent sur une seule variable numérique, telle que les rendements des fonds communs de placement, les temps de chargement des pages Web ou la consommation de boissons gazeuses. Dans cette note et les suivantes, nous examinerons les méthodes permettant de prédire les valeurs d'une variable numérique en fonction des valeurs d'une ou plusieurs autres variables numériques.

Le matériel sera illustré par un exemple transversal. Prévision du volume des ventes dans un magasin de vêtements. La chaîne de magasins de vêtements discount Tournesols est en constante expansion depuis 25 ans. Cependant, l’entreprise n’a actuellement pas d’approche systématique pour sélectionner de nouveaux points de vente. Le lieu dans lequel une entreprise a l'intention d'ouvrir un nouveau magasin est déterminé sur la base de considérations subjectives. Les critères de sélection sont conditions avantageuses loyer ou l'idée du gérant sur l'emplacement idéal du magasin. Imaginez que vous êtes à la tête d'un département projets spéciaux et la planification. Vous avez été chargé de développer plan stratégique ouverture de nouveaux magasins. Ce plan doit inclure une prévision des ventes annuelles des magasins nouvellement ouverts. Vous pensez que l'espace de vente au détail est directement lié aux revenus et souhaitez en tenir compte dans votre processus décisionnel. Comment développer un modèle statistique pour prédire les ventes annuelles en fonction de la taille d’un nouveau magasin ?

En règle générale, l'analyse de régression est utilisée pour prédire les valeurs d'une variable. Son objectif est de développer un modèle statistique capable de prédire les valeurs d'une variable dépendante, ou réponse, à partir des valeurs d'au moins une variable indépendante ou explicative. Dans cette note, nous examinerons la régression linéaire simple - une méthode statistique qui vous permet de prédire les valeurs d'une variable dépendante. Oui par valeurs de variables indépendantes X. Les notes suivantes décriront un modèle de régression multiple conçu pour prédire les valeurs d'une variable indépendante Oui basé sur les valeurs de plusieurs variables dépendantes ( X 1, X 2, …, Xk).

Téléchargez la note au format ou, exemples au format

Types de modèles de régression

ρ 1 – coefficient d'autocorrélation ; Si ρ 1 = 0 (pas d'autocorrélation), D≈ 2 ; Si ρ 1 ≈ 1 (autocorrélation positive), D≈ 0 ; Si ρ 1 = -1 (autocorrélation négative), D ≈ 4.

En pratique, l'application du critère de Durbin-Watson repose sur la comparaison de la valeur D avec des valeurs théoriques critiques dL Et dU pour un nombre donné d'observations n, nombre de variables indépendantes du modèle k(pour une régression linéaire simple k= 1) et niveau de signification α. Si D< d L , l'hypothèse de l'indépendance des écarts aléatoires est rejetée (il existe donc une autocorrélation positive) ; Si D>dU, l’hypothèse n’est pas rejetée (c’est-à-dire qu’il n’y a pas d’autocorrélation) ; Si dL< D < d U , il n'existe pas de motifs suffisants pour prendre une décision. Lorsque la valeur calculée D dépasse 2, alors avec dL Et dU Ce n'est pas le coefficient lui-même qui est comparé D, et l'expression (4 – D).

Pour calculer les statistiques Durbin-Watson dans Excel, tournons-nous vers le tableau du bas de la Fig. 14 Retrait du solde. Le numérateur de l'expression (10) est calculé à l'aide de la fonction =SUMMAR(array1;array2) et le dénominateur =SUMMAR(array) (Fig. 16).

Riz. 16. Formules de calcul des statistiques de Durbin-Watson

Dans notre exemple D= 0,883. La question principale est la suivante : quelle valeur de la statistique de Durbin-Watson doit être considérée comme suffisamment petite pour conclure à l’existence d’une autocorrélation positive ? Il faut corréler la valeur de D avec les valeurs critiques ( dL Et dU), en fonction du nombre d'observations n et le niveau de signification α (Fig. 17).

Riz. 17. Valeurs critiques des statistiques de Durbin-Watson (fragment de tableau)

Ainsi, dans le problème du volume des ventes dans un magasin livrant des marchandises à domicile, il existe une variable indépendante ( k= 1), 15 observations ( n= 15) et le niveau de signification α = 0,05. Ainsi, dL= 1,08 et dU= 1,36. Parce que le D = 0,883 < dL= 1,08, il existe une autocorrélation positive entre les résidus, la méthode des moindres carrés ne peut pas être utilisée.

Tester des hypothèses sur la pente et le coefficient de corrélation

Ci-dessus, la régression a été utilisée uniquement à des fins de prévision. Pour déterminer les coefficients de régression et prédire la valeur d'une variable Oui pour une valeur de variable donnée X La méthode des moindres carrés a été utilisée. De plus, nous avons examiné l’erreur quadratique moyenne de l’estimation et le coefficient de corrélation mixte. Si l'analyse des résidus confirme que les conditions d'applicabilité de la méthode des moindres carrés ne sont pas violées et que le modèle de régression linéaire simple est adéquat, sur la base des données de l'échantillon, on peut affirmer qu'il existe une relation linéaire entre les variables du population.

Applicationt -critères de pente. En testant si la pente de population β 1 est égale à zéro, vous pouvez déterminer s'il existe une relation statistiquement significative entre les variables X Et Oui. Si cette hypothèse est rejetée, on peut affirmer qu'entre les variables X Et Oui il existe une relation linéaire. Les hypothèses nulles et alternatives sont formulées comme suit : H 0 : β 1 = 0 (il n'y a pas de dépendance linéaire), H1 : β 1 ≠ 0 (il y a une dépendance linéaire). Prieuré A t-la statistique est égale à la différence entre la pente de l'échantillon et la valeur hypothétique de la pente de la population, divisée par l'erreur quadratique moyenne de l'estimation de la pente :

(11) t = (b 1 β 1 ) / S b 1

b 1 – pente de régression directe sur des données d'échantillon, β1 – pente hypothétique de population directe, et statistiques de test t Il a t-distribution avec n-2 degrés de liberté.

Vérifions s'il existe une relation statistiquement significative entre la taille du magasin et les ventes annuelles à α = 0,05. t-le critère est affiché avec d'autres paramètres lorsqu'il est utilisé Pack d'analyse(option Régression). Les résultats complets du package d’analyse sont présentés dans la Fig. 4, fragment lié aux statistiques t - sur la Fig. 18.

Riz. 18. Résultats de la candidature t

Depuis le nombre de magasins n= 14 (voir Fig. 3), valeur critique t-les statistiques au niveau de signification de α = 0,05 peuvent être trouvées à l'aide de la formule : tL=ETUDIANT.ARV(0,025,12) = –2,1788, où 0,025 est la moitié du niveau de signification et 12 = n – 2; t U=ÉTUDIANT.OBR(0,975,12) = +2,1788.

Parce que le t-statistiques = 10,64 > t U= 2,1788 (Fig. 19), hypothèse nulle H 0 rejeté. D'un autre côté, R.-la valeur pour X= 10,6411, calculé par la formule =1-STUDENT.DIST(D3,12,TRUE), est approximativement égal à zéro, donc l'hypothèse H 0 encore une fois rejeté. Le fait que R.-une valeur presque nulle signifie que s'il n'y avait pas de véritable relation linéaire entre la taille des magasins et les ventes annuelles, il serait pratiquement impossible de la détecter à l'aide d'une régression linéaire. Il existe donc une relation linéaire statistiquement significative entre les ventes annuelles moyennes des magasins et la taille des magasins.

Riz. 19. Test de l'hypothèse sur la pente de population à un niveau de signification de 0,05 et 12 degrés de liberté

ApplicationF -critères de pente. Une approche alternative pour tester les hypothèses sur la pente de la régression linéaire simple consiste à utiliser F-critères. Rappelons que F-test est utilisé pour tester la relation entre deux variances (pour plus de détails, voir). Lors du test de l'hypothèse de la pente, la mesure des erreurs aléatoires est la variance d'erreur (la somme des erreurs quadratiques divisée par le nombre de degrés de liberté), donc F-critère utilise le rapport de la variance expliquée par la régression (c'est-à-dire la valeur RSS, divisé par le nombre de variables indépendantes k), à la variance d'erreur ( MSE = SYX 2 ).

Prieuré A F-la statistique est égale au carré moyen de régression (MSR) divisé par la variance d'erreur (MSE) : F = MSR/ MSE, Où MSR=RSS / k, MSE =ESS/(n– k – 1), k– nombre de variables indépendantes dans le modèle de régression. Statistiques des tests F Il a F-distribution avec k Et n– k – 1 degrés de liberté.

Pour un niveau de signification α donné, la règle de décision est formulée comme suit : si F>FU, l'hypothèse nulle est rejetée ; sinon, il n'est pas rejeté. Les résultats sont présentés sous la forme tableau croisé dynamique Les analyses de variance sont présentées dans la Fig. 20.

Riz. 20. Tableau d'analyse de variance pour tester l'hypothèse sur la signification statistique du coefficient de régression

De même t-critère F-le critère est affiché dans le tableau lorsqu'il est utilisé Pack d'analyse(option Régression). Résultats complets des travaux Pack d'analyse sont montrés sur la Fig. 4, fragment lié à F-statistiques – sur la Fig. 21.

Riz. 21. Résultats de la candidature F-critères obtenus à l'aide du package d'analyse Excel

La statistique F est de 113,23, et R.-valeur proche de zéro (cellule ImportanceF). Si le niveau de signification α est de 0,05, déterminez la valeur critique F-des distributions avec un et 12 degrés de liberté peuvent être obtenues en utilisant la formule F U=F.OBR(1-0,05;1;12) = 4,7472 (Fig. 22). Parce que le F = 113,23 > F U= 4,7472, et R.-valeur proche de 0< 0,05, нулевая гипотеза H 0 est rejeté, c'est-à-dire La taille d'un magasin est étroitement liée à ses ventes annuelles.

Riz. 22. Test de l'hypothèse de la pente de population à un niveau de signification de 0,05 avec un et 12 degrés de liberté

Intervalle de confiance contenant la pente β 1 . Pour tester l'hypothèse d'une relation linéaire entre les variables, vous pouvez construire un intervalle de confiance contenant la pente β 1 et vérifier que la valeur hypothétique β 1 = 0 appartient à cet intervalle. Le centre de l'intervalle de confiance contenant la pente β 1 est la pente de l'échantillon b 1 , et ses limites sont les quantités b 1 ±tn –2 S b 1

Comme le montre la fig. 18, b 1 = +1,670, n = 14, S b 1 = 0,157. t 12 =ÉTUDIANT.ARV(0,975,12) = 2,1788. Ainsi, b 1 ±tn –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, soit + 1,328 ≤ β 1 ≤ +2,012. Il existe donc une probabilité de 0,95 que la pente de la population se situe entre +1,328 et +2,012 (soit entre 1 328 000 $ et 2 012 000 $). Étant donné que ces valeurs sont supérieures à zéro, il existe une relation linéaire statistiquement significative entre les ventes annuelles et la superficie du magasin. Si l’intervalle de confiance contenait zéro, il n’y aurait aucune relation entre les variables. De plus, l’intervalle de confiance signifie que chaque augmentation de la superficie du magasin de 1 000 m². ft. entraîne une augmentation du volume moyen des ventes comprise entre 1 328 000 $ et 2 012 000 $.

Usaget -critères pour le coefficient de corrélation. le coefficient de corrélation a été introduit r, qui est une mesure de la relation entre deux variables numériques. Il peut être utilisé pour déterminer s’il existe une relation statistiquement significative entre deux variables. Notons le coefficient de corrélation entre les populations des deux variables par le symbole ρ. Les hypothèses nulle et alternative sont formulées comme suit : H 0: ρ = 0 (pas de corrélation), H1: ρ ≠ 0 (il existe une corrélation). Vérification de l'existence d'une corrélation :

r = + , Si b 1 > 0, r = – , Si b 1 < 0. Тестовая статистика t Il a t-distribution avec n-2 degrés de liberté.

Dans le problème de la chaîne de magasins Tournesols r2= 0,904, une b1- +1,670 (voir Fig. 4). Parce que le b1> 0, le coefficient de corrélation entre les ventes annuelles et la taille du magasin est r= +√0,904 = +0,951. Testons l'hypothèse nulle selon laquelle il n'y a pas de corrélation entre ces variables en utilisant t-statistiques:

Au niveau de signification de α = 0,05, l’hypothèse nulle doit être rejetée car t= 10,64 > 2,1788. Ainsi, on peut affirmer qu’il existe une relation statistiquement significative entre les ventes annuelles et la taille du magasin.

Lorsqu’on discute des inférences concernant la pente de la population, les intervalles de confiance et les tests d’hypothèses sont utilisés de manière interchangeable. Cependant, le calcul de l'intervalle de confiance contenant le coefficient de corrélation s'avère plus difficile, car le type de distribution d'échantillonnage de la statistique r dépend du véritable coefficient de corrélation.

Estimation de l'espérance mathématique et prédiction de valeurs individuelles

Cette section traite des méthodes d'estimation de l'espérance mathématique d'une réponse Oui et prédictions de valeurs individuelles Oui pour des valeurs données de la variable X.

Construire un intervalle de confiance. Dans l'exemple 2 (voir section ci-dessus Méthode des moindres carrés) l'équation de régression a permis de prédire la valeur de la variable Oui X. Dans le problème du choix d'un emplacement pour un point de vente, le volume annuel moyen des ventes dans un magasin d'une superficie de 4000 m². pieds était égal à 7,644 millions de dollars. Cependant, cette estimation des attentes mathématiques de la population générale est ponctuelle. Pour estimer l'espérance mathématique de la population, le concept d'intervalle de confiance a été proposé. De même, nous pouvons introduire le concept intervalle de confiance pour l'espérance mathématique de la réponseà valeur définie variable X:

, = b 0 + b 1 X je– la valeur prédite est variable Ouià X = X je, SYX– erreur quadratique moyenne, n- taille de l'échantillon, Xje- valeur spécifiée de la variable X, µ Oui|X = Xje– espérance mathématique de la variable Ouià X = XI, SSX =

L'analyse de la formule (13) montre que la largeur de l'intervalle de confiance dépend de plusieurs facteurs. À un niveau de signification donné, une augmentation de l'amplitude des fluctuations autour de la droite de régression, mesurée à l'aide de l'erreur quadratique moyenne, entraîne une augmentation de la largeur de l'intervalle. D’un autre côté, comme on pouvait s’y attendre, une augmentation de la taille de l’échantillon s’accompagne d’un rétrécissement de l’intervalle. De plus, la largeur de l'intervalle change en fonction des valeurs Xje. Si la valeur de la variable Oui prévu pour les quantités X, proche de la valeur moyenne , l'intervalle de confiance s'avère plus étroit que lors de la prédiction de la réponse pour des valeurs éloignées de la moyenne.

Disons que lors du choix d'un emplacement de magasin, nous souhaitons construire un intervalle de confiance de 95 % pour les ventes annuelles moyennes de tous les magasins dont la superficie est de 4 000 mètres carrés. pieds:

Ainsi, le volume annuel moyen des ventes dans tous les magasins d'une superficie de 4 000 m². pieds, avec une probabilité de 95%, se situe entre 6,971 et 8,317 millions de dollars.

Calculez l'intervalle de confiance pour la valeur prédite. En plus de l'intervalle de confiance pour l'espérance mathématique de la réponse pour une valeur donnée de la variable X, il est souvent nécessaire de connaître l'intervalle de confiance de la valeur prédite. Bien que la formule permettant de calculer un tel intervalle de confiance soit très similaire à la formule (13), cet intervalle contient la valeur prédite plutôt que l'estimation du paramètre. Intervalle de réponse prévue OuiX = XI pour une valeur de variable spécifique Xje déterminé par la formule :

Supposons que, lors du choix d'un emplacement pour un point de vente, nous souhaitions construire un intervalle de confiance de 95 % pour le volume de ventes annuel prévu pour un magasin dont la superficie est de 4 000 mètres carrés. pieds:

Par conséquent, le volume de ventes annuel prévu pour un magasin d'une superficie de 4 000 m². pieds, avec une probabilité de 95 %, se situe entre 5,433 et 9,854 millions de dollars. Comme nous pouvons le constater, l'intervalle de confiance pour la valeur de réponse prédite est beaucoup plus large que l'intervalle de confiance pour son espérance mathématique. En effet, la variabilité dans la prédiction des valeurs individuelles est beaucoup plus grande que dans l'estimation de l'espérance mathématique.

Pièges et problèmes éthiques associés à l’utilisation de la régression

Difficultés associées à l'analyse de régression :

  • Ignorer les conditions d’applicabilité de la méthode des moindres carrés.
  • Évaluation erronée des conditions d’applicabilité de la méthode des moindres carrés.
  • Choix incorrect de méthodes alternatives lorsque les conditions d'applicabilité de la méthode des moindres carrés ne sont pas respectées.
  • Application de l'analyse de régression sans connaissance approfondie du sujet de recherche.
  • Extrapoler une régression au-delà de la plage de la variable explicative.
  • Confusion entre relations statistiques et causales.

Utilisation généralisée des feuilles de calcul et logiciel pour les calculs statistiques a éliminé les problèmes de calcul qui empêchaient l'utilisation de l'analyse de régression. Cependant, cela a conduit au fait que l'analyse de régression était utilisée par des utilisateurs qui ne disposaient pas de qualifications et de connaissances suffisantes. Comment les utilisateurs peuvent-ils connaître les méthodes alternatives si beaucoup d’entre eux ne disposent pas de la moindre idée sur les conditions d'applicabilité de la méthode des moindres carrés et ne sais pas comment vérifier leur respect ?

Le chercheur ne doit pas se laisser emporter par des calculs de chiffres - en calculant le décalage, la pente et le coefficient de corrélation mixte. Il a besoin de connaissances plus approfondies. Illustrons cela avec un exemple classique tiré des manuels scolaires. Anscombe a montré que les quatre ensembles de données présentés dans la Fig. 23, ont les mêmes paramètres de régression (Fig. 24).

Riz. 23. Quatre ensembles de données artificielles

Riz. 24. Analyse de régression de quatre ensembles de données artificielles ; fini avec Pack d'analyse(cliquez sur l'image pour agrandir l'image)

Ainsi, du point de vue de l’analyse de régression, tous ces ensembles de données sont complètement identiques. Si l’analyse s’était arrêtée là, nous aurions perdu beaucoup informations utiles. Ceci est démontré par les nuages ​​de points (Figure 25) et les tracés résiduels (Figure 26) construits pour ces ensembles de données.

Riz. 25. Nuages ​​de points pour quatre ensembles de données

Les nuages ​​de points et les tracés résiduels indiquent que ces données diffèrent les unes des autres. Le seul ensemble distribué le long d’une ligne droite est l’ensemble A. Le tracé des résidus calculés à partir de l’ensemble A n’a aucun motif. On ne peut pas en dire autant des ensembles B, C et D. Le nuage de points tracé pour l’ensemble B montre une tendance quadratique prononcée. Cette conclusion est confirmée par le tracé résiduel, qui a une forme parabolique. Le nuage de points et le tracé des résidus montrent que l'ensemble de données B contient une valeur aberrante. Dans cette situation, il est nécessaire d’exclure la valeur aberrante de l’ensemble de données et de répéter l’analyse. Une méthode permettant de détecter et d’éliminer les valeurs aberrantes dans les observations est appelée analyse d’influence. Après avoir éliminé la valeur aberrante, le résultat de la réestimation du modèle peut être complètement différent. Le nuage de points tracé à partir des données de l'ensemble G illustre une situation inhabituelle dans laquelle le modèle empirique dépend de manière significative d'une réponse individuelle ( X8 = 19, Oui 8 = 12,5). De tels modèles de régression doivent être calculés avec une attention particulière. Ainsi, les nuages ​​de points et les diagrammes résiduels sont extrêmement outil nécessaire analyse de régression et devrait en faire partie intégrante. Sans eux, l’analyse de régression n’est pas crédible.

Riz. 26. Graphiques résiduels pour quatre ensembles de données

Comment éviter les pièges de l'analyse de régression :

  • Analyse des relations possibles entre les variables X Et Oui commencez toujours par dessiner un nuage de points.
  • Avant d'interpréter les résultats de l'analyse de régression, vérifiez les conditions de son applicabilité.
  • Tracez les résidus par rapport à la variable indépendante. Cela permettra de déterminer dans quelle mesure le modèle empirique correspond aux résultats d'observation et de détecter une violation de la constance de la variance.
  • Utilisez des histogrammes, des diagrammes à tiges et à feuilles, des diagrammes en boîte et des diagrammes de distribution normale pour tester l'hypothèse d'une distribution d'erreurs normale.
  • Si les conditions d'applicabilité de la méthode des moindres carrés ne sont pas remplies, utilisez des méthodes alternatives (par exemple, des modèles de régression quadratique ou multiple).
  • Si les conditions d'applicabilité de la méthode des moindres carrés sont remplies, il est nécessaire de tester l'hypothèse sur la signification statistique des coefficients de régression et de construire des intervalles de confiance contenant l'espérance mathématique et la valeur de réponse prédite.
  • Évitez de prédire les valeurs de la variable dépendante en dehors de la plage de la variable indépendante.
  • Gardez à l’esprit que les relations statistiques ne sont pas toujours de cause à effet. N'oubliez pas que la corrélation entre les variables ne signifie pas qu'il existe une relation de cause à effet entre elles.

Résumé. Comme le montre le schéma fonctionnel (Figure 27), la note décrit le modèle de régression linéaire simple, les conditions de son applicabilité et comment tester ces conditions. Considéré t-critère pour tester la signification statistique de la pente de régression. Un modèle de régression a été utilisé pour prédire les valeurs de la variable dépendante. Un exemple est considéré lié au choix de l'emplacement d'un point de vente au détail, dans lequel la dépendance du volume des ventes annuelles sur la superficie du magasin est examinée. Les informations obtenues vous permettent de sélectionner plus précisément un emplacement pour un magasin et de prédire son volume de ventes annuel. Les notes suivantes poursuivront la discussion sur l'analyse de régression et examineront également plusieurs modèles de régression.

Riz. 27. Diagramme de structure des notes

Des documents du livre Levin et al. Statistics for Managers sont utilisés. – M. : Williams, 2004. – p. 792-872

Si la variable dépendante est catégorielle, une régression logistique doit être utilisée.

COEFFICIENT DE RÉGRESSION

- Anglais coefficient, régression; Allemand Régressionskoeffizient. Une des caractéristiques de la relation entre la variable dépendante y et la variable indépendante x. K.r. montre de combien d'unités la valeur prise par y augmente si la variable x change d'une unité de sa variation. Géométriquement K. r. est la pente de la droite y.

Antinazi. Encyclopédie de sociologie, 2009

Voyez ce qu'est « COEFFICIENT DE RÉGRESSION » dans d'autres dictionnaires :

    Coefficient de régression- - [L.G. Sumenko. Dictionnaire anglais-russe sur les technologies de l'information. M. : Entreprise d'État TsNIIS, 2003.] Sujets informatique en général coefficient de régression EN... Guide du traducteur technique

    Coefficient de régression- 35. Coefficient de régression Paramètre du modèle d'analyse de régression Source : GOST 24026 80 : Tests de recherche. Planification des expériences. Termes et définitions …

    Coefficient de régression- Coefficient de la variable indépendante dans l'équation de régression... Dictionnaire de statistiques sociologiques

    COEFFICIENT DE RÉGRESSION- Anglais coefficient, régression; Allemand Régressionskoeffizient. Une des caractéristiques de la relation entre la variable dépendante y et la variable indépendante x. K.r. montre de combien d'unités la valeur prise par y augmente si la variable x devient... ... Dictionnaire en sociologie

    coefficient de régression de l'échantillon- 2.44. coefficient de régression d'échantillon Coefficient d'une variable dans l'équation d'une courbe ou d'une surface de régression Source : GOST R 50779.10 2000 : Méthodes statistiques. Probabilités et statistiques de base. Termes et définitions … Dictionnaire-ouvrage de référence des termes de la documentation normative et technique

    Coefficient de régression partielle- une mesure statistique indiquant le degré d'influence d'une variable indépendante sur une variable dépendante dans une situation où l'influence mutuelle de toutes les autres variables du modèle est sous le contrôle du chercheur... Dictionnaire sociologique Socium

    RÉGRESSIONS, POIDS- Un synonyme de la notion de coefficient de régression... Dictionnaire explicatif de la psychologie

    COEFFICIENT D’HERITABILITÉ- Un indicateur de la part relative de la variabilité génétique dans la variation phénotypique totale d'un caractère. Les méthodes les plus courantes pour estimer l'héritabilité de caractères économiquement utiles sont les suivantes : où h2 est le coefficient d'héritabilité ; r intraclasse... ... Termes et définitions utilisés en élevage, génétique et reproduction des animaux de ferme

    - (R au carré) est la proportion de variance de la variable dépendante expliquée par le modèle de dépendance considéré, c'est-à-dire les variables explicatives. Plus précisément, c'est un moins la proportion de variance inexpliquée (variance erreur aléatoire modèle, ou conditionnel... ... Wikipédia

    Coefficient de la variable indépendante dans l'équation de régression. Ainsi, par exemple, dans l'équation de régression linéaire reliant Variables aléatoires Y et X, R. k. b0 et b1 sont égaux : où r est le coefficient de corrélation de X et Y, . Calcul des estimations de R.K. (sélectionné... ... Encyclopédie mathématique

Livres

  • Introduction à l'économétrie (CDpc), Yanovsky Leonid Petrovich, Bukhovets Alexey Georgievich. Les bases de l'économétrie et de l'analyse statistique des séries temporelles univariées sont données. Une grande attention est accordée aux méthodes classiques de régression paire et multiple, classiques et généralisées...
  • Lecture rapide. Simulateur efficace (CDpc), . Le programme s'adresse aux utilisateurs qui souhaitent dès que possible maîtriser la technique de lecture rapide. Le cours est construit sur le principe « théorie – pratique ». Matériel théorique et pratique…

Concept de régression. Dépendance entre variables X Et oui peut être décrit de différentes manières. En particulier, toute forme de connexion peut être exprimée par une équation générale, où oui traité comme une variable dépendante, ou les fonctions d'une autre - variable indépendante x, appelée argument. La correspondance entre un argument et une fonction peut être spécifiée par un tableau, une formule, un graphique, etc. Changer une fonction en fonction d'un changement d'un ou plusieurs arguments est appelé régression. Tous les moyens utilisés pour décrire les corrélations constituent le contenu analyse de régression.

Pour exprimer la régression, les équations de corrélation ou équations de régression, des séries de régression empiriques et théoriquement calculées, leurs graphiques, appelés droites de régression, ainsi que des coefficients de régression linéaires et non linéaires sont utilisés.

Les indicateurs de régression expriment la relation de corrélation de manière bilatérale, en tenant compte des changements dans les valeurs moyennes de la caractéristique Oui lors du changement de valeurs X je signe X, et, à l'inverse, montrer un changement dans les valeurs moyennes de la caractéristique X selon les valeurs modifiées oui je signe Oui. L'exception concerne les séries chronologiques, ou séries chronologiques, montrant les changements de caractéristiques au fil du temps. La régression de telles séries est unilatérale.

Il existe de nombreuses formes et types différents de corrélations. La tâche consiste à identifier la forme de la connexion dans chaque cas spécifique et à l'exprimer avec l'équation de corrélation correspondante, ce qui permet d'anticiper les changements possibles d'une caractéristique. Oui basé sur des changements connus dans un autre X, lié au premier de manière corrélationnelle.

12.1 Régression linéaire

Équation de régression. Résultats d'observations réalisées sur un objet biologique particulier basées sur des caractéristiques corrélées X Et oui, peut être représenté par des points sur un plan en construisant un système de coordonnées rectangulaires. Le résultat est une sorte de diagramme de dispersion qui permet de juger de la forme et de l’étroitesse de la relation entre diverses caractéristiques. Très souvent, cette relation ressemble à une ligne droite ou peut être approchée par une ligne droite.

Relation linéaire entre les variables X Et oui est décrit par une équation générale, où a B c d,... – paramètres de l'équation qui déterminent les relations entre les arguments X 1 , X 2 , X 3 , …, X m et fonctions.

En pratique, tous les arguments possibles ne sont pas pris en compte, mais seulement certains arguments ; dans le cas le plus simple, un seul :

Dans l'équation de régression linéaire (1) un est le terme libre, et le paramètre b détermine la pente de la ligne de régression par rapport aux axes de coordonnées rectangulaires. En géométrie analytique, ce paramètre est appelé pente, et en biométrie – Coefficient de régression. Une représentation visuelle de ce paramètre et la position des droites de régression Oui Par X Et X Par Oui dans le système de coordonnées rectangulaires donne la Fig. 1.

Riz. 1 Droites de régression de Y par X et de X par Y dans le système

Coordonnées rectangulaires

Les droites de régression, comme le montre la figure 1, se coupent au point O (,), correspondant aux valeurs moyennes arithmétiques des caractéristiques corrélées entre elles Oui Et X. Lors de la construction de graphiques de régression, les valeurs de la variable indépendante X sont tracées le long de l'axe des abscisses et les valeurs de la variable dépendante, ou fonction Y, sont tracées le long de l'axe des ordonnées. Ligne AB passant par le point O (, ) correspond à la relation (fonctionnelle) complète entre les variables Oui Et X, lorsque le coefficient de corrélation . Plus le lien entre Oui Et X, plus les droites de régression sont proches de AB, et, à l'inverse, plus le lien entre ces quantités est faible, plus les droites de régression sont éloignées de AB. S'il n'y a aucun lien entre les caractéristiques, les droites de régression sont perpendiculaires les unes aux autres et .

Étant donné que les indicateurs de régression expriment la relation de corrélation de manière bilatérale, l'équation de régression (1) doit s'écrire comme suit :

La première formule détermine les valeurs moyennes lorsque la caractéristique change X par unité de mesure, pour la seconde - valeurs moyennes lors du changement d'une unité de mesure de l'attribut Oui.

Coefficient de régression. Le coefficient de régression montre à quel point en moyenne la valeur d'une caractéristique oui change lorsque la mesure d'un autre, corrélée avec, change d'un Oui signe X. Cet indicateur est déterminé par la formule

Voici les valeurs s multiplié par la taille des intervalles de classe λ , s'ils ont été trouvés à partir de séries de variations ou de tableaux de corrélation.

Le coefficient de régression peut être calculé sans calculer de moyennes écarts carrés s oui Et s X selon la formule

Si le coefficient de corrélation est inconnu, le coefficient de régression est déterminé comme suit :

Relation entre les coefficients de régression et de corrélation. En comparant les formules (11.1) (thème 11) et (12.5), on voit : leur numérateur a la même valeur, ce qui indique un lien entre ces indicateurs. Cette relation s'exprime par l'égalité

Ainsi, le coefficient de corrélation est égal à la moyenne géométrique des coefficients b yx Et b xy. La formule (6) permet, d'une part, à partir des valeurs connues des coefficients de régression b yx Et b xy déterminer le coefficient de régression R. xy, et d'autre part, vérifier l'exactitude du calcul de cet indicateur de corrélation R. xy entre des caractéristiques variables X Et Oui.

Comme le coefficient de corrélation, le coefficient de régression caractérise uniquement une relation linéaire et est accompagné d'un signe plus pour une relation positive et d'un signe moins pour une relation négative.

Détermination des paramètres de régression linéaire. On sait que la somme des écarts au carré est une variante X je de la moyenne est la plus petite valeur, c'est-à-dire Ce théorème constitue la base de la méthode des moindres carrés. Concernant la régression linéaire [voir formule (1)] l'exigence de ce théorème est satisfaite par un certain système d'équations appelé normale:

Solution conjointe de ces équations par rapport aux paramètres un Et b conduit aux résultats suivants :

;

;

, d'où et.

Compte tenu de la nature bidirectionnelle de la relation entre les variables Oui Et X, formule pour déterminer le paramètre UN devrait s'exprimer ainsi :

Et . (7)

Paramètre b, ou coefficient de régression, est déterminé par les formules suivantes :

Construction de séries de régression empiriques. S'il existe un grand nombre d'observations, l'analyse de régression commence par la construction de séries de régression empiriques. Série de régression empirique est formé en calculant les valeurs d'une caractéristique variable X valeurs moyennes d'un autre, corrélées avec X signe Oui. En d'autres termes, la construction de séries de régression empirique revient à trouver des moyennes de groupe à partir des valeurs correspondantes des caractéristiques Y et X.

Une série de régression empirique est une double série de nombres qui peuvent être représentés par des points sur un plan, puis, en reliant ces points par des segments de droite, une ligne de régression empirique peut être obtenue. Séries de régression empiriques, notamment leurs graphiques, appelées droites de régression, donnent une idée claire de la forme et de l'étroitesse de la corrélation entre différentes caractéristiques.

Alignement des séries de régression empirique. En règle générale, les graphiques des séries de régression empirique ne sont pas des lignes lisses, mais des lignes brisées. Cela s'explique par le fait que, outre les principales raisons qui déterminent le schéma général de la variabilité des caractéristiques corrélées, leur ampleur est affectée par l'influence de nombreuses raisons secondaires qui provoquent des fluctuations aléatoires dans les points nodaux de régression. Pour identifier la tendance principale (tendance) de la variation conjuguée des caractéristiques corrélées, il est nécessaire de remplacer les lignes brisées par des lignes de régression lisses et fluides. Le processus de remplacement des lignes brisées par des lignes lisses s'appelle alignement de séries empiriques Et droites de régression.

Méthode d'alignement graphique. Il s’agit de la méthode la plus simple qui ne nécessite aucun travail informatique. Son essence se résume à ce qui suit. La série de régression empirique est représentée sous forme de graphique dans un système de coordonnées rectangulaires. Ensuite, les points médians de la régression sont visuellement délimités, le long desquels une ligne continue est tracée à l'aide d'une règle ou d'un motif. L'inconvénient de cette méthode est évident : elle n'exclut pas l'influence des propriétés individuelles du chercheur sur les résultats d'alignement des droites de régression empirique. Par conséquent, dans les cas où une plus grande précision est nécessaire lors du remplacement des lignes de régression brisées par des droites lisses, d'autres méthodes d'alignement des séries empiriques sont utilisées.

Méthode de moyenne mobile. L'essence de cette méthode se résume au calcul séquentiel de moyennes arithmétiques à partir de deux ou trois termes adjacents d'une série empirique. Cette méthode est particulièrement pratique dans les cas où la série empirique est représentée par un grand nombre de termes, de sorte que la perte de deux d'entre eux - les extrêmes, inévitable avec cette méthode d'alignement, n'affectera pas sensiblement sa structure.

Méthode des moindres carrés. Cette méthode a été proposée au début du XIXe siècle par A.M. Legendre et, indépendamment de lui, K. Gauss. Il vous permet d'aligner avec la plus grande précision les séries empiriques. Cette méthode, comme indiqué ci-dessus, repose sur l'hypothèse que la somme des carrés des écarts est une option X je à partir de leur moyenne, il y a une valeur minimale, c'est-à-dire d'où le nom de la méthode, qui est utilisée non seulement en écologie, mais aussi en technologie. La méthode des moindres carrés est objective et universelle, elle est utilisée dans une grande variété de cas pour trouver des équations empiriques pour des séries de régression et déterminer leurs paramètres.

L'exigence de la méthode des moindres carrés est que les points théoriques de la droite de régression doivent être obtenus de telle manière que la somme des écarts au carré par rapport à ces points pour les observations empiriques oui jeétait minime, c'est-à-dire

En calculant le minimum de cette expression conformément aux principes de l'analyse mathématique et en le transformant d'une certaine manière, on peut obtenir un système dit équations normales, dans lequel les valeurs inconnues sont les paramètres requis de l'équation de régression, et les coefficients connus sont déterminés par les valeurs empiriques des caractéristiques, généralement les sommes de leurs valeurs et de leurs produits vectoriels.

La régression linéaire multiple. La relation entre plusieurs variables est généralement exprimée par une équation de régression multiple, qui peut être linéaire Et non linéaire. Dans sa forme la plus simple, la régression multiple s'exprime sous la forme d'une équation à deux variables indépendantes ( X, z):

un– terme libre de l'équation ; b Et c– paramètres de l'équation. Pour trouver les paramètres de l'équation (10) (en utilisant la méthode des moindres carrés), le système d'équations normales suivant est utilisé :

Série dynamique. Alignement des lignes. Les changements de caractéristiques au fil du temps forment ce qu'on appelle des séries chronologiques ou série dynamique. Une caractéristique de ces séries est que la variable indépendante X est ici toujours le facteur temps et la variable dépendante Y est une caractéristique changeante. Selon les séries de régression, la relation entre les variables X et Y est unilatérale, puisque le facteur temps ne dépend pas de la variabilité des caractéristiques. Malgré ces caractéristiques, les séries dynamiques peuvent être assimilées à des séries de régression et traitées selon les mêmes méthodes.

Comme les séries de régression, les séries de dynamique empirique sont influencées non seulement par les principaux, mais aussi par de nombreux facteurs secondaires (aléatoires) qui obscurcissent la tendance principale de la variabilité des caractéristiques, ce que l'on appelle dans le langage statistique s'orienter.

L'analyse des séries chronologiques commence par l'identification de la forme de la tendance. Pour ce faire, la série chronologique est représentée sous forme de graphique linéaire dans un système de coordonnées rectangulaires. Dans ce cas, les points temporels (années, mois et autres unités de temps) sont tracés le long de l'axe des abscisses et les valeurs de la variable dépendante Y sont tracées le long de l'axe des ordonnées. S'il existe une relation linéaire entre les variables X et Y (tendance linéaire), la méthode des moindres carrés est la plus appropriée pour aligner les séries temporelles est une équation de régression sous forme d'écarts des termes de la série de la variable dépendante Y par rapport à la moyenne arithmétique de la série des variables indépendantes variable X :

Voici le paramètre de régression linéaire.

Caractéristiques numériques des séries dynamiques. Les principales caractéristiques numériques généralisantes des séries dynamiques comprennent Moyenne géométrique et une moyenne arithmétique proche. Ils caractérisent la vitesse moyenne à laquelle la valeur de la variable dépendante évolue sur certaines périodes de temps :

Une évaluation de la variabilité des membres de la série dynamique est écart-type. Lors du choix des équations de régression pour décrire les séries chronologiques, la forme de la tendance est prise en compte, qui peut être linéaire (ou réduite à linéaire) et non linéaire. L'exactitude du choix de l'équation de régression est généralement jugée par la similitude des valeurs empiriquement observées et calculées de la variable dépendante. Une solution plus précise à ce problème est la méthode d'analyse de régression de la variance (thème 12, paragraphe 4).

Corrélation des séries chronologiques. Il est souvent nécessaire de comparer la dynamique de séries chronologiques parallèles liées les unes aux autres par certaines conditions générales, par exemple pour découvrir la relation entre la production agricole et la croissance du cheptel sur une certaine période de temps. Dans de tels cas, la caractéristique de la relation entre les variables X et Y est Coefficient de corrélation R xy (en présence d'une tendance linéaire).

On sait que la tendance des séries temporelles est, en règle générale, masquée par les fluctuations de la série de la variable dépendante Y. Cela pose un double problème : mesurer la dépendance entre séries comparées, sans exclure la tendance, et mesurer la dépendance entre membres voisins d’une même série, hors tendance. Dans le premier cas, l'indicateur de l'étroitesse du lien entre les séries chronologiques comparées est Coefficient de corrélation(si la relation est linéaire), dans le second – coefficient d'autocorrélation. Ces indicateurs ont des significations différentes, bien qu'ils soient calculés à l'aide des mêmes formules (voir thème 11).

Il est facile de voir que la valeur du coefficient d'autocorrélation est affectée par la variabilité des membres de la série de la variable dépendante : moins les membres de la série s'écartent de la tendance, plus le coefficient d'autocorrélation est élevé, et vice versa.