Formule de variance pour les données groupées. Variance et écart type

La dispersion est une mesure de la dispersion qui décrit l'écart relatif entre les valeurs des données et la moyenne. Il s'agit de la mesure de dispersion la plus couramment utilisée dans les statistiques, calculée en additionnant, au carré, l'écart de chaque valeur de données par rapport à la moyenne. La formule de calcul de la variance est indiquée ci-dessous :

s 2 - variance de l'échantillon ;

x cf est la valeur moyenne de l'échantillon ;

n taille de l'échantillon (nombre de valeurs de données),

(x i – x cf) est l'écart par rapport à la valeur moyenne pour chaque valeur de l'ensemble de données.

Pour mieux comprendre la formule, regardons un exemple. Je n'aime pas vraiment cuisiner, donc je le fais rarement. Cependant, pour ne pas mourir de faim, je dois de temps en temps aller aux fourneaux pour mettre en œuvre le plan visant à saturer mon corps de protéines, de graisses et de glucides. L'ensemble de données ci-dessous montre combien de fois Renat cuisine des aliments chaque mois :

La première étape du calcul de la variance consiste à déterminer la moyenne de l'échantillon, qui dans notre exemple est de 7,8 fois par mois. Les calculs restants peuvent être facilités à l'aide du tableau suivant.

La phase finale du calcul de la variance ressemble à ceci :

Pour ceux qui aiment faire tous les calculs en une seule fois, l'équation ressemblera à ceci :

Utilisation de la méthode du comptage brut (exemple de cuisson)

Il y a plus méthode efficace calcul de la variance, méthode dite du "comptage brut". Bien qu'à première vue l'équation puisse sembler assez lourde, en fait elle n'est pas si effrayante. Vous pouvez vérifier cela, puis décider quelle méthode vous préférez.

est la somme de chaque valeur de données après mise au carré,

est le carré de la somme de toutes les valeurs de données.

Ne perdez pas la tête maintenant. Mettons le tout sous forme de tableau, et vous verrez alors qu'il y a moins de calculs ici que dans l'exemple précédent.

Comme vous pouvez le voir, le résultat est le même que lors de l'utilisation de la méthode précédente. Avantages cette méthode deviennent évidents à mesure que la taille de l'échantillon (n) augmente.

Calcul de la variance dans Excel

Comme vous l'avez probablement déjà deviné, Excel a une formule qui vous permet de calculer la variance. De plus, à partir d'Excel 2010, vous pouvez trouver 4 variétés de la formule de dispersion :

1) VAR.V - Renvoie la variance de l'échantillon. Les valeurs booléennes et le texte sont ignorés.

2) VAR.G - Renvoie la variance de la population. Les valeurs booléennes et le texte sont ignorés.

3) VASP - Renvoie la variance de l'échantillon, en tenant compte des valeurs booléennes et textuelles.

4) VARP - Renvoie la variance de la population, en tenant compte des valeurs logiques et textuelles.

Voyons d'abord la différence entre un échantillon et une population. Le but des statistiques descriptives est de résumer ou d'afficher des données de manière à obtenir rapidement une vue d'ensemble, pour ainsi dire, une vue d'ensemble. L'inférence statistique vous permet de faire des inférences sur une population à partir d'un échantillon de données de cette population. La population représente tous les résultats ou mesures possibles qui nous intéressent. Un échantillon est un sous-ensemble d'une population.

Par exemple, on s'intéresse à la totalité d'un groupe d'élèves d'un des Universités russes et nous devons déterminer le score moyen du groupe. Nous pouvons calculer la performance moyenne des élèves, puis le chiffre obtenu sera un paramètre, puisque toute la population sera impliquée dans nos calculs. Cependant, si nous voulons calculer le GPA de tous les étudiants de notre pays, ce groupe sera notre échantillon.

La différence dans la formule de calcul de la variance entre l'échantillon et la population se trouve au dénominateur. Où pour l'échantillon il sera égal à (n-1), et pour la population générale seulement n.

Passons maintenant aux fonctions de calcul de la variance avec les terminaisons MAIS, dans la description duquel il est dit que le calcul tient compte du texte et des valeurs logiques. Dans ce cas, lors du calcul de la variance d'un certain tableau de données, où il n'y a pas valeurs numériques, Excel interprétera le texte et les faux booléens comme 0 et les vrais booléens comme 1.

Ainsi, si vous disposez d'un tableau de données, il ne sera pas difficile de calculer sa variance à l'aide de l'une des fonctions Excel répertoriées ci-dessus.

DispersionVariable aléatoire- une mesure de la dispersion d'un Variable aléatoire, c'est-à-dire qu'elle déviations de espérance mathématique. En statistique, la notation (sigma au carré) est souvent utilisée pour désigner la variance. La racine carrée de la variance est appelée écart-type ou tartinade standard. L'écart type est mesuré dans les mêmes unités que le valeur aléatoire, et la variance est mesurée dans les carrés de cette unité.

Bien qu'il soit très pratique d'utiliser une seule valeur (telle que la moyenne ou le mode et la médiane) pour estimer l'ensemble de l'échantillon, cette approche peut facilement conduire à des conclusions erronées. La raison de cette situation ne réside pas dans la valeur elle-même, mais dans le fait qu'une valeur ne reflète en aucune façon la dispersion des valeurs des données.

Par exemple, dans l'exemple :

la moyenne est de 5.

Cependant, il n'y a aucun élément dans l'échantillon lui-même avec une valeur de 5. Vous devrez peut-être savoir à quel point chaque élément de l'échantillon est proche de sa valeur moyenne. Ou, en d'autres termes, vous devez connaître la variance des valeurs. En connaissant la mesure dans laquelle les données ont changé, vous pouvez mieux interpréter moyenne, médian et mode. Le degré de variation des valeurs d'échantillon est déterminé en calculant leur variance et leur écart type.



La variance et la racine carrée de la variance, appelée écart type, caractérisent l'écart moyen par rapport à la moyenne de l'échantillon. Parmi ces deux grandeurs, la plus importante est écart-type. Cette valeur peut être représentée comme la distance moyenne à laquelle les éléments se trouvent par rapport à l'élément central de l'échantillon.

La dispersion est difficile à interpréter de manière significative. Cependant, la racine carrée de cette valeur est l'écart-type et se prête bien à l'interprétation.

L'écart type est calculé en déterminant d'abord la variance, puis en calculant racine carrée de la dispersion.

Par exemple, pour le tableau de données illustré sur la figure, les valeurs suivantes seront obtenues :

Image 1

Ici, la moyenne des différences au carré est de 717,43. Pour obtenir l'écart type, il ne reste plus qu'à prendre la racine carrée de ce nombre.

Le résultat sera d'environ 26,78.

Il convient de rappeler que l'écart-type est interprété comme la distance moyenne à laquelle les éléments se situent par rapport à la moyenne de l'échantillon.

L'écart type montre à quel point la moyenne décrit l'ensemble de l'échantillon.

Disons que vous êtes le gestionnaire département de production Assemblage d'ordinateurs. Le rapport trimestriel indique que la production du dernier trimestre était de 2500 PC. Est-ce mauvais ou bon ? Vous avez demandé (ou il y a déjà cette colonne dans le rapport) d'afficher l'écart type pour ces données dans le rapport. Le chiffre de l'écart type, par exemple, est de 2000. Il devient clair pour vous, en tant que chef de service, que la chaîne de production nécessite une meilleure gestion(écarts trop importants du nombre de PC assemblés).

Rappelez-vous que lorsque l'écart type est grand, les données sont largement dispersées autour de la moyenne, et lorsque l'écart type est petit, elles se regroupent près de la moyenne.

Quatre fonctions statistiques VARP(), VARP(), STDEV() et STDEV() sont conçus pour calculer la variance et l'écart type des nombres dans une plage de cellules. Avant de pouvoir calculer la variance et l'écart type d'un ensemble de données, vous devez déterminer si les données représentent la population ou un échantillon de la population. Dans le cas d'un échantillon de la population générale, les fonctions VARP() et STDEV() doivent être utilisées, et dans le cas de la population générale, les fonctions VARP() et STDEV() doivent être utilisées :

Population Fonction

VARP()

STDLONG()
Goûter

VARI()

STDEV()

La dispersion (ainsi que l'écart type), comme nous l'avons noté, indique dans quelle mesure les valeurs incluses dans l'ensemble de données sont dispersées autour de la moyenne arithmétique.

Une petite valeur de la variance ou de l'écart type indique que toutes les données sont centrées autour de la moyenne arithmétique, et grande importance ces valeurs - que les données sont dispersées sur une large gamme de valeurs.

La variance est assez difficile à interpréter de manière significative (que signifie une petite valeur, une grande valeur ?). Performance Tâches 3 vous permettra de montrer visuellement, sur un graphique, la signification de la variance pour un ensemble de données.

Tâches

· Exercice 1.

· 2.1. Donner les concepts : variance et écart-type ; leur désignation symbolique dans l'informatique statistique.

· 2.2. Rédigez une feuille de travail conformément à la figure 1 et effectuez les calculs nécessaires.

· 2.3. Donner les formules de base utilisées dans les calculs

· 2.4. Expliquez toutes les notations ( , , )

· 2.5. Explique valeur pratique les notions de variance et d'écart-type.

Tâche 2.

1.1. Donner les concepts : population générale et échantillon ; espérance mathématique et moyenne arithmétique de leur désignation symbolique dans le traitement statistique des données.

1.2. Conformément à la figure 2, établissez une feuille de calcul et effectuez des calculs.

1.3. Donner les formules de base utilisées dans les calculs (pour la population générale et l'échantillon).

Figure 2

1.4. Expliquez pourquoi il est possible d'obtenir des valeurs de moyennes arithmétiques dans des échantillons comme 46,43 et 48,78 (voir fichier annexe). De conclure.

Tâche 3.

Il existe deux échantillons avec un ensemble de données différent, mais la moyenne pour eux sera la même :

figure 3

3.1. Rédigez une feuille de travail conformément à la figure 3 et effectuez les calculs nécessaires.

3.2. Donner les formules de calcul de base.

3.3. Construire des graphiques conformément aux figures 4, 5.

3.4. Expliquez les dépendances qui en résultent.

3.5. Effectuez des calculs similaires pour ces deux échantillons.

Échantillon initial 11119999

Sélectionnez les valeurs du deuxième échantillon afin que la moyenne arithmétique du deuxième échantillon soit la même, par exemple :

Choisissez vous-même les valeurs du deuxième échantillon. Organisez les calculs et les tracés comme dans les figures 3, 4, 5. Montrez les principales formules qui ont été utilisées dans les calculs.

Tirez les conclusions appropriées.

Toutes les tâches doivent être présentées sous la forme d'un rapport avec tous les chiffres, graphiques, formules et brèves explications nécessaires.

Remarque : la construction des graphiques doit être expliquée avec des chiffres et de brèves explications.

Cependant, cette seule caractéristique n'est pas encore suffisante pour l'étude d'une variable aléatoire. Imaginez deux tireurs qui tirent sur une cible. L'un tire avec précision et frappe près du centre, et l'autre ... s'amuse juste et ne vise même pas. Mais ce qui est marrant c'est que moyen le résultat sera exactement le même que le premier tireur ! Cette situation est illustrée conditionnellement par les variables aléatoires suivantes :

L'espérance mathématique "sniper" est égale à , cependant, " personnalité intéressante» : - c'est aussi zéro !

Il est donc nécessaire de quantifier dans quelle mesure dispersé balles (valeurs d'une variable aléatoire) par rapport au centre de la cible (espérance). bien et diffusion traduit du latin seulement comme dispersion .

Voyons comment cette caractéristique numérique est déterminée dans un des exemples de la 1ère partie de la leçon :

Là, nous avons trouvé une espérance mathématique décevante de ce jeu, et maintenant nous devons calculer sa variance, qui dénotéà travers .

Découvrons dans quelle mesure les gains/pertes sont "dispersés" par rapport à la valeur moyenne. Évidemment, pour cela, nous devons calculer différences entre valeurs d'une variable aléatoire et elle espérance mathématique:

–5 – (–0,5) = –4,5
2,5 – (–0,5) = 3
10 – (–0,5) = 10,5

Maintenant, il semble nécessaire de résumer les résultats, mais cette façon n'est pas bonne - pour la raison que les oscillations vers la gauche s'annuleront avec les oscillations vers la droite. Ainsi, par exemple, le tireur "amateur" (exemple ci-dessus) les différences seront , et une fois additionnés, ils donneront zéro, nous n'obtiendrons donc aucune estimation de la dispersion de son tir.

Pour contourner ce désagrément, pensez à modules différences, mais pour des raisons techniques, l'approche s'est enracinée lorsqu'elles sont au carré. Il est plus pratique de disposer la solution dans un tableau :

Et ici, il faut calculer moyenne pondérée la valeur des écarts au carré. Qu'est-ce que c'est? C'est le leur valeur attendue, qui est la mesure de la diffusion :

définition dispersion. Il ressort immédiatement de la définition que la variance ne peut pas être négative- prenez note pour la pratique!

Rappelons-nous comment trouver l'attente. Multipliez les différences au carré par les probabilités correspondantes (Suite du tableau):
- au sens figuré, c'est la "force de traction",
et résumer les résultats :

Ne pensez-vous pas que sur fond de gains, le résultat s'est avéré trop important ? C'est vrai - nous étions au carré, et pour revenir à la dimension de notre jeu, nous devons prendre la racine carrée. Cette valeur est appelée écart-type et est désigné par la lettre grecque "sigma":

Parfois, ce sens est appelé écart-type .

Quelle est sa signification ? Si nous nous écartons de l'espérance mathématique vers la gauche et vers la droite de l'écart type :

– alors les valeurs les plus probables de la variable aléatoire seront « concentrées » sur cet intervalle. Ce que nous voyons réellement :

Cependant, il se trouve que dans l'analyse de la diffusion, on opère presque toujours avec le concept de dispersion. Voyons ce que cela signifie par rapport aux jeux. Si dans le cas des tireurs on parle de la "précision" des coups par rapport au centre de la cible, alors ici la dispersion caractérise deux choses :

Premièrement, il est évident que lorsque les taux augmentent, la variance augmente également. Ainsi, par exemple, si nous augmentons de 10 fois, l'espérance mathématique augmentera de 10 fois et la variance augmentera de 100 fois (dès qu'il s'agit d'une valeur quadratique). Mais notez que les règles du jeu n'ont pas changé ! Seuls les taux ont changé, grosso modo, on pariait 10 roubles, maintenant 100.

Deuxièmement, plus point intéressant est que la variance caractérise le style du jeu. Fixez mentalement les taux de jeu à un certain niveau, et voyez ce qui se passe ici :

Un jeu à faible variance est un jeu prudent. Le joueur a tendance à choisir les schémas les plus fiables, où il ne perd/gagne pas trop à la fois. Par exemple, le système rouge/noir à la roulette (voir exemple 4 de l'article Variables aléatoires) .

Jeu à variance élevée. Elle est souvent appelée dispersion Jeu. Est-ce aventureux ou style agressif jeux où le joueur choisit des schémas "d'adrénaline". Rappelons-nous au moins "Martingale", dans lequel les sommes en jeu sont des ordres de grandeur supérieurs au jeu « tranquille » du paragraphe précédent.

La situation au poker est révélatrice : il y a ce qu'on appelle serré joueurs qui ont tendance à être prudents et à « trembler » le jeu signifie (financer). Sans surprise, leur bankroll ne fluctue pas beaucoup (faible variance). A l'inverse, si un joueur a une variance élevée, alors c'est l'agresseur. Il prend souvent des risques, fait de gros paris et peut à la fois casser une énorme banque et s'effondrer.

La même chose se produit sur le Forex, etc. - il existe de nombreux exemples.

De plus, dans tous les cas, peu importe que le jeu soit pour un sou ou pour des milliers de dollars. Chaque niveau a ses joueurs à variance faible et élevée. Eh bien, pour la victoire moyenne, on s'en souvient, "responsable" valeur attendue.

Vous avez probablement remarqué que trouver la variance est un processus long et laborieux. Mais les mathématiques sont généreuses :

Formule pour trouver la variance

Cette formule découle directement de la définition de la variance, et nous la mettons immédiatement en circulation. Je vais copier la plaque avec notre jeu d'en haut :

et l'attente trouvée.

Nous calculons la variance de la deuxième manière. Trouvons d'abord l'espérance mathématique - le carré de la variable aléatoire . Par définition de l'espérance mathématique:

Dans ce cas:

Ainsi, selon la formule :

Comme on dit, sentez la différence. Et en pratique, bien sûr, il vaut mieux appliquer la formule (sauf si la condition l'exige autrement).

Nous maîtrisons la technique de résolution et de conception :

Exemple 6

Trouvez son espérance mathématique, sa variance et son écart type.

Cette tâche se retrouve partout et, en règle générale, est dépourvue de sens.
Vous pouvez imaginer plusieurs ampoules avec des chiffres qui s'allument dans une maison de fous avec certaines probabilités :)

La solution: Il convient de résumer les principaux calculs dans un tableau. Tout d'abord, nous écrivons les données initiales dans les deux premières lignes. Ensuite on calcule les produits, puis et enfin les sommes dans la colonne de droite :

En fait, presque tout est prêt. Dans la troisième ligne, une attente mathématique toute faite a été dessinée : .

La dispersion est calculée par la formule :

Et enfin, l'écart type :
- personnellement, j'arrondis généralement à 2 décimales.

Tous les calculs peuvent être effectués sur une calculatrice, et mieux encore - sur Excel :

Difficile de se tromper ici :)

Réponse:

Ceux qui le souhaitent peuvent se simplifier encore plus la vie et profiter de mon calculatrice (démo), qui non seulement résout instantanément ce problème, mais construit également graphiques thématiques (Arrive bientôt). Le programme peut télécharger dans la bibliothèque– si vous avez téléchargé au moins un Matériel pédagogique ou obtenir autrement. Merci de soutenir le projet !

Quelques tâches pour solution indépendante:

Exemple 7

Calculez la variance de la variable aléatoire de l'exemple précédent par définition.

Et un exemple similaire :

Exemple 8

Une variable aléatoire discrète est donnée par sa propre loi de distribution :

Oui, les valeurs de la variable aléatoire peuvent être assez grandes (exemple de vrai travail) , et ici, si possible, utilisez Excel. Comme, soit dit en passant, dans l'exemple 7 - c'est plus rapide, plus fiable et plus agréable.

Solutions et réponses en bas de page.

A la fin de la 2ème partie de la leçon, nous analyserons encore une tâche typique, on pourrait même dire, un petit rébus :

Exemple 9

Une variable aléatoire discrète ne peut prendre que deux valeurs : et , et . La probabilité, l'espérance mathématique et la variance sont connues.

La solution: Commençons par une probabilité inconnue. Puisqu'une variable aléatoire ne peut prendre que deux valeurs, alors la somme des probabilités des événements correspondants :

et depuis , alors .

Reste à trouver..., facile à dire :) Mais bon, ça a commencé. Par définition de l'espérance mathématique :
- substituer les valeurs connues :

- et rien de plus ne peut être extrait de cette équation, sauf que vous pouvez la réécrire dans le sens habituel :

ou:

A propos d'autres actions, je pense que vous pouvez deviner. Créons et résolvons le système :

Décimales- ceci, bien sûr, est une honte totale ; multiplier les deux équations par 10 :

et diviser par 2 :

C'est beaucoup mieux. A partir de la 1ère équation on exprime :
(c'est le moyen le plus simple)- remplacer dans la 2ème équation :


Nous construisons au carré et faire des simplifications :

On multiplie par :

Par conséquent, équation quadratique, trouver son discriminant :
- parfait!

et on obtient deux solutions :

1) si , alors ;

2) si , alors .

La première paire de valeurs satisfait la condition. Avec une forte probabilité, tout est correct, mais, néanmoins, nous écrivons la loi de distribution :

et effectuer une vérification, à savoir, trouver l'espérance :

Souvent, en statistique, lors de l'analyse d'un phénomène ou d'un processus, il est nécessaire de prendre en compte non seulement des informations sur les niveaux moyens des indicateurs étudiés, mais également dispersion ou variation des valeurs des unités individuelles , lequel est caractéristique importante population étudiée.

Cours des actions, volumes de l'offre et de la demande, taux d'intérêt en différentes périodes temps et en différents lieux.

Les principaux indicateurs caractérisant la variation , sont la plage, la variance, l'écart type et le coefficient de variation.

Variation de portée est la différence entre les valeurs maximale et minimale de l'attribut : R = Xmax – Xmin. L'inconvénient de cet indicateur est qu'il n'évalue que les limites de la variation du trait et ne reflète pas sa fluctuation à l'intérieur de ces limites.

Dispersion dépourvu de ce défaut. Il est calculé comme le carré moyen des écarts des valeurs d'attribut par rapport à leur valeur moyenne :

Méthode simplifiée pour calculer la variance s'effectue à l'aide des formules suivantes (simples et pondérées) :

Des exemples d'application de ces formules sont présentés dans les tâches 1 et 2.

Un indicateur largement utilisé dans la pratique est écart-type :

L'écart-type est défini comme la racine carrée de la variance et a la même dimension que le trait étudié.

Les indicateurs considérés permettent d'obtenir la valeur absolue de la variation, c'est-à-dire l'évaluer en unités de mesure du trait étudié. Contrairement à eux, le coefficient de variation mesure la fluctuation en termes relatifs - par rapport au niveau moyen, ce qui dans de nombreux cas est préférable.

Formule de calcul du coefficient de variation.

Exemples de résolution de problèmes sur le thème "Indicateurs de variation dans les statistiques"

Tache 1 . Lors de l'étude de l'influence de la publicité sur la taille du dépôt mensuel moyen dans les banques du quartier, 2 banques ont été examinées. Les résultats suivants sont obtenus:

Définir:
1) pour chaque banque : a) dépôt mensuel moyen ; b) dispersion de la contribution ;
2) le dépôt mensuel moyen pour deux banques ensemble ;
3) Dispersion du dépôt pour 2 banques, en fonction de la publicité ;
4) Dispersion du dépôt pour 2 banques, en fonction de tous les facteurs sauf la publicité ;
5) Écart total en utilisant la règle d'addition ;
6) Coefficient de détermination ;
7) Relation de corrélation.

La solution

1) Faisons un tableau de calcul pour une banque avec de la publicité . Pour déterminer le dépôt mensuel moyen, nous trouvons les points médians des intervalles. Dans ce cas, la valeur de l'intervalle ouvert (le premier) est conditionnellement assimilée à la valeur de l'intervalle qui lui est adjacent (le second).

Nous trouvons la taille moyenne de la contribution en utilisant la formule moyenne arithmétique pondérée :

29 000/50 = 580 roubles

La dispersion de la contribution se trouve par la formule :

23 400/50 = 468

Nous effectuerons des actions similaires pour une banque sans publicité :

2) Trouvez le dépôt moyen pour deux banques ensemble. Xav \u003d (580 × 50 + 542,8 × 50) / 100 \u003d 561,4 roubles.

3) La variance du dépôt, pour deux banques, en fonction de la publicité, on trouvera par la formule : σ 2 =pq (formule de la variance d'un signe alternatif). Ici p=0,5 est la proportion de facteurs qui dépendent de la publicité ; q=1-0,5, alors σ 2 =0,5*0,5=0,25.

4) Puisque la part des autres facteurs est de 0,5, alors la variance du dépôt pour deux banques, qui dépend de tous les facteurs sauf la publicité, est également de 0,25.

5) Déterminer la variance totale en utilisant la règle d'addition.

= (468*50+636,16*50)/100=552,08

= [(580-561,4)250+(542,8-561,4)250] / 100= 34 596/ 100=345,96

σ 2 \u003d σ 2 fait + σ 2 repos \u003d 552,08 + 345,96 \u003d 898,04

6) Coefficient de détermination η 2 = σ 2 fait / σ 2 = 345,96/898,04 = 0,39 = 39 % - la taille de la contribution dépend de la publicité de 39 %.

7) Rapport de corrélation empirique η = √η 2 = √0,39 = 0,62 - la relation est assez proche.

Tâche 2 . Il existe un regroupement d'entreprises selon la valeur des produits commercialisables :

Déterminer : 1) la dispersion de la valeur des produits commercialisables ; 2) écart type ; 3) coefficient de variation.

La solution

1) Par condition, une série de distribution d'intervalle est présentée. Il faut l'exprimer discrètement, c'est-à-dire trouver le milieu de l'intervalle (x"). Dans les groupes d'intervalles fermés, on trouve le milieu par une moyenne arithmétique simple. Dans les groupes avec une borne supérieure, comme la différence entre cette borne supérieure et la moitié de la taille de l'intervalle qui le suit (200-(400 -200):2=100).

Dans les groupes avec une limite inférieure - la somme de cette limite inférieure et la moitié de la taille de l'intervalle précédent (800+(800-600):2=900).

Le calcul de la valeur moyenne des produits commercialisables se fait selon la formule :

Хср = k×((Σ((x"-a):k)×f):Σf)+a. Ici a=500 est la taille de la variante à la fréquence la plus élevée, k=600-400=200 est la taille de l'intervalle à la fréquence la plus élevée Mettons le résultat dans un tableau :

Ainsi, la valeur moyenne de la production commercialisable pour la période étudiée dans son ensemble est Xav = (-5:37) × 200 + 500 = 472,97 mille roubles.

2) On trouve la dispersion à l'aide de la formule suivante :

σ 2 \u003d (33/37) * 2002-(472,97-500) 2 \u003d 35 675,67-730,62 \u003d 34 945,05

3) écart type : σ = ±√σ 2 = ±√34 945,05 ≈ ±186,94 mille roubles.

4) coefficient de variation: V \u003d (σ / Xav) * 100 \u003d (186,94 / 472,97) * 100 \u003d 39,52%

Plage de variation (ou plage de variation) - est la différence entre les valeurs maximale et minimale de la fonctionnalité :

Dans notre exemple, la plage de variation du rendement posté des ouvriers est : dans la première brigade R=105-95=10 enfants, dans la deuxième brigade R=125-75=50 enfants. (5 fois plus). Cela suggère que la production de la 1ère brigade est plus "stable", mais la deuxième brigade a plus de réserves pour la croissance de la production, car. si tous les ouvriers atteignent la production maximale pour cette brigade, elle peut produire 3 * 125 = 375 pièces, et dans la 1ère brigade seulement 105 * 3 = 315 pièces.
Si les valeurs extrêmes de l'attribut ne sont pas typiques de la population, des plages de quartile ou de décile sont utilisées. La tranche quartile RQ= Q3-Q1 couvre 50% de la population, la tranche premier décile RD1=D9-D1 couvre 80% des données, la tranche second décile RD2=D8-D2 couvre 60%.
L'inconvénient de l'indicateur de plage de variation est que sa valeur ne reflète pas toutes les fluctuations du trait.
L'indicateur de généralisation le plus simple qui reflète toutes les fluctuations d'un trait est écart linéaire moyen, qui est la moyenne arithmétique des écarts absolus des options individuelles par rapport à leur valeur moyenne :

,
pour les données groupées
,
où хi est la valeur de l'attribut dans une série discrète ou le milieu de l'intervalle dans la distribution d'intervalle.
Dans les formules ci-dessus, les différences au numérateur sont prises modulo, sinon, selon la propriété de la moyenne arithmétique, le numérateur sera toujours égal à zéro. Par conséquent, l'écart linéaire moyen est rarement utilisé dans la pratique statistique, uniquement dans les cas où la somme des indicateurs sans tenir compte du signe a un sens économique. Avec son aide, par exemple, la composition des employés, la rentabilité de la production et le chiffre d'affaires du commerce extérieur sont analysés.
Écart de fonctionnalité est le carré moyen des écarts du variant à leur valeur moyenne :
écart simple
,
variance pondérée
.
La formule de calcul de la variance peut être simplifiée :

Ainsi, la variance est égale à la différence entre la moyenne des carrés de la variante et le carré de la moyenne de la variante de la population :
.
Cependant, en raison de la somme des écarts au carré, la variance donne une idée déformée des écarts, de sorte que la moyenne est calculée à partir de celle-ci. écart-type, qui indique dans quelle mesure les variantes spécifiques de l'attribut s'écartent en moyenne de leur valeur moyenne. Calculé en prenant la racine carrée de la variance :
pour les données non groupées
,
pour la série de variations

Comment moins de valeur dispersion et écart-type, plus la population est homogène, plus la valeur moyenne sera fiable (typique).
Moyenne linéaire et moyenne écart-type- les nombres nommés, c'est-à-dire qu'ils sont exprimés en unités de mesure de l'attribut, ont un contenu identique et une signification proche.
Il est recommandé de calculer les indicateurs absolus de variation à l'aide de tableaux.
Tableau 3 - Calcul des caractéristiques de variation (sur l'exemple de la période de données sur le rendement posté des équipes de travail)


Nombre de travailleurs

Le milieu de l'intervalle

Valeurs estimées

Total:

Rendement moyen d'un quart de travail :

Déviation linéaire moyenne :

Dispersion de sortie :

L'écart type de la production des travailleurs individuels par rapport à la production moyenne :
.

1 Calcul de la dispersion par la méthode des moments

Le calcul des variances est associé à des calculs lourds (surtout si la valeur moyenne est exprimée un grand nombre avec plusieurs décimales). Les calculs peuvent être simplifiés en utilisant une formule simplifiée et des propriétés de dispersion.
La dispersion a les propriétés suivantes :

  1. si toutes les valeurs de l'attribut sont réduites ou augmentées de la même valeur A, la variance ne diminuera pas à partir de cela :

,

, puis ou
En utilisant les propriétés de la variance et en réduisant d'abord toutes les variantes de la population par la valeur A, puis en divisant par la valeur de l'intervalle h, nous obtenons une formule de calcul de la variance dans des séries variationnelles à intervalles égaux chemin des instants :
,
où est la dispersion calculée par la méthode des moments ;
h est la valeur de l'intervalle de la série de variation ;
– nouvelles valeurs de variantes (transformées);
A est une valeur constante, qui est utilisée comme milieu de l'intervalle avec la fréquence la plus élevée ; ou la variante avec la fréquence la plus élevée ;
est le carré du moment du premier ordre;
est un moment du second ordre.
Calculons la variance par la méthode des moments basée sur les données sur la sortie de l'équipe de travail.
Tableau 4 - Calcul de la dispersion par la méthode des moments


Groupes de travailleurs de la production, pc.

Nombre de travailleurs

Le milieu de l'intervalle

Valeurs estimées

Procédure de calcul :


  1. calculer l'écart :

2 Calcul de la variance d'une caractéristique alternative

Parmi les signes étudiés par la statistique, il y a ceux qui n'ont que deux sens qui s'excluent mutuellement. Ce sont des signes alternatifs. Deux valeurs quantitatives leur sont respectivement attribuées : les options 1 et 0. La fréquence des options 1, notée p, est la proportion d'unités qui présentent cette caractéristique. La différence 1-p=q est la fréquence des options 0. Ainsi,


xii

Moyenne arithmétique de la caractéristique alternative
, puisque p+q=1.

Écart de fonctionnalité
, car 1-p=q
Ainsi, la variance d'un attribut alternatif est égale au produit de la proportion d'unités qui ont cet attribut et de la proportion d'unités qui n'ont pas cet attribut.
Si les valeurs 1 et 0 sont également fréquentes, c'est-à-dire p=q, la variance atteint son maximum pq=0,25.
La variable de variance est utilisée dans les enquêtes par sondage, par exemple, la qualité des produits.

3 Dispersion intergroupes. Règle d'addition de variance

La dispersion, contrairement à d'autres caractéristiques de variation, est une quantité additive. C'est-à-dire dans l'agrégat, qui est divisé en groupes selon le critère du facteur X , écart résultant y peut être décomposée en variance au sein de chaque groupe (intra groupe) et en variance entre groupes (entre groupe). Ensuite, parallèlement à l'étude de la variation du trait dans l'ensemble de la population, il devient possible d'étudier la variation dans chaque groupe, ainsi qu'entre ces groupes.

Écart total mesure la variation d'un trait à sur l'ensemble de la population sous l'influence de tous les facteurs qui ont provoqué cette variation (écarts). Il est égal au carré moyen des écarts des valeurs individuelles de la caractéristique à de la moyenne globale et peut être calculée comme une variance simple ou pondérée.
Écart intergroupe caractérise la variation de la caractéristique effective à, causée par l'influence du signe-facteur X sous-jacent au regroupement. Il caractérise la variation des moyennes de groupe et est égal au carré moyen des écarts des moyennes de groupe à la moyenne totale :
,
où est la moyenne arithmétique du i-ème groupe ;
– nombre d'unités dans le i-ème groupe (fréquence du i-ème groupe);
est la moyenne totale de la population.
Écart intragroupe reflète la variation aléatoire, c'est-à-dire la partie de la variation qui est causée par l'influence de facteurs non pris en compte et qui ne dépend pas de l'attribut-facteur sous-jacent au regroupement. Il caractérise la variation valeurs individuelles par rapport aux moyennes de groupe, égal au carré moyen des écarts des valeurs individuelles de l'attribut à au sein d'un groupe à partir de la moyenne arithmétique de ce groupe (moyenne du groupe) et se calcule comme une variance simple ou pondérée pour chaque groupe :
ou ,
où est le nombre d'unités dans le groupe.
Sur la base des variances intra-groupe pour chaque groupe, il est possible de déterminer la moyenne globale des variances intra-groupe:
.
La relation entre les trois variances est appelée règles d'ajout d'écart, selon laquelle la variance totale est égale à la somme de la variance intergroupe et de la moyenne des variances intragroupe :

Exemple. Lors de l'étude de l'influence catégorie tarifaire(qualification) des travailleurs sur le niveau de productivité de leur travail, les données suivantes ont été obtenues.
Tableau 5 - Répartition des travailleurs selon le rendement horaire moyen.



p/p

Travailleurs de la 4ème catégorie

Travailleurs de la 5ème catégorie

S'entraîner
travailleur, pièces,

S'entraîner
travailleur, pièces,

1
2
3
4
5
6

7
9
9
10
12
13

7-10=-3
9-10=-1
-1
0
2
3

9
1
1
0
4
9

1
2
3
4

14
14
15
17

14-15=-1
-1
0
2

1
1
0
4

Dans cet exemple, les travailleurs sont divisés en deux groupes selon le facteur X- les diplômes, caractérisés par leur rang. Le trait effectif - la production - varie à la fois sous son influence (variation intergroupe) et en raison d'autres facteurs aléatoires (variation intragroupe). Le défi consiste à mesurer ces variations à l'aide de trois variances : totale, inter-groupe et intra-groupe. Le coefficient de détermination empirique montre la proportion de la variation de la caractéristique résultante à sous l'influence d'un signe facteur X. Le reste de la variation totale à causés par des changements dans d'autres facteurs.
Dans l'exemple, le coefficient de détermination empirique est :
soit 66,7%,
Cela signifie que 66,7 % de la variation de la productivité du travail des travailleurs est due à des différences de qualification et 33,3 % à l'influence d'autres facteurs.
Relation de corrélation empirique montre l'étroitesse de la relation entre le regroupement et les caractéristiques effectives. Il est calculé comme la racine carrée du coefficient de détermination empirique :

Le rapport de corrélation empirique , ainsi que , peut prendre des valeurs de 0 à 1.
S'il n'y a pas de connexion, alors =0. Dans ce cas, =0, c'est-à-dire que les moyennes des groupes sont égales et qu'il n'y a pas de variation intergroupes. Cela signifie que le signe de regroupement - le facteur n'affecte pas la formation de la variation générale.
Si la relation est fonctionnelle, alors =1. Dans ce cas, la variance des moyennes de groupe est égale à la variance totale (), c'est-à-dire qu'il n'y a pas de variation intragroupe. Cela signifie que la caractéristique de regroupement détermine complètement la variation de la caractéristique résultante étudiée.
Plus la valeur de la relation de corrélation est proche de un, plus proche, proche de la dépendance fonctionnelle, la relation entre les caractéristiques.
Pour une évaluation qualitative de la proximité de la connexion entre les signes, les relations de Chaddock sont utilisées.

Dans l'exemple , ce qui indique une relation étroite entre la productivité des travailleurs et leurs qualifications.