Статистически ред, хистограма и редът на нейното построяване. Редове на разпределение в статистиката

Статистически редове на разпределение- подредено разпределение на единиците на съвкупността в групи по определен признак. Той характеризира състава (структурата) на изследваното явление, позволява ни да преценим хомогенността на съвкупността, модела на разпространение и границите на вариация на единиците от популацията.

Наричат ​​се редове на разпределение, изградени според атрибутивни (качествени) характеристики атрибутивни(разпределение на населението по пол, заетост, националност, професия и др.).

Наричат ​​се редове на разпределение, изградени въз основа на количествени характеристики вариационен(разпределение на населението по възраст, работници по трудов стаж, работна заплата и др.). Вариационните серии на разпределение се състоят от два елемента: опции и честоти. Настроики– индивидуални стойности на характеристика, която приема в серия. Честотие броят на отделните варианти или всяка група от вариационната серия, т.е. Това са числа, показващи колко често се появяват определени опции в серия за разпространение. Сумата от всички честоти се нарича обем на популацията и определя броя на елементите на цялата популация. Честотите са честоти, изразени като части от единици или като процент от общата сума.

Вариационните серии, в зависимост от характера на вариацията, се делят на дискретни и интервални. Дискретните вариационни серии се основават на дискретни (прекъснати) характеристики, които имат само цели числа, на дискретни характеристики, представени като интервали. Интервалните вариационни серии се основават на непрекъснати характеристики (имащи всякакви стойности, дори дробни).

7. Таблично и графично представяне на статистически данни.

Резултатите от обобщаването и групирането са представени под формата на таблици. Таблицата е рационална, визуална и компактна форма на статистически материал.

Статистическата таблица е таблица, съдържаща резултатите от изчисляването на практически данни и е резултат от обобщение на първоначалната информация.

Таблицата характеризира съвкупността по един или повече признаци, логически свързани помежду си.

Статистическата таблица има свой собствен субект и предикат. Субектът е обект, характеризиращ се с числа. Предикатът на таблицата е система от показатели.

Таблиците могат да бъдат прости или сложни. Една проста таблица дава прост списък от обекти. Сложната таблица съдържа групиране на съвкупност от единици едновременно по 2 или повече характеристики. Таблицата трябва да е компактна, заглавията да са кратки, информацията в колоните и графите да завършва с обобщаващ ред. Колоните и редовете трябва да имат единици, след което трябва да се извърши равномерна и логическа проверка на таблицата.

Статистическата графика е чертеж, в който статистическите агрегати, характеризиращи се с определени показатели, са описани с помощта на конвенционални геометрични изображения или знаци. При съставянето на график е необходимо да се спазват следните изисквания: яснота, изразителност и разбираемост. Графичното поле е частта от равнината, където са разположени графичните изображения. Използват се видове графики: линейни, стълбовидни, лентови, кръгови, секторни, фигурни, точкови, обемни, диаграми и статистически карти. Картограмата е схематична географска карта, на която са подчертани отраслите или структурата на населението.

Математическа статистика- клон на математиката, посветен на математически методиобработка, систематизиране и използване на статистически данни за научни и практически изводи.

3.1. ОСНОВНИ ПОНЯТИЯ НА МАТЕМАТИЧЕСКАТА СТАТИСТИКА

При медицински и биологични проблеми често е необходимо да се изследва разпространението на определена характеристика за много голям брой индивиди. При различни индивиди този знак има различен смисъл, така че е случайна променлива. Например всяко терапевтично лекарство има различна ефективност, когато се прилага при различни пациенти. Въпреки това, за да получите представа за ефективността на това лекарство, не е необходимо да го прилагате към всекиболен. Възможно е да се проследят резултатите от употребата на лекарството при сравнително малка група пациенти и въз основа на получените данни да се идентифицират основните характеристики (ефикасност, противопоказания) на процеса на лечение.

Население- съвкупност от хомогенни елементи, характеризиращи се с някакъв признак, който трябва да се изследва. Този знак е непрекъснатослучайна променлива с плътност на разпределение f(x).

Например, ако се интересуваме от разпространението на заболяване в определен регион, тогава общата популация е цялото население на региона. Ако искаме да разберем чувствителността на мъжете и жените към това заболяване поотделно, тогава трябва да разгледаме две общи популации.

За изследване на свойствата на генерална съвкупност се избира определена част от нейните елементи.

проба- част от общата популация, избрана за изследване (лечение).

Ако това не предизвиква объркване, тогава пробата се нарича като набор от предмети,избрани за проучването и съвкупност

стойностиизследваната характеристика, получена при изследването. Тези стойности могат да бъдат представени по няколко начина.

Прости статистически серии -стойности на изследваната характеристика, записани в реда, в който са получени.

Пример за проста статистическа серия, получена чрез измерване на повърхностната скорост на вълната (m/s) в кожата на челото при 20 пациенти, е даден в табл. 3.1.

Таблица 3.1.Прости статистически серии

Простата статистическа серия е основният и най-пълен начин за записване на резултатите от изследването. Може да съдържа стотици елементи. Много е трудно да се погледне такава съвкупност с един поглед. Следователно големите проби обикновено се разделят на групи. За да направите това, зоната на промяна в характеристиката е разделена на няколко (N) интервалиеднаква ширина и изчислете относителните честоти (n/n) на атрибута, попадащ в тези интервали. Ширината на всеки интервал е:

Границите на интервала имат следните значения:

Ако някой примерен елемент е границата между два съседни интервала, тогава той се класифицира като налявоинтервал. Групираните по този начин данни се наричат интервални статистически серии.

е таблица, която показва интервали от стойности на атрибути и относителните честоти на поява на атрибута в тези интервали.

В нашия случай можем да формираме например следната интервална статистическа серия (N = 5, д= 4), таблица. 3.2.

Таблица 3.2.Интервални статистически серии

Тук интервалът 28-32 включва две стойности, равни на 28 (Таблица 3.1), а интервалът 32-36 включва стойности 32, 33, 34 и 35.

Интервална статистическа серия може да бъде изобразена графично. За целта по абсцисната ос се нанасят интервали от стойности на атрибути и върху всеки от тях, като върху основа, се изгражда правоъгълник с височина, равна на относителната честота. Получената стълбовидна диаграма се нарича хистограма.

Ориз. 3.1.стълбовидна диаграма

В хистограмата статистическите модели на разпределението на характеристиката се виждат доста ясно.

При голям размер на извадката (няколко хиляди) и малка ширина на колоните, формата на хистограмата е близка до формата на графиката плътност на разпространениезнак.

Броят на колоните на хистограмата може да бъде избран чрез следната формула:

Ръчното конструиране на хистограма е дълъг процес. Следователно развити компютърни програмиза тяхното автоматично изграждане.

3.2. ЧИСЛОВИ ХАРАКТЕРИСТИКИ НА СТАТИСТИЧЕСКИ РЕДОВЕ

Много статистически процедури използват извадкови оценки за очакванията и дисперсията на популацията (или MSE).

Примерна средна стойност(X) е средноаритметичната стойност на всички елементи на проста статистическа серия:

За нашия пример х= 37,05 (m/s).

Средната стойност на извадката енай-добротообща средна оценкаМ.

Дисперсия на извадката s 2равна на сумата от квадратите на отклоненията на елементи от средната стойност на извадката, разделена на н- 1:

В нашия пример s 2 = 25,2 (m/s) 2.

Моля, имайте предвид, че когато се изчислява дисперсията на извадката, знаменателят на формулата не е размерът на извадката n, а n-1. Това се дължи на факта, че при изчисляване на отклоненията във формула (3.3) вместо неизвестното математическо очакване се използва неговата оценка - извадкова средна стойност.

Дисперсията на извадката е най-добротооценка на общата дисперсия (σ 2).

Примерно стандартно отклонение(s) е Корен квадратенот вариация на извадката:

За нашия пример с= 5,02 (m/s).

Селективен корен квадратенотклонението е най-добрата оценка на общото стандартно отклонение (σ).

При неограничено увеличаване на размера на извадката, всички характеристики на извадката клонят към съответните характеристики на генералната съвкупност.

За изчисляване на характеристиките на извадката се използват компютърни формули. В Excel тези изчисления се извършват статистически функции AVERAGE, DISP. СТАНДАРТНО ОТКЛОНЕНИЕ

3.3. ИНТЕРВАЛНА ОЦЕНКА

Всички характеристики на извадката са случайни променливи.Това означава, че за друга проба със същия размер стойностите на характеристиките на пробата ще бъдат различни. По този начин, селективно

характеристиките са само оценкисъответните характеристики на населението.

Недостатъците на селективното оценяване се компенсират от интервална оценка,представляващ числов интервалвътре в който с дадена вероятност R dсе намира истинската стойност на оценения параметър.

Позволявам U r - някакъв параметър на генералната съвкупност (генерална средна стойност, обща дисперсия и др.).

Интервална оценкапараметър U r се нарича интервал (U 1, U 2),отговарящи на условието:

P(U < Ur < U2) = Рд. (3.5)

Вероятност R dНаречен вероятност за доверие.

Вероятност за доверие Pд - вероятността истинската стойност на изчисленото количество да е вътреопределения интервал.

В този случай интервалът (U 1, U 2)Наречен доверителен интервалза параметъра, който се оценява.

Често вместо доверителната вероятност се използва свързаната стойност α = 1 - Р d, която се нарича ниво на значимост.

Ниво на значимосте вероятността истинската стойност на оценения параметър да е навъндоверителен интервал.

Понякога α и P d се изразяват като проценти, например 5% вместо 0,05 и 95% вместо 0,95.

При оценка на интервала първо изберете подходящия вероятност за доверие(обикновено 0,95 или 0,99) и след това намерете подходящия диапазон от стойности за параметъра, който се оценява.

Нека отбележим някои общи свойстваинтервални оценки.

1. Колкото по-ниско е нивото на значимост (толкова повече R d),толкова по-широка е оценката на интервала. Така че, ако при ниво на значимост от 0,05 интервалната оценка на общата средна стойност е 34,7< М< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < М< 40,25.

2. Колкото по-голям е размерът на извадката н,толкова по-тясна е оценката на интервала с избраното ниво на значимост. Нека, например, 5 е процентната оценка на общата средна стойност (β = 0,05), получена от извадка от 20 елемента, тогава 34,7< М< 39,4.

Като увеличим размера на извадката до 80, получаваме по-точна оценка при същото ниво на значимост: 35,5< М< 38,6.

Като цяло, изграждането на надеждни оценки на доверието изисква познаване на закона, според който оцененият случаен атрибут се разпределя в популацията. Нека да разгледаме как се конструира интервална оценка обща аварияхарактеристика, която се разпределя в популацията според нормалнозакон.

3.4. ИНТЕРВАЛНА ОЦЕНКА НА ГЕНЕРАЛНАТА СРЕДНА ЗА НОРМАЛНИЯ ЗАКОН НА РАЗПРЕДЕЛЕНИЕ

Изграждането на интервална оценка на общата средна M за съвкупност с нормален закон на разпределение се основава на следното свойство. За обем на вземане на проби нповедение

се подчинява на разпределението на Стюдънт с брой степени на свобода ν = н- 1.

Тук х- извадкова средна стойност и с- селективно стандартно отклонение.

Използвайки таблици за разпределение на Student или техен компютърен еквивалент, можете да намерите гранична стойност, така че с дадена доверителна вероятност да е валидно следното неравенство:

Това неравенство съответства на неравенството за M:

Където ε - полуширина на доверителния интервал.

По този начин изграждането на доверителен интервал за M се извършва в следната последователност.

1. Изберете доверителна вероятност Р d (обикновено 0,95 или 0,99) и за нея, използвайки таблицата за разпределение на Стюдънт, намерете параметъра t

2. Изчислете полуширината на доверителния интервал ε:

3. Получете интервална оценка на общата средна стойност с избраната доверителна вероятност:

Накратко се пише така:

Разработени са компютърни процедури за намиране на интервални оценки.

Нека обясним как да използваме таблицата за разпределение на ученика. Тази таблица има два „входа“: лявата колона, наречена брой степени на свобода ν = н- 1, а горният ред е нивото на значимост α. На кръстовище съответния реди колона намерете коефициента на Student T.

Нека приложим този метод към нашата извадка. По-долу е представен фрагмент от таблицата за разпределение на учениците.

Таблица 3.3. Фрагмент от разпределителната таблица на Студент

Проста статистическа серия за извадка от 20 души = 20, ν =19) е представен в табл. 3.1. За тази серия изчисленията с помощта на формули (3.1-3.3) дават: х= 37,05; с= 5,02.

Да изберем α = 0.05 (Р d = 0.95). На пресечната точка на ред „19“ и колона „0,05“ намираме T= 2,09.

Нека изчислим точността на оценката, използвайки формула (3.6): ε = 2,09?5,02/λ /20 = 2,34.

Нека изградим интервална оценка: с вероятност от 95%, неизвестната обща средна стойност удовлетворява неравенството:

37,05 - 2,34 < М< 37,05 + 2,34, или М= 37,05 ± 2,34 (m/s), R d = 0,95.

3.5. МЕТОДИ ЗА ПРОВЕРКА НА СТАТИСТИЧЕСКИ ХИПОТЕЗИ

Статистически хипотези

Преди да формулирате какво е статистическа хипотеза, разгледайте следния пример.

За да се сравнят два метода за лечение на определено заболяване, бяха избрани две групи пациенти от по 20 души и лекувани с помощта на тези методи. За всеки пациент се записва брой процедури,след което се постига положителен ефект. Въз основа на тези данни бяха открити извадкови средни стойности (X), извадкови вариации за всяка група (s 2)и примерни стандартни отклонения (с).

Резултатите са представени в табл. 3.4.

Таблица 3.4

Броят на процедурите, необходими за постигане на положителен ефект, е случайна величина, цялата информация за която е включена този моментсъдържащи се в дадения образец.

От масата 3.4 показва, че средната извадка в първата група е по-малка, отколкото във втората. Означава ли това, че същата връзка важи за общите средни стойности: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает статистическа проверка на хипотези.

Статистическа хипотеза- това е предположение за свойствата на популациите.

Ще разгледаме хипотези за свойствата двеобщи популации.

Ако популациите имат известен, идентиченразпределението на стойността, която се оценява, и допусканията се отнасят до стойностите някакъв параметърна това разпределение, тогава се наричат ​​хипотезите параметричен.Например, проби се вземат от популации с нормален законразпределение и равна дисперсия. Трябва да разберете еднакви ли саобщи средни стойности на тези популации.

Ако не се знае нищо за законите на разпределение на генералните съвкупности, тогава се наричат ​​хипотези за техните свойства непараметрични.Например, еднакви ли сазакони на разпределение на генералните съвкупности, от които са извлечени извадките.

Нулеви и алтернативни хипотези.

Задача за проверка на хипотези. Ниво на значимост

Нека се запознаем с терминологията, използвана при тестване на хипотези.

H 0 - нулевата хипотеза (хипотезата на скептиците) е хипотеза относно липсата на различиямежду сравнявани проби. Скептикът вярва, че разликите между извадковите оценки, получени от резултатите от изследването, са случайни;

H 1- алтернативна хипотеза (оптимистична хипотеза) е хипотеза за наличието на различия между сравняваните извадки. Оптимистът вярва, че разликите между извадковите оценки са причинени от обективни причини и съответстват на разликите в общите съвкупности.

Тестването на статистически хипотези е осъществимо само когато е възможно да се конструират някои размер(критерий), законът за разпределение на който при справедливост H 0известен. Тогава за това количество можем да уточним доверителен интервал,в които с дадена вероятност R dстойността му пада. Този интервал се нарича критична зона.Ако стойността на критерия попада в критичната област, тогава хипотезата се приема N 0.В противен случай се приема хипотеза H1.

В медицинските изследвания се използват P d = 0,95 или P d = 0,99. Тези стойности съответстват нива на значимостα = 0,05 или α = 0,01.

При проверка на статистически хипотезиниво на значимост(α) е вероятността за отхвърляне на нулевата хипотеза, когато е вярна.

Моля, имайте предвид, че в основата си процедурата за проверка на хипотези е насочена към откриване на разликиа не да потвърждават липсата им. Когато стойността на критерия надхвърли критичната област, можем да кажем с чисто сърце на „скептика“ - добре, какво друго искате?! Ако няма разлики, тогава с вероятност от 95% (или 99%) изчислената стойност ще бъде в посочените граници. Но не!..

Е, ако стойността на критерия попада в критичната област, тогава няма причина да се смята, че хипотезата H 0 е правилна. Това най-вероятно сочи към една от двете възможни причини.

1. Размерите на извадката не са достатъчно големи, за да открият разликите. Вероятно продължаването на експериментите ще доведе до успех.

2. Има разлики. Но те са толкова малки, че нямат никакво практическо значение. В този случай продължаването на експериментите няма смисъл.

Нека преминем към разглеждане на някои статистически хипотези, използвани в медицинските изследвания.

3.6. ТЕСТВАНЕ НА ХИПОТЕЗИ ОТНОСНО РАВЕНСТВОТО НА ВАРИАНЦИИТЕ, F-КРИТЕРИЙ НА ФИШЕР

В някои клинични проучвания положителният ефект се доказва не толкова много величинана параметъра, който се изследва, колко от него стабилизиране,намаляване на неговите колебания. В този случай възниква въпросът за сравняването на две общи вариации въз основа на резултатите от извадково проучване. Този проблем може да бъде решен с помощта на Тест на Фишер.

Формулиране на проблема

нормален законразпределения. Примерни размери -

n 1И n2,А примерни отклоненияравен s 1 и s 2 2 общи отклонения.

Тестваеми хипотези:

H 0- общи отклонения са същите;

H 1- общи отклонения са различни.

Показва се, ако са взети проби от популации с нормален законразпределение, тогава ако хипотезата е вярна H 0съотношението на дисперсиите на извадката следва разпределението на Фишер. Следователно като критерий за проверка на справедливостта H 0стойността се взема Е,изчислено по формулата:

Където s 1 и s 2 са примерни дисперсии.

Това отношение се подчинява на разпределението на Фишер с броя на степените на свобода на числителя ν 1 = n 1- 1 и броя на степените на свобода на знаменателя ν 2 = n 2 - 1. Границите на критичната област се намират с помощта на таблиците за разпределение на Фишер или с помощта на компютърната функция BRASPOBR.

За примера, представен в табл. 3.4, получаваме: ν 1 = ν 2 = 20 - 1 = 19; Е= 2,16/4,05 = 0,53. При α = 0,05 границите на критичната област са съответно: = 0,40, = 2,53.

Стойността на критерия попада в критичната област, така че хипотезата се приема H 0:общи извадкови отклонения са същите.

3.7. ТЕСТВАНЕ НА ХИПОТЕЗИ ОТНОСНО РАВЕНСТВОТО НА СРЕДСТВАТА, t-КРИТЕРИЙ НА СТУДЕНТ

Задача за сравнение средно аритметичнодве генерални популации възникват, когато практическо значениеима точно величинаизследваната характеристика. Например, когато се сравнява продължителността на лечението с два различни метода или броя на усложненията, произтичащи от тяхното използване. В този случай можете да използвате t-теста на Student.

Формулиране на проблема

Бяха получени две проби (X 1) и (X 2), извлечени от общи популации с нормален законразпространение и идентични вариации.Размери на извадката - n 1 и n 2, примерни средстваса равни на X 1 и X 2, и примерни отклонения- s 1 2 и s 2 2съответно. Трябва да се сравни общи средни стойности.

Тестваеми хипотези:

H 0- общи аварии са същите;

H 1- общи аварии са различни.

Доказано е, че ако хипотезата е вярна H 0 t стойност, изчислена по формулата:

разпределени по закона на Стюдънт с брой степени на свобода ν = ν 1 + + ν2 - 2.

Тук където ν 1 = н 1 - 1 - брой степени на свобода за първата проба; ν 2 = н 2 - 1 - брой степени на свобода за втория образец.

Границите на критичната област се намират с помощта на таблици с t-разпределение или с помощта на компютърната функция STUDRIST. Разпределението на Стюдънт е симетрично около нулата, така че лявата и дясната граница на критичната област са еднакви по величина и противоположни по знак: -и

За примера, представен в табл. 3.4, получаваме:

ν 1 = ν 2 = 20 - 1 = 19; ν = 38, T= -2,51. При α = 0,05 = 2,02.

Стойността на критерия надхвърля лявата граница на критичната област, така че приемаме хипотезата H 1:общи средни стойности са различни.В същото време населението средно първа пробаПО-МАЛКО.

Приложимост на t-критерия на Стюдънт

Тестът на Стюдънт е приложим само за проби от нормалноагрегати с идентични общи отклонения.Ако поне едно от условията е нарушено, тогава приложимостта на критерия е под въпрос. Изискването за нормалност на общото население обикновено се игнорира, цитирайки централна гранична теорема.Наистина, разликата между извадковите средни стойности в числителя (3.10) може да се счита за нормално разпределена за ν > 30. Но въпросът за равенството на дисперсиите не може да бъде проверен и не могат да бъдат взети препратки към факта, че тестът на Фишер не е открил разлики под внимание. Въпреки това, t-тестът се използва широко за откриване на разлики в средните стойности на популацията, макар и без достатъчно доказателства.

По-долу се обсъжда непараметричен критерий,който се използва успешно за същите цели и който не изисква никакви нормалност,нито едно равенство на дисперсиите.

3.8. НЕПАРАМЕТРИЧНО СРАВНЕНИЕ НА ДВЕ ПРОБИ: КРИТЕРИЙ НА МАН-УИТНИ

Непараметричните тестове са предназначени да открият разликите в законите на разпределение на две популации. Критерии, които са чувствителни към различията като цяло средно аритметично,наречени критерии смянаКритерии, които са чувствителни към различията като цяло дисперсии,наречени критерии мащаб.Тестът на Ман-Уитни се отнася до критериите смянаи се използва за откриване на разлики в средните стойности на две популации, проби от които са представени в скала за класиране.Измерените характеристики се разполагат на тази скала във възходящ ред, след което се номерират с цели числа 1, 2... Тези числа се наричат редици.На равни количества се присвояват равни рангове. Не е важна стойността на самия атрибут, а само редно мястокоито нарежда сред другите количества.

В табл 3.5. първата група от таблица 3.4 е представена в разширена форма (ред 1), класирана (ред 2), след което редовете на еднакви стойности се заменят със средни аритметични. Например, на елементи 4 и 4 в първия ред бяха дадени рангове 2 и 3, които след това бяха заменени със същите стойности от 2,5.

Таблица 3.5

Формулиране на проблема

Независими проби (X 1)И (X 2)извлечени от общи популации с неизвестни закони на разпределение. Примерни размери n 1И n 2съответно. Стойностите на примерните елементи са представени в скала за класиране.Необходимо е да се провери дали тези генерални съвкупности се различават една от друга?

Тестваеми хипотези:

H 0- пробите принадлежат към една и съща генерална съвкупност; H 1- извадките принадлежат към различни генерални съвкупности.

За тестване на такива хипотези се използва (/-тестът на Ман-Уитни.

Първо се съставя комбинирана извадка (X) от двете извадки, чиито елементи се класират. След това се намира сумата от ранговете, съответстващи на елементите от първата извадка. Тази сума е критерият за проверка на хипотези.

U= Сума от ранговете на първата проба. (3.11)

За независими проби, чиито обеми са по-големи от 20, стойността Uсе подчинява на нормалното разпределение, очаквана стойности чието стандартно отклонение е равно на:

Следователно границите на критичната област се намират според нормалните таблици на разпределение.

За примера, представен в табл. 3.4, получаваме: ν 1 = ν 2 = 20 - 1 = 19, U= 339, μ = 410, σ = 37. За α = 0,05 получаваме: ляво = 338 и дясно = 482.

Стойността на критерия надхвърля лявата граница на критичната област, следователно се приема хипотеза H 1: общите популации имат различни закониразпределения. В същото време населението средно първа пробаПО-МАЛКО.

Имайки налични статистически данни за наблюдение, характеризиращи конкретно явление, на първо място е необходимо да ги организираме, т.е. придава систематичен характер

английски статистик. UJReichman образно каза за неподредените колекции, че срещата с маса необобщени данни е еквивалентна на ситуация, в която човек е хвърлен в гъсталака без компас. Каква е систематизацията на статистическите данни под формата на серии за разпределение?

Статистическите серии от разпределения са подредени статистически агрегати (Таблица 17). Най-простият тип статистическа серия за разпределение е класирана серия, т.е. поредица от числа във възходящ или низходящ ред, променяйки характеристиките. Такава серия не позволява да се прецени моделите, присъщи на разпределените данни: коя стойност има групирани повечето показатели, какви отклонения има от тази стойност; като голяма картинаразпределения. За целта данните се групират, показвайки колко често се срещат отделните наблюдения в общия им брой (Схема 1а 1).

. Таблица 17

. Обща формастатистически серии на разпределение

. Схема 1. Статистическа схемасерия за разпространение

Разпределението на единиците на съвкупността по признаци, които нямат количествено изражение, се нарича атрибутивни серии(например разпределение на предприятията по техния производствен район)

Сериите от разпределение на единиците на съвкупността по признаци, имащи количествено изражение, се наричат вариационна серия. В такива серии стойностите на характеристиката (опциите) са във възходящ или низходящ ред

В серията на вариационното разпределение се разграничават два елемента: вариант и честота . опция- това е отделно значение на груповите характеристики честота- число, което показва колко пъти се среща всяка опция

IN математическа статистикаоще един елемент от вариационната серия се изчислява - частично. Последният се определя като съотношението на честотата на случаите на даден интервал към общата сума на честотите; частта се определя в части от единица, процент (%) в ppm (%o)

По този начин серия от разпределение на вариации е серия, в която опциите са подредени във възходящ или низходящ ред и са посочени техните честоти или честоти. Вариационните серии са дискретни (интервали) и други интервали (непрекъснати).

. Дискретни вариационни серии- това са редове на разпределение, в които вариантът като стойност на количествена характеристика може да приема само определена стойност. Опциите се различават една от друга с една или повече единици

По този начин броят на частите, произведени на смяна от конкретен работник, може да бъде изразен само с едно конкретно число (6, 10, 12 и т.н.). Пример за серия от дискретни вариации може да бъде разпределението на работниците по броя на произведените части (Таблица 18 18).

. Таблица 18

. Разпределение на дискретни серии _

. Интервални (непрекъснати) вариационни серии- такива серии на разпределение, в които стойността на опциите е дадена под формата на интервали, т.е. стойностите на характеристиките могат да се различават една от друга с произволно малка сума. Когато се конструира вариационна серия от перивариантни характеристики на NEP, е невъзможно да се посочи всяка стойност на варианта, така че популацията се разпределя на интервали. Последните могат да бъдат равни или неравни. За всяка от тях са посочени честоти или честоти (Таблица 1 9 19).

В сериите на интервално разпределение с неравни интервали се изчисляват математически характеристики като плътност на разпределение и относителна плътност на разпределение на даден интервал. Първата характеристика се определя от съотношението на честотата към стойността на същия интервал, втората - от съотношението на честотата към стойността на същия интервал. За примера по-горе, плътността на разпределение в първия интервал ще бъде 3: 5 = 0,6, а относителната плътност в този интервал е 7,5: 5 = 1,55%.

. Таблица 19

. Серия на интервално разпределение _

Тема 9. Серии на разпределение

Статистически редове на разпределение- това е основната характеристика на масовата статистическа съвкупност, подредено разлагане на единици от съвкупността, които се изучават в групи според групиращите характеристики. Всяка статистическа серия на разпределение се състои от два елемента:

1) индивидуални стойности на различната характеристика ( настроики );

2) стойности, които показват колко пъти се повтаря дадена опция ( честоти ).

Забележка. Наричат ​​се честоти, изразени в части от единица или като процент от общата сума честоти ; това е броят на изразените серии на разпределение сбор от честоти.

Ако за основа на групирането се вземе качествена характеристика, тогава се нарича такава серия на разпределение атрибутивни(разпределение по вид труд, по пол, по професия, по религия, народност и др.). Ако серия за разпределение е конструирана на количествена основа, тогава такава серия се нарича вариационен. Да се ​​конструира вариационна серия означава да се организира количественото разпределение на единиците на съвкупността по характерни стойности и след това да се преброи броя на единиците на популацията с тези стойности (изграждане на групова таблица).

Маркирайте три форми на вариационни серии:

1) класирани серии- това е разпределението на отделни единици от съвкупността във възходящ или низходящ ред на изучавания признак; класирането ви позволява лесно да разделяте количествените данни на групи, веднага да откривате най-малките и най-висока стойностхарактеристика, подчертайте стойностите, които най-често се повтарят; други форми на вариационни серии - групови маси, съставен според естеството на изменението на стойностите на изследваната характеристика;

2) дискретна серия- това е вариационна серия, чиято конструкция се основава на характеристики с прекъсната промяна, между които няма междинни стойности (дискретни характеристики - тарифна категория, брой деца в семейството, брой служители в предприятието и др.); тези характеристики могат да приемат само краен брой специфични стойности;

Дискретна серия представлява групова маса, който се състои от две колони: първата колона показва конкретната стойност на признака, а втората - броят единици в съвкупността с конкретна стойност на признака;

3) ако характеристиката има непрекъсната промяна (размер на дохода, трудов стаж, цена на дълготрайните активи на предприятието и т.н., които в определени граници могат да приемат всякакви стойности), тогава за тази характеристика е необходимо да се изгради интервални серии (на равни или неравни интервали).

Групова масатук също има две колони. Първият показва стойността на атрибута в интервала „от - до“ (опции), вторият показва броя на единиците, включени в интервала (честота). Много често таблицата се допълва с колона, в която се изчисляват натрупаните честоти S, които показват колко единици в популацията имат характерна стойност не по-голяма от тази стойност. Честотите от серията f могат да бъдат заменени с подробности w, изразени в относителни числа (дялове или проценти). Те представляват отношението на честотите на всеки интервал към общата им сума (9.1):



(9.1)

При конструирането на вариационна серия с интервални стойности, на първо място, е необходимо да се установи стойността на интервала i, който се определя като съотношението на диапазона на вариация R към броя на групите n (9.2):

където R = x max - x min; n = 1 + 3,322 logN( Формула на Стърджис); Н- общ бройединици от населението.

Интервални вариационни серии могат също да бъдат конструирани за характеристики с дискретна вариация. Често в статистическо изследване е неуместно да се посочи отделна стойност на отделен атрибут, т.к. това има тенденция да затруднява разглеждането на вариация в черта. Следователно възможните дискретни стойности на атрибута се разпределят в групи и се изчисляват съответните честоти (данни). При конструиране на интервална серия въз основа на дискретен атрибут границите на съседни интервали не се повтарят: следващият интервал започва със следващата по ред (след горната стойност на предишния интервал) дискретна стойност на атрибута.

Когато се сравняват честотите на серия с неравни интервали, се изчислява плътността на разпределението, за да се характеризира тяхната пълнота. Средна плътност в интервалае частното на честотата и особеността, разделено на стойността на интервала. В първия случай плътността е абсолютна, във втория – относителна. Средната плътност показва колко единици или проценти от тях са за единица измерване опции. Честота, особеност, плътност и натрупана честота са различни функции на опциите за величина.

В ход анализ на статистически данни, представени чрез серии на разпределение, в допълнение към знанията за характера на разпределението (или структурата на съвкупността) могат да се изчислят различни статистически показатели (числови характеристики), които в обобщен вид отразяват характеристиките на разпределението на характеристиките се изучава. Тези характеристики (показатели) могат да бъдат разделени на 3 основни групи

1) характеристики на разпределителния център(средно, мода, медиана);

2) характеристики на степента на вариация(диапазон на вариация, средно линейно отклонение, дисперсия, стандартно отклонение, коефициент на вариация);

3) характеристики на формата (типа) на разпределение(показатели за ексцес и асиметрия, рангови характеристики, криви на разпределение).

Най-надеждният начин за идентифициране на модели на разпространение е както следва:
1) увеличаване на броя на наблюдаваните случаи (в съответствие със закона големи числа, в такива серии има случайни отклонения от общия модел в индивидуални ценностище се отменят взаимно);

2) първоначално разделете популацията на максималния възможен брой групи, след това, постепенно намалявайки броя на групите, оптимизирайте групирането от гледна точка на идентифициране на модели на разпространение.

При прилагането на този подход моделът, характерен за дадено разпределение, ще се появява все по-ясно и прекъснатата линия, изобразяваща многоъгълника, ще се доближава до някаква гладка линия и в границата трябва да се превърне в крива линия.

При систематизиране на данни от извадкови изследвания се използват статистически дискретни и интервални редове на разпределение.

1. Статистически дискретно разпределение. Многоъгълник.
Нека извадка бъде извлечена от общата популация и x 1 е наблюдавано n 1 пъти, x 2 – n 2 пъти, x k – n k пъти и ∑n i =n е размерът на извадката. Наблюдаваните стойности на x 1 се наричат ​​варианти, а последователността от варианти, записани във възходящ ред, се нарича вариационна серия. Броят на наблюденията се нарича честота, а съотношението му към размера на извадката се нарича относителна честота n i /n=w i

ОПРЕДЕЛЕНИЕ. Статистическият (емпиричен) закон за разпределение на извадката или просто статистическото разпределение на извадка е последователността от варианти x i и съответните честоти n i или относителни честоти w i .

Статистическо разпределениеУдобно е да се представят проби под формата на таблица с честотно разпределение, наречена статистическа серия с дискретно разпределение:

(сумата от всички относителни честоти е равна на едно ∑w i =1)

Пример 1. При измерване в хомогенни групи от субекти са получени следните проби: 71, 72, 74, 70, 70, 72, 71, 74, 71, 72, 71, 73, 72, 72, 72, 74, 72 , 73, 72 , 74 (пулсова честота). Въз основа на тези резултати съставете статистическа серия от честотни разпределения и относителни честоти.

Решение. 1) Статистически серии от честотно разпределение:

x i 70 71 72 73 74
n i 2 4 8 2 4

2) Размер на извадката: n=2+4+8+2+4=20. Нека намерим относителните честоти, като разделим честотите на размера на извадката n i /n=w i: w i =2/20=0,1; w 2 =4/20=0,2; w3=0,4; w 4 =4/20=0.1; w 5 =2/20=0,2. Нека напишем разпределението на относителните честоти:

x i 70 71 72 73 74
w i 0.1 0.2 0.4 0.1 0.2

Контрола: 0,1+0,2+0,4+0,1+0,2=1.

Честотен многоъгълник е начупена линия, сегменти, които свързват точките (x 1,n 1), (x 2,n 2),...,(x k,n k). За да се конструира честотен многоъгълник, опциите x 2 се нанасят върху абсцисната ос, а съответните честоти n i се нанасят върху ординатната ос. Точките (x i,n i) се свързват с отсечки и се получава честотен полигон.

Многоъгълник от относителни честоти е прекъсната линия, сегменти, които свързват точките (x 1,w 1), (x 2,w 2),...,(x k,w k). За да се изгради полигон от относителни честоти, вариантите x i се нанасят по абсцисната ос, а съответните честоти w i се нанасят по ординатната ос. Точките (x i, w i) се свързват с сегменти и се получава многоъгълник от относителни честоти.

Пример 2. Конструирайте полигон от честоти и относителни честоти въз основа на данните в пример 1.
Решение: Използвайки дискретната статистическа серия на разпределение, компилирана в пример 1, ще конструираме честотен многоъгълник и относителен честотен полигон:

2. Серия на статистическо интервално разпределение. Стълбовидна диаграма. Статистически дискретни серии (или емпирична функция на разпределение) обикновено се използват, когато няма твърде много варианти в извадката, които се различават една от друга, или когато дискретността по една или друга причина е важна за изследователя. Ако характеристиката на общата съвкупност X, която ни интересува, е разпределена непрекъснато или нейната дискретност е непрактично (или невъзможно) да се вземе предвид, тогава опциите се групират в интервали.

Статистическото разпределение може също да бъде определено като последователност от интервали и честотите, съответстващи на тях (сумата от честотите, попадащи в този интервал, се приема като честота, съответстваща на интервала).

Коментирайте. Често h i -h i-1 =h за всички i, т.е. групирането се извършва с еднаква стъпка h. В тази ситуация можете да се ръководите от следните емпирични препоръки за вземане на проби a, k и h i:

1. R span =X max -X ​​​​min
2. h=R/k; k-брой групи
3. k≥1+3,321lgn (формула на Sturges)
4. a=x min, b=x max
5. h=a+ih, i=0,1...k

Удобно е да се представи полученото групиране под формата на честотна таблица, която се нарича статистическа серия на интервално разпределение:

Аналогична таблица може да се формира чрез замяна на честотите ni с относителни честоти:

Пример 3. От много голяма партида части беше извлечена произволна проба с обем 50. Характеристиката, която ни интересува, е X-размерите на частите, измерени с точност от 1 cm, представени от следната вариационна серия: 22, 47, 26, 26, 30, 28, 28, 31, 31, 31, 32, 32, 33, 33, 33, 33, 34, 34, 34, 34, 34, 35, 35, 36, 36, 36, 36, 36, 37, 37, 37, 37, 37, 37, 38, 38, 40, 40, 40, 40, 40, 41, 41, 43, 44, 44, 45, 45, 47, 50. Намерете серията на статистическото интервално разпределение.

Решение. Нека дефинираме характеристиките на групата с помощта на забележка.
k≥1+3,321lg50=1+3,32lg(5 10)=1+3,32(lg5+lg10)=6,6
Имаме a=22, k=7, h=(50-22)/7=4, h i =22+4i, i=0,1,…,7.

Интервали на групиране 22-26 26-30 30-34 34-38 38-42 42-46 46-50
Честоти n i 1 4 10 18 9 5 3
Относителна честота w i 0.02 0.08 0.2 0.36 0.18 0.1 0.06

Десетични логаритми от 1 до 10

н 1 2 3 4 5 6 7 8 9 10
вътре н 0 0.3 0.48 0.6 0.7 0.78 0.85 0.9 0.95 1

Най-информативната графична форма на честотите е специална графика, наречена честотна хистограма.

Честотната хистограма е стъпаловидна фигура, състояща се от правоъгълници, чиито основи са частични интервали с дължина h, а височините са равни на съотношението n i / h (честотна плътност).

За да се изгради честотна хистограма, върху абсцисната ос се поставят частични интервали и над тях се чертаят сегменти, успоредни на абсцисната ос на разстояние n i /h. Площта на i-тия частичен правоъгълник е равна на h n i /h=n i - сумата от честотите на i-тата опция за интервал; следователно площта на честотната хистограма е равна на сумата от всички честоти, т.е. размер на извадката.

Хистограмата на относителната честота е стъпаловидна фигура, състояща се от правоъгълници, чиито основи са частични интервали с дължина h, а височините са равни на отношението w i /h (относителна плътност на честотата).

За да се изгради хистограма на относителните честоти, върху абсцисната ос се нанасят частични интервали, а над тях се чертаят сегменти, успоредни на абсцисната ос на разстояние w i /h. Площта на i-тия частичен правоъгълник е равна на h w i /h=w i - относителната честота на вариантите, попадащи в i-ти интервал. Следователно площта на хистограмата на относителните честоти е равна на сумата от всички относителни честоти, т.е. мерна единица.

Пример 4. Постройте хистограма на честотите и относителните честоти въз основа на данните в Пример 3.

Медианата на извадката е средата на вариационната серия, стойност, разположена на същото разстояние от лявата и дясната граница на извадката.

Селективният режим е най-вероятният, т.е. най-често срещаната стойност в извадката.