Понятие и видове статистически редове. Редове на разпределение в статистиката

Най-важният етап в изследването на социално-икономическите явления и процеси е систематизирането на първичните данни и на тази основа получаването на обобщена характеристика на целия обект с помощта на общи показатели, което се постига чрез обобщаване и групиране на първичен статистически материал.

Статистическо резюме - това е комплекс от последователни операции за обобщаване на конкретни отделни факти, които образуват набор, за да се идентифицират типични характеристики и модели, присъщи на изучаваното явление като цяло. Провеждането на статистическо обобщение включва следните стъпки :

  • избор на групиращи характеристики;
  • определяне на реда за формиране на групите;
  • разработване на система от статистически показатели за характеризиране на групите и обекта като цяло;
  • разработване на оформления на статистически таблици за представяне на обобщени резултати.

Статистическо групиране се нарича разделянето на единици от изследваната съвкупност на хомогенни групи според определени съществени за тях характеристики. Групирането е най-важният статистически метод за обобщаване на статистически данни, основа за правилното изчисляване на статистическите показатели.

Разграничават се следните видове групировки: типологични, структурни, аналитични. Всички тези групи се обединяват от факта, че единиците на обекта са разделени на групи по някакъв признак.

Функция за групиране е характеристика, по която единиците от съвкупността се разделят на отделни групи. Заключенията на статистическото изследване зависят от правилния избор на групираща характеристика. Като основа за групиране е необходимо да се използват значими, теоретично обосновани характеристики (количествени или качествени).

Количествени характеристики на групирането имат цифров израз (обем на търговия, възраст на лицето, семеен доход и т.н.) и качествени признаци на групиране отразяват състоянието на единица от населението (пол, Семейно положение, отраслова принадлежност на предприятието, неговата форма на собственост и др.).

След като се определи основата на групирането, трябва да се реши въпросът за броя на групите, на които трябва да се раздели изследваната популация. Броят на групите зависи от целите на изследването и вида на индикатора, който е в основата на групирането, обема на популацията и степента на вариация на характеристиката.

Например, групирането на предприятия по вид собственост взема предвид общинската, федералната и федералната субектна собственост. Ако групирането се извършва по количествен критерий, тогава е необходимо да се обърне специално внимание на броя на единиците на изследвания обект и степента на колебание на характеристиката на групиране.

След като се определи броят на групите, трябва да се определят интервалите на групиране. Интервал - това са стойностите на различна характеристика, които се намират в определени граници. Всеки интервал има своя стойност, горна и долна граница или поне една от тях.

Долна граница на интервала се нарича най-малката стойност на характеристиката в интервала и горен лимит - най-високата стойност на характеристиката в интервала. Стойността на интервала е разликата между горната и долната граница.

Интервалите на групиране в зависимост от големината им биват: равни и неравни. Ако вариацията на дадена характеристика се проявява в относително тесни граници и разпределението е равномерно, тогава групата се изгражда на равни интервали. Стойността на равния интервал се определя по следната формула :

където Xmax, Xmin са максималните и минималните стойности на характеристиката в съвкупността; n - брой групи.

Най-простото групиране, при което всяка избрана група се характеризира с един показател, представлява серия на разпределение.

Статистически редове на разпределение - това е подредено разпределение на единиците на съвкупността в групи по определен признак. В зависимост от характеристиката, която е в основата на формирането на редовете на разпределение, се разграничават атрибутивни и вариационни редове на разпределение.

Атрибутивен се наричат ​​серии на разпределение, изградени според качествени характеристики, т.е. характеристики, които нямат цифров израз (разпределение по вид труд, по пол, по професия и др.). Атрибутивните редове на разпределение характеризират състава на съвкупността по определени съществени характеристики. Взети за няколко периода, тези данни позволяват да се изследват промените в структурата.

Вариационни серии се наричат ​​серии на разпределение, построени на количествена основа. Всяка вариационна серия се състои от два елемента: опции и честоти. Настроики индивидуалните стойности на характеристиката, които тя приема в серията вариации, се наричат, т.е. специфичната стойност на променящата се характеристика.

Честоти наричат ​​се номерата на отделните варианти или всяка група от вариационна серия, т.е. това са числа, които показват колко често се срещат определени варианти в серията на разпределение. Сумата от всички честоти определя размера на цялата популация, нейния обем. Честоти се наричат ​​честоти, изразени в части от единица или като процент от общата сума. Съответно сумата от честотите е равна на 1 или 100%.

В зависимост от естеството на изменението на дадена характеристика се разграничават три форми на вариационни серии: класирани серии, дискретни серии и интервални серии.

Класирани вариационни серии - това е разпределението на отделните единици от съвкупността във възходящ или низходящ ред на изучавания признак. Класирането ви позволява лесно да разделяте количествените данни на групи, веднага да откривате най-малките и най-висока стойностхарактеристика, подчертайте стойностите, които най-често се повтарят.

Дискретни вариационни серии характеризира разпределението на единиците на съвкупността според дискретна характеристика, която приема само цели числа. Например, тарифна категория, брой деца в семейството, брой служители в предприятието и др.

Ако една характеристика има непрекъсната промяна, която в определени граници може да приема всякакви стойности („от - до“), тогава за тази характеристика е необходимо да се изгради интервални вариационни серии . Например размерът на дохода, трудовия стаж, цената на дълготрайните активи на предприятието и др.

Примери за решаване на задачи по темата „Статистическо обобщение и групиране“

Проблем 1 . Има информация за броя на книгите, които студентите са получили чрез абонамент през изминалата учебна година.

Конструирайте класирани и дискретни серии за разпределение на вариациите, обозначавайки елементите на серията.

Решение

Този комплект представлява много опции за броя на книгите, които учениците получават. Нека преброим броя на тези опции и да ги подредим под формата на вариационни класирани и вариационни дискретни разпределителни серии.

Проблем 2 . Има данни за цената на дълготрайните активи за 50 предприятия, хиляди рубли.

Изградете серия на разпределение, като подчертаете 5 групи предприятия (на равни интервали).

Решение

За решаване избираме най-големия и най-малка стойностстойността на дълготрайните активи на предприятията. Това са 30,0 и 10,2 хиляди рубли.

Нека намерим размера на интервала: h = (30,0-10,2):5= 3,96 хиляди рубли.

Тогава първата група ще включва предприятия, чиито дълготрайни активи възлизат на 10,2 хиляди рубли. до 10,2+3,96=14,16 хиляди рубли. Такива предприятия ще бъдат 9. Втората група ще включва предприятия, чиито дълготрайни активи възлизат на 14,16 хиляди рубли. до 14,16+3,96=18,12 хиляди рубли. Такива предприятия ще бъдат 16. По същия начин ще намерим броя на предприятията, включени в трета, четвърта и пета група.

Поставяме получената серия на разпределение в таблицата.

Проблем 3 . За редица предприятия от леката промишленост са получени следните данни:

Групирайте предприятията по броя на работниците, образувайки 6 групи на равни интервали. Изчислете за всяка група:

1. брой предприятия
2. брой работници
3. обем на произведената продукция за година
4. средна действителна продукция на работник
5. обем на ДМА
6. среден размер на дълготрайните активи на едно предприятие
7. средна стойност на продукцията, произведена от едно предприятие

Представете резултатите от изчисленията в таблици. Направете изводи.

Решение

За да решим, ще изберем най-големите и най-малките стойности на средния брой работници в предприятието. Това са 43 и 256.

Нека намерим размера на интервала: h = (256-43):6 = 35,5

Тогава първата група ще включва предприятия, чийто среден брой работници е от 43 до 43 + 35,5 = 78,5 души. Такива предприятия ще бъдат 5. Във втората група ще бъдат предприятията със среден брой на работниците от 78,5 до 78,5+35,5=114 души. Такива предприятия ще бъдат 12. По същия начин ще намерим броя на предприятията, включени в трета, четвърта, пета и шеста група.

Поставяме получената серия на разпределение в таблица и изчисляваме необходимите показатели за всяка група:

Заключение : Както се вижда от таблицата, най-многобройна е втората група предприятия. Включва 12 предприятия. Най-малките групи са пета и шеста група (по две предприятия). Това са най-големите предприятия (като брой работници).

Тъй като втората група е най-голямата, обемът на продуктите, произведени годишно от предприятията от тази група, и обемът на дълготрайните активи са значително по-високи от останалите. В същото време средната действителна продукция на един работник в предприятията от тази група не е най-висока. Тук водещи са предприятията от четвъртата група. Тази група също представлява доста голям обем дълготрайни активи.

В заключение отбелязваме, че средният размер на дълготрайните активи и средният размер на продукцията, произведена от едно предприятие, са пряко пропорционални на размера на предприятието (по отношение на броя на работниците).

Те са представени под формата на разпределителни серии и са представени във формата.

Разпределителната серия е един от видовете групировки.

Диапазон на разпространение— представлява подредено разпределение на единиците от изследваната популация в групи според определена различна характеристика.

В зависимост от характеристиката, залегнала в основата на формирането на сериите на разпространение, те се разграничават атрибутивни и вариационниразпределителни редове:

  • Атрибутивен- се наричат ​​серии на разпределение, изградени по качествени характеристики.
  • Сериите на разпределение, изградени във възходящ или низходящ ред на стойностите на количествена характеристика, се наричат вариационен.
Вариационната серия на разпределението се състои от две колони:

Първата колона предоставя количествени стойности на вариращата характеристика, които се наричат настроикии са обозначени. Дискретна опция - изразява се като цяло число. Опцията за интервал варира от и до. В зависимост от вида на опциите можете да конструирате дискретна или интервална вариационна серия.
Втората колона съдържа номер на конкретна опция, изразено чрез честоти или честоти:

Честоти- това са абсолютни числа, които показват колко пъти дадена стойност на дадена характеристика се среща в съвкупността, които означават . Сумата от всички честоти трябва да бъде равна на броя на единиците в цялата популация.

Честоти() са честоти, изразени като процент от общата сума. Сумата от всички честоти, изразени като проценти, трябва да бъде равна на 100% в части от единица.

Графично представяне на сериите на разпределение

Сериите за разпространение са визуално представени с помощта на графични изображения.

Разпределителните серии са изобразени като:
  • Многоъгълник
  • Хистограми
  • Кумулира
  • Ogives

Многоъгълник

При конструирането на многоъгълник стойностите на вариращата характеристика се нанасят върху хоризонталната ос (ос x), а честотите или честотите се нанасят върху вертикалната ос (ос y).

Многоъгълникът на фиг. 6.1 се основава на данни от микропреброяването на населението на Русия през 1994 г.

6.1. Разпределение на размера на домакинството

Състояние: Представени са данни за разпределението на 25 служители на едно от предприятията по тарифни категории:
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
Задача: Конструирайте серия от дискретни вариации и я изобразете графично като полигон на разпределение.
Решение:
В този пример опциите са степента на заплащане на служителя. За определяне на честотите е необходимо да се изчисли броят на служителите със съответната тарифна категория.

Полигонът се използва за дискретни вариационни серии.

За да конструираме полигон на разпределение (Фигура 1), ние начертаваме количествените стойности на вариращата характеристика - варианти - по абсцисната (X) ос и честотите или честотите по ординатната ос.

Ако стойностите на дадена характеристика са изразени под формата на интервали, тогава такава серия се нарича интервал.
Интервални серииразпределенията се изобразяват графично под формата на хистограма, кумулат или огива.

Статистическа таблица

Състояние: Дадени са данни за размера на депозитите 20 лицав една банка (хиляда рубли) 60; 25; 12; 10; 68; 35; 2; 17; 51; 9; 3; 130; 24; 85; 100; 152; 6; 18; 7; 42.
Задача: Конструирайте интервална вариационна серия с равни интервали.
Решение:

  1. Първоначалната популация се състои от 20 единици (N = 20).
  2. С помощта на формулата на Sturgess определяме необходимия брой използвани групи: n=1+3,322*lg20=5
  3. Нека изчислим стойността на равния интервал: i=(152 - 2) /5 = 30 хиляди рубли
  4. Нека разделим първоначалната популация на 5 групи с интервал от 30 хиляди рубли.
  5. Представяме резултатите от групирането в таблицата:

При такъв запис на непрекъсната характеристика, когато една и съща стойност се среща два пъти (като горна граница на един интервал и долна граница на друг интервал), тогава тази стойност принадлежи към групата, където тази стойност действа като горна граница.

стълбовидна диаграма

За да се изгради хистограма, стойностите на границите на интервалите са посочени по абсцисната ос и въз основа на тях са изградени правоъгълници, чиято височина е пропорционална на честотите (или честотите).

На фиг. 6.2. показва хистограма на разпределението на руското население през 1997 г. по възрастови групи.

Ориз. 6.2. Разпределение на руското население по възрастови групи

Състояние: Дадено е разпределението на 30 служители на фирмата по месечна заплата

Задача: Покажете серията от интервални вариации графично под формата на хистограма и кумулирайте.
Решение:

  1. Неизвестната граница на отворения (първи) интервал се определя от стойността на втория интервал: 7000 - 5000 = 2000 рубли. Със същата стойност намираме долната граница на първия интервал: 5000 - 2000 = 3000 рубли.
  2. За да изградим хистограма в правоъгълна координатна система, начертаваме по оста на абсцисата сегментите, чиито стойности съответстват на интервалите от варикозната серия.
    Тези сегменти служат за долна основа, а съответната честота (честота) служи за височина на образуваните правоъгълници.
  3. Нека изградим хистограма:

За да се конструират кумулати, е необходимо да се изчислят натрупаните честоти (честоти). Те се определят чрез последователно сумиране на честотите (честотите) на предишни интервали и се обозначават с S. Натрупаните честоти показват колко единици от съвкупността имат характерна стойност не по-голяма от разглежданата.

Кумулира

Разпределението на характеристика в вариационна серия върху натрупаните честоти (честоти) се изобразява с помощта на кумулация.

Кумулираили кумулативната крива, за разлика от полигона, се изгражда от натрупани честоти или честоти. В този случай стойностите на характеристиката се поставят на абсцисната ос, а натрупаните честоти или честоти се поставят на ординатната ос (фиг. 6.3).

Ориз. 6.3. Кумулира разпределението на размера на домакинството

4. Нека изчислим натрупаните честоти:
Кумулативната честота на първия интервал се изчислява, както следва: 0 + 4 = 4, за втория: 4 + 12 = 16; за третата: 4 + 12 + 8 = 24 и т.н.

При конструиране на кумулация натрупаната честота (честота) на съответния интервал се присвоява на горната му граница:

Огива

Огивасе конструира подобно на кумулата с единствената разлика, че натрупаните честоти са поставени на абсцисната ос, а характерните стойности са поставени на ординатната ос.

Тип кумулат е крива на концентрация или графика на Лоренц. За да се изгради крива на концентрация, върху двете оси на правоъгълната координатна система се нанася скална скала в проценти от 0 до 100. В същото време на абсцисната ос се посочват натрупаните честоти, а натрупаните стойности на дяла (в проценти) по обем на характеристиката са посочени на ординатната ос.

Равномерното разпределение на характеристиката съответства на диагонала на квадрата върху графиката (фиг. 6.4). При неравномерно разпределение графиката представлява вдлъбната крива в зависимост от нивото на концентрация на признака.

6.4. Концентрационна крива

Пробата, получена по време на експериментално изследване, е неподреден набор от числа, записани в последователността, в която са направени измерванията. Обикновено пробата се изготвя под формата на таблица, чийто първи ред (или колона) съдържа номера на експеримента аз, а във втория (втория) - фиксираната стойност случайна величиназнак. В тази форма извадката представлява основната форма на записване на статистически материал, който може да бъде обработен различни начини. Като пример, помислете за резултатите, показани на състезания по лека атлетика от тласкачи на гюле и показани в таблица 1. Първият ред на тази таблица съдържа числата на измерванията, а вторият - техните числени стойности в метри.

маса 1

Резултати от състезанието по тласкане на гюле

x i 16,36 14,91 15,31 14,26 14,77 13,88 14,97 14,01 14,07 14,48
x i 14,44 14,81 13,81 15,15 15,23 15,69 14,29 14,15 14,57 13,92
x i 13,62 14,92 15,73 13,22 14,65 14,8 13,04 15,1 13,3

Както може да се види от таблица 1, простият статистически агрегат престава да бъде удобна форма за представяне на статистически материал дори при сравнително малък размер на извадката: той е доста тромав и не е много визуален. Много е трудно да се анализират получените експериментални данни, а още по-малко да се правят изводи въз основа на тях. Въз основа на това полученият статистически материал трябва да бъде обработен за по-нататъшни изследвания. Най-простият начин за обработка на извадка е класирането. Класирането е подреждането на опциите във възходящ или низходящ ред на техните стойности. Таблица 2 по-долу показва класирана извадка, чиито елементи са подредени във възходящ ред.

таблица 2

Резултати от класираните състезания по тласкане на гюле

x i 13,04 13,22 13,3 13,62 13,81 13,88 13,92 14,01 14,07 14,15
x i 14,26 14,29 14,44 14,48 14,57 14,65 14,77 14,8 14,81 14,91
x i 14,92 14,97 15,1 15,15 15,23 15,31 15,69 15,73 16,36

Но дори и в този вид получените експериментални данни са слабо видими и са малко полезни за директен анализ. Ето защо, за да бъде статистическият материал по-компактен и нагледен, той трябва да бъде подложен на допълнителна обработка – т.нар. статистически серии. Изграждането на статистически ред започва с групиране.

Групиранее процес на организиране и систематизиране на данни, получени по време на експеримент, насочен към извличане на съдържащата се в тях информация. В процеса на групиране извадката се разпределя в групи или групови интервали, всеки от които съдържа определен диапазон от стойности на изследваната характеристика. Процесът на групиране започва с разделяне на целия обхват на вариация на характеристика на групови интервали.

За всяка конкретна цел на статистическото изследване, размера на разглежданата извадка и степента на вариация на признака в нея има оптимална стойност за броя на интервалите и ширината на всеки от тях. Приблизителна стойност на оптималния брой интервали кможе да се определи въз основа на размера на извадката Пили използвайки данните, дадени в таблица 3, или използвайки формулата на Стърджис:

k = 1 + 3.322 lg н.

Таблица 3

Определяне на броя на груповите интервали

Стойността, получена от формулата кпочти винаги се оказва дробна стойност, която трябва да се закръгли до цяло число, тъй като броят на интервалите не може да бъде дробна. Практиката показва, че като правило е по-добре да се закръгли надолу, тъй като формулата дава добри резултати за големи стойности н, а когато са малки - донякъде надценени.

Помислете за групиране на примерната опция в конкретен пример. За да направите това, нека разгледаме примера на гюлехласкачите (вижте таблици 1, 2). Ще определим броя на интервалите на групиране въз основа на данните, дадени в таблица 3. С размер на извадката н=29 е препоръчително да изберете броя на интервалите, равен на к=5 (формулата на Стърджис дава стойността к =5,9).

Нека се съгласим да използваме интервали с еднаква ширина в разглеждания пример. В този случай, след като се определи броят на груповите интервали, трябва да се изчисли ширината на всеки от тях, като се използва връзката:

Тук ч- ширината на интервалите, и хмакс и х min - съответно максималната и минималната стойност на признака в извадката. Количества хмакс и х min се определят директно от таблицата с изходни данни (виж таблица 2). В такъв случай:

(м).

Тук е необходимо да се спрем на точността на определяне на ширината на интервала. Възможни са две ситуации: точността на изчислената стойност чотговаря на точността на експеримента или я надвишава. В последния случай е възможно да се използват два подхода за определяне на границите на интервалите. От теоретична гледна точка най-правилно е да се използва получената стойност чза изграждане на интервали. Този подход няма да въведе допълнителни изкривявания, свързани с обработката на експериментални данни. Въпреки това, за практически цели в статистическите изследвания, свързани с физическа култураи спорт, обичайно е да се закръгля получената стойност чза точността на измерване на данните. Това се дължи на факта, че за визуално представяне на получените резултати е удобно границите на интервалите да бъдат възможните стойности на атрибута. По този начин получената стойност на ширината на интервала трябва да бъде закръглена, като се вземе предвид точността на експеримента. Специално отбелязваме, че закръгляването трябва да се извършва не в общоприетия математически смисъл, а нагоре, т.е. в излишък, за да не се намали общият обхват на вариация на характеристиката - сумата от ширината на всички интервали не трябва да бъде по-малка от разликата между максималните и минималните стойности на характеристиката. В разглеждания пример експерименталните данни се определят до най-близката стотна (0,01 m), следователно стойността на ширината на интервала, получена по-горе, трябва да се закръгли до най-близката стотна. В резултат получаваме:

ч= 0,67 (m).

След определяне на ширината на груповите интервали трябва да се определят техните граници. Препоръчително е долната граница на първия интервал да бъде равна на минималната стойност на атрибута в извадката хмин.:

х H1 = хмин.

В разглеждания пример хН1 = 13,04 (m).

За да получите горната граница на първия интервал ( х B1) трябва да добавите стойността на ширината на интервала към стойността на долната граница на първия интервал:

х B1 = х H1 + ч.

Имайте предвид, че горната граница на всеки интервал (тук първият) ще бъде едновременно долната граница на следващия (в този случай втория) интервал: х H2 = хВ 1 .

Стойностите на долната и горната граница на всички останали интервали се определят по подобен начин:

х B i = х N i +1 = х N i + ч.

В този пример:

х B1 = х H2 = х H1 + ч=13,04+0,67=13,71 (m),

х B2 = х H3 = х H2+ ч=13,71+0,67=14,38 (m),

х B3 = х H4 = х H3+ ч=14,38+0,67=15,05 (m),

х B4 = х H5 = х H4 + ч=15,05+0,67=15,72 (m),

х B5 = х H5+ ч=15,72+0,67=16,39 (m).

Преди да групираме опцията, представяме концепцията средна стойност на интервала x i, равна на стойността на атрибута, равноотдалечен от краищата на този интервал. Като се има предвид, че той е отдалечен от долната граница с количество, равно на половината от ширината на интервала, за определянето му е удобно да се използва връзката:

x i=хн аз+ ч/2,

Където х N i - долна граница аз-ro интервал и ч- ширината му. Средните стойности на интервалите ще бъдат използвани по-късно при обработката на групирани данни.

След определяне на границите на всички интервали, опциите за извадка трябва да бъдат разпределени в тези интервали. Но първо трябва да решите към кой интервал да включите стойност, разположена точно на границата на два интервала, т.е. когато стойността на опциите съвпада с горната граница на един и долната граница на интервала, съседен на него. В този случай опцията може да бъде присвоена на всеки от двата съседни интервала и, за да се елиминира неяснотата при групирането, ние се съгласяваме в такива случаи опциите да бъдат присвоени на горния интервал. В полза на този подход може да се направи следният аргумент. Тъй като минималната стойност на атрибута съвпада с долната граница на първия интервал и е включена в този интервал, тогава опцията, която попада на границата на два интервала, трябва да се класифицира като един от тях, стойността на долната граница на който е равно на разглеждания вариант.

Нека да преминем към разглеждане на статистическата таблица - вижте таблица 4, която се състои от седем колони.

Таблица 4

Таблично представяне на резултатите в тласкането на гюле

Първите три колони на статистическата таблица съдържат съответно номерата на груповите интервали аз, техните граници х н аз - х IN аз и средни стойности на интервали х аз .

Четвъртата колона съдържа честотите на интервалите. Честотаинтервал е число, показващо колко опции има, т.е. резултатите от измерването попадат в този интервал. За обозначаване на това количество е обичайно да се използва символът n i. Сумата от всички честоти на всички интервали винаги е равна на размера на извадката П, с който може да се провери коректността на групирането.

Петата колона на таблица 4 е предназначена за въвеждане в нея натрупана честотаинтервал - число, получено чрез сумиране на честотата на текущия интервал с честотите на всички предишни интервали. Натрупаната честота обикновено се обозначава с латинска буква N i. Натрупаната честота показва колко опции имат стойности не по-големи от горната граница на интервала.

Шестата колона на таблицата съдържа честота. Честотасе нарича честота, представена в относителни термини, т.е. съотношение на честотата към размера на извадката. Сумата от всички честоти винаги е равна на 1. Символът се използва за обозначаване на честотата f i:

f i=n i /n.

Честотата на даден интервал е свързана с вероятността случайна променлива да попадне в този интервал. Според теоремата на Бернули, с неограничено увеличаване на броя на експериментите, честотата на събитието се сближава по вероятност с неговата вероятност. Ако под събитие разбираме, че стойността на изследваната променлива попада в определен интервал, тогава става ясно, че при голям брой експерименти честотата на интервала се доближава до вероятността измерената случайна променлива да попадне в този интервал.

Както честотата, така и честотата описват повторяемостта на резултатите в дадена проба. Сравнявайки тяхната статистическа значимост, трябва да се отбележи, че информационното съдържание на честотата е значително по-високо от това на честотата. Наистина, ако, както например в таблица 4, честотата на втория интервал е 8 и следователно 8 резултата попадат в този интервал, тогава е трудно да се разбере дали това е малко или много; ако има 1000 варианта в извадката, тогава тази честота е малка, а ако има 20, тогава е висока. В този случай за обективна оценка е необходимо стойността на честотата да се сравни с размера на извадката. Ако използвате честота, можете веднага да разберете каква част от резултатите попадат в разглеждания интервал (приблизително 28% в дадения пример). Следователно честотата дава по-визуално представяне на повторяемостта на дадена характеристика в дадена проба. Друго важно предимство на честотата трябва да бъде специално отбелязано. Използването му дава възможност да се сравняват проби с различни размери. Честотата не е приложима за такива цели.

Седмата колона на таблицата съдържа натрупаната честота. Кумулативна честотае съотношението на натрупаната честота към размера на извадката. Натрупаната честота се обозначава с буквата F i:

Натрупаната честота показва каква част от варианта на извадката има стойности, които не надвишават стойността на горната граница на интервала.

Последният ред на статистическата таблица се използва за контрол на групирането.

След като попълним таблицата, нека се върнем към дефиницията на статистическия ред. По правило статистическата серия се представя под формата на таблица, в първия ред на която са изброени интервалите, а във втория ред са изброени честотите или честотите, съответстващи на тях. По този начин, статистически близосе нарича двойна цифрова серия, която установява връзка между числената стойност на изследваната характеристика и нейната честота в извадката. Съществено предимство на статистическите редове е, че те, за разлика от статистическите агрегати, дават ясна представа за характерни особеностивариация на знаците.


©2015-2019 сайт
Всички права принадлежат на техните автори. Този сайт не претендира за авторство, но предоставя безплатно използване.
Дата на създаване на страницата: 2016-08-20

Особена форма на групиране на данни представляват т.нар статистически серии,или числови стойностихарактеристика, подредена в определен ред. В зависимост от това какви характеристики се изучават, статистическите серии се разделят на атрибутивни, вариационни, динамични, регресионни серии, серии от класирани стойности на характеристиките и серии от натрупани честоти. Най-често се използва в психологията вариационенредове, редове регресияи редове класирани стойности на характеристиките.

Вариационната поредица на разпределение е двойна поредица от числа, показващи как числените стойности на дадена характеристика са свързани с тяхната честота в дадена извадка. Например, психолог проведе тест за интелигентност, използвайки теста на Wechsler на 25 ученици, и суровите резултати за втория субтест се оказаха следните: 6, 9, 5, 7, 10, 8, 9, 10, 8, 11, 9, 12, 9, 8, 10, 11, 9, 10, 8, 10, 7, 9, 10, 9, 11. Както можете да видите, някои числа се появяват в този ред няколко пъти. Следователно, като се вземе предвид броят на повторенията, тези серии могат да бъдат представени в по-удобна, компактна форма:

Това е вариационната серия. Числата, показващи колко пъти се срещат отделни опции в дадена популация, се наричат ​​честоти или тегла на опциите. Те се обозначават с малка буква от латинската азбука. f iи имат индекс „i“, съответстващ на номера на променливата във вариационната серия.

Процентното представяне на честотите е полезно в случаите, когато е необходимо да се сравнят вариационни серии, които се различават значително по обем. Например при тестване училищна готовностдеца от града, населеното място и селото са изследвани проби от деца съответно 1000, 300 и 100 души. Разликата в размера на пробите е очевидна. Поради това е по-добре да сравнявате резултатите от тестовете, като използвате проценти на честотата.

Горната серия (3.1) може да бъде представена по различен начин. Ако елементите на серията са подредени във възходящ ред, тогава ще се получи така наречената класирана вариационна серия:

Тази форма на представяне (3.3) е по-предпочитана от (3.1), тъй като по-добре илюстрира модела на вариация на атрибута.

Честотите, характеризиращи класираните вариационни серии, могат да се добавят или натрупват. Натрупаните честоти се получават чрез последователно сумиране на честотните стойности от първата честота до последната.

Като пример, нека погледнем отново ред 3.3. Нека го трансформираме в серия 3.4, в която въвеждаме допълнителен ред и го наричаме „честотни кумулати“:

Нека да разгледаме по-отблизо как се оказа последният ред. В началото на честотната серия има 1. В кумулативната серия 2 е на второ място - това е сумата от първата и втората честота, т.е. 1 + 1, на трето място има 4, това е сумата от втората (вече натрупана честота) и третата честота, т.е. 2 + 2, на четвъртата 8 = 4 + 4 и т.н.


Обхват(понякога това количество се нарича разпространение)пробите са обозначени с буквата Р.Това е най-простият показател, който може да се получи за извадка - разликата между максималните и минималните стойности на дадена конкретна вариационна серия, т.е.

Ясно е, че колкото повече варира измерената характеристика, толкова по-голяма е стойността R,и обратно.

Въпреки това може да се случи две серии от проби да имат еднакви средна стойност и диапазон, но естеството на вариацията на тези серии ще бъде различно. Например, дадени две проби:

Ако средните стойности и спредовете са равни за тези две примерни серии, естеството на тяхната вариация е различно. За да се разбере по-ясно природата на вариациите в пробите, трябва да се обърнете към техните разпределения.

Таблици и графики на честотното разпределение

По правило анализът на данните започва с изучаване на това колко често определени стойности на характеристиката (променливата), представляваща интерес за изследователя, се срещат в наличния набор от наблюдения. За целта те изграждат таблици и графики на честотното разпределение.Те често са основата за получаване на ценни, смислени научни открития.

Ако една характеристика приема само няколко възможни стойности (до 10-15), тогава таблицата за разпределение на честотата показва честотата на поява на всяка характерна стойност. Ако е посочено колко пъти се среща всяка характерна стойност, тогава това е таблица абсолютенчестотно разпределение, ако е посочен делът на наблюденията, попадащи върху определена стойност на характеристика, тогава говорим за роднинаразпределителни честоти.

В много случаи един знак може да поеме много различни значения, например, ако измерим времето за решаване на тестова задача. В този случай може да се прецени разпределението на характеристиката таблица с групирани честоти,в които честотите са групирани по рангове или интервали от стойности на атрибути.

Друг вид разпределителни таблици са разпределителните таблици натрупаначестота Те показват как честотите се натрупват, когато стойностите на характеристиките се увеличават. Срещу всяка стойност (интервал) е посочена сумата от честотите на поява на всички онези наблюдения, за които стойността на характеристиката не надвишава тази стойност (по-малка от горната граница на този интервал). Натрупаните честоти се съдържат в десните колони на таблицата. 3.2 и 3.3.

За по-нагледно представяне се изгражда графика на честотното разпределение или графика на натрупаните честоти - хистограма или изгладена крива на разпределение.

Хистограмата на честотното разпределение е стълбовидна диаграма, всяка колона от която се основава на конкретна стойност на атрибут или битов интервал (за групирани честоти). Височината на колоната е пропорционална на честотата на срещане на съответната стойност. На фиг. 3.1 е показана хистограма на честотното разпределение за примера от табл. 3.2.

Хистограма на изкривени честотисе различава от хистограма на разпределение по това, че височината на всяка лента е пропорционална на честотата, натрупана към дадена стойност (интервал). На фиг. 3.2 показва хистограма на натрупаните честоти за данните в табл. 3.2.

Строителство полигон на честотното разпределениенаподобява конструкцията на хистограма. В хистограма горната част на всяка колона, съответстваща на честотата на поява на дадена стойност (интервал) на характеристика, е сегмент с права линия. А за многоъгълника е отбелязана точка, съответстваща на средата на този сегмент. След това всички точки са свързани с прекъсната линия (фиг. 3.3). Вместо хистограма или многоъгълник често се изобразява изгладена крива на разпределение на честотата. На фиг. Фигура 3.4 показва хистограма на разпределение за примера от табл. 3.3 (ленти) и изгладена крива на същото честотно разпределение.

Таблиците и графиките на честотното разпределение предоставят важна предварителна информация за форма на разпространение на характеристиката:за това кои стойности се срещат по-рядко и кои по-често и колко изразена е променливостта на характеристиката. Обикновено се разграничават следните типични формиразпределения. Равномерно разпределение –когато всички значения се срещат еднакво (или почти еднакво) често. Симетрично разпределение -когато екстремните стойности се срещат еднакво често. Нормална дистрибуция- симетрично разпределение, при което екстремните стойности са редки и честотата постепенно нараства от крайните към средните стойности на характеристиката. Изкривени разпределения- левичар(с преобладаване на честоти с ниски стойности), дясностранно(с преобладаване на честоти с високи стойности).

Самите таблици и графики на разпределението на чертата ни позволяват да направим някои значими заключения, когато сравняваме групи от субекти помежду си. Чрез сравняване на разпределенията можем не само да преценим кои стойности са по-често срещани в определена група, но и да сравним групите според тежестта на индивидуалните различия - променливостна тази основа.

Таблиците и графиките на натрупаните честоти ви позволяват бързо да получите допълнителна информация за това колко субекти (или каква част от тях) имат тежест на черта, която не надвишава определена стойност.

Раздел 4. Описателна статистика
(Статистическо разпределение и неговите числени характеристики)

Една променлива може да приема много стойности. На начална фазаПри обработката на данни, вместо да се вземат предвид всички стойности на променлива, се препоръчва да се анализира описателна статистика. Те дават обща представа за стойностите или диапазона от стойности, които една променлива приема.

Към първичната описателна статистика ( Описателна статистика)обикновено се отнасят до числените характеристики на разпределението на характеристика, измерена в извадка. Всяка такава характеристика отразява в една числова стойностразпределителна собственост набор от резултати от измерване:от тяхна гледна точка местоположениена числовата ос или по отношение на техните променливост.Основната цел на всяка от първичните описателни статистики е да замени много стойности на характеристика, измерена в извадка, с едно число (например средната стойност като мярка за централна тенденция). Компактното описание на група, използваща първична статистика, позволява да се интерпретират резултатите от измерването, по-специално чрез сравняване на първичната статистика на различни групи.

Серия на разпространение

Статистически редове на разпределениепредставляват подредено разпределение на единиците на съвкупността в групи и групи. Сериите на разпространение изучават структурата на популацията, което ни позволява да изследваме нейната хомогенност, обхват и граници. Серия на разпространение, образувана от високо качествознаци се наричат атрибутивни. Когато са групирани по количественвариационни серии се отличават за характеристиката. Вариационенсерия - серия от разпределение на единици от съвкупността според характеристики, които имат количествено изражение, тоест формирани от числени стойности.

Вариационните серии според тяхната структура се разделят на:

  1. Отделен(прекъснат) – базиран на прекъснати вариации на черта. Това са серии, при които стойностите на варианта имат стойности на цели числа (т.е. не могат да приемат дробни стойности). Отделните характеристики се различават една от друга с някаква конкретна сума.
  2. Интервал(непрекъснати) – имат всякакви, включително дробни, количествени изрази и са представени под формата на интервали. Непрекъснатите характеристики могат да се различават една от друга с произволно малка сума.

Вариационните серии имат два елемента:

  1. опция(х)
  2. честотае)

опция– отделна стойност на променлива характеристика, която приема в реда на разпределението.

Честота– броят на отделните варианти или всяка група от серията варианти. В някои случаи се използва честота. Наричат ​​се честоти, изразени в % или части от процента честотии се изчисляват като съотношението на местните честотни варианти към сумата от натрупаните честоти.

От своя страна честотата е:

  • местен
  • натрупано (кумулативно - на база начисляване)

Ако вариационната серия има неравни интервали, тогава честотите в отделните интервали не са сравними, тъй като зависят от ширината на интервала. В тези случаи се изчислява плътността на разпространение, което дава правилна представа за характера на разпространението на вариантите (единиците на популацията). Плътността на разпределение от своя страна е:

  • абсолютна плътност на разпределение - отношението на честотата към стойността (ширината) на интервала
  • относителна плътност на разпределение - отношението на честотата към ширината на интервала

Интервали

Местна честота (f)

Кумулативна честота (Σf)

Честота (ω)

Плътност на разпределение (φ)

20-30

0,03

30-40

0,05

40-50

0,01

50-60

0,01

За характеризиране на серията на разпространение се използват следните показатели:

  • средна мощност
  • мода
  • Медиана

Пример:

Състояние

Разпределението на 20 подобни търговски обекта по дневна печалба (хиляда рубли) е известно:

11,3; 10,2; 13,9; 10,7; 11,8; 8,2; 12,4; 9,6; 13,1; 10,6; 6,3; 11,3; 10,2; 15,1; 10,5; 11,0; 15,1; 11,6; 10,4; 11,7.

  1. Създайте серия за интервално разпределение.
  2. Изградете хистограма на разпределението на относителната плътност на честотата.

Решение

Нека напишем първоначалните данни под формата на класирана серия:

6,3; 8,2; 9,6; 10,2; 10,2; 10,4; 10,5; 10,6; 10,7; 11,0; 11,3; 11,3; 11,6; 11,7; 11,8; 12,4; 13,1; 13,9; 15,1; 15,1.

Диапазонът на вариациите в извадката е 6–16. Ще разделим този диапазон на няколко интервала. Изчисляваме ширината (стъпката) на интервала по формулата:

Трябва да се има предвид, че колкото по-малък е интервалът, толкова по-точни са резултатите. В нашия случай ние приемаме размера на интервала за 2 единици, тоест h=2.Връзката между броя на групите (n) и броя на единиците от съвкупността (N) се изразява с формулата на Стърджис, при условие че това разпределение се подчинява на закона за нормалното разпределение (ND) и се прилагат равни интервали:

IN практическа работаможете да използвате таблични данни:

н 15-24 25-44 45-89 90-179 180-359 360-719 720-1439
н 5 6 7 8 9 10 11

Получаваме пет интервала: първият 6–8, вторият 8–10, третият 10–12, четвъртият 12–14, петият 14–16.

Нека определим честотата на примерен вариант, попадащ във всеки интервал.

Една стойност от серията попада в първия интервал: 6,3, така че f 1 =1. Вторият интервал съдържа две стойности: 8,2 и 9,6, така че f 2 =2. По същия начин намираме f 3 =12, f 4 =3, f 5 =2. Нека определим относителните честоти на примерния вариант, попадащ във всеки интервал:

през 1 интервал

на 2-ри интервал

на 3 интервала

на 4 интервала

на 5 интервала

Сума от относителните честоти

Следователно изчисленията са извършени правилно.

Нека дефинираме плътността на относителните честоти като съотношението на относителната честота (ω i) към ширината на интервала (h):

за първия интервал

за втория интервал

за третия интервал

за четвъртия интервал

за петия интервал

Резултатите от извършените изчисления са обобщени в таблица.

Интервална серия от разпределение на печалбата на предприятието

Интервал на стойността на печалбата (h) 6 — 8 8 – 10 10 — 12 12 — 14 14 — 16
Опция за честота (f i) 1 2 12 3 2
Относителни честоти (ωi) 0,05 0,10 0,60 0,15 0,10
Относителна честотна плътност (φ i) 0,025 0,050 0,300 0,075 0,050

Хистограма на разпределение

Нека изградим хистограма, показваща зависимостта на плътността на относителните честоти от стойността на опцията. На хоризонталната ос начертаваме скалата на възможните стойности на опцията, на вертикалната ос - плътността на относителните честоти; Стойността на относителната плътност се счита за постоянна в съответния интервал. Получаваме стълбовидна графика, наречена хистограма на разпределението на относителната честотна плътност.

Вижте също