Мәліметтерді топтастыру және тарату қатарын құру. Типтік есептерді шешу мысалы Вариациялық қатарлар және оларды статистикалық өңдеу әдістері

Вариациялықсандық негізде құрылған таралу қатарлары деп аталады. Популяцияның жеке бірліктеріндегі сандық сипаттамалардың мәндері тұрақты емес және бір-бірінен азды-көпті ерекшеленеді.

Вариация- популяция бірліктері арасындағы сипаттама мәнінің ауытқуы, өзгермелілігі. Бөлек сандық мәндерзерттелетін популяцияда табылған белгілер деп аталады опцияларқұндылықтар. үшін орташа мән жеткіліксіз толық сипаттамаларыпопуляция бізді орташа мәндерді зерттелетін сипаттаманың өзгергіштігін (вариациясын) өлшеу арқылы осы орташа мәндердің типтілігін бағалауға мүмкіндік беретін көрсеткіштермен толықтыруға мәжбүр етеді.

Вариацияның болуы әсер етумен байланысты үлкен санқасиет деңгейін қалыптастыру факторлары. Бұл факторлар тең емес күшпен әрекет етеді және әртүрлі бағыттар. Вариациялық индекстер белгілердің өзгергіштігінің өлшемін сипаттау үшін қолданылады.

Вариацияны статистикалық зерттеудің міндеттері:

  • 1) популяцияның жеке бірліктеріндегі белгілердің өзгеру сипаты мен дәрежесін зерттеу;
  • 2) популяцияның белгілі бір белгілерінің вариациясындағы жеке факторлардың немесе олардың топтарының рөлін анықтау.

Статистикада индикаторлар жүйесін қолдануға негізделген вариацияны зерттеудің арнайы әдістері қолданылады, біргевариация немен өлшенеді.

Вариацияны зерттеу маңызды. Вариацияларды өлшеу іріктемелерді бақылау, корреляциялық және дисперсиялық талдау және т.б. жүргізу кезінде қажет. Ермолаев О.Ю. Математикалық статистикапсихологтарға арналған: Оқу құралы [Мәтін]/ О.Ю. Ермолаев. - М.: Мәскеу психологиялық-әлеуметтік институтының Флинт баспасы, 2012. - 335 б.

Вариация дәрежесі бойынша популяцияның біртектілігін, сипаттамалардың жеке мәндерінің тұрақтылығын және орташа мәннің типтілігін бағалауға болады. Олардың негізінде сипаттамалар мен іріктемелік бақылаудың дұрыстығын бағалау көрсеткіштерінің арасындағы жақындықтың көрсеткіштері әзірленеді.

Кеңістіктегі вариация мен уақыттың вариациясы арасындағы айырмашылық бар.

Кеңістіктегі вариация жеке аумақтарды білдіретін халық бірліктері арасындағы атрибут мәндерінің ауытқуы ретінде түсініледі. Уақыттың өзгеруі әр түрлі уақыт кезеңіндегі сипаттама мәндерінің өзгеруін білдіреді.

Тарату жолдарының вариациясын зерттеу үшін атрибут мәндерінің барлық нұсқалары өсу немесе кему ретімен орналасады. Бұл процесс қатарларды анықтау деп аталады.

Вариацияның ең қарапайым белгілері минимум және максимум- ең аз және ең жоғары мәнжиынтықтағы белгілер. Мүмкіндік мәндерінің жеке нұсқаларының қайталану саны қайталану жиілігі (fi) деп аталады. Жиіліктерді жиіліктермен ауыстыру ыңғайлы - wi. Жиілік – жиіліктің салыстырмалы көрсеткіші, ол бірлік немесе пайыздық үлестермен көрсетілуі мүмкін және вариациялық қатарларды салыстыруға мүмкіндік береді. әртүрлі санбақылаулар. Формула арқылы өрнектеледі:

мұндағы Xmax, Xmin - жиынтықтағы сипаттаманың ең үлкен және ең аз мәндері; n – топтардың саны.

Белгінің вариациясын өлшеу үшін әртүрлі абсолютті және салыстырмалы көрсеткіштер қолданылады. Вариацияның абсолютті көрсеткіштеріне вариация диапазоны, орташа сызықтық ауытқу, дисперсия және стандартты ауытқу жатады. Тербелістің салыстырмалы көрсеткіштеріне тербеліс коэффициенті, салыстырмалы сызықтық ауытқу және вариация коэффициенті жатады.

Вариациялық қатарды табуға мысал

Жаттығу.Бұл үлгі үшін:

  • а) Вариациялық қатарды табыңыз;
  • б) Тарату функциясын құру;

№=42. Үлгі элементтері:

1 5 1 8 1 3 9 4 7 3 7 8 7 3 2 3 5 3 8 3 5 2 8 3 7 9 5 8 8 1 2 2 5 1 6 1 7 6 7 7 6 2

Шешім.

  • а) дәрежелі вариациялық қатарды құру:
    • 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 5 5 5 5 5 6 6 6 7 7 7 7 7 7 7 8 8 8 8 8 8 9 9
  • б) дискретті вариациялық қатарды құру.

Стерджесс формуласы арқылы вариациялық қатардағы топтардың санын есептейік:

Топтардың санын 7 деп алайық.

Топтардың санын біле отырып, интервал өлшемін есептейміз:

Кестені құруға ыңғайлы болу үшін біз 8-ге тең топтар санын аламыз, интервал 1 болады.

Күріш. 1 Дүкеннің белгілі бір уақыт аралығындағы тауарды өткізу көлемі

Статистикалық таралу қатары– бұл популяция бірліктерін белгілі бір өзгермелі белгі бойынша топтарға реттелген бөлу.
Таралу қатарының қалыптасуының негізінде жатқан сипаттамаға байланысты болады атрибутивтік және вариациялық таралу қатарлары.

Жалпы сипаттаманың болуы сипаттама немесе өлшеу нәтижелерін білдіретін статистикалық жиынтықты қалыптастырудың негізі болып табылады ортақ ерекшеліктерізерттеу объектілері.

Статистиканың зерттеу пәні – өзгермелі (өзгеретін) сипаттамалар немесе статистикалық сипаттамалар.

Статистикалық сипаттамалардың түрлері.

Тарату қатарлары атрибутивтік деп аталадысапа критерийлері бойынша салынған. Атрибутивтік– бұл аты бар белгі (мысалы, мамандық: тігінші, мұғалім, т.б.).
Тарату сериясы әдетте кесте түрінде беріледі. Кестеде 2.8 атрибуттарды тарату қатарын көрсетеді.
2.8-кесте – Ресей Федерациясының аймақтарының бірінің азаматтарына адвокаттар көрсететін заң көмегінің түрлерін бөлу.

Вариациялық қатар– бұл сипаттаманың мәндері (немесе мәндер интервалдары) және олардың жиіліктері.
Вариациялық қатарлар таралу қатарлары болып табылады, сандық негізде құрылған. Кез келген вариациялық қатар екі элементтен тұрады: опциялар мен жиіліктер.
Варианттар вариациялық қатарда қабылдайтын сипаттаманың жеке мәндері болып саналады.
Жиіліктер - жеке нұсқалардың немесе вариациялық қатардың әрбір тобының сандары, яғни. Бұл тарату қатарында белгілі опциялардың қаншалықты жиі болатынын көрсететін сандар. Барлық жиіліктердің қосындысы бүкіл популяцияның мөлшерін, оның көлемін анықтайды.
Жиіліктер – бірлік бөліктерінің немесе жалпы санның пайызымен көрсетілген жиіліктер. Тиісінше, жиіліктердің қосындысы 1 немесе 100% тең. Вариациялық қатар нақты деректер негізінде таралу заңының нысанын бағалауға мүмкіндік береді.

Белгінің өзгеру сипатына қарай болады дискретті және интервалдық вариациялық қатарлар.
Дискретті вариациялық қатардың мысалы кестеде келтірілген. 2.9.
2.9-кесте – 1989 жылы Ресей Федерациясында жеке пәтерлердегі тұратын бөлмелер саны бойынша отбасыларды бөлу.

Кестенің бірінші бағанында дискретті вариациялық қатардың опциялары берілген, екінші бағанда вариациялық қатардың жиіліктері, ал үшіншісі жиілік көрсеткіштерінен тұрады.

Вариациялық қатар

Белгілі бір сандық сипаттама жалпы халықта зерттеледі. Одан кездейсоқ түрде көлем үлгісі алынады n, яғни үлгі элементтерінің саны тең n. Статистикалық өңдеудің бірінші кезеңінде ауқымдыүлгілер, яғни. нөмірге тапсырыс беру x 1 , x 2 , …, x nКөтерілу. Әрбір бақыланатын мән x iшақырды опция. Жиілік м менмәнді бақылау саны болып табылады x iүлгіде. Салыстырмалы жиілік (жиілік) w iжиілік қатынасы болып табылады м менүлгі өлшеміне n: .
Вариациялық қатарларды зерттегенде жинақталған жиілік және жинақталған жиілік ұғымдары да қолданылады. Болсын xкейбір сан. Содан кейін опциялар саны , құндылықтары аз x, жинақталған жиілік деп аталады: x i үшін nжинақталған жиілік w i max деп аталады.
Сипаттама дискретті айнымалы деп аталады, егер оның жеке мәндері (нұсқалары) бір-бірінен белгілі бір соңғы мәнмен (әдетте бүтін сан) ерекшеленетін болса. Мұндай сипаттаманың вариациялық қатары дискретті вариациялық қатар деп аталады.

Кесте 1. Жиіліктердің дискретті вариациялық қатарының жалпы көрінісі

Сипаттамалық құндылықтарx i x 1 x 2 x n
Жиіліктерм мен м 1 м 2 м н

Сипаттама үздіксіз өзгеретін деп аталады, егер оның мәндері бір-бірінен ерікті түрде аз мөлшерде ерекшеленсе, яғни. белгі белгілі бір аралықта кез келген мәнді қабылдай алады. Мұндай сипаттама үшін үздіксіз вариациялық қатар интервал деп аталады.

Кесте 2. Жиіліктердің интервалдық вариация қатарының жалпы көрінісі

Кесте 3. Вариациялық қатардың графикалық кескіндері

ҚатарКөпбұрыш немесе гистограммаЭмпирикалық таралу функциясы
Дискретті
Аралық
Бақылау нәтижелерін қарастыра отырып, әрбір нақты интервалға қанша нұсқа мәндері түсетіні анықталады. Әрбір интервал оның бір ұшына жатады деп болжанады: не барлық жағдайларда сол жақта (жиірек) немесе барлық жағдайларда оң жақта, ал жиіліктер немесе жиіліктер көрсетілген шекаралардағы опциялардың санын көрсетеді. Айырмашылықтар a i – a i +1жартылай интервалдар деп аталады. Кейінгі есептеулерді жеңілдету үшін интервалдық вариациялық қатарды шартты дискреттімен ауыстыруға болады. Бұл жағдайда орташа мән мен-интервал опция ретінде қабылданады x i, және сәйкес интервал жиілігі м мен– осы аралық жиілігі үшін.
Вариациялық қатарларды графикалық бейнелеу үшін көпбұрыш, гистограмма, кумулятивтік қисық және эмпирикалық таралу функциясы жиі қолданылады.

Кестеде 2.3 (1994 жылғы сәуірдегі жан басына шаққандағы орташа табыс бойынша Ресей халқын топтастыру) ұсынылған интервалдық вариациялық қатар.
Графикалық кескіннің көмегімен тарату қатарын талдау ыңғайлы, бұл таралу пішінін бағалауға мүмкіндік береді. Вариациялық қатардың жиіліктерінің өзгеру сипатының көрнекі көрінісі арқылы берілген көпбұрыш және гистограмма.
Көпбұрыш дискретті вариациялық қатарларды бейнелегенде қолданылады.
Мысалы, тұрғын үй қорының пәтер түрлері бойынша бөлінуін графикалық түрде көрсетейік (2.10-кесте).
2.10-кесте – Қалалық аумақтың тұрғын үй қорын пәтер түрлері бойынша бөлу (шартты сандар).


Күріш. Тұрғын үй тарату аймағы


Ордината осьтерінде жиілік мәндерін ғана емес, вариациялық қатардың жиіліктерін де салуға болады.
Гистограмма интервалдық вариация қатарын бейнелеу үшін қолданылады. Гистограмманы құру кезінде интервалдардың мәндері абсцисса осіне, ал жиіліктер сәйкес интервалдарға салынған тіктөртбұрыштар арқылы бейнеленеді. Бағандардың биіктігі тең интервалдар болған жағдайда жиіліктерге пропорционалды болуы керек. Гистограмма - бұл қатар бір-біріне іргелес жолақтар түрінде бейнеленген график.
Кестеде берілген интервалдық үлестіру қатарын графикалық түрде көрсетейік. 2.11.
2.11-кесте – Бір адамға шаққандағы тұрғын үй алаңының көлемі бойынша отбасыларды бөлу (шартты сандар).
N p/p Бір адамға шаққандағы тұрғын үй алаңының көлемі бойынша отбасы топтары Тұрғын үй алаңының берілген көлемі бар отбасылар саны Отбасылардың жиынтық саны
1 3 – 5 10 10
2 5 – 7 20 30
3 7 – 9 40 70
4 9 – 11 30 100
5 11 – 13 15 115
БАРЛЫҒЫ 115 ----


Күріш. 2.2. Жанұялардың бір адамға шаққандағы тұрғын үй көлемі бойынша таралу гистограммасы


Жинақталған қатардың мәліметтерін пайдалана отырып (2.11-кесте) құрастырамыз жинақталған бөлу.


Күріш. 2.3. Жанұялардың бір адамға шаққандағы тұрғын алаңының көлемі бойынша жиынтық бөлінуі


Вариациялық қатарды кумулят түрінде көрсету, әсіресе жиіліктері қатар жиіліктерінің қосындысының үлестері немесе пайыздары түрінде көрсетілген вариациялық қатарлар үшін тиімді.
Вариациялық қатарды кумулят түрінде графикалық бейнелеу кезінде осьтерді өзгертсек, онда аламыз огива. Суретте. 2.4 Кестедегі деректер негізінде құрастырылған огиваны көрсетеді. 2.11.
Гистограмманы тіктөртбұрыштардың қабырғаларының орта нүктелерін тауып, содан кейін осы нүктелерді түзулермен қосу арқылы таралу полигонына түрлендіруге болады. Алынған таралу көпбұрышы суретте көрсетілген. 2.2 нүктелі сызықпен.
Тең емес интервалдардағы вариациялық қатардың таралу гистограммасын құру кезінде ордината осі бойынша жиіліктер емес, сәйкес интервалдардағы сипаттаманың таралу тығыздығы салынады.
Тарату тығыздығы - бірлік аралық еніне есептелген жиілік, яғни. интервал мәнінің бірлігіне әр топта қанша бірлік бар. Тарату тығыздығын есептеу мысалы кестеде берілген. 2.12.
Кесте 2.12 – Кәсіпорындарды жұмысшылар саны бойынша бөлу (шартты сандар)
N p/p Жұмысшылар саны, адамдар бойынша кәсіпорындар топтары. Кәсіпорындар саны Интервал мөлшері, адамдар. Таралу тығыздығы
А 1 2 3=1/2
1 20-ға дейін 15 20 0,75
2 20 – 80 27 60 0,25
3 80 – 150 35 70 0,5
4 150 – 300 60 150 0,4
5 300 – 500 10 200 0,05
БАРЛЫҒЫ 147 ---- ----

Вариациялық қатарларды графикалық бейнелеу үшін де қолдануға болады жиынтық қисық. Кумулят (сома қисығы) көмегімен жинақталған жиіліктер қатары бейнеленген. Жиынтық жиіліктер топтар бойынша жиіліктерді дәйекті түрде қосу арқылы анықталады және популяциядағы қанша бірлікте қарастырылатын мәннен аспайтын атрибут мәндері бар екенін көрсетеді.


Күріш. 2.4. Жанұяларды бір адамға шаққандағы тұрғын үй көлемі бойынша бөлу туралы түсінік

Интервалдық вариациялық қатардың кумуляттарын тұрғызған кезде қатардың нұсқалары абсцисса осі бойымен, ал жинақталған жиіліктер ордината осі бойымен сызылады.

Үздіксіз вариациялық қатар

Үздіксіз вариациялық қатар – сандық статистикалық сипаттама негізінде құрылған қатар. Мысал. Ағымдағы жылдың күзгі-қысқы кезеңіндегі сотталғандардың ауыруының орташа ұзақтығы (адам шаққандағы күн):
7,0 6,0 5,9 9,4 6,5 7,3 7,6 9,3 5,8 7,2
7,1 8,3 7,5 6,8 7,1 9,2 6,1 8,5 7,4 7,8
10,2 9,4 8,8 8,3 7,9 9,2 8,9 9,0 8,7 8,5

Қазіргі заманғы ғылыми әзірлемелерді жүзеге асыру кезінде ерекше маңызды болып табылатын үлкен көлемдегі ақпаратты өңдеу кезінде зерттеушінің алдында бастапқы деректерді дұрыс топтастыру маңызды міндет тұр. Егер деректер табиғатта дискретті болса, онда біз көргеніміздей, ешқандай проблемалар туындамайды - тек әрбір мүмкіндіктің жиілігін есептеу керек. Зерттелетін сипаттама болса үздіксізтабиғат (тәжірибеде жиі кездеседі), онда мүмкіндіктерді топтастыру аралықтарының оңтайлы санын таңдау ешбір тривиальды міндет емес.

Үздіксіз кездейсоқ шамаларды топтау үшін сипаттаманың барлық вариациялық диапазоны белгілі бір интервалдар санына бөлінеді. Кімге.

Топтастырылған интервал (үздіксіз) вариациялық қатар() атрибутының мәні бойынша реттелген интервалдар деп аталады, мұнда r" интервалына түсетін бақылаулар саны немесе салыстырмалы жиіліктер () сәйкес жиіліктермен () бірге көрсетіледі:

Сипаттама мән интервалдары

mi жиілігі

бағаналы диаграммаЖәне жинақтау (огива),Біз егжей-тегжейлі талқылаған, бұл деректер құрылымы туралы негізгі түсінік алуға мүмкіндік беретін деректерді визуализациялаудың тамаша құралы. Мұндай графиктер (1.15-сурет) үзіліссіз деректер үшін дискретті деректер сияқты, тек қана үздіксіз деректер кез келген мәндерді қабылдай отырып, олардың мүмкін мәндерінің облысын толығымен толтыратынын ескере отырып құрастырылады.

Күріш. 1.15.

Сондықтан гистограммадағы және жинақтағы бағандар бір-біріне тиіп тұруы керек және атрибут мәндері барлық мүмкін шегіне сәйкес келмейтін аймақтар болмауы керек.(яғни гистограмма мен жинақта абсцисса осінің бойында 1.16-суреттегідей зерттелетін айнымалының мәндерін қамтымайтын «саңылаулар» болмауы керек). Жолақ биіктігі жиілікке – берілген интервалға түсетін бақылаулар санына немесе салыстырмалы жиілікке – бақылаулар үлесіне сәйкес келеді. Интервалдар қиылыспауы керекжәне әдетте ені бірдей.

Күріш. 1.16.

Гистограмма және көпбұрыш ықтималдық тығыздығы қисығының жуықтауы (дифференциалдық функция) f(x)ықтималдықтар теориясы курсында қарастырылатын теориялық бөлу. Сондықтан олардың құрылысы сандық үздіксіз мәліметтерді бастапқы статистикалық өңдеуде маңызды болып табылады - олардың пайда болуы бойынша гипотетикалық таралу заңын бағалауға болады.

Кумулят – интервалдық вариациялық қатардың жинақталған жиіліктерінің (жиіліктерінің) қисығы. Кумулятивтік үлестіру функциясының графигі кумулятпен салыстырылады F(x), ықтималдықтар теориясы курсында да талқыланды.

Негізінде гистограмма және кумулят ұғымдары үздіксіз деректермен және олардың интервалдық вариациялық қатарларымен арнайы байланысты, өйткені олардың графиктері сәйкесінше ықтималдық тығыздығы функциясының және таралу функциясының эмпирикалық бағалаулары болып табылады.

Интервалдық вариациялық қатарды құру интервалдар санын анықтаудан басталады к.Ал бұл тапсырма зерттеліп отырған мәселедегі ең қиыны, маңыздысы және даулысы болуы мүмкін.

Аралықтардың саны тым аз болмауы керек, өйткені бұл гистограмманы тым тегіс етеді ( шамадан тыс тегістелген),бастапқы деректердің өзгергіштігінің барлық ерекшеліктерін жоғалтады - суретте. 1.17 суреттегі графиктер бірдей деректердің қалай көрінетінін көруге болады. 1.15, азырақ интервалдар саны бар гистограмма құру үшін қолданылады (сол жақтағы график).

Бұл ретте интервалдар саны тым үлкен болмауы керек – әйтпесе біз зерттелетін деректердің сандық ось бойынша таралу тығыздығын бағалай алмаймыз: гистограмма аз тегістеледі. (төмен тегістелген),бос интервалдармен, біркелкі емес (1.17-суретті қараңыз, оң жақ график).

Күріш. 1.17.

Ең қолайлы интервалдар санын қалай анықтауға болады?

1926 жылы Герберт Стерджс зерттелетін сипаттама мәндерінің бастапқы жиынын бөлу қажет аралықтардың санын есептеу формуласын ұсынды. Бұл формула шын мәнінде өте танымал болды - көптеген статистикалық оқулықтар оны ұсынады және көптеген статистикалық пакеттер оны әдепкі бойынша пайдаланады. Бұл қаншалықты негізделген және барлық жағдайда өте маңызды мәселе.

Сонымен, Стердж формуласы неге негізделген?

биномдық үлестіруді қарастырайық)