Rastgele değişkenler arasındaki korelasyon. Rastgele değişkenlerin korelasyonu

Terimin doğrudan tanımı korelasyon - stokastik, olası, mümkün bağlantı iki (eşleştirilmiş) veya birkaç (çoklu) rastgele değişken arasında.

Yukarıda iki SV için ( X Ve e) eşitlik geçerlidir P(XY) =P(X) P(Y), ardından miktarlar X Ve e bağımsız kabul edilir. Peki ya durum böyle değilse!?

Sonuçta soru her zaman önemlidir ve Ne kadar bir SV diğerine bağlı mı? Ve mesele şu ki, insanlar bir şeyi mutlaka sayısal boyutta analiz etme arzusuna sahip değiller. Sistem analizinin sürekli hesaplamalar anlamına geldiği, bilgisayar kullanımının bizi sistemle çalışmaya zorladığı zaten açıktır. sayılar, kavramlar değil.

İki rastgele değişken arasındaki olası ilişkiyi sayısal olarak değerlendirmek için: e(ortalama ile BenimEvet) Ve - X(ortalama ile Mx ve standart sapma Sx) sözde kullanmak gelenekseldir korelasyon katsayısı

Rxy = . {2 - 11}

Bu katsayı, bu rastgele değişkenler arasındaki bağlantının yakınlığına bağlı olarak -1'den +1'e kadar değerler alabilir.

Korelasyon katsayısı sıfır ise, o zaman X Ve e isminde ilişkisiz . Bunları bağımsız olarak düşünmek için genellikle bir neden yoktur; kural olarak, niceliklerin doğrusal olmayan ilişkileri olduğu ortaya çıkar. Rxy = 0 miktarları birbirine bağlı olmasına rağmen. Bunun tersi her zaman doğrudur; eğer miktarlar bağımsız , O Rxy = 0 . Ama eğer modül Rxy= 1, yani varlığı varsaymak için her türlü neden var doğrusal arasındaki bağlantılar e Ve X. Bu yüzden sık sık konuşuyorlar doğrusal korelasyon SV'ler arasındaki bağlantıyı değerlendirmek için bu yöntemi kullanırken.

İki şey arasındaki korelasyonu değerlendirmenin başka bir yoluna bakalım. rastgele değişkenler- her birinin sapmalarının çarpımlarını ortalama değerinden toplarsak, ortaya çıkan değer şöyle olur:

xy = S (X - M x) ile· (E - Benim)

veya kovaryans miktarlar X Ve e iki göstergeyi korelasyon katsayısından ayırır : İlk önce, ortalama(gözlem veya çift sayısına bölünür) X, e) ve ikinci olarak, tayınlama karşılık gelen standart sapmalara bölünerek bulunur.

Karmaşık bir sistemdeki rastgele değişkenler arasındaki bağlantıların bu şekilde değerlendirilmesi, başlangıç ​​aşamaları sistem analizi, bu nedenle burada, iki SV arasındaki bağlantıların varlığı veya yokluğu hakkındaki sonuca olan güven sorunu tüm ciddiyeti ile ortaya çıkıyor.

İÇİNDE modern yöntemler sistem analizi genellikle bunu yapar. Bulunan değere göre R yardımcı miktarı hesaplayın:

W = 0,5 Ln[(1 + R)/(1-R)]{2 - 12}

ve korelasyon katsayısına olan güven sorunu, standart tablolar veya formüller tarafından belirlenen rastgele değişken W için güven aralıklarına indirgenir.

İÇİNDE bazı durumlarda sistem analizi, birkaç (2'den fazla) rastgele değişken arasındaki bağlantı sorununu veya çoklu korelasyon.

İzin vermek X, e Ve Z- ortalamalarını belirlediğimiz gözlemlere dayanan rastgele değişkenler Mx, Benim,Mz ve standart sapmalar Sx, S y , S z .

O zaman bulabilirsin çiftler korelasyon katsayıları Rxy, Rxz, Ryz yukarıdaki formüle göre. Ancak bu açıkça yeterli değil - sonuçta, üç aşamanın her birinde üçüncü rastgele değişkenin varlığını unuttuk! Bu nedenle çoklu korelasyon analizi durumlarında bazen sözde olanı aramak gerekir. özel korelasyon katsayıları - örneğin yalpalama tahmini Z arasındaki bağlantı konusunda X Ve e katsayısı kullanılarak yapılır

Rxy.z = {2 - 13}

Ve son olarak şu soruyu sorabiliriz: Bu SV ile diğerlerinin bütünlüğü arasındaki bağlantı nedir? Bu tür soruların cevabı katsayılarla sağlanır. çoklu korelasyonlar R x.yz, R y.zx, R z.xy, bunları hesaplamaya yönelik formüller aynı prensipler üzerine inşa edilmiştir - miktarlardan birinin toplamdaki diğerleriyle bağlantısı dikkate alınarak.

Açıklanan tüm korelasyon göstergelerini hesaplamanın karmaşıklığına çok fazla dikkat etmenize gerek yok - bunları hesaplamaya yönelik programlar oldukça basittir ve modern bilgisayarların birçok PPP'sinde hazır olarak mevcuttur.

Ana şeyi anlamak yeterlidir - karmaşık bir sistemin bir öğesini resmi olarak tanımlarken, bir alt sistem biçimindeki bu tür öğelerden oluşan bir dizi veya son olarak bir bütün olarak sistemi düşünürsek, iletişim bireysel parçaları arasında, bu bağlantının bir SV'nin diğerine etkisi şeklindeki yakınlık derecesi korelasyon düzeyinde değerlendirilebilir ve değerlendirilmelidir.

Sonuç olarak, bir şeye daha dikkat çekiyoruz - korelasyon seviyesindeki tüm sistem analizi durumlarında, ikili korelasyon durumunda hem rastgele değişkenler hem de çoklu korelasyon durumunda tümü "eşit" olarak kabul edilir - yani. hakkında konuşuyoruz O karşılıklı etki CB üst üste.

Bu her zaman böyle değildir; çoğu zaman soru bağlantılarla ilgilidir e Ve X farklı bir düzleme yerleştirilir - niceliklerden biri diğerine (argüman) bağımlıdır (işlev).

Korelasyon analizinin amacı bazı gerçek süreçleri karakterize eden rastgele değişkenler (özellikler) arasındaki bağlantının gücünün bir değerlendirmesini tanımlamaktır.
Korelasyon analizinin sorunları:
a) İki veya daha fazla olgunun tutarlılık derecesinin (yakınlık, güç, şiddet, yoğunluk) ölçülmesi.
b) Olgular arasındaki bağlantı derecesinin ölçülmesine dayalı olarak, ortaya çıkan nitelik üzerinde en önemli etkiye sahip olan faktörlerin seçimi. Bu açıdan anlamlı olan faktörler regresyon analizinde daha fazla kullanılır.
c) Bilinmeyen nedensel ilişkilerin tespiti.

İlişkilerin tezahür biçimleri çok çeşitlidir. En yaygın türler işlevsel (tam) ve korelasyon (eksik) bağlantı.
Korelasyon kütle gözlemleri için ortalama olarak görünür, ne zaman verilen değerler bağımlı değişken, bağımsız değişkenin belirli bir dizi olasılıksal değerine karşılık gelir. İlişkiye korelasyon denir, eğer faktör karakteristiğinin her değeri, sonuç karakteristiğinin iyi tanımlanmış, rastgele olmayan bir değerine karşılık geliyorsa.
Korelasyon tablosunun görsel temsili korelasyon alanıdır. X değerlerinin apsis ekseninde, Y değerlerinin ordinat ekseninde çizildiği ve X ve Y kombinasyonlarının noktalarla gösterildiği bir grafiktir. Noktaların konumuna göre varlığı değerlendirilebilir. bir bağlantının.
Bağlantı yakınlığının göstergeleri Ortaya çıkan özelliğin varyasyonunun faktör özelliğinin varyasyonuna bağımlılığını karakterize etmeyi mümkün kılar.
Kalabalıklığın derecesinin daha gelişmiş bir göstergesi korelasyon bağlantısıöyle doğrusal korelasyon katsayısı. Bu göstergeyi hesaplarken, yalnızca bir özelliğin bireysel değerlerinin ortalamadan sapmaları değil, aynı zamanda bu sapmaların büyüklüğü de dikkate alınır.

Bu konunun temel soruları, etkili karakteristik ile açıklayıcı değişken arasındaki regresyon ilişkisinin denklemleri, regresyon modelinin parametrelerini tahmin etmek için en küçük kareler yöntemi, ortaya çıkan regresyon denkleminin kalitesinin analiz edilmesi, regresyonun tahmin edilmesi için güven aralıklarının oluşturulmasıdır. regresyon denklemini kullanarak etkili karakteristik değerleri.

Örnek 2


Normal denklem sistemi.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Verilerimiz için denklem sistemi şu şekildedir:
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
İfade ettiğimiz ilk denklemden A ve ikinci denklemde yerine koyalım:
B = -3,46, a = 1379,33 elde ederiz
Regresyon denklemi:
y = -3,46 x + 1379,33

2. Regresyon denklemi parametrelerinin hesaplanması.
Örnek anlamına gelir.



Örnek farklılıklar:


Standart sapma


1.1. Korelasyon katsayısı
Kovaryans.

Bağlantı yakınlığının göstergesini hesaplıyoruz. Bu gösterge, aşağıdaki formülle hesaplanan örnek doğrusal korelasyon katsayısıdır:

Doğrusal korelasyon katsayısı –1 ile +1 arasında değerler alır.
Karakteristikler arasındaki bağlantılar zayıf ve güçlü (yakın) olabilir. Kriterleri Chaddock ölçeğine göre değerlendirilir:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Örneğimizde Y özelliği ile X faktörü arasındaki ilişki yüksek ve terstir.
Ek olarak doğrusal çift korelasyon katsayısı, regresyon katsayısı b aracılığıyla belirlenebilir:

1.2. Regresyon denklemi(regresyon denkleminin tahmini).

Doğrusal regresyon denklemi y = -3,46 x + 1379,33'tür.

Katsayı b = -3,46, ölçüm birimi başına x faktörünün değerindeki artış veya azalma ile etkin göstergedeki (y ölçü birimi cinsinden) ortalama değişimi gösterir. İÇİNDE bu örnekte 1 birimlik artışla y ortalama -3,46 azalmaktadır.
a = 1379,33 katsayısı resmi olarak y'nin tahmin edilen düzeyini gösterir, ancak yalnızca x = 0'ın örnek değerlere yakın olması durumunda.
Ancak x=0, x'in örnek değerlerinden uzaksa, o zaman birebir yorum yanlış sonuçlara yol açabilir ve regresyon çizgisi gözlemlenen örnek değerleri oldukça doğru bir şekilde tanımlasa bile bunun da olacağının garantisi yoktur. sola veya sağa tahmin yaparken durum böyle olabilir.
Uygun x değerlerini regresyon denkleminde yerine koyarak, her gözlem için performans göstergesi y(x)'in hizalanmış (tahmin edilen) değerlerini belirleyebiliriz.
Y ve x arasındaki ilişki, regresyon katsayısı b'nin işaretini belirler (eğer > 0 ise - doğrudan ilişki, aksi halde - ters). Örneğimizde bağlantı terstir.
1.3. Esneklik katsayısı.
Sonuç göstergesi y ile faktör özelliği x'in ölçüm birimlerinde bir fark varsa, faktörlerin sonuç özelliği üzerindeki etkisini doğrudan değerlendirmek için regresyon katsayılarının (örnek b) kullanılması tavsiye edilmez.
Bu amaçlar için esneklik katsayıları ve beta katsayıları hesaplanır.
Ortalama esneklik katsayısı E, sonucun toplamda ortalama yüzde kaç oranında değişeceğini gösterir. en faktör değiştiğinde ortalama değerinden X ortalama değerinin %1'i kadar.
Esneklik katsayısı aşağıdaki formülle bulunur:


Esneklik katsayısı 1'den küçüktür. Dolayısıyla X %1 değişirse Y de %1'den az değişecektir. Başka bir deyişle X'in Y üzerindeki etkisi anlamlı değildir.
Beta katsayısı ortalamasının değerinin ne kadar olduğunu gösterir kare sapma Ortaya çıkan özelliğin ortalama değeri, faktör karakteristiği standart sapma değeri kadar değiştiğinde ve kalan bağımsız değişkenlerin değeri sabit bir seviyede sabitlendiğinde değişecektir:

Onlar. x'te S x standart sapması kadar bir artış, Y'nin ortalama değerinde 0,74 standart sapma S y kadar bir azalmaya yol açacaktır.
1.4. Yaklaşım hatası.
Mutlak yaklaşım hatasını kullanarak regresyon denkleminin kalitesini değerlendirelim. Ortalama yaklaşım hatası - hesaplanan değerlerin gerçek değerlerden ortalama sapması:


Hata %15'ten az olduğundan bu denklem regresyon olarak kullanılabilir.
Varyans analizi.
Varyans analizinin amacı bağımlı değişkenin varyansını analiz etmektir:
∑(y ben - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Nerede
∑(y i - y cp) 2 - sapmaların karelerinin toplamı;
∑(y(x) - y cp) 2 - regresyondan kaynaklanan sapmaların karelerinin toplamı (“açıklanan” veya “faktöriyel”);
∑(y - y(x)) 2 - sapmaların karelerinin kalan toplamı.
Teorik korelasyon ilişkisiİçin doğrusal bağlantı korelasyon katsayısı r xy'ye eşittir.
Herhangi bir bağımlılık biçimi için bağlantının sıkılığı kullanılarak belirlenir. çoklu korelasyon katsayısı:

Bu katsayı, bağlantının yakınlığını ve modelin doğruluğunu yansıttığı için evrenseldir ve değişkenler arasındaki her türlü bağlantı için de kullanılabilir. Tek faktörlü bir korelasyon modeli oluştururken çoklu korelasyon katsayısı, çift korelasyon katsayısı r xy'ye eşittir.
1.6. Belirleme katsayısı.
(Çoklu) korelasyon katsayısının karesine, faktör özelliğindeki değişiklik tarafından açıklanan sonuç özellikteki değişimin oranını gösteren belirleme katsayısı adı verilir.
Çoğu zaman, belirleme katsayısını yorumlarken yüzde olarak ifade edilir.
R2 = -0,742 = 0,5413
onlar. Vakaların %54,13'ünde x'teki değişiklikler y'de değişikliklere yol açıyor. Başka bir deyişle regresyon denkleminin seçiminin doğruluğu ortalamadır. Y'deki değişimin kalan %45,87'si modelde dikkate alınmayan faktörlerle açıklanmaktadır.

Referanslar

  1. Ekonometri: Ders Kitabı / Ed. I.I. Eliseeva. – M.: Finans ve İstatistik, 2001, s. 34..89.
  2. Magnus Y.R., Katyshev P.K., Peresetsky A.A. Ekonometri. Başlangıç ​​kursu. öğretici. – 2. baskı, rev. – M.: Delo, 1998, s. 17..42.
  3. Ekonometri çalıştayı: Proc. ödenek / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko ve diğerleri; Ed. I.I. Eliseeva. – M.: Finans ve İstatistik, 2001, s. 5..48.

Farklı doğadaki rastgele değişkenler arasında, örneğin X değeri ile Y değeri arasında var olan bağlantı, mutlaka bir değerin diğerine doğrudan bağımlılığının bir sonucu değildir (sözde fonksiyonel bağlantı). Bazı durumlarda, her iki nicelik de her iki nicelik için ortak olan bir dizi farklı faktöre bağlıdır ve bunun sonucunda birbiriyle ilişkili kalıplar oluşur. İstatistik kullanılarak rastgele değişkenler arasında bir ilişki keşfedildiğinde, parametrelerde devam eden değişimin nedenini keşfettiğimizi iddia edemeyiz; yalnızca birbiriyle ilişkili iki sonuç gördük;

Örneğin televizyonda Amerikan aksiyon filmlerini daha sık izleyen çocuklar daha az okuyor. Daha çok okuyan çocuklar daha iyi öğrenirler. Sebeplerin nerede, sonuçların nerede olduğuna karar vermek o kadar kolay değil ama bu istatistiğin görevi değil. İstatistikler ancak bir bağlantının varlığına dair hipotez ortaya koyabilir ve bunu rakamlarla destekleyebilir. Eğer gerçekten bir bağlantı varsa, iki rastgele değişkenin ilişkili olduğu söylenir. Bir rastgele değişkendeki artış, ikinci bir rastgele değişkendeki artışla ilişkiliyse, korelasyona doğrudan korelasyon denir. Örneğin, yılda okunan sayfa sayısı ve ortalama puan (akademik performans). Aksine, bir değerdeki artış diğerindeki azalmayla ilişkilendiriliyorsa ters korelasyondan söz ederiz. Örneğin aksiyon filmi sayısı ve okunan sayfa sayısı.

İki rastgele değişkenin karşılıklı bağlantısına korelasyon denir; korelasyon analizi, böyle bir bağlantının varlığını belirlemeyi ve bu bağlantının ne kadar yakın ve anlamlı olduğunu değerlendirmeyi mümkün kılar. Bütün bunlar niceliksel olarak ifade edilir.

Miktarlar arasında bir korelasyon olup olmadığı nasıl belirlenir? Çoğu durumda, bu normal bir grafikte görülebilir. Örneğin örneklemimizdeki her çocuk için X i (sayfa sayısı) ve Y i (yıllık değerlendirmenin ortalama puanı) değerini belirleyip bu verileri tablo halinde yazabiliriz. X ve Y eksenlerini oluşturun ve ardından her biri tablomuzdan belirli bir koordinat çiftine (X i, Y i) sahip olacak şekilde tüm nokta serisini grafik üzerine çizin. Bu durumda neyin sebep, neyin sonuç olarak kabul edilebileceğini belirlemekte zorlandığımız için, hangi eksenin dikey, hangisinin yatay olacağı önemli değil.


Grafik a) gibi görünüyorsa bu doğrudan bir korelasyonun varlığını gösterir; b) gibi görünüyorsa korelasyon terstir. Korelasyon yok
Korelasyon katsayısını kullanarak değerler arasındaki ilişkinin ne kadar yakın olduğunu hesaplayabilirsiniz.

Bir ürünün fiyatı ile talebi arasında bir korelasyon olsun. Farklı satıcılardan fiyata bağlı olarak satın alınan birim sayısı tabloda gösterilmektedir:

Ters bir korelasyonla karşı karşıya olduğumuzu görüyoruz. Bağlantının yakınlığını ölçmek için korelasyon katsayısı kullanılır:

Excel'de r katsayısını f x fonksiyonunu, ardından istatistiksel fonksiyonları, CORREL fonksiyonunu kullanarak hesaplıyoruz. Programın komut isteminde, fare ile iki farklı diziyi (X ve Y) karşılık gelen iki alana girin. Bizim durumumuzda korelasyon katsayısı r = - 0,988 olarak çıktı. Korelasyon katsayısı 0'a yaklaştıkça büyüklükler arasındaki ilişkinin zayıfladığı unutulmamalıdır. Doğrudan korelasyona sahip en yakın bağlantı, +1'e yakın bir r katsayısına karşılık gelir. Bizim durumumuzda korelasyon ters ama aynı zamanda çok yakın ve katsayı -1'e yakın.

Katsayıları orta değerde olan rastgele değişkenler hakkında ne söylenebilir? Örneğin r=0,65 alırsak. Bu durumda istatistik bize iki rastgele değişkenin birbiriyle kısmen ilişkili olduğunu söylememizi sağlar. Diyelim ki satın alma sayısı üzerinde% 65'lik bir etki yapıldı fiyat ve% 35 oranında - diğer koşullar.

Ve bir önemli durumdan daha bahsetmek gerekir. Rastgele değişkenlerden bahsettiğimiz için, fark ettiğimiz bağlantının rastgele bir durum olma ihtimali her zaman vardır. Üstelik, olmayan bir bağlantı bulma olasılığı, örnekte az sayıda nokta olduğunda ve değerlendirme sırasında bir grafik oluşturmadığınızda, yalnızca bilgisayardaki korelasyon katsayısının değerini hesapladığınızda özellikle yüksektir. Yani eğer sadece iki tanesini bırakırsak farklı noktalar herhangi bir rastgele örnekte korelasyon katsayısı +1 veya -1 olacaktır. Bir okul geometri dersinden, iki noktadan her zaman düz bir çizgi çizebileceğinizi biliyoruz. Değerlendirme için istatistiksel anlamlılık

Keşfettiğiniz bağlantının gerçeğine göre, korelasyon düzeltmesi adı verilen yöntemi kullanmak yararlı olacaktır: Korelasyon analizinin amacı verilen rastgele değişkenlerin ilişkili olup olmadığını belirlemek iken, amaç regresyon analizi

- bu bağlantıyı analitik bir bağımlılıkla tanımlayın, yani. denklemi kullanarak. Grafikteki noktalar arasındaki bağlantının düz bir çizgiyle gösterilebildiği en basit durumu ele alacağız. Bu düz çizginin denklemi Y=aX+b'dir, burada a=Yaveraj-bXortalama,

Ayrıca, b ve r formüllerinin karşılaştırılmasından, katsayının çizginin eğiminin değerini vermediğini, yalnızca bir bağlantının varlığını gösterdiğini açıkça gösterdiğini unutmayın.

Şirkette 10 kişi çalışıyor. Tablo 2 iş deneyimlerine ilişkin verileri göstermektedir ve

aylık maaş.

Bu verileri kullanarak hesaplayın

  • - örnek kovaryans tahmininin değeri;
  • - numunenin Pearson korelasyon katsayısının değeri;
  • - elde edilen değerlerden bağlantının yönünü ve gücünü tahmin edin;
  • - Bu şirketin, bir çalışanın belirli bir şirkette ne kadar çok zaman geçirirse maaşının da o kadar yüksek olması gerektiğini varsayan Japon yönetim modelini kullandığını söylemenin ne kadar meşru olduğunu belirlemek.

Korelasyon alanına dayanarak (popülasyon için) X ve Y'nin tüm olası değerleri arasındaki ilişkinin doğrusal olduğunu varsayabiliriz.

Regresyon parametrelerini hesaplamak için bir hesaplama tablosu oluşturacağız.

Örnek anlamına gelir.

Örnek farklılıklar:

Tahmin edilen regresyon denklemi şu şekilde olacaktır:

y = bx + a + e,

burada ei, sırasıyla ei, a ve b hatalarının gözlemlenen değerleri (tahminleri), b parametrelerinin ve bulunması gereken regresyon modelindeki tahminlerdir.

b ve c parametrelerini tahmin etmek için en küçük kareler yöntemi (en küçük kareler yöntemi) kullanılır.

Normal denklem sistemi.

a?x + b?x2 = ?y*x

Verilerimiz için denklem sistemi şu şekildedir:

  • 10a + 307b = 33300
  • 307 a + 10857 b = 1127700

Sistemin denklemini (1) (-30.7) ile çarpalım, cebirsel toplama yöntemini kullanarak çözdüğümüz bir sistem elde edelim.

  • -307a -9424,9b = -1022310
  • 307 a + 10857 b = 1127700

Şunu elde ederiz:

1432,1 b = 105390

b = 73,5912 nereden geliyor?

Şimdi denklem (1)’den “a” katsayısını bulalım:

  • 10a + 307b = 33300
  • 10a + 307 * 73,5912 = 33300
  • 10a = 10707,49

Ampirik regresyon katsayılarını elde ediyoruz: b = 73,5912, a = 1070,7492

Regresyon denklemi (ampirik regresyon denklemi):

y = 73,5912 x + 1070,7492

Kovaryans.

Örneğimizde Y özelliği ile X faktörü arasındaki bağlantı yüksek ve doğrudandır.

Bu nedenle, bir çalışanın belirli bir şirkette ne kadar çok çalışırsa maaşının da o kadar yüksek olacağını rahatlıkla söyleyebiliriz.

4. Kontrol edin istatistiksel hipotezler. Bu problemi çözerken ilk adım test edilebilir bir hipotez ve alternatif bir hipotez formüle etmektir.

Genel hisselerin eşitliğinin kontrol edilmesi.

İki fakültede öğrenci performansı üzerine araştırma yapıldı. Seçeneklere ilişkin sonuçlar Tablo 3'te verilmektedir. Her iki fakültenin de aynı oranda mükemmel öğrenciye sahip olduğunu söylemek mümkün mü?

Basit aritmetik ortalama

Genel hisselerin eşitliğine ilişkin hipotezi test ediyoruz:

Öğrenci kriterinin deneysel değerini bulalım:

Serbestlik derecesi sayısı

f = nх + nу - 2 = 2 + 2 - 2 = 2

Öğrenci dağıtım tablosunu kullanarak tkp değerini belirleyin

Öğrenci tablosunu kullanarak şunu buluruz:

Ttablo(f;b/2) = Ttablo(2;0,025) = 4,303

b = 0,05 anlamlılık düzeyinde ve belirli sayıda serbestlik derecesinde Öğrenci dağılımının kritik noktaları tablosunu kullanarak tcr = 4,303'ü buluruz.

Çünkü tob > tcr ise sıfır hipotezi reddedilir, iki örneğin genel payları eşit değildir.

Genel dağılımın tekdüzeliğinin kontrol edilmesi.

Üniversite yetkilileri, beşeri bilimler bölümünün popülaritesinin zaman içinde nasıl değiştiğini öğrenmek istiyor. Fakülteye başvuranların sayısı toplam başvuru sayısıyla ilişkilendirilerek analiz edildi. karşılık gelen yıl. (Veriler Tablo 4'te verilmiştir). Başvuranların sayısını temsili bir örnek olarak düşünürsek toplam sayı Yılın okul mezunları, okul çocuklarının bu fakültenin uzmanlık alanlarına olan ilgisinin zaman içinde değişmediği söylenebilir mi?

Seçenek 4

Çözüm: Göstergelerin hesaplanmasına yönelik tablo.

Aralığın ortası, xi

Birikmiş frekans, S

Frekans, fi/n

Dağıtım serisini değerlendirmek için aşağıdaki göstergeleri buluyoruz:

Ağırlıklı ortalama

Değişim aralığı, birincil seri karakteristiğinin maksimum ve minimum değerleri arasındaki farktır.

R = 2008 - 1988 = 20 Dağılım - ortalama değeri etrafındaki dağılım ölçüsünü karakterize eder (bir dağılım ölçüsü, yani ortalamadan sapma).

Standart sapma (ortalama örnekleme hatası).

Serinin her bir değeri 2002,66 ortalama değerinden ortalama 6,32 farklılık göstermektedir.

Nüfusun düzgün dağılımına ilişkin hipotezin test edilmesi.

X'in düzgün dağılımı hakkındaki hipotezi test etmek için, yani. kanuna göre (a,b) aralığında f(x) = 1/(b-a) gereklidir:

a ve b parametrelerini tahmin edin - aralığın sonları olası değerler X, formüllere göre (* işareti parametre tahminlerini belirtir):

Beklenen dağılımın olasılık yoğunluğunu bulun f(x) = 1/(b* - a*)

Teorik frekansları bulun:

n1 = nP1 = n = n*1/(b* - a*)*(x1 - a*)

n2 = n3 = ... = ns-1 = n*1/(b* - a*)*(xi - xi-1)

ns = n*1/(b* - a*)*(b* - xs-1)

Serbestlik derecesi sayısını k = s-3 alarak Pearson kriterini kullanarak ampirik ve teorik frekansları karşılaştırın; burada s, başlangıçtaki örnekleme aralıklarının sayısıdır; küçük frekansların ve dolayısıyla aralıkların bir kombinasyonu gerçekleştirilmişse, o zaman s, kombinasyondan sonra kalan aralıkların sayısıdır. Aşağıdaki formülleri kullanarak düzgün dağılımın a* ve b* parametreleri için tahminler bulalım:

Varsayılan düzgün dağılımın yoğunluğunu bulalım:

f(x) = 1/(b* - a*) = 1/(2013,62 - 1991,71) = 0,0456

Teorik frekansları bulalım:

n1 = n*f(x)(x1 - a*) = 0,77 * 0,0456(1992-1991,71) = 0,0102

n5 = n*f(x)(b* - x4) = 0,77 * 0,0456(2013,62-2008) = 0,2

ns = n*f(x)(xi - xi-1)

Pearson istatistiği ampirik ve teorik dağılımlar arasındaki farkı ölçtüğünden, gözlemlenen Kob değeri ne kadar büyük olursa, ana hipoteze karşı argüman o kadar güçlü olur.

Dolayısıyla bu istatistikler için kritik bölge her zaman sağ taraftır :)