備案號(hào):遼ICP備19007957號(hào)-1
聆聽您的聲音:feedback@highmark.com.cn企業(yè)熱線:400-778-8318
Copyright ?2015- 海馬課堂網(wǎng)絡(luò)科技(大連)有限公司辦公地址:遼寧省大連市高新技術(shù)產(chǎn)業(yè)園區(qū)火炬路32A號(hào)創(chuàng)業(yè)大廈A座18層1801室
抽樣分布是統(tǒng)計(jì)學(xué)中一個(gè)重要的概念,它描述了從總體中抽取多個(gè)樣本后,樣本統(tǒng)計(jì)量(如平均數(shù)、標(biāo)準(zhǔn)差、比例等)的分布情況。抽樣分布有助于我們理解樣本統(tǒng)計(jì)量的變異性,并且在進(jìn)行統(tǒng)計(jì)推斷時(shí)提供了基礎(chǔ)。這篇文章為大家?guī)砼P龍崗大學(xué)統(tǒng)計(jì)學(xué)抽樣分布重點(diǎn)解析。
一、抽樣分布概述
許多基本的多元方法都使用 F 分布及其相關(guān)檢驗(yàn)和臨界值:它是化學(xué)計(jì)量學(xué)中許多常用統(tǒng)計(jì)檢驗(yàn)的基礎(chǔ),例如,用于檢測(cè)異常值或觀測(cè)值是否屬于預(yù)定義類別。
我們已經(jīng)看到,當(dāng)一個(gè)群體具有基本的正態(tài)分布,但樣本量較小時(shí),t 分布適用于估計(jì)臨界值或置信限。這主要是由于確定群體標(biāo)準(zhǔn)差的難度較大,而使用的方法往往會(huì)低估標(biāo)準(zhǔn)差,從而導(dǎo)致平均值的表面分布失真。
二、卡方分布
當(dāng)我們討論卡方分布 1 時(shí),我們注意到它代表了馬哈拉諾比斯距離均值平方的分布,特別是如果測(cè)量的變量不止一個(gè),就沒有特定的正負(fù)方向,因此,使用平方距離(與方向無關(guān))是至關(guān)重要的。因此,卡方分布很自然地從單變量數(shù)據(jù)擴(kuò)展到了多變量數(shù)據(jù)。
當(dāng)變量不止一個(gè)但樣本量較小時(shí),F(xiàn) 分布可視為 t 分布的等效擴(kuò)展。文獻(xiàn)中有許多引入該分布的方法,它被廣泛應(yīng)用于許多不同的領(lǐng)域。在本文和下一篇文章中,我們主要關(guān)注多維空間中的數(shù)據(jù)分布:F 分布通常在方差分析中引入。在以后的文章中,我們還會(huì)在其他場合遇到這種分布及其相關(guān)統(tǒng)計(jì)量。
三、自由度
F 分布有兩種不同的自由度。
通常寫作 F(ν1,ν2)。F 分布的累積分布函數(shù)(cdf)或概率密度函數(shù)的橫軸代表 F 統(tǒng)計(jì)量。我們將在下一篇文章中看到,如果變量不止一個(gè),它就不等于馬哈拉諾比斯距離的平方,這與卡方統(tǒng)計(jì)量不同。
在我們的上下文中,如果我們考慮一個(gè)由 n 個(gè)觀測(cè)值和 k 個(gè)變量組成的樣本,那么 ν1 表示變量的數(shù)量,ν2 表示觀測(cè)值的數(shù)量減去變量的數(shù)量(n - k)。
注意,F(xiàn)(ν1, ν2) ≠ F(ν2, ν1)。
如果數(shù)據(jù)集以矩陣格式表示,那么行數(shù)等于 ν2 + ν1,列數(shù)等于 ν1。
需要注意的是,定義矩陣的維數(shù)時(shí),通常是先行后列,但為了 F 分布的目的,我們將其對(duì)調(diào),第一個(gè)自由度指的是數(shù)據(jù)矩陣中的變量數(shù)或列數(shù)。如圖 1 所示。
請(qǐng)注意,n 不能小于 k。這個(gè)明顯的限制已在 Mahalanobis 距離 2 中討論過。不過,可以通過先進(jìn)行主成分分析以減少變量數(shù)量來克服這一限制。
重要的是要記住,與卡方分布一樣,F(xiàn) 分布只有在變量獨(dú)立的情況下才能得到。然而,如果我們使用馬哈拉諾比斯距離度量,則如前文所討論的那樣,F(xiàn) 分布始終是獨(dú)立的,因?yàn)檫@實(shí)際上等同于進(jìn)行主成分變換。
四、單變量關(guān)系
如果只有 1 個(gè)自由度,那么數(shù)據(jù)就是單變量的,可以得出幾種直接的關(guān)系。
為了便于說明,我們考慮 F 值為 4 的測(cè)量。
如果樣本量較大,那么 F 分布、卡方分布和 t2 分布都會(huì)得出相同的結(jié)果。
在 Excel 中輸入 F.DIST(4,1,10 000 - 1,TRUE),n = 10 000:4 代表 F 值,1 等于 ν1,10 000 - 1 等于 ν2。邏輯值 "TRUE "代表累積分布。這應(yīng)該給出預(yù)計(jì) F 統(tǒng)計(jì)量小于 4 的數(shù)據(jù)比例。
要檢查卡方分布,請(qǐng)輸入 CHISQ.DIST(4,1,TRUE)。
對(duì)于 t,我們應(yīng)該記住,我們處理的是 F 和卡方分布的平方距離,而使用 t 時(shí)處理的是它們的平方根,當(dāng)然本例只涉及一個(gè)變量。鍵入 (T.DIST(SQRT(4),10 000,TRUE) - 0.5)*2。這個(gè)表達(dá)式相當(dāng)長,因?yàn)槲覀冃枰?jì)算 t 統(tǒng)計(jì)量位于平均值兩側(cè) +2 和 -2 之間的數(shù)據(jù)的預(yù)期比例。
所有情況下的答案都應(yīng)該是 0.954。因此,95.4% 的人口的 chi 平方或 F 統(tǒng)計(jì)量小于 4,或 t 統(tǒng)計(jì)量小于 2(4 的平方根)。
海馬課堂專業(yè)課程輔導(dǎo),2100+嚴(yán)選碩博學(xué)霸師資,針對(duì)學(xué)生的薄弱科目和學(xué)校教學(xué)進(jìn)度,匹配背景相符的導(dǎo)師,根據(jù)學(xué)生情況進(jìn)行1V1專屬備課,上課時(shí)間靈活安排,中英雙語詳細(xì)講解課程中的考點(diǎn)、 難點(diǎn)問題,并提供多方位的課后輔導(dǎo),輔助學(xué)生掌握全部課程知識(shí),補(bǔ)足短板。
閱讀原文:http://cheshan.cn/news/14636_62.html
版權(quán)作品,未經(jīng)海馬課堂 highmarktutor.com 書面授權(quán),嚴(yán)禁轉(zhuǎn)載,違者將被追究法律責(zé)任。
24h在線客服



備案號(hào):遼ICP備19007957號(hào)-1
聆聽您的聲音:feedback@highmark.com.cn企業(yè)熱線:400-778-8318
Copyright ?2015- 海馬課堂網(wǎng)絡(luò)科技(大連)有限公司辦公地址:遼寧省大連市高新技術(shù)產(chǎn)業(yè)園區(qū)火炬路32A號(hào)創(chuàng)業(yè)大廈A座18層1801室
hmkt088