"統計顯著性",維基百科上充滿數學上的說明,貪多嚼不爛啊!思考了一陣子,加上最近因緣際會練習處理數據後,才有了比較一致的理解,筆記起來
直觀理解
想像有兩組病人,A組與B組患了同樣的病,我們想測試某藥物投入A組一段期間後,觀察是否真有效用,在此同時我們不對B組病人做任何動作。
實驗結束,我們從AB組隨便各取一位病人來觀察,喔!A組1號病人在投藥後確實有改善,而B組1號病人症狀未改善,此時若我們宣告了藥物確實有效,相信會很被多人挑戰說是樣本太少、抽到籤王、其中一邊的病人有天生神力...等等,被各種極端案例猛K而難以服眾.
因此,為了讓實驗結果更有說服力,我們將整個AB組統計完,舉證這兩組的平均狀況,統計結果顯示,兩組病人在平均表現上有所差異,此時應該就不會有人質疑實驗結果,或是至少質疑的聲量會比只採樣一兩個低上很多,因為我們明白:大量統計後的結果之所以牢固,其中一個關鍵是,連續採樣到極值的可能性會隨著採樣數增多而指數式地降低
以骰子說明,碰巧扔到一個6的機率為$\frac{1}{6}$,此情況下的平均值為6:總和6除以1次採樣,看似不難做到。
若條件改成連續扔到5個6,在此情況下的10次平均值也是6,但發生此情境的機率則小到$(\frac{1}{6})^{5}=0.00012860082$,大概重複做10000組連扔5次的實驗才會發生一組此狀況,我們可感受到在多次採樣後期望值仍維持高檔的機率可說是微乎其微。
大量甩骰子後的平均值理論上是多少呢?透過期望值的概念計算後得知平均值會趨近於3:$\frac{1}{6}(6+5+4+3+2+1) = 3.5$;也就是說只要是一顆正常的骰子,(備註:我們定義正常的意思是甩出其中任一面的機率都相等),在大量投擲後,統計平均值都會將近3.5才對,大名鼎鼎的中央極限定理(Central limit theorem, CLT)就是透過一般性的數學觀點證明了這件事。
反過來說,假若今天有另一顆骰子在大量投擲後趨近於4或是5,等等明顯偏離3.5的其他數字,那我們可以信心滿滿地說這個骰子不太正常,由於某一面出現的機率扎扎實實地高於其他面,因此在大量統計後仍無法抵消隨機誤差,判定此骰子跟世俗其他骰子明顯不一樣。
大量統計給予了我們這樣的推論信心,因為發生極值的機率太低了
回到病人的例子有著類似的道理,跟骰子略有不同的是,我們可能無法在一開始推估出實驗組與對照組的期望值,但相同的是,我們確信在大量且公平的採樣後統計後,兩組會趨向各自的平均值,也就是說若平均值有差異,那真的就是有差異了!
回到術語,統計顯著性,就是用來回答,兩統計值真正具有差異的可能性,具有差異的意思是,兩群體是真的來自不同母體,而非來自相同母體的極端兩邊;所謂的排除虛無假設指的就是來自同一母體的可能性太低以至於我們排除了來自同一母體的假設
何謂顯著性指標 - p值?
按維基百科解釋,p值,如其原始字意probability,用來表達採樣到極端的可能性:
- p值越高表示採樣到極端的可能性越高,等價於採樣群體來自同一母體的可能性越高,等價於具有差異的可能性越低
- 反之,p值越低表示採樣到極端的可能性越低,等價於採樣群體來自同一母體的可能性越低,等價於具有差異的可能性越高
有很多方式可求出p值,如T-test、Z-test…等等;其中我覺得最好理解的是Z-Test,用來求單一統計組與特定常數是否具有差異;Z-Test透過一公式求出Z值,Z值越大則p值越小,那麼哪些因素可改變Z值?細看公式來理解:
$$Z=\frac{\bar{X}-\mu_0}{s}$$
分子為樣本均值與常數的差異,分母是樣本標準誤差(Standard error),因此,分子越大或是分母越小都可以讓Z值上升p值下降,我們由此可知均值差異越大或是標準誤差(Standard error),都能讓統計顯著性越高;再細看使標準誤差變小的因素有:樣本數越多、樣本標準差越小。樣本數夠多、或是採樣到的數據一致性越高都能讓實驗結果更有說服力
再看看T-Test,用來判定兩統計組是否具有差異,此時的分母變成由兩個樣本標準差綜合決定標準誤差(Standard error),同樣地我們可以從公式看出,兩者的都標準差都變小的情況T值會上升p會下降,都變大的情況則反之,一大一小的話就要細算才得知了。
統計顯著性代表實驗結果很是有效?
不對,統計顯著性只回答了兩統計組具有差異的"可能性",但沒有回答“差異程度”;差異程度的概念需要要另外了解Effect size,比較好理解的像是相關係數之類的東西
統計的本質:採樣總是伴隨著隨機誤差,統計顯著性只告訴了你,你的實驗結果受到隨機誤差干擾而造成平均值產生差異的機率,但無法回答你,實驗產生的應變數差異是否真的由假設的自變數所造成,或是實質的影響程度多寡,其中有可能是其他沒想到的因素參雜影響的,只能設計更多實驗來解開戰爭迷霧。
概念略為弔詭部分在於,實驗結果可能會表現成具有統計顯著性,但差異程度微乎其微,還是需要分析實驗後差異程度,是否與模型反應的程度相符或接近,畢竟實驗通常是用來證明模型有效,模型得先準備好才對。
簡而言之,統計顯著性只是個必須通過的門檻,但作為最終解釋控制手段是否有效?是有些勉強。
沒有留言:
張貼留言