我的研究重要嗎?為什么你不應依靠 P 值

我的研究重要嗎?為什么你不應依靠 P 值

研究文章中最常被報告的統計項目也可能是最常被誤解和誤用的。這里我們指的是 P 值。

美國統計學會?(American Statistical Association, ASA) 最近發表了「統計上顯著差別和 P 值的宣言」 (Statement on Statistical Significance and P-Values),列出了六個有關適當運用和詮釋 P 值的宗旨。宣言的全文可在上面的鏈接中找到。

我們首先看一下 ASA 的宗旨,還有如何把他們運用到研究中。

1. P 值可以指出資料跟某一統計模型如何不匹配。

這里重要的字眼是“某一”。不論是任何研究或分析,當研究人員建立一個統計模型時,他們需要作出一些假設。根據統計學家的說法,0.05 的 P 值不表示某一假設有 95% 的機會為正確。相反,這個數值意味著如果假設是正確的同時其他作出的假設均為有效,那么我們有百分之五的機會獲得我們現時得出的結果。

2. P 值不能估算我們的研究假設為正確的概率,也不能量度數據是隨機出現的概率。

研究員們很常把小的 p 值錯誤詮釋為虛假的。事實上,p 值只表示我們會獲得某結果的概率跟在假設為正確的情況下一樣大。

3. 我們不應單靠某一 p 值是否達到某一闕值而作出科學結論,或商業及公共政策決定。

「p<.05」不能保證某事物為真確。說到底,一個 p 值只是一個統計數值,而非上天賜予的訊號。一個 p 值可以受到研究計劃很多方面影響,尤其是樣本數。如果一個樣本特別大,那么 p 值就差不多必然達到顯著性的水平(雖然效應值可能不重要),除非效應完全不存在。因此你不能單靠 p 值作出實際決定。

4. 適當的推論需要更全面的報告和透明度。

在一般情況下,作者只報告 p 值為 .05 以下的結果。ASA 強烈不建議這種「櫻桃」的行為。相反,這樣會建議作者報告所有探索過的假設,所有進行過的統計分析,還有所有獲得的 p 值,不管有顯著性差異與否。作者只有在完成這些步驟后才能基于他們的數據作出有效的結論。

5. 一個 p 值或統計上的顯著性差異并不量度效應的大小或結果的重要性。

有些作者會把 p 值非常低 (<.001) 的結果標簽成「非常顯著差異」或「高度顯著差異」。可是,一個小的 p 值不表示結果帶有實際或臨床重要性。

假設你在女生中找到增加能量飲料的飲用量和良好身材在統計上有顯著差異的關系。這不表示你應該設計一個措施去派發免費能量飲料給女生,以幫助她們改善身體形象。相反地,你應該審視這個關系的強度?(例如:相關系數,回歸系數)。如果這個關系不強(例如相關系數只有 0.1),當你考慮到其他跟身材關系更強的因素(例如整體個人自信,參加肥胖講座的次數),你的干預措施可能會變得更有效。

斷定結果的重要性時,研究員也應該考慮到整體環境,這是重要的一點。人數多的組別之間的細微差異可能在統計上有顯著性差異但實際上不重要,而人數少組別之間的大差異盡管在統計上沒有顯著性差異,但實際上可以很重要。例如在實施一個教育干預措施后,在一個滿分為 100 分的數學測驗中平均分進步了 1.5 分也許達到統計學上的顯著性差異,但在實際生活中這個干預措施不一定會帶來特別的益處。

6. 就本身而言,當關系到一個模型或假設時,p 值不是一個好的指標去量度證據

科研作者作者應該避免在他們的結果中只報告 p 值。一個小的 p 值不表示假設不真確,而一個大的 p 值也不表示假設為真確。研究中可以有很多不同的假設都跟觀察到的數據一致。所以一個 p 值不是唯一的統計項目支持被測試的模型或理論,一個研究的價值不應單靠取得的 p 值。

總而言之,盡管 p 值有其用武之地,它們不是一個研究變得有價值或重要的依據,他們也不應該被看作這樣的依據。統計上的顯著性差異不意味著在科學,實踐或臨床方面亦有相同的重要性。

期待學術生涯高歌猛進,發表過程一帆風順?

來加入我們活力洋溢的在線社區吧。免費注冊,無限閱覽。

社交賬號一鍵登入

已有54300名科研人員在此注冊。

Found this useful?

If so, share it with your fellow researchers