模式轉變:將統計顯著與試驗數據的臨床意義結合

模式轉變:將統計顯著與試驗數據的臨床意義結合

在循證醫學中,統計信息對于研究人員解釋觀察結果并提出治療建議至關重要。P 值作為廣泛接受并且過度使用的臨床試驗數據分析方法,反對過分依賴 P 值決策的聲音在研究領域越來越大。最近在知名期刊上發表的幾篇文章開始質疑“統計顯著性”概念的普及。

P 值的爭議

P 值被引入到統計學中,不是作為確定性檢驗,而是用于判斷重復實驗時得到實驗所收集的證據的可能性。簡言之,P 值區間為 0 1;值越低,實驗結果出自于偶然的可能性越低。通常,P 值為 0.05 是判定研究是否可靠的門檻,從而確保發表論文的可靠性。然而,這個門檻值是隨機的P 值本質上更像是一種實用工具,當與背景知識相結合時,會產生更好的科學理解。事實上,美國加勞德特大學的 Regina Nuzzo 教授在其獲獎的文章中表示,0.05 這一神奇邊界的移動性太高,因而不可信,因為增加一些額外數據即將影響從顯著變為非顯著。

過度依賴 P 值來確定實際治療效果使得生物醫學文獻研究只報告統計顯著結果,但未考慮證明臨床價值的重要因素。這種不一致的產生是因為統計顯著性的雙邊界未考慮個別關鍵因素,如治療效果的大小,次要終點的治療效果,治療效果在一般風險和效益評估中的意義,治療效果的生物學可能性、再現性、以及對推論過程觀察的普遍性。近年來,至少有一個學術期刊《基礎和應用社會心理學》 (Basic and Applied Social Psychology) 已經禁止使用 P 值。這個決定或許令人震驚,但是在影響力很強的期刊中,如 Buyse 研究人員發表的論文確實主張基于非顯著統計結果解釋臨床數據。

臨床上相關的變化通常通過最小重要變化(MIC)或最小臨床重要差異(MCID)等術語來識別。然而,在客觀檢查的情況下,臨床意義不明確。但是通過統計數據來評估研究的臨床意義時,單純考慮 P 值肯定是行不通的。

將臨床意義與統計顯著結合起來的方法

用兩分法來看臨床試驗結果是否具有統計顯著經常會扭曲對當前已收集數據的更廣泛解釋。以效應量和置信區間表示的治療效果的程度和相對重要性被認為是報告臨床試驗結果更可靠的方法。

效應量:用“是”或“否”來簡單解釋治療效果可能會廣受歡迎,但對于不想通過二分法衡量治療效果及其生物學重要性的研究人員來說,這是不現實的。在臨床數據分析中引入效應量是評估臨床意義的一種很好的方式。它反映了群體之間結果的差異程度;治療的效應值越大,實驗組與對照組之間的差異越大,對患者的意義越大。

置信區間:置信區間是許多研究人員首選的方法,也由報告試驗統一標準 (Consolidated Standards of Reporting Trials, CONSORT) 聲明所認可,它表明了衡量效果的不確定性水平。換句話說,通過置信上限和置信下限,可以推斷真實的群體效應處于這兩個值之間。除了跟 P 值一樣能體現結果是否具有統計顯著性之外,它還能表示結果的精確度。

貝葉斯方法:基于P值推理的問題反映了現實生活中的一個邏輯謬誤—條件概率倒置。正如貧血患者感覺疲勞的可能性與患有貧血的疲勞個體的可能性是不同的,干預組與對照組之間差異小于 0.05 P 值并不表示治療起作用的可能性。為了捕捉現實生活場景的流動性和不確定性,貝葉斯方法改變了臨床試驗數據分析的范式。該方法解決了模仿醫生批判性思維過程的研究問題,其中包括僅在考慮諸如疾病的患病率,患者的人口統計學和癥狀,評估預測試概率,并進行診斷測試后才做出決定。隨著越來越多的研究(如 Bittl He 的研究)推廣這一方法,與經典統計相比,貝葉斯統計似乎更適合整合統計學證據和臨床意義。

雖然顯著性測試永遠都會有支持者,但研究人員現在應該開始認識其不足之處。在報告臨床試驗結果時,幫助讀者評估重要性的最佳方法是明確報告研究的每個關鍵細節,并將所有可用的臨床知識分享給其他研究人員。

意得輯專家視點相關推薦閱讀:

期待學術生涯高歌猛進,發表過程一帆風順?

來加入我們活力洋溢的在線社區吧。免費注冊,無限閱覽。

社交賬號一鍵登入

已有54300名科研人員在此注冊。

Found this useful?

If so, share it with your fellow researchers

該話題屬于開展研究階段

身為科研人員,開展研究是最先也最令人興奮的一步,如果你正處在這個發表階段,歡迎訂閱學習這個階段該知道最佳實踐,為成功發表鋪平道路。