- Articles
- Popular
研究人員絕對要避免的 4 個統計錯誤

統計的本質是種工具,用來確定變量間的關系、評估研究問題效度。說得再細點,生物統計學主要用來解決生物醫學中的問題,它包含統計、概率、數學、計算等多個元素。把生物統計運用到研究中,可以測試新藥、尋找病因、估算患者的壽命、統計死亡率和發病率等。
盡管統計是生物醫學研究中的主要工具之一,但它一直或有意或無意地被人濫用,已經到了見怪不怪的程度。事實上,越來越多人表示統計錯誤是造成拒稿的主要原因之一。
本文先后探究了生物醫學研究中濫用統計數據的原因和解決辦法。下面我們先來了解一下造成統計錯誤的原因。?
1. 數據呈現不清:通常論文中會提及統計方法、分析數據。不過在呈現數據時很容易出現表述上的灰色地帶,讓讀者對研究缺乏全面的了解,歸根結底是因為很多論文的統計假設都沒講清。在一項樣本為醫學院學生、教職工的橫向調查中,有 53.87% 的人認為統計學很難,52.9% 的人說不清 p 值是什么,36.45% 的人對標準差的定義有誤,50.97% 的人無法正確統計樣本大小。這些數據說明研究人員能正確分析數據還不夠,還要會正確使用、呈現數據。
2. 重理論、輕數據:同行評審通常會對臨床研究的數據統計進行嚴格篩查,但基礎科學就另當別論了。基礎科學涵蓋生物化學、行為學、動物模型、細胞培養等多個領域,這種跨學科性質讓統計分析更棘手。通常研究人員會在實驗結束后才開始著手數據分析。這種事后分析帶來的真知灼見通常都比較有限。
?3. 采集數據前規劃不到位:規劃好每個關鍵步驟要做的統計工作非常重要。比如說,確定樣本大小時,老鼠的數量可能會對研究結果產生重大影響。由于樣本的體重、身體質量等多個變量都可能影響實驗結果,最好根據不同變量進行樣本容量計算,然后選擇最大的可行樣本進行實驗。理想情況下,研究人員應在數據采集之前確定暴露變量和結果之間的關系,這能有效避免誤報。研究人員還應該提前定好主要結果變量、 確認是否使用 A、B 對照組、設置相關組(測試 A 在患有焦慮癥和抑郁癥的樣本身上的變量效應)。
4. 數據采集和統計分析中出現偏差:同樣的,研究人員在設計實驗時也要注意對照組(條件)、隨機性、盲法實驗、可重復性。隨機的大容量樣本能避免偏差和誤導。比如說,假如有人想測試藥物 A 對動物體重、心率、身體質量的影響,通常會有研究人員把它切分成三個單獨的實驗。但這種做法容易產生偏差。相反,當對照組和實驗組樣本數夠大,且采取隨機抽樣時,用一個實驗就可以監測心率、體重、身體質量三種變量。
事后分析法缺少事前合理的因果論證,它不是為了驗證某個特定的假設,而是反過來通過多項分析試圖找出某種潛在關系。這種情況下,就很容易出現在數據中硬找關聯的“釣魚”研究。所以,在說明試驗方法和原理時,確保統計部分遵循相關標準,比如國際醫學期刊編輯委員會 (International Committee of Medical Journal Editors, ICMJE) 提供的指南。
統計錯誤對發表流程的影響
要想得到準確的研究結果,就得正確處理數據。而統計的準確性對發表也非常重要。一旦期刊在文章中發現統計錯誤,作者可能會面臨大修或被拒稿的決定。很可惜,研究中的統計錯誤不算罕見。以下是研究中最常見的幾種統計錯誤:
- 研究設計錯誤。比如沒隨機抽樣對照組樣本、選擇不合適的對照組。
- 數據分析錯誤。比如缺少配對數據、不給出相關數據而直接得出 p 值、沒確認線性關系的情況下直接用回歸分析法。
- 數據呈現錯誤。比如該用標準差用了標準誤差、用餅圖表示連續變量、沒對多重比較進行調整。
- 數據說明/解釋錯誤。比如把相關和因果劃等號、做砸的試驗硬說是好實驗。
如果統計錯誤只是由于筆誤,編輯、修改一下稿件就能解決問題。但如果是數據分析、呈現和結果討論中存在技術問題,文章就很可能要大改。而當實驗設計出了問題,除了把試驗重做一遍沒有別的補救辦法,這種情況下期刊極有可能會選擇拒稿。
如何解決濫用數據問題?
在生物醫學的前沿領域,數據統計扮演著非常重要的角色。然而,要想研究出新銳科技,研究人員必須有意識地在各個環節避免濫用數據,不管是數據的收集、分析,還是呈現。
研究人員應該了解數據處理的各項規則并嚴格遵守。比如 ICMJE 提出的“生物醫學期刊投稿的統一要求”(Uniform Requirements for Manuscripts Submitted to Biomedical Journals) 就對統計方法的應用、解釋給出了建議。
此外,研究人員還要了解其他的同類型指南,比如“文獻中的分析與統計方法” (Statistical Analysis and Methods in the Published Literature, SAMPL) 指南。它將不同的統計方法分類,依次解說,對試驗的設計、操作和解釋都有很大指導作用。
多數情況下,生物醫學論文都以統計數據為依據。因此多數生物醫學期刊,尤其是高影響因子的,像《柳葉刀》、《自然》、《科學》、《細胞》、《美國醫學會期刊》,除了動用編輯和審稿人,還會指派專門的生物統計學家評估稿件內容。目前有越來越多期刊開始采取這種做法。
必須要說,由于要綜合考慮研究中的多個變量、樣本量、測量結果等多個因素,總結數據并得出結論從來都不是件輕松的事。計算機和統計軟件讓解釋、分析數據有更多可能,但同時也給錯誤創造了更多空間。
挪威數學家、生物統計學家、醫學研究員、斯塔萬格大學 (University of Stavanger) 健康科學系副教授 Jo R?islien 說過,“統計量化了你研究結果的可信或不可信程度”。總之,研究人員在開始實驗之前就該自行學習統計方法。只有正確使用統計這個工具,它才能幫研究人員達到拓展現有生物醫學知識的目的。
意得輯專家視點相關推薦閱讀: