研究無法重復的問題很嚴重,但也是被誤解了

系列:
01
研究無法重復的問題很嚴重,但也是被誤解了

科研人員通常都很繁忙,而 Jonas Ranstam 大概是最忙的人。Ranstam 博士是全球公認最高產的審稿人,一年大約評審 661 篇論文。這位醫學統計學家在 2016 年贏得科學保衛人士獎項 (Sentinels of Science Awards),該獎項由 Publons 發起,旨在表彰審稿人的功勞。Jonas Ranstam 博士也被 Publons 選為 2016 頂尖審稿人之一。這次我非常榮幸能有機會采訪 Ranstam 博士,跟他一同討論醫學統計和同行評審等話題。

在從全職學術人員退休之前,Ranstam 博士服務于多個單位,其中包含瑞典隆德大學 (Lund University) 的教授及醫學統計高級講師。目前,身為醫學統計學家的 Ranstam 博士擔任在學術和研究單位、醫院、政府單位和私人公司的臨床和流行病學調查人員的統計顧問。他也貢獻他的專業在《Osteoarthritis and Cartilage》(擔任副編輯)、《British Journal of Surgery》(擔任統計編輯)和《Acta Orthopaedica》(擔任統計顧問),同時也是多個國際科研醫學期刊的統計審稿人。他也經營一個名為 Statistical Mistakes 的博客,主要關注醫學研究中的統計錯誤的系統綜述,提供參考文獻敘述如何避免這些錯誤。

在 Ranstam 博士訪談的第一輯中,我們談了好幾個話題:統計方法、他的博客、曝光醫學研究中不確定的研究結果所帶來的不可重復危機等。Ranstam 博士還談到了科研人員在論文中呈現統計數據時常犯的錯誤。

讓我們先來談談您目前的工作,獨立統計學家、顧問的工作內容是什么?

我處理醫學研究問題,主要是臨床治療研究方面的。舉例來說,我參與多個研究項目的研究設計開發,然后我會寫研究 protocol 以及統計分析計劃。我會分析數據,寫成研究報告。我還審查論文、基金申請書,有時候還有工作申請。不過,與我先前在大學當教授很不同的是,行政工作很少,而且幾乎沒有教學工作。

是什么讓您想開始寫?Statistical Mistakes 博客?

一切是從我自己在用的參考清單開始的,我經常會在審稿意見中加入已發表的論文當作參考,幫助作者學習,而我自己會希望能有一個隨手取用的清單。將所有的信息存放在 Word 文檔中不是很好的做法,因為我經常在不同地方用不同電腦工作,于是最簡單的解決辦法是 WordPress 博客系統。

我覺得公開這個清單沒有什么壞處,我想這對其他在寫論文或評審論文的人可能很有用。

我還有參與其他兩個博客,國際集合替換安全警報 ArthroplastyWatch 以及瑞典國家飲用水警報 DRICKSVATTEN.BLOG

您在博客上提過醫學研究人員對統計方法很愚昧,這該如何改變?醫學研究人員,或是與數據共處以及使用統計分析的所有研究人員,該如何意識到這個問題?

是的,很不幸這是事實。Douglas Altman 曾經寫道“大部分的統計分析都是在對統計方法了解不足的情況下做出來的,然后再由對這方面也一無所知的人評審”。(Altman DG. Statistical reviewing for medical journals. Stat Med 1998;17:2661-2674)

統計錯誤帶來的后果會影響所有的人。如果沒有統計,我們就沒有辦法用更少的副作用和成本進行更有效的治療,我相信主要的問題是成功的醫學研究需要了解隨機現象,而大部分的醫學研究人員都有確定性取向 (deterministic orientation)。

已經有人嘗試改善醫學研究的質量,舉例來說,許多醫學期刊開始重視統計審查的重要性。使用公開試驗注冊和遵守 CONSORT、PRISMA 和 ARRIVE 等報告清單也已經成為論文發表的必要條件。

您在一個簡報中有提到“就算不是所有的科研作者都這樣,也有許多作者低估他們的研究發現的不確定性”,您能說明下這個部分嗎?

醫學研究大部分都是定量的,也就是說,這包含研究發現的抽樣量化以及不確定性測評,通常是用 p 值和置信區間來測量。不顯著的結果通常被視為不確定性太高,不能發表。

但是,即使 p 值與置信區間的計算正確,要制造出不確定性比真實來得低的印象是有可能的。例如,假說研究的結果可以表現得已經確認一般,忽略多重測試的效果,或是用不足的方式糾正,這些缺失不一定是有意而為,但一般的方法實踐似乎會產生出有系統地高估實證支持的研究結果。加上現在“不發表,即滅亡”的文化讓發表變得如此重要,這樣的發展似乎也不是那么讓人驚訝。

在另一個簡報中,您提到期刊編輯都想要推出發表指南,因為指南能帶來引用,這部分可以為我們說明下嗎?

這已經有討論過了,有些發表類型,比如綜述文章和指南,引用會比其他文章類型來得多,因此對期刊的影響因子有更大的影響。

我不確定這個現象的研究有多深入,但我記得當我開始醫學統計生涯的時候,最多人引用的醫學研究是 Sydney Siegel's Nonparametric Statistics,這是一本統計學教科書,里面有任意分布檢驗 (distribution-free test) 的指南。

數據管理、數據儲存還有數據共享在醫學統計研究和生物統計研究中占有什么樣的地位?

我個人的看法是重復研究結果是很重要也必要的事情,但開放數據和數據共享的討論看起來有些幼稚。處理負責的數據結構以及先進的統計分析會有許多不該被低估的問題,統計再分析中的錯誤和誤解可以輕易地讓完善的研究發現失去信用。我相信公開共享數據需要有避免這類問題產生的做法一同實施。

就您看來,科學面臨的不可重復問題有多嚴重?該如何解決?

不可重復問題很嚴重,但也被誤解了。科研發展依附在質疑已建立的事實上,重復研究結果是很重要的一環,但無法成功復制也不一定那么糟。

我認為正確區分研究很重要。許多研究都還在探索階段,這時的目標是建立假說,這類的研究可以好好計劃和實行,但也有可能出現單純為猜測的結果,這些發現的不確定性無法確切計算,那為何結果還需要可以重復?

但是,確認研究 (confirmatory study) 的結果雖然也是不確定,但是是在定義范圍內的,因為這些研究的設計和實施的方式都能夠計算推斷結果的不確定性。盡管如此,這些結果還是有部分會失敗或是無法重復。

很可惜,統計錯誤在很多研究都占有重要位置,舉例來說,實驗室的實驗經常缺乏預先設定的終止點和分析計劃,包含使用不足的多重校正進行多項檢驗,還用了相關觀察為基礎,而不是獨立觀察。此外,人們一般不管假設是否有通過統計評估。還有一個嚴重的錯誤經常出現在流行病學研究中。

要解決這個問題沒有捷徑,但統計嚴謹性很顯然需要我們更理性使用研究資源。

就您自己身為科研作者、審稿人以及編輯的經驗,作者在論文中呈現統計數據常犯的錯誤有那些?可以怎么避免?

就我來看,最常見的錯誤是由于對 p 值還有統計顯著性的誤解所產生的。這些跟不確定性有關的評量經常被錯當作重要性指標。

有好幾篇最近發表的文章,其中有一篇是《American Statistical Association》發表的,里面都討論了這些問題,也提出了該做的改變。《Basic and Applied Social Psychology》(BASP) 這個期刊也禁止“零假設意義檢驗”(null hypothesis significance testing) 使用 p 值以及其他的統計評量。不過,忽略推論不確定性只會讓情況變得更遭。

【以上是 Jonas Ranstam 博士訪談第一輯,在下一輯的訪談中,Ranstam 博士會談到學術出版同行評審,敬請期待!】

期待學術生涯高歌猛進,發表過程一帆風順?

來加入我們活力洋溢的在線社區吧。免費注冊,無限閱覽。

社交賬號一鍵登入

已有54300名科研人員在此注冊。

意得輯專家視點 Editage Insights 目前正在維護中。維護期間,部分站點功能,如登錄、注冊可能無法正常工作。