行業趨勢

誤信？科研發表所面臨的問題

2014年04月14日 5.1萬 views

作為負責分子生物和遺傳學論文的編輯，2013年10月19日那期的《經濟學人》里的一篇文章內容對我來說切身非常。近來，科學似乎每下愈況，過去幾十年建立起來的誠信基礎被數個問題侵蝕，阻礙了我們追求解決各種挑戰的方案和對這世界更深入的了解。一方面，科研人員的數量已經達到前所未見的程度，然而進行和發表的研究質量卻掉到新低點。多種不同和相互影響的失誤嚴重打擊了科學的堅實基礎，很多方面都出現了錯誤，包括研究設計、對顯著性的了解、審查和出版，以及當今定義科學領域的競爭文化。

PLoS One的門檻極低，只拒絕發表研究設計里有程序上的差距之論文，即使要求如此基本，仍有接近半數的投稿論文被拒，而隨著研究人員可用數據數量的增加，情況變得更為嚴重。在亞原子物理學中，夸克通常以兩三個一組的形式出現，但研究人員相信他們找到5個一組的夸克，審查研究設計后發現研究數據分析沒有正確蒙蔽，當糾正該疏忽后，就再也觀察不到異常的夸克。同樣的，2010年發現和公布的基因變異與壽命延長之間的關系必須在一年后撤銷，因為研究人員以不同的方式對待來自百歲老人以及年輕參與者的樣本。

大多數現代科學家們忙于推測與研究，目的是發表新的和令人驚奇的陽性成果。然而，有悖常理的情況常發生，即從設想中取得的陰性結果反而更準確。從統計數據發現，0.8功率的研究（即每10個結果中有8個為正確、其余2個屬假陰性）獲得的成果最具顯著性；同時，不正確的結果中5％屬誤報。若把這些統計數據應用于1,000個接受測試的假設中，將會得到80個正確的陽性結果和45個誤報。科學家報道的是他們認為是陽性的所有結果（125個），準確度只有64％。另一方面，若原來的1,000個接受測試的假設中有875個陰性結果，其中包括20個假陰性結果，那么這組數據的準確性就高達98％。

false positives

很顯然，使用調查結果來駁斥一個假設比用來證實它來的可靠，但是越來越少發表論文描述這類結果。發表陰性結果的另一優點是未來實驗或臨床試驗若探討相同的概念時，可避免資源的浪費。統計方面還有另一個復雜之處：科學家們雖然明白統計顯著性對實驗結果起著決定性的作用，卻沒察覺到報告里所使用的方程式其細微之處，通常只選擇使用自己熟悉或包含在軟件里的公式。?

發表過程雖然包含科研界引以為榮并備受推崇的同行評審制度，但未達到預期效果。出版商競相發表的是以前從未被報道過和上面所提到的容易出錯的陽性結果。審查稿件時，評審員本身往往無法察覺到論文所含的嚴重錯誤，這是匿名研究評審過程后的發現。在一項研究中，作者提交了含有明顯錯誤的研究論文，其研究成果卻被超過半數的期刊認可發表價值。備受尊重的《英國醫學雜志》的另一個評估調查發現，從八個刻意加入的錯誤當中，其評審員們一般只發現兩個或更少的錯誤，有些甚至連一個錯誤都沒察覺到。

最后，現今已在科學界根深蒂固的競爭文化嚴重的阻礙了我們的進展。在“不發表、即滅亡”的大環境下，科研人員的職業生涯取決于發表大量不計可靠與否的研究成果。取自超過20年的調查數據顯示，2％的參與者承認曾經為了發表論文而偽造數據；另外28％承認，他們知道同事采用的方法是值得商榷的。競爭也使得科學家們較不愿共享數據和研究方法，阻礙了本來就為數不多的復制研究。科研的一個標志，也是其可靠性的主要原因，是相同的實驗都會產生相同的結果，即可復制性，不幸的是，近來發表的許多研究都是不可被復制的。當安進公司（Amgen）嘗試對53個所謂具有里程碑意義的實驗進行復制時，只有六個取得成功；拜耳集團（Bayer）嘗試復制67個實驗，成功率只有四分之一。更令人不安的事實是， 2000至2010年之間，近80,000名患者所參與的臨床試驗是基于因錯誤和不當行為被撤銷的研究結果。雖然科學家們都承認要達到完美無瑕的境界是不可能的，但是他們都不愿更正犯下的錯誤和撤銷錯誤的結果。

為了重新恢復大家對科學的信心，有人提出了幾個解決方案，包括期刊使用更嚴格的方式來篩查錯誤，和通過研究的質量而非數量來獎勵研究人員。然而，這些建議很難落實。如今，科學界肯接受的誤差量是很驚人的。我們只能希望科學界在其公信力受到不可逆的損害之前能盡快解決其困境。

點擊從另一個角度了解對研究創新性的重視。