康奈爾大學教授因操縱 P 值,被撤稿及被警告文章累積達 29 篇

康奈爾大學教授因操縱 P 值,被撤稿及被警告文章累積達 29 篇

/盤子越大,人就吃得越多,換成小碗能避免吃太多。

用劇下飯容易吃撐,最多能比平時多吃 60%

有女性在場時,男性會吃比正常飯量更多的披薩。

國內外教人健康飲食的網站沒少援引這些有網感的研究。別以為這是什么愛瞎搞的機構出的調查,它們都出自康奈爾大學食物與品牌實驗室 (Cornell Food and Brand Lab)

這個實驗室的負責人 Brian Wansink 是行為心理學出身,主攻飲食、健康領域的研究。除了搞科研,Wansink 還著有暢銷書《無意識飲食》,經常在主流媒體露臉教人怎么吃、怎么減肥,可以說是該領域目前最火的研究者之一。

不過,這人最近又出事了。

5 8 日,《美國醫學會雜志》(JAMA) 主編 Howard Bauchner 在其網站上貼出了對 Wansink 早前發表的 6 篇論文的關注聲明 (Expression of Concern),并嚴詞警告學術圈對這些論文中的研究效度加個小心。

JAMA主編關注聲明

JAMA主編關注聲明,圖片來自:JAMA Network

Bauchner 主編在聲明中表示:醫學期刊最重要的特質之一是準確,而 Wansink 頻繁(被)撤稿的現象給他的研究帶來了很多不確定性,我們已經要求康奈爾大學重新評估他的研究,在積極的結果出現之前,我們不會撤銷關注聲明。

這不是 Wansink 第一次和學術不端扯上關系。早在去年底,他就因為一年內有 5 篇論文被撤稿(其中一篇被撤兩次)、論文修改 13 次,而被《科學人》列入 2017 年度十大撤稿事件。據《撤稿觀察》 (Retraction Watch) 的數據顯示,到目前為止,Wansink 所涉及的期刊撤稿和關注聲明一共 29 個。根據撤稿時間倒序,我們將其中被撤稿的 7 篇論文整理如下:

序號

文章

發表期刊

發表日期

撤稿日期

1

Shifts in the Enjoyment of Healthy and Unhealthy Behaviors Affect Short- and Long-Term Postbariatric Weight Loss

Bariatric Surgical Practice and Patient Care

3/01/2017

3/19/2018

2

Attractive names sustain increased vegetable intake in schools

Preventive Medicine

07/27/2012

02/26/2018

3

Profiling taste-motivated segments

Appetite

10/30/2003

01/13/2018

4

How Traumatic Violence Permanently Changes Shopping Behavior

Frontiers in Psychology

09/06/2016

11/24/2017

5

Can Branding Improve School Lunches?

JAMA Pediatrics

10/01/2012

10/20/2017, 09/21/2017

6

Low prices and high regret: how pricing influences regret at all-you-can-eat buffets

BMC Nutrition

11/19/2015

09/15/2017

7

Sensory Suggestiveness and Labeling: Do Soy Labels Bias Taste?

Journal of Sensory Studies

11/01/2002

04/10/2017

?

所以,他的研究到底出了什么幺蛾子?

1. 論文重復發表、自我抄襲

Wansink 15 年發表的一篇論文和他 13 年的論文有 1376 字重復,雖然他把自己的論文加進了參考文獻中,還是被期刊要求修改。

相似的,另一篇發表于 2003 年關于大豆的論文因為一稿多投而在去年被撤稿。

2. 樣本年齡錯誤

Wansink 2012 年發表在期刊《預防醫學》 (Preventive Medicine) 上、現已被撤稿的一篇論文,研究了小孩吃蔬菜這件事。他發現如果給難吃的蔬菜取個酷點兒的名字,比如“X 射線眼胡蘿卜,會讓小孩改變心意,愛上胡蘿卜,從而提高蔬菜攝入。不過,后來 Wansink 承認實驗樣本并不像論文里寫的是 8-11 歲的學生,而是 3-5 歲的小朋友。

3.?用結論操縱數據、數據作假

Wansink 和其團隊的郵件記錄證實,他在許多研究中操縱數據。比如在一個有關自助餐的項目中,Wansink 要求實驗室的研究生根據 p 值倒推變量,嘗試不同變量,直到得出一看就能火的結果才行。

事實上,學術界對 Wansink 這些受歡迎的研究是否具有信度和效度早存在爭議。來自波士頓東北大學的 James Heathers 自己編程,通過統計學原理,從一些已經發表的研究結果中推出原數據的可能面貌。

在跑完 Wansink 的幾十篇論文數據后,他發現了 150 多處數據不一致。其中就包括上面的提到的胡蘿卜實驗。要得到和實驗數據相匹配的結果,其中某個樣本需要吃掉 60 個胡蘿卜。對于 Wansink 給出的實驗用到的是只有正常大小 1/4 的小胡蘿卜,期刊編輯認為非常牽強。

Buzzfeed Wansink 事件進行了一系列報道,他們結合學界其他研究者的意見,認為這些論文中出現的數據不一致,主要是 Wansink 團隊在 p-hacking

關于 p 值,以及它有什么問題?

在研究型論文中,多數研究者會使用假設檢驗的方法來統計概率。簡單來說,假設檢驗的邏輯過程有 4 步:

  1. 提出問題,同時根據問題作出兩個相反的假設,即零假設和備選假設
  2. 根據樣本數據,算出零假設成立前提下,樣本觀察結果出現的概率,也就是 p
  3. 按照學術界標準,當 p<=5%,也就是我們常說的實驗結果顯著
  4. 得出結論,零假設被否認

為了讓實驗結果顯著,大研究人員都受到不少來自 5% 這個硬指標的壓力。感受一下豆瓣網友翕如這張餅圖:

跑數據心情

圖片來自:豆瓣

為了使 p 值好看,統計時一旦 p 值顯著就停止收集數據、根據 p 值顯著性倒推變量、刪掉一些初始變量改變 p 值等操作都屬于 p-hacking

這也就使容易被人為操作成為 p 值的一個黑點。反對 p 值的研究者認為,p 值應該作為衡量實驗結果的參考,而不是唯一標準。意得輯專家視點此前就報道過,為了說明 p 值的存在的問題,期刊《Basic and Applied Social Psychology(BASP) ? 2015 年宣布禁用假設檢驗及相關的統計程序。

此外,p 值的可重復性低也一直是個問題。弗吉尼亞大學的心理學教授 Brian Nosek 花了 3 年時間和同行研究者對 100 個已經發表的研究重新測試。這些早先 p 值顯著的研究中,只有 36% 在二次實驗中 p 值依然顯著。p 值的不穩定性和樣本體量、環境、學科領域間等因素有關。比如在上述項目中,認知心理學研究中的 p 值可復制率是社會心理學研究的兩倍。

意得輯專家視點相關閱讀:

參考資料:

文章封面圖片:flickr 作者?fickleandfreckled

期待學術生涯高歌猛進,發表過程一帆風順?

來加入我們活力洋溢的在線社區吧。免費注冊,無限閱覽。

社交賬號一鍵登入

已有54300名科研人員在此注冊。

Editage Insights 目前正在維護中。維護期間,部分站點功能,如登錄、注冊可能無法正常工作。

Found this useful?

If so, share it with your fellow researchers