數據丟失了怎么辦?

數據丟失了怎么辦?

試想一下,當你醒來后,你所有的研究數據都丟失了,會怎么樣?這大概是研究人員的噩夢,而確實有些人很不幸的遇到了。雖然丟掉所有的聽起來很嚇人,更令人震撼的是一些研究人員存儲數據的方法。加拿大溫哥華英屬哥倫比亞大學(University of British Columbia ,UBC)的進化生態學家 Timothy Vines 曾在他的論文“The Availability of Research Data Declines Rapidly with Article Age”中報道,研究人員承認他們曾經將舊數據儲存在父母的閣樓、車庫的箱子或者在現已過時的軟盤等地方,這種做法的后果跟丟失完整的數據一樣嚴重。

有效管理研究數據是不管在科研生涯什么階段的研究人員共同面對的長期問題,Nature 的一篇文章中用統計數據說明過數據存儲的重要性:

數據正在迅速增長

  • 世界上 90% 的數據是近2年產生的
  • 科研數據正在以每年 30% 的速度增長。

盡管有顯著的投資,數據還是沒有被有效管理

  • 目前全球對研究與開發(R&D)的總支出估計為1萬5千億美元,這可能會處于危險之中
  • 大部分產生的數據已經丟失 – 數據取得性正以每年 17% 的速度在下降
  • 80% 超過20年以上的數據已經消失

http://www.nature.com/news/scientists-losing-data-at-a-rapid-rate-1.14416

這些統計揭示了科學界所面臨的嚴重問題,數據的丟失為科學界是巨大過失。缺乏足夠的數據使某些研究的再現幾乎無法執行,舉一個實際的例子,農業研究人員 Melvin McCarty 整整花了 15 年(1958年到1973年)在布拉斯加州附近記錄過種種植物以及青草的生命周期,四十年后,生態學家 Lizzie Wolkovich 開始尋找 Melvin McCarty 的數據來探究氣溫上升對植物生命周期的影響,然而,此時 Melvin McCarty 已經過世,也找不到他的原始數據。這些數據的丟失是無法挽回的,而且從頭收集這些數據意味著額外的支出。

研究數據丟失的主要原因在于數據的唯一來源是研究人員。因此,他們應該使用數據管理工具來安全地存儲他們的數據。有許多這樣的工具,比如電子記事本( electronic notebooks)、云存儲服務 (cloud storage services)中的 Google Drive 和代碼托管網站(code hosting sites)中的 GitHub。任職于 Digital Science 的 Nathan Westgarth 在發文中指出,跨越地域界限的合作研究變得越來越普遍,也使研究數據管理變得困難。合作者間的技術經驗不同、對不同工具的知識程度不同,還有實驗系統與過程的限制等因素導致數據的管理更加復雜,已經有很多因為缺乏數據而終止。

除了科研人員外,期刊也是保護數據的關鍵,現在有很多期刊強制要求作者們在投稿時提供他們的研究數據,從而確保數據的可取得性與保護。數據共享被很多人視為朝向開放科學一步,因為它能夠保護數據并促進科技的進步。研究數據是無價的,所以研究人員和期刊應攜手努力來確保數據永遠不會丟失。

你是否有使用數據管理工具?共享數據能有助于避免數據的丟失嗎?歡迎發表你的評論。

期待學術生涯高歌猛進,發表過程一帆風順?

來加入我們活力洋溢的在線社區吧。免費注冊,無限閱覽。

社交賬號一鍵登入

已有54300名科研人員在此注冊。

意得輯專家視點 Editage Insights 目前正在維護中。維護期間,部分站點功能,如登錄、注冊可能無法正常工作。

覺得有用?

如果是的話,和你的同事分享吧

該話題屬于開展研究階段

身為科研人員,開展研究是最先也最令人興奮的一步,如果你正處在這個發表階段,歡迎訂閱學習這個階段該知道最佳實踐,為成功發表鋪平道路。