- 文章
- 熱門
大數據就是好數據嗎?研究人員在處理大數據集時遭遇的 5 大挑戰

大數據給每個科研領域的研究方式帶來了前所未有的變化。每個領域中,研究人員可使用的工具皆有顯著性,大數據現在逐漸成為橫跨各學科領域的共同工具。大數據集的可取得性以及可存儲并共享大量的數據的能力為研究人員打開了科學探索的幾條途徑。
數據是研究工作的基礎,對研究人員有非常重要的價值,因此,大多數的研究人員都認為海量數據是一個福音,尤其是在遺傳學、天文學與粒子物理領域工作的人。雖然大數據現在被認為是一種無與倫比的科學模式,但統計人員建議科研人員要謹慎對待大數據,因為大數據的本質是多維度的,而且永遠都在變化。研究人員已經接受了大數據,但大數據不止帶來了機會,也帶來了復雜性。在處理大數據時候,學術圈面臨的主要挑戰有:
1. 有效管理數據:存儲大量數據集對研究人員來說不止有設備問題還有經濟上的困難,尤其是單位不提供支持時。除此之外,因為數據的隱私性、安全性和完整性可能會在跨國研究中牽涉到利益沖突,管理和共享大數據集變得異常復雜。因此,需要一個可以克服設備挑戰還有能讓已數據為本的研究能順利進行的永續發展的經濟模式。
2. 數據收集重于研究設計:雖然數據對任何研究來說都是至關重要,很多時候收集數據的重要性要大于用心設計研究。有些科研人員都存在這樣的誤解,即更多的數據直接關系到更好的研究。許多時候收集大量數據的原因是人們認為這可以幫助研究,而忽略了數據的收集方式和用途,英國有一個類似案例,一個涉及 20,000 多名兒童的研究,要評估巴氏殺菌奶的好處,這個研究的設計和試驗執行的規模遭到統計學家 William Gosset 的批評,他指出由于隨機化不足,不如只用 6 對雙胞胎進行研究會更可靠。
3. 大數據需要特殊工具才能分析:傳統的數據分析工具無法處理大數據。標準的軟件技術通常是設計用來分析小的數據集,但是大數據包含的數據量之大,傳統的工具可能要花大量的時間進行分析,或根本無法處理。因此,需要特殊的工具來連接數據到模型,實現準確的數據評估,微軟有一個的稱為 FaST-LMM(Factored Spectrally Transformed Linear Mixed Model)的算法就是一例。
4. 海量數據可能使數據解讀更具挑戰性:大數據包含不同來源的數據,使得數據多元化并難以解釋。比如說,包含世界人口信息的數據集會有基于不同地理位置、生活方式等的數據,并且可能使用不同的技術進行收集,研究人員可能無法考慮數據的所有面向,最后導致不正確的結論。因此,有必要制定可靠、能克服統計偏差的數據解釋程序。
5. 意圖在數據中找到模式是非常危險的:大數據很大,研究人員需要將數據集中有用的數據分開。然而,大多數情況下,與其排除不需要的數據,人們傾向于直接尋找模式,直到找到能支持原先假設觀念的證據。這是進行研究時非常危險的陷阱。 ? ? ? ?
數據是有價值的資產,這點毋庸置疑,2012 年世界經濟論壇中發表的宣言中,將數據當作經濟資產的新類別說明了這個事實,大數據在推動科學發展中起到重要的作用。然而,處理大數據的缺點顯示出大數據并不總是等于好數據,因此研究人員需要平衡數據與領域專業知識和科學推理,將大數據的潛力最大化。
欲了解更多研究人員在收集和分析數據時面臨的問題,可以參考《意得輯專家視點》與挪威數學家、生物統計學家、醫學研究人員 Jo Roislien 博士的訪談,他是地質統計學博士,也是著名的國際科學傳播家。