- 文章
- 最新
如何處理數據缺失,以臨床試驗與觀察性研究為例

對觀察性研究和臨床試驗來說,數據完整關乎研究的效度與信度。然而,因受試者中途退出、數據采集錯誤、填答不完整等各樣狀況,數據缺失在所難免。研究者通常以末次觀察值結轉或均值替代法補救,勝在方便,但也容易估出不準確數值,致使最終信度也成問題。由此,研究者若想得出經得住推敲的研究結果,學會根據情況擅用合適的統計法以應對數據缺失問題是種必須。本文例舉了六種常見的統計概念,希望為你提供基礎入門指引。
多重插補
多重插補是一種極常見的處理缺失值的統計方法,主要通過填充估算值達成。多重插補假定數據為隨機缺失,即缺失概率與未觀察到的數據無關,僅是已觀測結果中的隨機事件。插補方法多樣,回歸插補、貝氏插補、預測均值匹配法等都是常見的手法。研究者對插補數據加以分析,并將其匯入結果,得出最終估值及標準差。
參考案例:Jakobsen等人在其2017年的研究中針對臨床試驗中何時該用插補、何時不用有明確界定,還有流程圖可參考。
最大似然估計
最大似然估計是一種根據給定模型估計參數的統計法,通過已觀測數據及缺失數據的似然函數可以估出缺失值。期望最大算法是處理數據缺失的常見手段,它的原理是通過迭代算法估出缺失值并不斷更新模型,直到實現收斂。
參考案例:Baker在其2019年的研究中詳細解釋了如何將最大似然估計運用在數據缺失中。
?
完全信息最大似然估計
與傳統插補法相比,完全信息最大似然估計無需創建多個估值或對缺失數據做填充。這種統計法以一切可用數據來估算模型參數,即便是不完整數據。由于不對數據作刪除或改動,得出的結果無偏差。
參考案例:研究者Li、Stuart在其2019年的研究中討論了如何在隨機對照試驗中用多重插補和完全信息最大似然估計處理缺失數據。
敏感性分析
敏感性分析法,即通過觀察改變假設、方法、插補值對研究結果的影響,而評估研究穩健性的統計法。敏感性分析可以令研究者檢驗穩健性及普適性,識別由缺失數據導致的潛在偏差與混淆。
參考案例:Staudt等人在其2022年的研究中詳細記述了如何對臨床試驗中的缺失數據作敏感性分析。
模式混合模型
在實際操作中,研究者需要根據缺失數據比例及缺失機制選擇插補模型。但當數據出現多種缺失機制時,單一模型則容易導致偏倚。模式混合模型適用于多種混合數據缺失機制,包括完全隨機缺失、隨機缺失、非隨機缺失。
參考案例:Iddrisu和Gumedze于2019年的研究,用專利混合模型處理縱向研究中的缺失數據。
聯合建模
顧名思義,聯合建模即是同時對結果和缺失機制建模,它在同個模型中對模型參數和缺失機制作估計。此外,聯合建模還適合用來同時處理縱向數據和生存數據,避免偏差,提高參數估計效率。
參考案例:Gabrio等人于2021年的研究中解釋了如何用聯合建模處理臨床試驗中的隨機缺失數據。