如何處理數據缺失，以臨床試驗與觀察性研究為例

2023年07月12日 593 views

對觀察性研究和臨床試驗來說，數據完整關乎研究的效度與信度。然而，因受試者中途退出、數據采集錯誤、填答不完整等各樣狀況，數據缺失在所難免。研究者通常以末次觀察值結轉或均值替代法補救，勝在方便，但也容易估出不準確數值，致使最終信度也成問題。由此，研究者若想得出經得住推敲的研究結果，學會根據情況擅用合適的統計法以應對數據缺失問題是種必須。本文例舉了六種常見的統計概念，希望為你提供基礎入門指引。

多重插補

多重插補是一種極常見的處理缺失值的統計方法，主要通過填充估算值達成。多重插補假定數據為隨機缺失，即缺失概率與未觀察到的數據無關，僅是已觀測結果中的隨機事件。插補方法多樣，回歸插補、貝氏插補、預測均值匹配法等都是常見的手法。研究者對插補數據加以分析，并將其匯入結果，得出最終估值及標準差。

參考案例：Jakobsen等人在其2017年的研究中針對臨床試驗中何時該用插補、何時不用有明確界定，還有流程圖可參考。

最大似然估計

最大似然估計是一種根據給定模型估計參數的統計法，通過已觀測數據及缺失數據的似然函數可以估出缺失值。期望最大算法是處理數據缺失的常見手段，它的原理是通過迭代算法估出缺失值并不斷更新模型，直到實現收斂。

參考案例：Baker在其2019年的研究中詳細解釋了如何將最大似然估計運用在數據缺失中。

完全信息最大似然估計

與傳統插補法相比，完全信息最大似然估計無需創建多個估值或對缺失數據做填充。這種統計法以一切可用數據來估算模型參數，即便是不完整數據。由于不對數據作刪除或改動，得出的結果無偏差。

參考案例：研究者Li、Stuart在其2019年的研究中討論了如何在隨機對照試驗中用多重插補和完全信息最大似然估計處理缺失數據。