临床研究中处理缺失数据的多重插补法:潜力和陷阱

在流行病学和临床研究中,数据缺失是不可避免的,但是在医学研究中常常忽视了缺失数据对研究结果有效性的破坏。部分原因是医学研究者在缺失数据问题上,统计方法存在欠缺。但是,现在可以在统计软件中使用多重插补法来处理缺失数据。越来越多地研究使用了这种处理缺失数据的方法,但是仍需要谨慎使用,以免产生误导性结论。

本文回顾了流行病学和临床研究中缺失数据会导致偏倚和信息丢失的原因。讨论了多重插补法可能通过减少偏倚或提高准确度来提供帮助,并揭露了多重插补法在临床应用中的潜在陷阱。最后描述了在医学期刊中使用多重插补进行分析的最新用途和报告,并提出了进行此类分析和报告的指南。


目  录

  • 1. 数据缺失的影响
  • 2. 处理缺失数据的方法
  • 3. 什么是多重插补法?
  • 4. 多重插补法中的陷阱
    • 4.1 插补时忽略了结局变量
    • 4.2 非正态分布变量处理
    • 4.3 随机缺失假设
    • 4.4 非随机缺失数据
    • 4.5 计算量问题
    • 4.6 实际影响
  • 5. 建议的报告指南
  • 6. 总结
  • End

1. 数据缺失的影响

研究人员经常通过只纳入完整病例分析来解决缺失数据问题,纳入的完整病例的所有变量都不存在缺失数据。但是,这样处理缺失数据会使结果存在偏倚。另外变量中缺失数据的累积效应通常会排除大部分原始样本,进而会损失结果的准确性和效力。

数据缺失的原因通常分为3类:完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(MNAR)。

数据缺失类型与解释
完全随机缺失MCAR:某变量的缺失数据与观测数据无显著差异。例如由于自动血压计的故障可导致血压测量值出现缺失,但这种缺失在观测对象中是随机的。
随机缺失MAR:某变量上的缺失数据与观测数据存在系统差异,但这个差异与观测对象有关。如缺失血压测量值的人群其血压值可能低于进行血压测量人群,因为年轻人可能更少去测量血压。
非随机缺失NMAR:若缺失数据不属于MCAR和MAR,则数据为非随机缺失。这种类型的数据缺失,即使将观测对象的差异考虑进去,缺失数据与观测数据仍然存在着系统误差。如高血压患者可能会因为头痛而错过了预约的临床就诊。

当缺失数据是随机缺失,而不是完全随机缺失时,基于完整病例分析的结果会存在偏倚。可以使用如多重插补法来克服这种偏倚,多重插补法可以将具有缺失数据的病例进行分析。

不幸的是观察性数据无法判断数据是随机缺失还是非随机缺失。这种情况下,只能对缺失数据的类型进行不同的假设,并评估在不同的假设情况下缺失数据对结果产生的影响,从而分析缺失数据所带来的偏移问题。

2. 处理缺失数据的方法

临床上经常使用各种方法来处理缺失数据。方法包括:用观测数据中推算出的值代替缺失值(如观测值的平均值);将缺失值当作一个类别水平;使用最后一次测量值代替缺失值。这些方法都不是最好的处理缺失值的统计方法,常常可能导致严重的偏倚。

当在随机对照试验中,部分病例缺少了结局事件的数据时,常见敏感性分析是将缺失值全部用“好”结局或“差”结局替换,并分析这两种情况下出现的结果。如果在二分类结局中只存在少量缺失值,这种方法是很有用的,但是由于将所有的缺失值全部估计为好还是不好是一个很强的假设,因此当结局有中等数量的缺失数据时,敏感性分析会对干预效果做出非常广泛的估计。当结局是定量数据时,由于没有明显的好或坏的结局,因此无法进行该类型的敏感性分析。

如果假设缺失数据属于随机缺失,那么与基于完整病例分析相比,纳入不完整数据病例的分析所产生的偏倚更小且在统计上更有效。有时可以通过建立一个更全面的模型来合并部分观测变量的信息,如使用随机效应模型将来自中间时间点的部分观察到的变量的信息合并到一起,或者使用贝叶斯方法将部分观察到的变量合并到一个完整的统计模型中,由此可以得出感兴趣的分析。

其他方法包括对缺失数据进行加权分析以及最大似然估计法。

本文主要关注多重插补法,这是目前常见的处理缺失数据的方法。

3. 什么是多重插补法?

多重插补法是解决缺失数据问题的常用方法,在几种常见的统计软件中都可以使用。

多重插补法通过合理地创建几个不同的插补数据集,并适当结合每个数据集中获得的结果,以此来保留缺失数据类型的不确定性。

第一步是通过将缺失值用不同的插补值替代来建立多个不同的数据集副本。这些插补值是基于观测数据对缺失数据的预测分布中进行抽样得到的,因此多重插补是基于贝叶斯方法。插补程序在预测缺失值时必须充分考虑所有的可能性,因为我们永远无法知道缺失数据的真实值。

第二步是使用标准统计方法使感兴趣模型拟合每一个插补数据集。由于插补数据具有变异性,因此每个插补数据集中的插补关系会有所不同,并且仅当将它们综合在一起以提供总体插补关系时,它们才有用。

例如,考虑一项调查收缩压与随后冠心病风险之间关系的研究,其中某些观察对象缺少收缩压数据。收缩压数据缺失的可能性随年龄(老年人测血压机会较多)、体重指数和吸烟史的增加而降低(心脏病风险因素和合并症人群测量比较多)。

如果我们假设数据属于随机缺失,并且在拥有收缩压数据的人群中包含了各个年龄层、不同吸烟史、不同体重指数和不同类型冠心病的人群,那么我们可以使用多重插补来估算收缩压与冠心病之间的整体关联。

多重插补法可以提高医学研究的有效性,然而,多重插补程序要求使用者根据观测数据来预测每个含缺失值的变量的分布。多重插补结果的有效性取决于仔细、恰当的建模方法。多重插补法不应该被看作是一种简单随时可用的常规技术,在任何可能的情况下使用前都应该得到统计专家的帮助。

4. 多重插补法中的陷阱

BMJ上一篇文章基于大型研究数据库使用QRISK工具来预测心血管风险。研究人员在数据分析中使用多重插补法来处理缺失数据。然而令人惊讶的是,在建立的预测模型中,发现心血管风险与胆固醇水平无关。

作者随后澄清说,当他们基于完整病例分析时,胆固醇与心血管风险之间又存在明确的关联。此外,在使用经过修正、改进的插补程序后,也获得了相似的结果。因此,要意识到多种插补分析中可能出现的问题,我们将在下面进行讨论。

4.1 插补时忽略了结局变量

我们经常会需要分析探索一个或多个预测变量与结局变量之间的关联,但是某些预测变量存在缺失值。在这种情况下,结局变量会携带有预测变量缺失数据的信息,这个信息在插补分析中需要使用到。

4.2 非正态分布变量处理

许多多重插补程序都假设数据是正态分布数据,因此对非正态分布数据采用多重插补法可能会对结果造成偏倚。一个比较可靠的方法是在插补之前将这些变量转换为近似正态分布变量,然后插补之后再将得到的插补值转换为原来的数据形式。当分类变量存在缺失数据时,又会出现不同的问题。

4.3 随机缺失假设

“随机缺失”是分析时做出的一种假设,而不是数据属性。例如,如果在插补模型中纳入一个可以预测感兴趣变量中缺失数据的变量,随机缺失的假设也许是合理的。而如果模型中没有纳入该变量,假设也许不合理。只有在插补模型中纳入足够多的可预测缺失数据的变量时,多重插补分析才能避免偏倚。比如说,如果社会经济地位较高的人更有可能测量收缩压,较少可能存在较高收缩压。那么除非在插补收缩压时,模型中纳入了社会经济地位这个变量,否则多重插补将低估平均收缩压,并可能错误估计收缩压与冠心病之间的关系。

在插补模型中纳入各种变量是很明智的,不这样做也许意味着随机缺失的假设不合理,并且实质分析的结果是有偏倚的。

4.4 非随机缺失数据

有些数据也许不是随机缺失数据,因为无法使用观测数据来解释缺失值与观测值之间的系统差异。在这种情况下,多重插补可能会给出误导性的结果。例如,在一项研究抑郁症预测因素的研究中,如果一个人由于约会当天感到沮丧而更容易错过约会,那么即使在插补模型中纳入大量变量,也不可能使随机缺失假设看起来合理。

当数据不是随机缺失时,基于多重插补分析产生的偏倚可能与完整病例分析中的偏倚一样大或更大。不幸的是,我们无法从已有数据中确定偏移究竟有多大。数据分析人员有责任去考虑缺失数据的所有可能原因,并评估非随机缺失的可能性。

如果完整病例分析和多重插补分析得到的结果不一样,数据分析人员应找到原因,并在文章中进行报告。

4.5 计算量问题

多重插补的计算量很大,涉及近似值。一些算法需要重复运行才能产生足够的结果,并且当缺失数据很多时,所需的运行长度会增加。当算法在与开发算法不同的环境下运行时,可能会出现无法预料的困难,例如缺失数据的比例很高,变量的数量很多以及观察值很少。这些问题将在其他地方更全面地讨论。

4.6 实际影响

前面讨论的在QRISK心血管风险预测工具的原始版本和修订版本中使用的插补模型已经得到澄清。胆固醇与心血管风险之间没有关联的主要原因是,在插补胆固醇缺失值时遗漏了心血管疾病的结局,然后基于胆固醇的插补值计算了胆固醇与HDL的比例。由于缺失数据的比例很高(70%的HDL胆固醇值缺失),使得这些错误的影响放大了。

5. 建议的报告指南

论文作者提供插补分析的详细信息给同行评审是可行和合理的,而且不会影响论文的实质性研究问题。框2列出了应在补充材料或在主文稿中提供的信息,补充了流行病学文献中使用多重插补报告分析的建议。

框2 报告指南
1. 报告每一个感兴趣变量中缺失值的数量或分析中每个重要组成部分的完整病例数。如果可以,请给出缺失值的原因,并在研究流程图中报告有多少病例由于存在缺失值而被排除。如果可以,用其他变量来描述数据缺失的原因,而不是报告诸如治疗失败这类的普遍原因。
2. 弄清楚完整数据和不完整数据病例之间是否存在重要差异,例如通过一个表来比较这些不同组中关键暴露和结局变量的分布。
3. 描述用来处理缺失数据的分析方法(如多重插补)以及做出的假设(如随机缺失假设)。
基于多重插补的分析
1. 提供插补建模的详细信息
报告所用软件和插补建模的详细信息
报告创建的插补数据集的数量(从理论上来讲,5个插补数据集就足够了,但是为了减少插补过程中的抽样变异性,较大的数量(至少20个)可能更可取)
哪些变量纳入了插补模型中?
非正态分布和分类变量是怎么处理的?
如果最终分析中包括统计交互作用,他们是否也包括在插补模型中?
2. 如果变量的大部分数据都是插补值,请比较插补值和观察值的差异。
3. 在可能的情况下,提供基于完整病例分析的结果,并和基于多重插补的结果进行比较。如果结果存在重要差异,请解释原因。同时要记住,完整案例分析可能会遇到更多的机会差异,并且在随机缺失假设的情况下,多重插补应该纠正在完整案例分析中可能出现的偏倚。
4. 讨论纳入插补模型中的变量是否会使随机缺失假设更合理。
5. 希望通过在敏感性分析中假设非随机缺失范围,来研究随机缺失假设中关键推断的稳定性。

6. 总结

多重插补法可以改善医学研究结果的有效性,并减少由于数据缺失而造成的资源浪费。与收集数据的成本相比,多重插补法所需的成本较小。如果因为多重插补法中可避免的陷阱而减慢了方法的广泛使用,那将是很可惜的。

临床预测模型

多变量预测模型研究的报告指南:TRIPOD声明

2020-5-5 22:25:24

临床预测模型

浅谈临床预测模型/Nomogram的外部验证

2020-5-9 4:20:44

声明 本网站部分文章源于互联网,出于传递更多信息和学习之目的转载,并不保证内容正确或赞同其观点。
如转载稿涉及失效、版权等问题,请立即联系管理员;我们会予以修改、删除相关文章,请留言反馈
Notice: When your legal rights are being violated, please send an email to: [email protected]
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索