预后研究:怎么验证预后模型?

今天分享一篇预后研究综述,这是个系列文章,共四篇,这是第三篇。文献来自于BMJ杂志(IF:27),是2009年的文章。虽然文献有点旧,但知识不会过时。

文章标题

目  录

  • 1. 介绍
  • 2. 为什么模型在新队列中预测效果欠佳?
  • 3. 模型的验证研究该如何设计?
    • 3.1 内部验证
    • 3.2 时间验证
    • 3.3 外部验证
  • 4. 将预测结果与实际观测结果进行比较
  • 5. 预测心脏手术患者的手术死亡率
  • 6. 讨论
  • 7. 总结
  • End

1. 介绍

预测模型能够通过计分的方式在个体或某个群体中预测未来事件发生的风险,并根据发生风险的高低将患者进行分层。

好的预测模型能够合理且准确地将具有不同预后的人群分开。但是要证明一个预测模型具有预测价值,仅仅在建立模型的队列中具有良好的预测效果并不够,我们还需要在其它人群中检验该预测模型的预测能力。

本文就将讨论如何在一个新的队列中评价预测模型的效能。

2. 为什么模型在新队列中预测效果欠佳?

可能原因有:

  1. 在建立预测模型时,设计或者方法存在缺陷,比如模型过度拟合或者是一个重要的预测因素没有进入模型(这种情况往往很难发现)。
  2. 验证队列的人群和建模队列的人群存在差异:这些差异包括患者来源的医疗系统本身的差异,对预测变量的测量标准的差异和患者基本特征之间的差异。

3. 模型的验证研究该如何设计?

评估预测模型在一个新的队列中的表现主要是看预测模型的区分度和校准度。

以下介绍3种要求越发严格的验证方法:

3.1 内部验证

常见的方法就是将队列分成2部分(通常按2:1的比例分组),然后使用第一部分的数据建立模型,用第二部分的数据来验证模型。这种方法的得到的结果往往会比较好,因为2个队列的人群很相似。

非随机化分组(比如按照中心来分组)会更推荐,因为这样可以减少2个队列人群的相似性。如果可获得的数据数量有限,也可以使用全部数据来建立模型,然后用数据再利用的方法比如交叉验证和自助法来评估模型的效能。

内部验证法对于验证模型的效能有帮助,但它不能说明该模型在其它来源的数据中的预测效能。

3.2 时间验证

另一种方法就是使用相同来源但不同时间段的数据进行验证

时间验证和将整个队列根据时间顺序进行分组在本质上没有什么不同。但是时间验证是对模型的前瞻性评估,它独立于建模的数据和建模的过程,所以有时可以看作是外部验证。

因此,时间验证是介于内部验证和外部验证之间的一种方法。

3.3 外部验证

内部验证和时间验证都无法检测模型的普遍适用性,因为这需要使用来源不同的数据来进行验证。

新的验证数据可以是回顾性的数据,所以外部验证对于那些需要经过长期随访获得结局事件的预测模型来说是可行的。

当然,验证队列的数据需要包含模型所需要的所有变量信息,但外部验证对于样本选择和样本量大小等在建模设计过程中一些基本要素没有特殊的要求。

4. 将预测结果与实际观测结果进行比较

模型验证的恰当做法是使用已建立模型的变量和对应的系数在另一个队列中估计患者结局事件的发生风险,并将预测结果与实际的发生结果进行比较。在这个过程中我们需要通过待验证模型提供的风险计分来计算每个患者发生结局事件的可能性。

模型验证中两个重要的指标是校准度和区分度

模型校准度可通过作图来表示,横坐标为根据发生风险进行了分组的患者的预测概率,纵坐标为不同分组人群患者结局事件的实际发生率。

Hosmer-Lemeshow检验也可用来分析模型的校准度,虽然该检测无法很好的发现模型的校准度较差,同时对于大样本资料会表现的过于敏感。

对于分组资料,χ²也可用来比较预测值和实际观测的差异。模型的区分度可以通过C指数(受试者工作曲线下面积)或R²来表示。

预先确定模型区分度和校准度应该达到的标准对于评价模型的效能会有帮助。如果该模型达到了预定的标准,将可考虑在临床上运用。但是模型应该达到怎样的标准目前没有统一的意见,因为即使是表现一般的预测模型,也可能比医生自己的判断要准确一些。

5. 预测心脏手术患者的手术死亡率

以下分析一个实际运用的预测模型案例来进一步阐述上述内容。

欧洲心脏手术风险评估系统(EuroSCORE)是通过分析欧洲8个国家的数据建立起来的用来预测心脏手术患者手术死亡风险的计分系统。该计分系统包含9个患者相关的变量和8个心脏相关的变量,并成功地在其它欧洲队列中进行了验证。

Yap团队对该计分系统在澳大利亚人群中的预测效果进行了研究,该研究的研究人群与该系统建立时所采用的研究人群有很大的不同,该研究的研究人群本身死亡风险更高,年龄大于70岁的患者占了41%,同时15%的患者最近发生过心梗,而原始的建模队列中,年龄大于70岁的患者只占27%,最近发生过心梗的患者占10%。但是研究结果却发现,该队列人群实际的死亡率远低于EuroSCORE预测的死亡率,且在3个风险分层的亚组人群中,实际死亡率仅为预测死亡率的1/2。因此该系统该新的研究队列中的校准度很差,虽然区分度还保持了之前的水平。

对于这一研究结果可能的原因有:

  1. 缺血性心脏病在不同研究人群中的流行病学特征不同;
  2. 研究对象对于医疗服务的可获得程度不同;
  3. EuroSCORE是基于1995年的数据建立起来的,因此即使是使用欧洲的数据,其预测结果也还是会受到现在心脏手术技术变化对死亡率带来的影响。这种情况下,可以对原有模型进行改进来保证模型在新的队列中具有较好的区分度和校准度。但是这个更新的模型还是需要进一步的验证。

6. 讨论

很多人都认为在多变量分析中有统计学意义的变量都可能成为预测模型的变量,并倾向于通过P值是否有统计学意义来判断模型在一个新的队列中的预测效能,比如通过Hosmer-Lemeshow检验来检测实际观测值和预测值的差异时,如果P值没有统计学意义,就认为模型在验证队列中的表现很好,但这些观念都是错误的——P值并不能给我们一个满意的答案。

同时,在模型验证的研究中,我们倾向于将模型在验证队列中的表现与在原始建模队列中的表现进行比较。但是即使模型在验证队列中的表现差一些,该模型也可能具有临床运用价值,因此模型的实际运用还需要结合临床和实际运用情景进行判断。

模型反映的只是建模数据所在的地区和所属的时间段的情况,并不能反映事物的本质。如果验证队列中人群的组成和原始建模队列存在很大的差异,那么这个模型在验证队列中的表现可能很差,但是可以通过对模型进行重新校准或是添加相关变量来对模型进行改进和完善。同时模型的预测效能可能随着时间的变化而变化,因此每隔一段时间就需要对模型进行重新评估。

简洁性和可靠性是具有临床运用价值的预测模型的重要特征。过往的经验发现太复杂的模型会过分优化模型的预测结果,尤其是在进行了大量的变量筛选后。当然这种情况的出现也不是绝对的。

在计分模型中,人群的风险分层需要以临床需求为标准而不是以统计数据为标准。比如如果一个患者的5年生存率为90%,那么医生可能不会对患者进行治疗;如果患者的5年生存率不到30%,那么医生可能会采取激进的治疗手段;但如果患者的5年生存率处于中间水平,那么医生可能会采取标准的治疗方案。因此在这种情况下将风险分层分为3层会比较合理。同时对模型进行验证时,需要观察来自不同临床背景的患者他们结局事件的实际发生率是否不同,在进行风险分层时是否真的能将不同临床背景中预后不同的患者区分开来。

一个有临床运用价值的预测模型需要具有可靠性、准确性(好的区分度和校准度)、普遍适用性(进行过外部验证)并且最好是有临床指导性——能给临床医生的临床决策提供参考信息,并因此能改善患者预后。因此在模型运用于日常实践之前,将模型在不同的人群队列中,最好是不同地区的人群队列中进行验证是很有必要的。虽然目前对模型进行时间验证和外部验证的研究很少,但未来这类研究一定会变得很常见。

7. 总结

  1. 未经过验证的模型不能运用于临床实践中。
  2. 在对模型进行外部验证时需要评估模型的区分度和校准度。
  3. 模型需要在一个不同于原始建模队列的新的队列中进行,该人群队列最好来自于不同的医疗中心。
  4. 模型建立方法的缺陷和样本的巨大差异是导致模型外部验证效果不佳的原因。

参考文献略。

杂谈

发现第一个冠状病毒的科学家:June Almeida

2020-4-17 20:37:15

杂谈

科研电子邮件格式要点

2020-4-22 16:44:05

声明 本网站部分文章源于互联网,出于传递更多信息和学习之目的转载,并不保证内容正确或赞同其观点。
如转载稿涉及失效、版权等问题,请立即联系管理员;我们会予以修改、删除相关文章,请留言反馈
Notice: When your legal rights are being violated, please send an email to: [email protected]
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索