预后研究:预测模型的临床运用与影响

今天分享一篇预后研究综述,这是个系列文章,共四篇,这是第四篇。文献来自于BMJ杂志(IF:27),是2009年的文章。虽然文献有点旧,但知识不会过时。

论文题目

目  录

  • 1. 介绍
  • 2. 预测模型实际运用的局限性
    • 2.1 模型外推与验证
    • 2.2 足够的预测能力与模型的运用
    • 2.3 可使用性
    • 2.4 时间对模型预测能力的影响
  • 3. 验证研究之外的其它证据
    • 3.1 调整和更新模型来提高模型的预测能力
    • 3.2 预测模型的作用
  • 4. 预后模型临床运用的时机
  • 5. 结论
  • 6. 总结要点
  • End

1. 介绍

一个具有良好预测能力的模型如果不具有普遍适用性或者不能对临床决策产生影响,那么这个模型也是没有价值的

本文我们将讨论预后模型在临床运用和普遍使用性上存在的局限性,以及除验证研究之外,我们还需要什么证据才能保证模型能在临床中有效运用。

2. 预测模型实际运用的局限性

2.1 模型外推与验证

大部分预测模型都是基于二级医疗中心的人群建立的,因此这些模型在初级医疗中心的人群中进行验证时,预测能力就会降低。比如深静脉血栓的预测模型,在一个加拿大二级医疗中心的患者中,该模型的阴性预测值有97%(95%CI:95%-99%),敏感度为90%(95%CI:83%-96%)。但当该模型在荷兰的初级医疗中心的患者中进行验证时,阴性预测值降为88%(95%CI:85%-91%),敏感度降为79%(95%CI:74%-84%)。这其中反映出的问题就是初级医疗中心和二级医疗中心的患者是否可以看成是相似但又不同的人群?

临床背景的变化会导致研究对象中病例构成的变化,从而影响预测模型的普遍适用性。病例构成在此处定义为结局事件和预测变量在人群中的分布不同。

二级医疗中心的话只能可以看成是初级医疗中心患者中的一个亚群,他们在基础特征上具有更小的变异性,有更多的患者处于疾病的晚期阶段,且具有更差的预后。所以当基于二级医疗中心的数据建立的模型要在临床普遍运用时就需要进行模型的外推。但当基于初级医疗中心的数据建立的模型在二级医疗中心的人群中进行运用时,模型的预测能力就不会受到太大的影响,但是这个结论还需要进一步研究进行验证。

另一种常见的外推就是从成人到儿童。针对成人患者在全麻手术后恶心呕吐的发生风险,已有很多预测模型建立。但当这些模型运用于儿童时,模型的预测能力就极大的降低了。研究者认为儿童相较于成人是一个不同的群体,因此需要另外建立包含其它变量的模型并进行验证。但也有例外,Intensive Care National Audit and Research Center模型是基于成人患者的数据建立的,用来预测重症患者的预后,但它在儿童患者中也显示了很好的预测能力。

一般来说,如果新的队列中各预测变量的取值范围在原建模队列的取值范围内,那么该模型在新的队列中会有较好的预测能力。当然,我们不能凭主观臆断一个模型能否运用于一个新的人群中,还是需要经过严谨的验证研究来进行判断。

2.2 足够的预测能力与模型的运用

一个模型被广泛运用于实践中并不代表模型的预测能力很好,比如Framingham风险模型,它只在特定的人群中具有较好的区分度,ROC面积也仅略高于0.70,同样的例子还有APACHE评分和SAPS评分。这其中可能的原因和这些模型预测的结局时间有关,比如Framingham风险模型预测的是心血管疾病的发生风险,而APACHE和SAPS预测的是重症患者的死亡风险,其次还和模型的表面效度有关,即比起自己的临床经验,临床医生更愿意相信模型的预测结果来指导实践。

一个模型是否具有足够的预测能力与人们的主观判断有关,还取决于其它预测手段的好坏。比如一个预测不明原因低生育能力夫妇自发妊娠概率的模型,具有较好的校准度,但区分度较差(ROC面积< 0.7),但它仍然是目前为止最好的模型。因此在一个临床实验中,该模型被用来确定具有中等概率发生自发性妊娠的夫妇。

预测模型和预测因素在临床中的作用还取决于使用的环境。有蛛网膜下腔出血阳性家族史的人其发生蛛网膜下腔出血的风险是普通人的5.5倍。但是蛛网膜下腔出血的人当中只有10%的患者具有阳性家族史。因此仅在具有阳性家族史的人当中筛选可能的患者并不可取,因为这样会漏掉大量可能发生蛛网膜下腔出血的病例。

2.3 可使用性

预后模型在实际运用的过程中,预测因素需要有明确的定义和可重复的测量方法。例如,在深静脉血栓的预测模型中,一个预测变量定义为“其它像深静脉血栓的诊断”,这个模糊的定义就会给临床医生在实际运用过程中带来困难。类似的例子还有在预测术后恶心呕吐的模型中,一个预测变量被定义为“在之前的麻醉过程中出现过恶心呕吐”。但当这个变量的结果为否定时,它表示的结果可能是患者以前有过麻醉经历,但是未出现过恶心呕吐,也可能表示患者以前没有过麻醉经历。同时与成人相比,儿童拥有过麻醉经历的可能性更小。所以这个变量在儿童人群中产生的预测作用会不同。

此外,在不同人群中不同结局事件的发生情况也不同。例如在预测儿童时期细菌性脑膜炎导致神经系统后遗症发生的模型中,在建模队列中,神经系统后遗症分为轻型(如听力受损),重型(如耳聋)和死亡。当该模型在包含神经系统后遗症多为轻型的儿童的队列中进行验证时,其的预测效果将不会很好,因为成人和儿童发生不同类型后遗症的比例不同,其次两种人群的随访时间也不同(建模队列最长随访时间为3.3年,验证队列为10年)。

2.4 时间对模型预测能力的影响

临床诊疗技术的变化也会影响预后模型的实际运用。诊断技术的改进,生物标记物测量精度的提高和治疗手段的进步都会影响患者的预后。比如螺旋CT比传统CT能更清楚地看到肺循环的情况。因此,使用螺旋CT检测发现肺栓塞后并进行治疗的患者,其预后将会比使用传统CT进行检测的肺栓塞患者要更好。

同时临床防治策略的变化也会使得预后模型的实际运用变得困难。比如,临床建议大于55岁的人都需要服用“复方制剂”来降低心血管疾病的发生风险,这样使得相应的预测模型变得多余。

3. 验证研究之外的其它证据

3.1 调整和更新模型来提高模型的预测能力

研究者都倾向于利用新收集的数据来建立一个新的模型而不是对已有的模型进行验证。因为预测乳腺癌患者预后的模型目前就有60多个,预测神经系统创伤患者远期预后的模型就有大约25个。同时,即便研究者开展了一个预后研究并发现该模型的验证结果不佳,他们往往会重新评估预测因素对研究结局的影响,有时甚至会重新筛选预测变量。而这些做法都是不可取的,因为这样使得之前建立模型时得到的预测信息被忽略了。

此外,验证研究的样本量通常比模型建立时的样本量小,这样会使得新建立的模型发生过度拟合,模型的普遍适用性也会比原有模型更差。当验证研究发现模型的预测能力不佳时,首先应该考虑的是使用验证队列的数据对模型进行调整从而提高模型的预测能力。模型的调整需要基于原始数据和验证队列的数据,这样才能提高模型的稳定性和普遍适用性。这种形式的调整就称为模型的更新,更新的方法可以是对模型进行简单的校准,也可以是对原有模型进行更广泛的修改。

模型校准包括对模型阶段值的调整和预测变量整体的相对权重的调整。模型修改包括对单个预测变量与结局事件关系的调整和添加新的变量。有趣的是对模型进行简单的校准往往就能达到目的。但是模型的验证和调整需要达到一个什么程度才能运用于临床目前尚无统一的说法,仍取决于具体的运用情况。

3.2 预测模型的作用

预测模型可对结局事件的发生风险提供一个客观的预测结果,作为对临床医生主观判断和临床诊疗指南的补充。准确的预测结果可以提高医生的临床决策能力并因此改善患者的预后。但经过验证后的模型的临床运用对医生临床决策和患者预后的影响需要单独进行影响研究来判断。

验证研究和影响研究在研究设计、研究结局、统计分析方法和结局事件的报告上都不同。

验证研究最好是前瞻性的队列研究,且不需要对照组。每个患者的预测因素和结局事件信息都要有记录,同时模型的预测能力是量化的。但是影响研究是研究预测模型对临床医生的行为、患者预后和医疗护理的成本效益的影响,并将该影响进行量化。研究需要一个不使用该预测模型的对照组,因此最好是随机对照研究。

如果研究结局是医生行为的变化,则不需要对患者进行随访,但如果研究结局是患者的预后或医疗护理的成本效益,则需要对患者预后进行随访。但是,因为患者预后的变化取决于医生临床决策的变化,所以开展一个随机对照研究评估预测模型的运用对医生治疗决策的影响就很有必要,尤其是当需要对患者进行长期随访来评估患者预后的时候。这个方法同样也适用于诊断方法和治疗干预性研究,因为这些研究最终都需要改变医生的临床决策来实现。

预测模型若只提供患者结局事件的发生概率,那么在临床决策中还是会给医生进行主观判断留有很大的空间。若预测模型还能对结局事件的发生风险进行分层,并给每个风险分层给予决策上的建议,在临床运用中才能发挥更大的作用。

电子病例的运用,可让系统自动对每个患者进行预测,这样可促进模型在临床中的运用并更好地分析预测模型给临床实践带来的影响。

在影响研究的随机对照设计中,最佳的方法是将临床医疗中心进行随机化,这样可以避免对单个中心内医生或患者进行随机化时所造成的组间交叉。

另外一种较好的设计类型为前后对照设计,医生或医疗中心进行前后对照,但这种设计的缺陷是无法排除时间变化对治疗方案的影响。

4. 预后模型临床运用的时机

任何一个模型临床运用之前都需要进行建模、验证和临床影响分析这三步吗?

即使一个模型在验证研究中显示了足够的预测能力,也还是需要开展一个多中心大样本的随机对照实验来评估其临床影响吗?

这些问题的答案取决于临床上对于模型真阳性率和假阳性率的接受程度以及随之对患者管理和预后所带来的结果。对于一个在多个验证队列中都具有近乎完美的区分度和校准度的模型,可能不需要严格按上述步骤进行,但是这样的模型很少。

对于预测能力不是很好的模型,往往还是需要进行影响研究来判断模型的实际运用是否会比传统方法好。同时影响研究还能对影响预后模型在日常运用中的因素进行评估,比如临床医生对预后模型的接受程度和模型的可使用性。

当然在进行影响研究之前可以先采用决策建模方法或Markov chain模型来评估预测模型的运用可能对治疗决策和患者预后产生的影响。如果结果显示模型的运用并不能改善患者的预后,那么也就没有必要进行影响研究了。

5. 结论

目前运用于临床的预测模型很少主要原因就是绝大部分的模型都没有进行过验证,更不用说进行临床影响分析。但是方法学上的进步可以通过调整模型来提高模型的普遍使用性,相信随着技术的进步,采用正确的方法建立起来并进行外部验证的模型会越来越多。

但是模型的临床运用还有很多问题没有解决。

一个模型要经过多大程度的验证或是调整后才能够进行影响研究呢?

建立一个能适用于不同疾病类型,不同疾病严重程度和不同国家的患者的模型是否可行呢?

这些问题都还有待进一步研究。

最后我们还是要强调:未经过验证的模型是不能运用于临床实践的。我们需要更多的影响研究来判断预后模型是否适合运用于临床实践中。

6. 总结要点

  1. 预后模型适用于各变量取值范围处于建模队列各变量取值范围之间的人群中。
  2. 当预测模型在新队列的预测能力没有在建模队列中好时,首先要考虑的是利用新的数据对模型进行调整而不是建立一个新的模型。
  3. 具有运用价值的模型需要对预测变量有明确的定义和可重复的测量方法。
  4. 预后模型对临床医生临床决策、患者预后和医疗护理成本效益的影响可通过影响研究来量化。
  5. 影响研究的研究设计、研究结局、分析方法和结局事件的报告与验证研究不同。

参考文献略。

文献解读

文献解读:鉴定肌肉浸润性膀胱癌的分子分型

2020-4-26 2:46:43

文献解读

SMART App:DNA甲基化综合分析网页工具介绍

2020-4-26 2:49:23

声明 本网站部分文章源于互联网,出于传递更多信息和学习之目的转载,并不保证内容正确或赞同其观点。
如转载稿涉及失效、版权等问题,请立即联系管理员;我们会予以修改、删除相关文章,请留言反馈
Notice: When your legal rights are being violated, please send an email to: [email protected]
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索