临床预测建模是非常热门的话题,笔者经常能收到来自PubMed的预测模型相关的新文献推送。它可以帮助我们计算患者患某种疾病的概率或者是未来发生某个事件的概率。我们可以使用传统的回归方程或者是目前炙手可热的机器学习算法来构建我们的模型。当完成建模工作以后,我们就想用这个工具来辅助日常的临床决策,例如该不该进行手术、该不该进行活检确诊诸如此类等。那么很自然的,我们就希望有一个风险阈值可以帮我们把患者分成高危和低危。然后,我们就可以只对高危患者进行干预,从而减少对低危患者的过度治疗或者诊断。
比利时鲁汶大学的Laure Wynants博士等学者于2019年10月在BMC Medicine刊文叙述了三个常见的对于预测模型风险阈值的误解,笔者在这里与大家作一分享,希望能让大家更为有效的利用预测建模研究的结果到自己的临床工作中。
误解一:对患者进行风险分层(例如二分法,高危 vs. 低危)比使用连续性风险预测更加有效。
正解:在个体层面上,连续性风险预测使得决策更加精确
举一个高血压病的例子(老实说不是特别严谨,大家意会即可)。一般我们认为高血压的标准是收缩压大于等于140 mmHg或舒张压大于等于90mmHg。按这个二分类的标准,患者A的收缩压141mmHg或91mmHg会被认定为是高血压,患者B的收缩压为139mmHg或舒张压为89mmHg则被认为不是高血压或者说临界高血压。当呈现在我们面前的信息仅仅是患者A高血压,患者B临界高血压,我们可能考虑给患者A药物干预,患者B则是以行为干预为主。而当我们知道他们具体的血压数值时,我们不会认为这两个患者的血压情况有明显差别,从而给出不一样的治疗方案。
误解二:你可以求助统计学家直接从数据中得到一个最佳的风险阈值
正解:一个好的风险阈值体现了对应的临床背景
这里面的核心问题是我们需要了解此类数据分析的原理。作为临床研究者或者医生,了解每个算法的技术细节或者说能够手推证明,是没有必要的,但是这并不意味着我们连原理都不需要了解。每一个统计分析的手段都会有一些前置条件,而这些前置条件通常意味着对不同情况的取舍。天下没有免费的午餐是我们需要时刻提醒自己的。
言归正传,我们在对患者进行分类时总是希望这个分类标准是正确无误的。比方说我们想知道某类人群5年内的癌症发病率,然后我们把患者分为低危组和高危组。理想状况下,低危组中的5年癌症发病率应当为零,所以所有的进一步诊疗应当只在高危组中进行。实际上,这几乎是不可能的,假阳性(高危组但没有发病)和假阴性(低危组但发病)是不可避免的。我们数据分析的目标是尽可能减少假阳性和假阴性。但是假阳性和假阴性的危害程度在不同的临床场景下是不同的。同样是假阳性,导致患者去进行不必要的手术和让患者进行不必要的影像学检查的代价有很大区别。我们这时可以考虑通过一种健康经济学的视角来分析这个问题。真阴性,真阳性,假阴性和假阳性都有各自的价值权重,然后根据可能的组合情况,进行相应边界的探讨。
误解三:一个确定的风险阈值是模型的一部分
正解:一个模型可通过多个风险阈值进行验证
风险阈值的确定并不是模型评估的一部分。我们通常会从calibration和discrimination两个角度去评价我们的模型表现是否足够好,这两个角度涉及的统计参数如c-index与风险阈值并无关系。实践中,我们经常能够看到研究者会列出一个模型的敏感度,特异度,阳性预测值和阴性预测值,但是这些指标实际都严重依赖于风险阈值的确认,我在下面引用一张作者的图来展示这个问题的严重性。
我们可以清楚的看到这些指标随着风险阈值变化的波动。那么怎么解决这个问题呢?决策曲线分析(decision curve analysis)可以帮助我们。简单来说,它可以告诉我们真阳性带来的好处在多大程度上可以超过假阳性造成的危害。
总结
作者认为我们使用连续性的风险预测就足够了。这一点倒是与AI极简经济学中的观点不谋而合,实际上预测不等于决策(决策还包括了判断,数据和行动)。当我们需要进一步辅助决策时,就需要根据具体的临床场景对真阳性的好处和假阳性的危害进行调整。最后在建模完成后,进行进一步的健康经济学分析。
参考文献
[1]. Wynants, L., van Smeden, M., McLernon, D.J. et al. Three myths aboutrisk thresholds for prediction models. BMC Med 17, 192 (2019)
[2]. 阿杰伊·阿格拉沃尔, 乔舒亚·甘斯, 阿维·戈德法布. AI极简经济学. 湖南: 博集天卷 | 湖南科学技术出版社.2018.