危险因素(risk factor)听起来是一个老生常谈的话题,比如我们经常听到的肥胖是高血压的危险因素,吸烟是肺癌的危险因素。不过灯下黑也是常有的事,这个看似简单的名词,值得说道的地方有不少。正好笔者最近的研究也大量涉及这块内容,就以哈佛大学流行病学博士(因果推断方向)Anders Huitfeldt于2016年在BMJ圣诞特刊上发表的一篇文章为框架,给大家做一分享。
历史
1951年的Framingham队列的研究者第一次提出了大概的想法,10年后,factor of risk正式出场(Ann Intern Med 1961;55:33-50),但这次出场并没有一个明确定义。我们解决一个问题,定义其实是很重要的,否则鸡同鸭讲的局面分分钟就产生了。
定义
临床研究大体可以被分为:诊断,预后,治疗和病因四类。在这四大类里面,危险因素的定义是有区别。
研究目的 | 危险因素定义 |
诊断 | 任何被用来使诊断更加可靠的个体特征 |
预后 | 任何被用来使将来医学事件的预测更加可靠的个体特征 |
治疗 | 一个可能被采取的干预措施,可以提高或降低结局的发生概率 |
病因 | 在病因学机制中起作用的一个现象,一个干预措施或者一种物质 |
可以想见,一个变量可以成为不同大类下的危险因素。需要注意的是,一个变量成为一个大类下的危险因素并不代表它可以成为另一个大类下的危险因素。在不同的研究目的下,我们所用到的统计方法也会有区别,所以说明确研究目的始终是重中之重,即提一个对的问题有时候比解决问题更加重要。
例子
作者在这里举了一个很有趣的例子来帮助大家理解这个问题。假设作为读者的你想要研究一下个人财富的问题。你有一个神秘的朋友,你想知道他是不是一个大富豪。你发现他喜欢吃鱼子酱,然后你决定了你的第一个研究课题是喜欢吃鱼子酱和个人财富之间的关系(这实质是一个诊断问题)。通过一段时间的收集数据,你发现喜欢吃鱼子酱的群体是富豪的概率更高。于是你觉得你的神秘朋友是富豪的可能性不小。这个时候,你想起来你有一个熟人(目前还不是大富豪)也挺爱吃鱼子酱的,于是你萌生了第二个想法,喜欢吃鱼子酱预测未来成为大富豪的可能性(这实质是一个预后问题),如果可以的话,需要赶紧和你的熟人搞好关系了。很遗憾,这次的数据收集反应了喜欢吃鱼子酱与未来成为大富豪之间没什么关系。什么原因呢,你想了想,可能有两个:一部分人可能是家庭条件好,喜欢吃鱼子酱可能是从小养成的习惯,在之后的发展上,家庭也能给更大的帮助,成功的概率也高;另一部分人,经济条件一般,喜欢吃鱼子酱,结果给本不宽裕的经济雪上加霜,未来成功的概率反而更小了。这两个原因相互抵消,于是你就发现喜欢吃鱼子酱和未来的财富之间没什么关系。
此时,你觉得有必要去提醒一下你的熟人,减少或者干脆放弃这个花销不菲的爱好,没料到双方意见不合,最后不欢而散。你决定凡事还是要靠自己,争取把自己培养成大富豪。当然还是先把鱼子酱这事给整明白了。你开展了几个随机对照试验来研究吃鱼子酱的因果效应(这实质是一个治疗问题),你招募了很多普通人,将他们随机分成两组,一组强制他们花大量收入买鱼子酱吃,另一组则禁止他们购买鱼子酱,然后追踪他们接下来的个人财富变化。结果发现,吃鱼子酱非但不能使人变成大富豪,还令人有破产的趋势。这时候,你很好奇吃鱼子酱在财富创造的过程中起的作用(这实质是一个病因问题)。你怀疑那些容易因为喜欢吃鱼子酱而导致经济状况变差的人也容易对其他类似的黑色美味上瘾,而这种自控能力不够的特点会阻碍人的成功。但这终归是你的猜测,你没有办法回答这个问题。
分析
好了,现在假定喜欢吃鱼子酱是一个危险因素,那么我们可以看到的是这个因素可以帮助我们判断一个人现在是不是大富豪,但是对于普通人来讲,培养一个吃鱼子酱的爱好可能会降低未来成为大富豪的概率。如果此时有人说喜欢吃鱼子酱是一个危险因素,他到底是在指什么?
回到研究上来,作者认为我们必须要清楚自己的研究目的。危险因素的讲法不如替换成诊断因子,预后因子,病因因子和治疗效应,这样读者也能一目了然。
从数据科学的角度来分,流行病研究中涉及统计推断的大致是预测研究和因果推断。我们常挂在嘴边的混杂因子,其实只能在因果推断的问题中使用。按Hernan教授的说法,现在医学期刊上常见的association类型的研究,有很多都是不规范的,貌似要解决一个因果问题,却有意无意在使用预测建模的手段。
小结
危险因素的说法本身就挺“危险”的。很多时候,我们可能并不清楚自己要表达的真实意思。多从研究目的出发,才能减少误解。
参考文献
1 Huitfeldt Anders. Is caviar a risk factor for being a millionaire? BMJ 2016; 355 :i6536
2 Hernán M A, Hsu J, Healy B. A second chance to get causal inference right: a classification of data science tasks[J]. Chance, 2019, 32(1): 42-49.