

Meta分析是一类重要的统计分析工具,它能定量合并针对同一问题的多项研究的信息,以产生更全面、可靠的证据。通过合并多个研究的样本信息可达到提高统计效能(Statistical power)的作用,从而增加对真实效应的检验能力。经典的Meta分析有两种分析模型(Analytic model),即固定效应模型和随机效应模型。在固定效应模型下统计效能的增加更加明显。而对于随机效应模型,由于加入了额外的研究之间变异(异质性),统计效能通常比固定效应模型低。但平均而言仍比单个研究统计效能高。这也是Meta分析的证据通常比单项研究更具有决策价值的原因之一。
统计效能(Statistical power)是指当(干预)存在真实效应时(例如:OR > 1)拒绝零假设(即假设干预无效应)的概率。统计效能不足的研究产生假阴性结果(即II类错误)的可能性增加。这意味着一项研究其实施的干预本来存在真实效应(例如:OR > 1),但由于样本量不足导致统计效能不足,进而产生了阴性结果,最后误导医疗决策。因此,统计效能是确定研究结果是否可信的一项重要指标。尽管Meta分析有提高统计效能的能力,但由于纳入研究的数量限制或研究之间存在显著异质性,它也会面临统计效能不足的问题。而对于罕见事件的Meta分析,该问题理论上更为常见和严重,因为事件发生率低意味着不确定性大,效应量则具有更宽的置信区间,从而更难以达到alpha=0.05的检验阈值。因此,即使Meta分析理论上能提高统计效能,但对于罕见事件的Meta分析,其仍然可能存在统计效能不足的问题。
近30年来Meta分析的数量急剧增加。其中有相当一部分是罕见事件的Meta分析,大约占所有Pair-wise Meta分析数量的34%。而这些罕见事件的Meta分析是否有足够的统计效能来支持其结论,以及其中有多少可能是假阴性结果,尚不清楚。为了回答这个问题,本研究对Cochrane系统评价(CDSR)中自2003年至2018年年间发表的罕见事件Meta分析的统计效能进行事后估计(post hoc estimation),探讨已发表的罕见事件Meta分析统计效能是否充足。该问题的阐明将对方法学指南,临床实践和医疗保健政策产生一定影响。
本研究使用网页爬虫技术,对CDRS上发表的系统评价的统计数据进行爬取,用以建立数据库。其原理是:根据Cochrane系统评价的独立入藏登记号(通常形式为CD00XXXX),通过程序模拟人工对期刊官方网站进行访问,当程序产生的登记号(自CD000000开始)能匹配Cochrane系统评价入藏登记号时,对其附件数据执行下载任务。当下载完成或产生的登记号不能对应任何记录时,则对登记号数字加1后再次访问,直到遍历所有可能的六位数登记号。例如当程序遍历至CD011742这个号码时,则可对应到该篇系统评价,然后执行下载任务,并生成新的号码CD011743再次访问。
本研究通过网页爬虫技术抓取了2003年第一期(Issue 1)至2018年第五期(Issue5)十六年间发表的所有Cochrane系统评价的数据及全文,覆盖了197期(12*16+5=197)共6871篇系统评价。截至2019年底,官方网站共发布了8190篇系统评价,因此本研究的数据库覆盖了83.89%的样本,具有较好的代表性。本研究未对2003年之前发表的Cochrane系统评价数据进行抓取,原因在于2003年以前发表的Cochrane系统评价有很大一部分由于未按规定进行定期更新或未完成完整的制作被期刊或原作者撤回。研究涉及的爬虫程序采用R语言完成。本研究数据是通过合规合法的渠道获取(所在机构购买了数据库权限),仅用于罕见事件Meta分析的科学研究,不用于其他目的,并将对获取的数据严格进行保密。
在CDRS下载的Cochrane系统评价Meta分析数据的格式均为rm5,每篇系统评价对应一个rm5.文件,可能包含1至多项Meta分析的数据。该文件包含以下信息:系统评价题目、发表年份、作者名称、作者单位、通讯作者邮箱以及所有干预和结局对应的Meta分析数据。Meta分析的数据具体又包括纳入研究的样本量、纳入研究个数、纳入研究使用的数据类型(分类变量/连续性变量)、单个研究的效应量和方差、原作者所使用的效应量、原作者所选取的Meta分析方法、Meta分析的结果、异质性(Tau2以及I2)等信息。此次调查感兴趣的信息原始罕见事件Meta分析的合并效应、区间、及异质性。
因为rm5.格式只能通过RevMan软件打开,为方便对数据进行批量清洗,我们将6871个rm5.格式的文件通过RevMan5.3导出并保存为CSV格式文件,文件名使用该系统评价的登记号。然后通过编写的Stata程序(Stata 14.0/MP)逐一读取这些CSV文件,并对每个文件中的数据进行清洗。包括删除无用或异常信息、整合格式、统一变量名、生成特定ID以定位系统评价和系统评价内包含的Meta分析、生成新变量(如纳入研究个数)。本研究只针分类变量的数据,因此在数据清洗中将删去所有基于连续性变量的Meta分析的全部信息,同时,使用效应量和方差信息进行的Meta分析也被删除。
在完成单个文件的初步清洗后,通过Window系统自带的DOS命令将所有清洗过的CSV文件整合成一个文件,并导入至Stata软件保存为dta.格式以方便使用Stata软件进行处理。文件包括以下信息:系统评价的对应ID,每个系统评价下Meta分析的sub_ID,每个Meta分析中试验组的事件发生总例数和总样本数、对照组的事件发生总例数和总样本数,Meta分析的结果、异质性、每个Meta分析所使用的合并方法及使用的效应量。
本研究的对象为罕见事件的Meta分析,我们定义罕见事件Meta分析为单个Meta分析中试验组和对照组的最大事件发生率小于0.05。该定义具有一定主观性,但对于当前研究,该定义较为保守。因为在传统的定义里面,事件发生率0.05相对于0.01和0.001更大。相对于更低发生率的定义,该定义可能会导致整体统计效能的高估,这意味着调整发生率,估算的统计效能会更低,因此我们说它保守。
统计效能在two-stage合并框架下及one-stage框架下的计算方法各不一样。经典的two-stage框架将合并分为两个阶段:第一阶段是估算纳入的单个研究的效应量及区间;第二阶段是对这些研究的效应量进行加权合并。而one-stage框架直接省略了第一阶段,通过多水平模型(例如广义线性混合模型、广义估计方程等)直接获得加权合并的效应量。由于Cochrane系统评价官方Meta分析制作软件RevMan默认的方法是two-stage框架,因此本研究也选取针对two-stage框架的统计效能估算方法。
Jackson曾总结了三种主要的用于two-stage合并框架的统计效能计算方法。分别为:1. Hedges及Pigott提出的基于矩法估计算法的方法;2. 蒙特卡洛模拟;3.基于等样本假设的方法。第三种方法由于假设太强,假设条件过于不现实,本研究首先将其排除。同理,由于RevMan内嵌的默认算法为矩法估计,为了保持“原汁原味”,本研究选取Hedges及Pigott提出的方法对Meta分析的统计效能进行估算。我们(对相对效应)预先设置5组真实值(相对危险度降低度,relative risk reduction, RRR),分别为10%, 20%, 30%,40%, 50%。同时我们额外加一组观察值(也即meta分析合并的效应)作为对照。同时,对于绝对效应,我们事先设置0.001, 0.005, 0.01三个真实效应。这些是参考真实数据的四分位点分布而确定。
进而我们汇总达到最低统计效能阈值的Meta分析的比例。本研究采用国际上最常用的阈值Power=0.8作为最低统计效能阈值。为了探讨纳入研究个数对统计效能的影响,我们事先计划了一个亚组分析:按照纳入研究个数对这些Meta分析进行分层,然后分别统计达到最低统计效能阈值的Meta分析的比例,并进行比较。本研究采用以下分层:第一组纳入1-5篇研究;第二组纳入6-10篇研究;第三组纳入11-30篇研究;第四组纳入超过30篇研究。同时考虑到不同Meta分析使用的效应量存在不同,我们按照绝对效应(absolute risk)和相对效应(relative risk)进行区分,前者包括risk difference,而后者包括odds ratio和risk ratio。由于在罕见事件情况下,odds ratio和risk ratio在点估计和区间估计都很接近,为了方便,本研究统一将odds ratio和risk ratio当作relative risk看待。因此,本研究将对以risk difference和relative risk作为效应量衡量指标的Meta分析分别进行统计效能估算。
经过数据清洗、整理后,我们获得了4177项罕见事件Meta分析,其中以相对效应(relative risk)为效应量的Meta分析有4048项,占绝大多数,而使用绝对效应(risk difference)的Meta分析仅有129项。流程图如下。
在这4177项Meta分析中,89.78%的结果为阴性,而仅有约10% (427项)的为阳性结果。这10%的阳性中,213项的p值为0.01-0.05, 77项p值为0.001-0.01,137项p值小于0.001。这一现象验证了我们之前对罕见事件Meta分析结果的猜想。而它进一步提示,这绝大多数的阴性结果中,可能大部分都是由于统计效能不足而导致的!
我们进一步统计这些Meta分析的统计效能。对于使用相对效应(relative risk)的Meta分析:当真实效应为10%的时候,这些Meta分析统计效能中位数为可怜的0.06,相对于最低阈值0.8几乎可忽略不计,其中仅有可怜的0.32%的Meta分析达到了预期的统计效能;当真实效应为20%的时候,这些Meta分析统计效能中位数仍然为可怜的0.06,有1.78%的Meta分析达到了预期的统计效能;当真实效应为30%的时候,这些Meta分析统计效能中位数仍然为可怜的0.08,3.68%的比例达到了预期的统计效能;当真实效应为40%的时候,这些Meta分析统计效能中位数终于有资格四舍五入了,为可怜的0.11,7.16%的比例达到了预期的统计效能;当真实效应为50%的时候,这些Meta分析统计效能中位数为可怜的0.17,11.8%的比例达到了预期的统计效能。如下图

我们接着看129项以绝对效应(risk difference)为效应量的Meta分析的统计效能。结果与前述结果类似。对于使用绝对效应(RD)的Meta分析:当真实效应为0.001的时候,这些Meta分析统计效能中位数为0.05,没有Meta分析达到预期的统计效能;当真实效应为0.005的时候,这些Meta分析统计效能中位数为0.08,有2.33%的Meta分析达到了预期的统计效能;当真实效应为0.01的时候,这些Meta分析统计效能中位数仍然为可怜的0.18,17.83%的比例达到了预期的统计效能。如下图
最后通过比较不同亚组中达到预期统计效能的比例我们发现,纳入研究越多的Meta分析,有更大的可能性达到预期的统计效能。当然,这个不比较大家也能想到。同时,我们也通过建立散点图,对统计效能与P值的关系进行了可视化分析。结果如下图所示:p值越小,Power越大,反之一样。
绝大部分罕见事件Meta分析结果统计效能极低,结论不可靠。临床医生、医疗政策制定者、指南开发者、相关患者均应谨慎对待这些Meta分析的结果,将其直接转化并应用于临床实践是不妥当的做法!其次,我们重申本系列研究中上一篇论文的结论:强烈不建议将“双臂零事件研究”直接进行剔除处理,因为这样会损失大量的研究信息,可能会造成统计效能的降低。最后,在可能的情况下,多纳入相关研究。
除了对Meta分析结果可信度具有重要指示意义,统计效能分析在Meta分析方法学体系中也具有的重要意义。首先,通过统计效能分析,我们能知道一篇Meta分析的结果是否可靠。特别是那些结果为阴性的Meta分析。而根据这一结果,我们可以进一步确定当统计效能不足的时候,这篇Meta分析结果不可靠,而且更重要的是,它应该更新了!其次,在GRADE证据等级分级宇宙,不精确性是一条重要的证据等级降级因素。但不精确性,到底怎么界定“不精确”,似乎还存在主观判断。那么统计效能分析这个时候就能发挥重要作用:我们大概可以用Power来界定这个不精确性。当power不够的时候,那就是不精确;相反,power够的时候就精确。完美的补充了主观判断下的系统误差。
我们建议:1)任何罕见事件的Meta分析均需要进行统计效能分析,并报告统计效能结果;2)任何统计效能不足的Meta分析证据等级均要下调一级,并且应该及时进行更新(在这一点上,我们坚信Cochrane是做的最好的);3)可考虑将统计效能作为GRADE体系中不精确性那一项目的判断指标。更详实的报告、结果的讨论,请参见原文。
该研究发表在临床流行病学老牌顶级期刊,Journal of clinical epidemiology,国人发文量每年稳定在2%左右。据估计,截至2020年11月27号,该期刊实时影响因子已经超过5分,预计明年六月份正式公布的影响因子会过6分。本系列罕见事件数据合并方法研究的后续将开放原文获取权限,大家均可免费下载;相关的代码及程序也均以附件的形式上传并进行公开,以方便相关的研究人员共同交流、探讨。敬请继续关注本系列研究的后续成果。同时,对本系列方法学感兴趣小伙伴也可与团队取得联系,团队欢迎有实力、能吃苦、坐得住的小伙伴加入我们,散发年轻人的活力与灵感!