Sleep Med Rev: 睡眠医学领域干预类系统评价存在的方法学问题

在循证医学元年,可信的证据是建立可信决策的基础。系统评价和Meta分析(Systematic reviews and meta-analyses, 系统评价)是支持医疗卫生决策的重要证据来源。系统评价通过汇总同一主题的所有现有研究呈现的证据,定量或定性的对这些证据进行评价、合并,能够提供当前最全面的证据。然而全面是相对的,同时也并不意味着可信,这里面存在诸多人为因素引起的偏差:系统评价和Meta分析的证据是否全面、可信,很大程度上取决于其设计和实施的严谨程度。这些包括但不限于文献是如何搜索和筛选的、数据是如何收集和分析的、以及结果是如何解释和讨论的。在设计和实施层面存在方法学问题的系统评价可能会产生不可信的结论,从而误导临床实践。

 

为了保证系统评价和Meta分析的设计和实施质量,方法学家们开发了许多量表和规范。这些包括Sacks清单(Sacks’ checklist)、OQAQ (Overview Quality Assessment Questionnaire)、AMSTAR(Assessment ofMultiple Systematic Reviews)、以及AMSTAR 2.0。这些工具被广泛用于评估与系统评价在设计和实施上相关的方法学问题。早在2000年的时候,著名方法学家Jadad等人评估了50个关于哮喘治疗的系统评价和Meta分析,发现即使经过同行评审,这些系统评价和Meta分析仍然存在严重的方法缺陷。2016-2018年,本研究团队投入3年时间,对2011年至2017年发表的529篇剂量-反应Meta分析进行了全面评估,发现87.9%的Meta分析在设计和实施上存在大量问题。这些研究表明,很大一部分系统评价和Meta分析没有使用严谨的方法来保证其结论的可信度。

 

自从循证医学被引入睡眠医学领域以来,在过去的几十年里,该领域发表了大量的系统评价和Meta分析。其中不少已被用作临床指南的证据,指导医生的决策、患者的行为及管理者的政策。令人担忧的是,这些系统评价和Meta分析的设计和实施质量如何,它们提供的证据是否可信,还无从获知。因此,团队进行了第二项大规模的流行病学调查(Meta-epidemiological study),对该领域发表的系统评价和Meta分析进行了全面的评估,分析其可能存在的方法学问题,并期望对该领域及其他医学相关领域开展系统评价Meta分析的团队提供有意义的参考。

 

研究方法

研究方案

为保障研究按计划实施,在研究开展之前团队事先制定了研究方案(见附件)。该方案包含关于研究问题、纳入标准、文献检索、筛选、质量评估、数据收集和数据分析的细节。在实施过程,我们做出了一些改变:首先,根据审稿人的建议,本研究将纳入标准限定为干预性系统评价;其次,考虑到存在3个及以上的亚组时,亚组分析的交互检验统计效能不足,我们将预先定义的亚组分析替换为回归分析;此外,我们对回归分析进行了事后敏感性分析,以检验结果的稳健性。

 

研究对象

在主要的睡眠医学学术期刊发表的干预性、进行了Meta分析的系统评价。本研究聚焦于干预性系统评价是因为考虑到AMSTAR 2.0是为干预性系统评价和Meta分析“量身定制”的,这个是采纳了审稿人的意见后修改的。本研究只关注进行了Meta分析的系统评价是因为相对于没有Meta分析的系统评价的结论的摸棱两可,进行了Meta分析的系统评价通常会给出更直接、明确的结论,而更多的被临床指南和临床实践所采纳;同时,系统评价中涉及的统计分析方法是本研究的一个重要“考察指标”。本研究沿用Cochrane手册中关于系统评价的定义,同时采用狭义的Meta分析定义:即一种对同一主题的研究的数据进行加权平均的统计学方法。本研究不不考虑overview, rapid review, scoping review, narrative review (注:由于没有对应的中文翻译,此处就不牵强了)。同时不考虑在原始研究中包含的系统评价。研究的主要结局指标为符合标准的系统评价在设计和实施上的方法学缺陷。次要结局指标为与这些缺陷相关的影响因素。

 

数据来源

通过查询知名英文学术期刊排名机构SCImago Journal &Country Rank,我们确定了23个睡眠医学领域的期刊,例如该领域知名顶级期刊sleep, sleep medicine reviews等。在这23个期刊中,我们继续通过“掠夺性期刊”曝光网站(Beall’s list),发现了4个期刊属于掠夺性期刊,因此将其排除在外(掠夺性期刊vs. 灌水期刊:灌水期刊给钱就发,掠夺性期刊给稿件就发)。对剩余19个期刊自建库至2019年10月22日前发表的所有文献进行检索,找出所发表的系统评价和Meta分析。检索策略见附件。本研究未对灰色文献数据库进行检索,因为本研究仅对发表的文献感兴趣。同时本研究未进行任何形式的手工检索,因为我们预期所纳入的样本具备足够的代表性。

 

本研究使用Endnote X7对检索到的文献进行查重。首先使用标题、作者、年份三个字段进行自动查重,之后按照年份排序后人工查重。在完成查重后,使用在线文献管理应用Rayyan进行文献筛选。该应用能保证参与筛选的人员完全互盲,并且详细的记录的筛选过程。首先由项目负责人对检索到的文献的题目和摘要进行阅读,排除完全不相关的研究。之后由另一名作者加入,两人单独对剩余文献全文进行阅读和判断。在两名人员均完成后,由项目管理人员揭盲,Rayyan自动对名人员的判断进行分析和对比。最后对是否纳入意见存在冲突的文献进行讨论直至达成一致意见。全文筛选结果的一致性程度由Cohen’s Kappa统计量进行衡量。

 

基线信息提取

由于非Cochrane系统评价和Meta分析的格式没有标化,使用程序进行文本提取存在较大困难,容易造成错误判断。因此,本研究在酌情考虑之后,采用人工提取信息。这些均为基线特征,如第一作者姓名、作者数量、发表年份、第一作者所属地区、被纳入的研究数量、报告指南的使用、资助信息、系统评论中使用的主要Meta分析的类型和每个系统评价的发表期刊。这是由一位研究人员完成的,并由另一位研究人员进行了核对。上述信息可以直接提取,因此不会出现缺失数据。

 

对于Meta分析的类型,我们将其分为两类:普通Meta分析和特殊类型Meta分析。普通Meta分析即最常见的头对头比较的Meta分析。而特殊类型Meta分析包括:网状Meta分析,剂量-反应Meta分析,诊断准确性Meta分析,大脑激活区域分布的Meta分析(暂且这么翻译),率的Meta分析,相关性的Meta分析,等。下表我们对不同类型的Meta分析给出了详细的定义以及附带了相关的示例。

 

方法学评估

本研究采用AMSTAR 2.0对符合标准的系统评价的设计和实施的方法进行评估。相关研究表明该工具能够有效的反映系统评价在设计和实施上存在的方法学问题。AMSTAR 2.0列出了16个标准,每个标准对应一个方法学维度。其中有7条为该工具开发人员为的最重要的标准。但我们保留一些不同意见:我们认为,其中“研究方案注册”被当作最重要的标准之一还值得商榷。至少从方法学角度,这一条并不是最重要的我们前期的研究也表明,制定研究计划并不能有效提高系统评价Meta分析的方法学效度。本研究认同剩余的6条为最重要的标准。

 

AMSTAR 2.0的整体方法置信度(Methodology confidence)评价方案是基于一篇系统评价在重要标准上存在缺陷的个数以及在普通标准上存在缺陷的个数。对此我们仍保留部分不同意见:这种评价标准虽然在筛选高质量的研究具有其独特优势,但在区分低质量研究上几乎没有敏感性。设想存在2篇系统评价,均存在2个重要标准项上的缺陷,但第一篇还存在10个普通标准的缺陷,第二篇只存在1个普通标准缺陷。按照AMSTAR 2.0给出的标准,这两篇的方法学置信度都是“极低”。但很明显,它们“低”的程度是不同的。因此我们采用本团队自主开发的置信度评价方法:相对质量排序指数(relative quality rank index)。该指数计算方法见原文,范围为0-1,越接近1,说明方法学置信度越高,越接近0,说明方法学置信度越低。更详细的评价方法敬请参见原文。

 

整个评价工作由一名方法学家完成,为了保证评价结果的信度,每天被要求最多评价15篇系统评价。同时,在完成之后,由另一位作者对评价结果进行逐条核对。核对过程不允许前面的评价人员干预。任何存在争议的部分,另外两名方法学家将加入讨论,直至达成一致。评价工作在微软开发的办公软件Access上完成。

(AMSTAR 2.0截图)

 

数据分析

基线信息例如年份、地区等我们进行定性描述。对于方法学置信度,我们关注两个方面的信息:1) 每篇系统评价的存在的方法学缺陷的个数,以及存在的重大方法学缺陷的个数;2)每篇系统评价的整体方法学置信度。

 

我们进一步通过对潜在的变量与整体方法学置信度,建立加权最小二乘回归,探讨了方法学缺陷的相关影响因素。这些变量均为通过文献阅读及讨论后事先制定,包括1) 第一作者所属地区(美国、欧洲和亚太地区);2)出版年份(~2009, 2010-2017, 2018-至今);3)作者数量(<= 4,5 -7,>=8)。出版年份的分层是根据AMSTAR和AMSTAR 2.0发布的年份确定,及2009和2017。作者个数是根据四分位点确定。本研究没有将经费资助作为变量,是由于经费资助是AMSTAR 2.0第16条中已经包含的信息,将其置入回归模型后,会打破回归模型的独立同分布假设(经费资助与方法学置信度相关)。考虑到发表在同一期刊的系统评价在方法学置信度上可能存在聚集效应,回归分析采用稳健方差抵消其对方差估算的影响。

 

同时考虑到第15条发表偏倚分析在表1 中列出的特殊类型的Meta分析中操作的复杂性,我们进行了一项事后敏感性分析,即剔除所有的特殊类型Meta分析的系统评价,再次用同样的方法进行回归分析。所有统计学分析均采用Stata/SE 14.0软件完成。

 

结果

基线信息

经过文献筛选后,本研究获得了353篇系统评价。全文筛选结果的一致性指标Kappa值为0.66,呈中等一致。正如前文所述,原始分析是基于这353篇系统评价。后面采取了审稿人的意见,将分析限定在干预性系统评价,因此发表的版本只对163篇干预性系统评价的数据进行了统计。值得注意的是,两个结果基本一致。

 

在163个符合条件的系统评价中,大多数是在2010年及之后发表的(90.80%),只有9.20%是在2010年之前发布的。从第一作者所在地区来看,分别有38.65% (n=63)、33.13% (n=54)和28.22% (n=46)来自亚太、美洲和欧洲。作者数中位数为5(四分位数范围,IQR: 4 to 7);作者个数为1~4人的占37.42%,作者5~7人的占48.47%,作者8人以上的占14.11%。

 

在这些系统评价中,使用的Meta分析大多数是标准的Meta分析(n=157, 96.32%),只有6个(3.68%)是特殊类型Meta分析。对于有特殊类型Meta分析的系统评价, 5个为网状Meta分析,1个为大脑激活区域分布Meta分析。大约一半(48.47%)的系统评价使用了报告指南(如PRISMA)。每个系统评价的中位纳入研究数为13(IQR: 8 to 23),多数纳入了10项以上研究(n=107, 65.64%)在资助信息方面,87(53.37%)属于非营利性(政府或机构)资助,4(2.45%)属于营利性(行业)资助,25(15.34%)未获得资助,47(28.83%)未报告资助信息。

 

方法学问题

图一呈现了这163项系统评价的方法学问题。这些系统评价存在的方法学缺陷的维度中位数为7个(第一和第三分位点: 6 to 9),其中2个是重大方法学缺陷(第一和第三分位点: 2 to 3)。这些表现在,大多数系统评价:没有制定研究计划;没有考虑纳入的研究设计对结论的影响;没有列出排除文献并对每个排除的文献给出清晰的排除理由;没有陈列纳入研究的经费来源;没有评价纳入研究偏倚风险对结果的影响;没有结合纳入研究偏倚风险对结果进行解释;大约25%至40%的系统评价存在如下问题:没有清晰的纳入排除标准;没有严格的数据提取流程;没有对纳入研究的偏倚风险进行评估;没有探讨异质性的来源;没有探讨发表偏倚及其对结果的潜在影响。同时,有11.9%的系统评价统计分析方法存在一些问题。

 

在整体方法学置信度方面,最好的一项系统评价在16个标准中,仅有12个完全符合,同时有1个部分符合(计0.5个)。方法学置信度指数的中位数为0.64,第一和第三分位点分为别0.52和0.72。这意味着即使是方法学置信度最高的那些系统评价,高达28%的仍然存在诸多方法学缺陷。对于6个重要方法学标准,最好的一项系统评价6个完全符合。重要方法学置信度指数中位数为0.5,第一和第三分位点分为别0.33和0.58。这意味着在最好的那些系统评价中,高达42%的仍然存在重要方法学缺陷。更详细的问题分析及报告敬请参见原文。

 

(16个方法学维度下每个维度在被评估的系统评价中存在缺陷的比例)

回归分析结果

我们的回归分析结果提示,来自欧洲作者制作的系统评价(相关系数=0.08,95%CI: 0.02, 0.14; p=0.013)、近期的系统评价(相关系数=0.16,95%CI: 0.08, 0.24; p=0.002),以及参与作者更多的系统评价(相关系数=0.06,95%CI: 0.01, 0.11; p=0.026)与更高的方法学置信度排序明显呈正相关。这一现象在仅针对6个重要标准上仍然存在。但我们发现,更多的作者并不与重要标准的方法学置信度相关。也即作者人数并不能提高系统评价在6个重要方法学上的置信度。

 

论和结论

由于内容过多,讨论和结论,敬请参见原文。文中所有涉及的数据,包括方法学评价数据,均已作为附件上传。感兴趣的同仁可在期刊网站进行下载。如需使用相关数据,敬请联系原文通讯作者。

 

研究发表在睡眠医学领域顶级期刊,Sleep Medicine Reviews,2019年影响因子为9.613截止2021年1月17日,其2020年即时影响因子为10.7,预计今年的影响子在11分以上这也是本团队10+系列的第二篇虽然离第一篇已经过去了5年。在团队的努力下,10+系列第三篇不再需要5年了,敬请大家关注团队后续成果。同时感谢各位朋友、老师们的长期支持和鼓励,给予了我们无限的动力。最后祝愿大家2021年都有好收获!

研究进展

微小RNA与大脑老化、神经炎症、神经退行性变和脑外伤的遗传关系

2021-10-13 13:48:26

研究进展

BMC medicine: 零事件研究证据的使用偏好:过去、现在、及未来

2021-10-14 15:40:43

声明 本网站部分文章源于互联网,出于传递更多信息和学习之目的转载,并不保证内容正确或赞同其观点。
如转载稿涉及失效、版权等问题,请立即联系管理员;我们会予以修改、删除相关文章,请留言反馈
Notice: When your legal rights are being violated, please send an email to: [email protected]
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索