什么是多重性问题? 统计与绘图 20年6月24日 转载大师 取消关注 关注 私信 1. 多重性问题的含义 临床试验中的多重性(Multiplicity)是指多重检验,即多次使用假设检验,由于每次假设检验都有风险,特别是当拒绝原假设时,我们会犯第I类错误,即假阳性(False positive)错误。而对同一个问题的回答需要多次使用假设检验时,Ⅰ类错误就会膨胀。例如,4个试验组间进行两两比较,如每次检验水准α都设为0.05,则6次假设检验至少出现一次假阳性的概率会高达26.5%。因此,需要适当的方法将总的第Ⅰ类错误控制在预定的水准下。这就是多重性校正问题。如果试验将重要的和次要指标结果全部纳入关键性证据的情况下,即主要指标和重要次要指标共存时的假设检验亦需要考虑多重性问题。对于主要指标是复合指标的试验,如果宣称的疗效是基于复合指标中某个或某些成分时,也需事先定义这些成分并纳入多重性考虑的确证性分析策略。 因此,凡涉及多个主要疗效指标,或期中分析,或多组间比较,都涉及多重性问题。换句话说,当一个临床试验只涉及一个试验组和一个对照组比较、一个主要疗效指标,且不进行期中分析,此时一般不涉及多重性问题。除此之外的临床试验都存在多重性问题。可见,多重性问题是临床试验中的常见问题。我们在上一篇介绍期中分析的文章中重点讲了检验水准α调整的问题,原因也在此。 2. 需要多重性校正的几种情况 因对α的校正和对P值的调整本质上是同一个问题的两个方面,故这里只讨论对检验水准α的校正。下面分5种情况来介绍。 (1) 存在多个主要疗效指标时,检验水准α的校正 一般情况下,一个临床试验只涉及一个主要疗效指标,但是,也有临床试验中定义了多个主要疗效指标。此时需要考虑多重性问题。 1) 当要求多个指标同时有统计学意义,才认为试验有效,此时无需校正α 。 2) 只要有一个指标有效,即认为试验药物有效,此时需校正α;一般按重要性进行分配,重要的指标检验水准大一些,不重要的指标检验水准小一些,也可以等分,但总和不超过0.05。例如,在抗肿瘤药物研究中,考虑两个主要疗效指标:总体生存率和无进展生存率,前者取0.04,后者取0.01 ; 也可以都取0.025,总和为0.05 。 3) 按指标的重要性排序,进行序贯检验或顺序检验( Hierarchicaltesting procedure),即从最重要的指标开始,依次进行假设检验,当前一个假设检验拒绝原假设时,方可进行下一个指标的假设检验;如果前一个假设检验不拒绝原假设,则停止所有后续指标的检验,并由此推断后面的指标组间差异均无统计学意义。此时,每个假设检验的检验水准皆为α,总的第I类错误仍控制在α以内,这种情况不需要校正α 。 (2) 多组间疗效指标比较时,检验水准α的校正 1) 如果组间是剂量大小关系,则可以采用序贯检验,此时不需要校正α 。 2) 如果组间是剂量大小关系,且用模型建立剂量,反应关系,并进行剂量反应关系的检 验,则不需要校正α。 3) 如果组间没有剂量大小关系,则需要校正α 。例如试验组与安慰剂对照组、阳性对照组相互比较,常采用Bonferroni 校正α 至α/k, 这里k是比较的次数。的如果试验组先与安慰剂对照组比较,有统计学意义后,再与阳性对照组比较,则无需校正的 (3) 期中分析时,检验水准α的校正 根据期中分析的目的来确定。 1) 若期中分析仅仅是为了监测试验的安全性, 而没有进行有效性的发现,则不需要校正。 2) 若期中分析是通过对疗效指标的检验,检查原始的样本量是否估计正确,以便确认到试验结束时是否有足够的统计把握度,或进行样本量再估计,则需要从实际出发考虑是否需要校正。这种情况虽然理论上不存在拒绝原假设的可能,也就不会犯第Ⅰ类错误,但也有一些统计学家建议从实际应用角度, 需要消耗一些α 。笔者建议采用Peto 法。 3) 若期中分析是希望当试验药物疗效确定时提前终止临床试验,则需要校正α 。根据期中分析的次数,可以选择Pocock法、O’ Brien-Fleming法、Peto法及Lan-Demets 消耗函数法。表1.列出了三种成组序贯设计期中分析的检验水准。 表1. 三种成组序贯设计期中分析的检验水准 期中分析 Pocock法 O’Brien-Fleming法 Peto法 总次数 第i次 2 1 0.029 0.0050 0.001 2 0.029 0.0480 0.050 3 1 0.022 0.0005 0.001 2 0.022 0.0145 0.001 3 0.022 0.0450 0.050 4 1 0.018 0.0001 0.001 2 0.018 0.0040 0.001 3 0.018 0.0190 0.001 4 0.018 0.0430 0.049 5 1 0.016 0.0001 0.001 2 0.016 0.0013 0.001 3 0.016 0.0080 0.001 4 0.016 0.0230 0.001 5 0.016 0.0410 0.049 (4) 复合指标时,检验水准α的校正 1) 复合指标是由不同的分指标加权合并而成(例如,评分量表),或由不同的指标定义,当复合指标有统计学意义时,再对每个分指标进行假设检验,无需校正α; 2) 无论复合指标是否有统计学意义,都对每个分指标进行假设检验,且只要有一个指标有统计学意义,即认为试验药物有效。此时需校正检验水准α; 类似于多个结局指标的第2种情况。 (5) 同一个主要疗效指标,比较的类型发生改变时,α的校正 这种情况常见于阳性对照研究中。只考虑一个主要疗效指标,先将试验组和阳性对照组比较,进行非劣效检验。如果非劣效性成立,再进行优效性检验,此时不需要校正α。 3. 总结与讨论 本文介绍了临床试验中多重性问题的含义,重点介绍了哪些情况下可能会出现多重性的问题以及如何解决多重性问题。将假阳性率控制在事先设定的水平以内是非常重要的原则,在确证性临床试验结果的评价中具有重要的意义。大体来讲读者需要把握以下三点:第一,凡涉及多个主要疗效指标,或期中分析,或多组间比较,都涉及多重性问题;第二,在试验方案或统计分析计划中应预先说明对多重性问题的考虑、控制Ⅰ类错误概率的原因及方法。处理多重性问题的方法有多种,如单步法、闭合检验程序、固定顺序的检验、序贯结构的策略等,在选择方法时可考虑将能够估计出疗效的可信区间作为选择的一个标准;第三,在对Ⅰ类错误概率进行控制的同时可能会导致Ⅱ类错误概率的增加,在估计样本量时应有所考虑。 4. 参考文献 [1].NMPA:药物临床试验的生物统计学指导原则, 2016 [2].ICHE9:StatisticalPrinciples for Clinical Trials, 1998 [3].陈峰, 于浩: 二十碳五烯酸与冠脉事件–PROB设计. In: 30 临床试验精选案例统计学解读. edn. 北京: 人民卫生出版社; 2014. [4].Lan KG , DeMeL’l DL. Discrete sequential boundaries for clinical trials.Biometrika,1983 ,70: 659-663.