适合医疗保健专业人员

教育和辩论

测量元分析中的不一致性

BMJ2003327doi:https://doi.org/10.1136/bmj.327.7414.557(2003年9月4日出版)引用这个:BMJ327:557 2003;
  1. 朱利安·P·T·希金斯,统计学家julian.higgins在{}mrc-bsu.cam.ac.uk1
  2. 西蒙·G·汤普森主任1
  3. 乔纳森·J Deeks高级医学统计员2
  4. 道格拉斯·G奥特曼他是医学统计学教授2
  1. 1剑桥公共卫生研究所生物统计组CB2 2SR
  2. 2英国癌症研究所/英国国民保健署医学统计中心,健康科学研究所,牛津OX3 7LF
  1. 通讯作者:J P T Higgins

    Cochrane Reviews最近开始将数量包括在内2帮助读者评估荟萃分析中研究结果的一致性。这个新的数量意味着什么?为什么对异质性的评估对临床实践如此重要?

    系统综述和荟萃分析可以提供与医学和卫生保健的许多方面相关的令人信服和可靠的证据。1当它们所包含的研究结果显示出类似程度的临床重要影响时,它们的价值就尤为明显。然而,当纳入的研究有不同的结果时,结论就不那么明确了。为了确定研究是否一致,荟萃分析报告通常提出异质性的统计检验。该测试旨在确定研究结果是否存在真正的差异(异质性),或发现的差异是否与偶然性单独兼容(同质性)。然而,该试验易受纳入荟萃分析的试验数量的影响。我们开发了新的数量,2,我们认为这在荟萃分析中可以更好地衡量试验之间的一致性。

    需要的一致性

    跨研究效果的一致性评估是荟萃分析的一个重要部分。除非我们知道研究结果的一致性,否则我们无法确定荟萃分析结果的通用性。事实上,有几个分级证据系统表明,研究结果必须一致或同质,才能获得最高的评分。2- - - - - -4

    异质性检验通常用于决定联合研究的方法以及结论的一致性或不一致性。56但是,测试在实践中实现了什么?应该如何解释产生的P值?

    测试的异质性

    异质性检验检验了无效假设,即所有研究都在评估相同的效果。通常的检验统计量(科克伦氏)的计算方法是将每个研究的估计值与整体元分析估计值的偏差平方相加,并以与元分析相同的方式加权每个研究的贡献。7P值通过与χ进行比较得到2分布与k-1自由度(其中k是研究的数量)。

    众所周知,该测试在检测研究之间的真正异质性方面很差。元分析通常包括少量的研究,68在这种情况下,测试的能力很低。910例如,考虑金刚烷胺预防流感随机对照试验的荟萃分析(图1).11八项试验的治疗效果似乎不一致:赔率下降幅度从16%到93%不等,有些置信区间没有重叠。但异质性检验得出的P值为0.09,传统上被解释为不显著。由于检验在检测真正的异质性方面很差,一个不显著的结果不能作为同质性的证据。用10%作为显著性的分界点12改善了这个问题,但增加了得出假阳性结论的风险(第一类错误)。10

    相反,当有很多研究时,尤其是当这些研究规模很大时,这种测试可以说具有过大的威力。世界上最大的荟萃分析之一Cochrane系统评论数据库是三环抗抑郁药和选择性5 -羟色胺再摄取抑制剂治疗抑郁症的临床试验。13来自135个试验的超过15000名参与者被纳入了比较退出率的评估,异质性检验是显著的(P = 0.005)。然而,这个P值并不能合理地描述试验结果的异质性程度。正如我们稍后所展示的,这些试验之间存在一些不一致,但这并不影响综述的结论(血清素再摄取抑制剂的停药率低于三环抗抑郁药)。

    由于系统综述汇集了临床和方法学上各不相同的研究,其结果的异质性是可以预期的。6例如,异质性可能通过剂量、随访时间、研究质量和参与者纳入标准的不同而产生。因此,当重要的是异质性在多大程度上影响meta分析的结论时,简单地测试异质性似乎没有什么意义。

    量化异质性:一个更好的方法

    我们开发了一种替代方法,量化异质性的影响,提供了研究结果不一致程度的衡量。14这个量,我们称之为2,描述了各研究中由于异质性而不是偶然造成的总变异百分比。2可以很容易地从一个典型的荟萃分析获得的基本结果中计算出来,如2= x (100%- df) /,在那里是科克伦的异质性统计量和自由度。负的2等于02介于0%和100%之间。数值为0%表示未观察到异质性,数值越大表示异质性越强。

    价值观的例子2

    …的主要优点2它可以通过不同规模、不同类型的研究和使用不同类型的结果数据的meta分析进行计算和比较。表1给了2六个已发表的荟萃分析的值以及95%的不确定性区间。这些区间的上限表明,在少数研究的荟萃分析中得出的同质性结论往往是不合理的。111315- - - - - -19

    表1

    文献中元分析例子的异质性统计。meta分析采用STATA中的meta或metan进行15

    把这个表:

    三苯氧胺和链激酶荟萃分析(所有研究都发现了类似的效果)16172分别为3%和19%。这表明不同研究之间的差异很小,不能用偶然来解释。关于选择性5 -羟色胺再摄取抑制剂与三环类抗抑郁药的退出比较的综述,2为26%,说明虽然异质性非常显著,但影响很小。

    心肌梗死后镁的临床研究综述(2= 63%)和调查电磁辐射对白血病影响的病例对照研究(69%)均纳入了具有不同结果的研究。高2数值显示,大多数研究的可变性是由于异质性而不是偶然。尽管在对金刚烷胺的研究中没有发现明显的异质性,11不一致程度中等(2= 44%)。

    图2表示的观测值2从509元分析Cochrane系统评论数据库.这些荟萃分析中几乎一半(250)没有不一致(2= 0%)。在具有一定异质性的荟萃分析中2大概是平的。

    ">图2
    图2

    基于Cochrane系统评价数据库中509项二分法结果的meta分析的优势比,I2观测值的分布。数据来自每次回顾的第一次荟萃分析(如果有的话)的第一个亚组(如果有的话),如果它涉及二分类结果和至少两个有事件的试验。在STATA中使用metan进行meta分析15

    进一步的应用2

    2也有助于调查异质性的原因和类型,如下三个例子所示。

    方法论的子组

    图3显示了磁场和白血病的六个病例对照研究,根据其质量评估分为两个亚组。19如果在荟萃分析中发现异质性,一般的选择是将研究分组。由于力量的丧失,亚组内的非显著异质性可能不是由于同质性,而是由于研究的数量较少。在这里,两个亚组的异质性检验P值(P = 0.3和P = 0.009)高于完整数据(P = 0.007),说明亚组内部具有更大的一致性。然而,价值2显示三个低质量的研究更不一致(2= 79%),比所有6个(2= 69%) (表2).高质量研究之间的不一致性显著减少(2= 15%),尽管所有的不确定区间2宽值。

    ">图3
    图3

    6项与住宅电磁场暴露与儿童白血病相关的病例对照研究的荟萃分析19用随机效应法计算的总优势比

    表2

    l的更高级应用2在三个发表的荟萃分析中评估异质性。meta分析采用STATA15中的meta或metan进行15

    把这个表:

    异质性与效应测量的选择有关

    一项对危重病人使用人白蛋白的临床试验的系统综述得出结论:白蛋白可能增加死亡率。20.这些研究在风险比估计上没有不一致(2= 0%)和一个狭窄的不确定区间。表2显示了风险差异和风险比率的异质性统计。在两组治疗中均无死亡的六项试验没有提供关于风险比率的信息,但它们都提供了风险差异的估计。用P值来决定哪个尺度与数据更一致21是不合适的,因为研究的数量不同。2值可以有效地进行比较,并表明风险差异不太同质,这是经常发生的情况。22

    临床上重要的子组

    2也可以用来描述子组之间的异质性。表2包括他莫西芬治疗早期乳腺癌的荟萃分析的复发结果。具有高度显著性(P = 0.00002)和重要异质性(2= 50%)。16然而,一个潜在的异质性的重要来源是治疗的持续时间。作者将试验分为三个持续时间类别,并进行了总体异质性检验、三个亚组比较检验和亚组内异质性检验。2每个测试对应的值表明,在三个亚组中观察到的96%的变异性不能用偶然解释。仅从P值来看,这一点并不清楚。在所有55项试验中,复发的优势比(2= 50%)大幅减少(2= 13%)。

    异质性有多大?

    这是一种幼稚的价值观分类2将不会适用于所有情况,尽管我们会暂时将低、中等和高的形容词分配给2分别为25%、50%和75%。图2显示大约四分之一的荟萃分析2值超过50%。对异质性的量化只是更广泛的研究变异性调查的一个组成部分,最重要的是临床和方法学方面的多样性。meta分析人员还必须考虑跨研究观察到的不一致程度的临床意义。例如,对几个研究中给定的异质性程度的解释将根据估计是否显示相同的效果方向而不同。

    的优点2

    • 重点关注任何异质性对元分析的影响

    • 解释是直观的——由于异质性,研究中总变异的百分比

    • 可以伴随一个不确定区间吗

    • 计算简单,通常可以从已发表的元分析中得到

    • 并不依赖于荟萃分析中的研究数量

    • 不管结果数据的类型(如二分法、定量或事件发生时间)和效果测量方法的选择(如优势比或风险比),都可以同样解释。

    • 应用范围广

    总结分

    • 荟萃分析中研究结果的不一致性降低了对治疗建议的信心

    • 不一致性通常用异质性测试来评估,但权力问题可能会给出误导的结果

    • 一个新的数量2,范围从0-100%,在meta分析中被描述为衡量不同研究的不一致程度

    • 2可以直接比较不同数量的研究和不同类型的结果数据的meta分析吗

    • 2在判断证据的一致性时,是否优于异质性检验

    元分析中异质性的另一种量化方法是研究间方差(通常称为τ)2),作为随机效应元分析的一部分计算。这对于比较亚组间的异质性更有用,但值取决于治疗效果量表。我们相信,2提供了比现有的评估异质性方法的优势(方框)。关注异质性的影响也避免了所谓的两阶段分析的诱惑,在这一分析中,元分析策略(固定或随机效应方法)是由统计检验的结果决定的。这种策略被发现是有问题的。2324因此,我们认为2在评估不同研究的不一致性时,比异质性检验更可取。

    致谢

    我们感谢Keith O'Rourke和Ian White提供的有用评论。

    脚注

    • 贡献者作者都是统计学家,在meta分析的方法学、实证研究和应用研究方面有丰富的经验。JH、JD和DA是Cochrane统计方法组的共同召集人。本文所表达的观点是作者本人的观点。所有作者都对上述方法的发展做出了贡献。JH和ST在开发2.JH担保人。

    • 资金这项工作部分是由MRC资助的

    • 相互竞争的利益没有宣布

    参考文献

    视图抽象