测量元分析中的不一致性
BMJ2003;327doi:https://doi.org/10.1136/bmj.327.7414.557(2003年9月4日出版)引用这个:BMJ327:557 2003;- 朱利安·P·T·希金斯,统计学家(julian.higgins在{}mrc-bsu.cam.ac.uk)1,
- 西蒙·G·汤普森主任1,
- 乔纳森·J Deeks高级医学统计员2,
- 道格拉斯·G奥特曼他是医学统计学教授2
- 通讯作者:J P T Higgins
Cochrane Reviews最近开始将数量包括在内我2帮助读者评估荟萃分析中研究结果的一致性。这个新的数量意味着什么?为什么对异质性的评估对临床实践如此重要?
系统综述和荟萃分析可以提供与医学和卫生保健的许多方面相关的令人信服和可靠的证据。1当它们所包含的研究结果显示出类似程度的临床重要影响时,它们的价值就尤为明显。然而,当纳入的研究有不同的结果时,结论就不那么明确了。为了确定研究是否一致,荟萃分析报告通常提出异质性的统计检验。该测试旨在确定研究结果是否存在真正的差异(异质性),或发现的差异是否与偶然性单独兼容(同质性)。然而,该试验易受纳入荟萃分析的试验数量的影响。我们开发了新的数量,我2,我们认为这在荟萃分析中可以更好地衡量试验之间的一致性。
需要的一致性
跨研究效果的一致性评估是荟萃分析的一个重要部分。除非我们知道研究结果的一致性,否则我们无法确定荟萃分析结果的通用性。事实上,有几个分级证据系统表明,研究结果必须一致或同质,才能获得最高的评分。2- - - - - -4
异质性检验通常用于决定联合研究的方法以及结论的一致性或不一致性。56但是,测试在实践中实现了什么?应该如何解释产生的P值?
测试的异质性
异质性检验检验了无效假设,即所有研究都在评估相同的效果。通常的检验统计量(科克伦氏问)的计算方法是将每个研究的估计值与整体元分析估计值的偏差平方相加,并以与元分析相同的方式加权每个研究的贡献。7P值通过与χ进行比较得到2分布与k-1自由度(其中k是研究的数量)。
众所周知,该测试在检测研究之间的真正异质性方面很差。元分析通常包括少量的研究,68在这种情况下,测试的能力很低。910例如,考虑金刚烷胺预防流感随机对照试验的荟萃分析(图1).11八项试验的治疗效果似乎不一致:赔率下降幅度从16%到93%不等,有些置信区间没有重叠。但异质性检验得出的P值为0.09,传统上被解释为不显著。由于检验在检测真正的异质性方面很差,一个不显著的结果不能作为同质性的证据。用10%作为显著性的分界点12改善了这个问题,但增加了得出假阳性结论的风险(第一类错误)。10
金刚烷胺预防流感的八项试验结果是流感病例。用随机效应法计算的总比值比
相反,当有很多研究时,尤其是当这些研究规模很大时,这种测试可以说具有过大的威力。世界上最大的荟萃分析之一Cochrane系统评论数据库是三环抗抑郁药和选择性5 -羟色胺再摄取抑制剂治疗抑郁症的临床试验。13来自135个试验的超过15000名参与者被纳入了比较退出率的评估,异质性检验是显著的(P = 0.005)。然而,这个P值并不能合理地描述试验结果的异质性程度。正如我们稍后所展示的,这些试验之间存在一些不一致,但这并不影响综述的结论(血清素再摄取抑制剂的停药率低于三环抗抑郁药)。
由于系统综述汇集了临床和方法学上各不相同的研究,其结果的异质性是可以预期的。6例如,异质性可能通过剂量、随访时间、研究质量和参与者纳入标准的不同而产生。因此,当重要的是异质性在多大程度上影响meta分析的结论时,简单地测试异质性似乎没有什么意义。
量化异质性:一个更好的方法
我们开发了一种替代方法,量化异质性的影响,提供了研究结果不一致程度的衡量。14这个量,我们称之为我2,描述了各研究中由于异质性而不是偶然造成的总变异百分比。我2可以很容易地从一个典型的荟萃分析获得的基本结果中计算出来,如我2= x (100%问- df) /问,在那里问是科克伦的异质性统计量和自由度。负的我2等于0我2介于0%和100%之间。数值为0%表示未观察到异质性,数值越大表示异质性越强。
价值观的例子我2
…的主要优点我2它可以通过不同规模、不同类型的研究和使用不同类型的结果数据的meta分析进行计算和比较。表1给了我2六个已发表的荟萃分析的值以及95%的不确定性区间。这些区间的上限表明,在少数研究的荟萃分析中得出的同质性结论往往是不合理的。111315- - - - - -19
三苯氧胺和链激酶荟萃分析(所有研究都发现了类似的效果)1617有我2分别为3%和19%。这表明不同研究之间的差异很小,不能用偶然来解释。关于选择性5 -羟色胺再摄取抑制剂与三环类抗抑郁药的退出比较的综述,我2为26%,说明虽然异质性非常显著,但影响很小。
心肌梗死后镁的临床研究综述(我2= 63%)和调查电磁辐射对白血病影响的病例对照研究(69%)均纳入了具有不同结果的研究。高我2数值显示,大多数研究的可变性是由于异质性而不是偶然。尽管在对金刚烷胺的研究中没有发现明显的异质性,11不一致程度中等(我2= 44%)。
图2表示的观测值我2从509元分析Cochrane系统评论数据库.这些荟萃分析中几乎一半(250)没有不一致(我2= 0%)。在具有一定异质性的荟萃分析中我2大概是平的。
进一步的应用我2
我2也有助于调查异质性的原因和类型,如下三个例子所示。
方法论的子组
图3显示了磁场和白血病的六个病例对照研究,根据其质量评估分为两个亚组。19如果在荟萃分析中发现异质性,一般的选择是将研究分组。由于力量的丧失,亚组内的非显著异质性可能不是由于同质性,而是由于研究的数量较少。在这里,两个亚组的异质性检验P值(P = 0.3和P = 0.009)高于完整数据(P = 0.007),说明亚组内部具有更大的一致性。然而,价值我2显示三个低质量的研究更不一致(我2= 79%),比所有6个(我2= 69%) (表2).高质量研究之间的不一致性显著减少(我2= 15%),尽管所有的不确定区间我2宽值。
异质性有多大?
这是一种幼稚的价值观分类我2将不会适用于所有情况,尽管我们会暂时将低、中等和高的形容词分配给我2分别为25%、50%和75%。图2显示大约四分之一的荟萃分析我2值超过50%。对异质性的量化只是更广泛的研究变异性调查的一个组成部分,最重要的是临床和方法学方面的多样性。meta分析人员还必须考虑跨研究观察到的不一致程度的临床意义。例如,对几个研究中给定的异质性程度的解释将根据估计是否显示相同的效果方向而不同。
的优点我2
重点关注任何异质性对元分析的影响
解释是直观的——由于异质性,研究中总变异的百分比
可以伴随一个不确定区间吗
计算简单,通常可以从已发表的元分析中得到
并不依赖于荟萃分析中的研究数量
不管结果数据的类型(如二分法、定量或事件发生时间)和效果测量方法的选择(如优势比或风险比),都可以同样解释。
应用范围广
总结分
荟萃分析中研究结果的不一致性降低了对治疗建议的信心
不一致性通常用异质性测试来评估,但权力问题可能会给出误导的结果
一个新的数量我2,范围从0-100%,在meta分析中被描述为衡量不同研究的不一致程度
我2可以直接比较不同数量的研究和不同类型的结果数据的meta分析吗
我2在判断证据的一致性时,是否优于异质性检验
元分析中异质性的另一种量化方法是研究间方差(通常称为τ)2),作为随机效应元分析的一部分计算。这对于比较亚组间的异质性更有用,但值取决于治疗效果量表。我们相信,我2提供了比现有的评估异质性方法的优势(方框)。关注异质性的影响也避免了所谓的两阶段分析的诱惑,在这一分析中,元分析策略(固定或随机效应方法)是由统计检验的结果决定的。这种策略被发现是有问题的。2324因此,我们认为我2在评估不同研究的不一致性时,比异质性检验更可取。
致谢
我们感谢Keith O'Rourke和Ian White提供的有用评论。
脚注
贡献者作者都是统计学家,在meta分析的方法学、实证研究和应用研究方面有丰富的经验。JH、JD和DA是Cochrane统计方法组的共同召集人。本文所表达的观点是作者本人的观点。所有作者都对上述方法的发展做出了贡献。JH和ST在开发我2.JH担保人。
资金这项工作部分是由MRC资助的
相互竞争的利益没有宣布