教育和辩论

测量元分析中的不一致性

BMJ2003；327doi:https://doi.org/10.1136/bmj.327.7414.557(2003年9月4日出版)引用这个:BMJ327:557 2003;

朱利安·P·T·希金斯,统计学家（julian.higgins在{}mrc-bsu.cam.ac.uk）1，
西蒙·G·汤普森主任1，
乔纳森·J Deeks高级医学统计员2，
道格拉斯·G奥特曼他是医学统计学教授2

¹剑桥公共卫生研究所生物统计组CB2 2SR
²英国癌症研究所/英国国民保健署医学统计中心，健康科学研究所，牛津OX3 7LF

通讯作者:J P T Higgins

Cochrane Reviews最近开始将数量包括在内我²帮助读者评估荟萃分析中研究结果的一致性。这个新的数量意味着什么?为什么对异质性的评估对临床实践如此重要?

系统综述和荟萃分析可以提供与医学和卫生保健的许多方面相关的令人信服和可靠的证据。1当它们所包含的研究结果显示出类似程度的临床重要影响时，它们的价值就尤为明显。然而，当纳入的研究有不同的结果时，结论就不那么明确了。为了确定研究是否一致，荟萃分析报告通常提出异质性的统计检验。该测试旨在确定研究结果是否存在真正的差异(异质性)，或发现的差异是否与偶然性单独兼容(同质性)。然而，该试验易受纳入荟萃分析的试验数量的影响。我们开发了新的数量，我²，我们认为这在荟萃分析中可以更好地衡量试验之间的一致性。

需要的一致性

跨研究效果的一致性评估是荟萃分析的一个重要部分。除非我们知道研究结果的一致性，否则我们无法确定荟萃分析结果的通用性。事实上，有几个分级证据系统表明，研究结果必须一致或同质，才能获得最高的评分。2^{- - - - - -}4

异质性检验通常用于决定联合研究的方法以及结论的一致性或不一致性。5 6但是，测试在实践中实现了什么?应该如何解释产生的P值?

测试的异质性

异质性检验检验了无效假设，即所有研究都在评估相同的效果。通常的检验统计量(科克伦氏问)的计算方法是将每个研究的估计值与整体元分析估计值的偏差平方相加，并以与元分析相同的方式加权每个研究的贡献。7P值通过与χ进行比较得到²分布与k-1自由度(其中k是研究的数量)。

众所周知，该测试在检测研究之间的真正异质性方面很差。元分析通常包括少量的研究，6 8在这种情况下，测试的能力很低。9 10例如，考虑金刚烷胺预防流感随机对照试验的荟萃分析(图1）.11八项试验的治疗效果似乎不一致:赔率下降幅度从16%到93%不等，有些置信区间没有重叠。但异质性检验得出的P值为0.09，传统上被解释为不显著。由于检验在检测真正的异质性方面很差，一个不显著的结果不能作为同质性的证据。用10%作为显著性的分界点12改善了这个问题，但增加了得出假阳性结论的风险(第一类错误)。10

Fig 1

Eight trials of amantadine for prevention of influenza.11 Outcome is cases of influenza. Summary odds ratios calculated with random effects method

图1

金刚烷胺预防流感的八项试验结果是流感病例。用随机效应法计算的总比值比

相反，当有很多研究时，尤其是当这些研究规模很大时，这种测试可以说具有过大的威力。世界上最大的荟萃分析之一Cochrane系统评论数据库是三环抗抑郁药和选择性5 -羟色胺再摄取抑制剂治疗抑郁症的临床试验。13来自135个试验的超过15000名参与者被纳入了比较退出率的评估，异质性检验是显著的(P = 0.005)。然而，这个P值并不能合理地描述试验结果的异质性程度。正如我们稍后所展示的，这些试验之间存在一些不一致，但这并不影响综述的结论(血清素再摄取抑制剂的停药率低于三环抗抑郁药)。

由于系统综述汇集了临床和方法学上各不相同的研究，其结果的异质性是可以预期的。6例如，异质性可能通过剂量、随访时间、研究质量和参与者纳入标准的不同而产生。因此，当重要的是异质性在多大程度上影响meta分析的结论时，简单地测试异质性似乎没有什么意义。

量化异质性:一个更好的方法

我们开发了一种替代方法，量化异质性的影响，提供了研究结果不一致程度的衡量。14这个量，我们称之为我²，描述了各研究中由于异质性而不是偶然造成的总变异百分比。我²可以很容易地从一个典型的荟萃分析获得的基本结果中计算出来，如我²= x (100%问- df) /问,在那里问是科克伦的异质性统计量和自由度。负的我²等于0我²介于0%和100%之间。数值为0%表示未观察到异质性，数值越大表示异质性越强。

价值观的例子我²

…的主要优点我²它可以通过不同规模、不同类型的研究和使用不同类型的结果数据的meta分析进行计算和比较。表1给了我²六个已发表的荟萃分析的值以及95%的不确定性区间。这些区间的上限表明，在少数研究的荟萃分析中得出的同质性结论往往是不合理的。11 13 15^{- - - - - -}19

表1

文献中元分析例子的异质性统计。meta分析采用STATA中的meta或metan进行¹⁵

把这个表:

三苯氧胺和链激酶荟萃分析(所有研究都发现了类似的效果)16 17有我²分别为3%和19%。这表明不同研究之间的差异很小，不能用偶然来解释。关于选择性5 -羟色胺再摄取抑制剂与三环类抗抑郁药的退出比较的综述，我²为26%，说明虽然异质性非常显著，但影响很小。

心肌梗死后镁的临床研究综述(我²= 63%)和调查电磁辐射对白血病影响的病例对照研究(69%)均纳入了具有不同结果的研究。高我²数值显示，大多数研究的可变性是由于异质性而不是偶然。尽管在对金刚烷胺的研究中没有发现明显的异质性，11不一致程度中等(我²= 44%)。

图2表示的观测值我²从509元分析Cochrane系统评论数据库．这些荟萃分析中几乎一半(250)没有不一致(我²= 0%)。在具有一定异质性的荟萃分析中我²大概是平的。

图2

基于Cochrane系统评价数据库中509项二分法结果的meta分析的优势比，I2观测值的分布。数据来自每次回顾的第一次荟萃分析(如果有的话)的第一个亚组(如果有的话)，如果它涉及二分类结果和至少两个有事件的试验。在STATA中使用metan进行meta分析15

进一步的应用我²

我²也有助于调查异质性的原因和类型，如下三个例子所示。

方法论的子组

图3显示了磁场和白血病的六个病例对照研究，根据其质量评估分为两个亚组。19如果在荟萃分析中发现异质性，一般的选择是将研究分组。由于力量的丧失，亚组内的非显著异质性可能不是由于同质性，而是由于研究的数量较少。在这里，两个亚组的异质性检验P值(P = 0.3和P = 0.009)高于完整数据(P = 0.007)，说明亚组内部具有更大的一致性。然而，价值我²显示三个低质量的研究更不一致(我²= 79%)，比所有6个(我²= 69%) (表2）.高质量研究之间的不一致性显著减少(我²= 15%)，尽管所有的不确定区间我²宽值。

图3

6项与住宅电磁场暴露与儿童白血病相关的病例对照研究的荟萃分析19用随机效应法计算的总优势比

表2

l的更高级应用²在三个发表的荟萃分析中评估异质性。meta分析采用STATA15中的meta或metan进行¹⁵

把这个表:

异质性与效应测量的选择有关

一项对危重病人使用人白蛋白的临床试验的系统综述得出结论:白蛋白可能增加死亡率。20.这些研究在风险比估计上没有不一致(我²= 0%)和一个狭窄的不确定区间。表2显示了风险差异和风险比率的异质性统计。在两组治疗中均无死亡的六项试验没有提供关于风险比率的信息，但它们都提供了风险差异的估计。用P值来决定哪个尺度与数据更一致21是不合适的，因为研究的数量不同。我²值可以有效地进行比较，并表明风险差异不太同质，这是经常发生的情况。22

临床上重要的子组

我²也可以用来描述子组之间的异质性。表2包括他莫西芬治疗早期乳腺癌的荟萃分析的复发结果。具有高度显著性(P = 0.00002)和重要异质性(我²= 50%)。16然而，一个潜在的异质性的重要来源是治疗的持续时间。作者将试验分为三个持续时间类别，并进行了总体异质性检验、三个亚组比较检验和亚组内异质性检验。我²每个测试对应的值表明，在三个亚组中观察到的96%的变异性不能用偶然解释。仅从P值来看，这一点并不清楚。在所有55项试验中，复发的优势比(我²= 50%)大幅减少(我²= 13%)。

异质性有多大?

这是一种幼稚的价值观分类我²将不会适用于所有情况，尽管我们会暂时将低、中等和高的形容词分配给我²分别为25%、50%和75%。图2显示大约四分之一的荟萃分析我²值超过50%。对异质性的量化只是更广泛的研究变异性调查的一个组成部分，最重要的是临床和方法学方面的多样性。meta分析人员还必须考虑跨研究观察到的不一致程度的临床意义。例如，对几个研究中给定的异质性程度的解释将根据估计是否显示相同的效果方向而不同。

的优点我²

重点关注任何异质性对元分析的影响
解释是直观的——由于异质性，研究中总变异的百分比
可以伴随一个不确定区间吗
计算简单，通常可以从已发表的元分析中得到
并不依赖于荟萃分析中的研究数量
不管结果数据的类型(如二分法、定量或事件发生时间)和效果测量方法的选择(如优势比或风险比)，都可以同样解释。
应用范围广

总结分

荟萃分析中研究结果的不一致性降低了对治疗建议的信心
不一致性通常用异质性测试来评估，但权力问题可能会给出误导的结果
一个新的数量我²，范围从0-100%，在meta分析中被描述为衡量不同研究的不一致程度
我²可以直接比较不同数量的研究和不同类型的结果数据的meta分析吗
我²在判断证据的一致性时，是否优于异质性检验

元分析中异质性的另一种量化方法是研究间方差(通常称为τ)²)，作为随机效应元分析的一部分计算。这对于比较亚组间的异质性更有用，但值取决于治疗效果量表。我们相信,我²提供了比现有的评估异质性方法的优势(方框)。关注异质性的影响也避免了所谓的两阶段分析的诱惑，在这一分析中，元分析策略(固定或随机效应方法)是由统计检验的结果决定的。这种策略被发现是有问题的。23 24因此，我们认为我²在评估不同研究的不一致性时，比异质性检验更可取。

致谢

我们感谢Keith O'Rourke和Ian White提供的有用评论。

脚注

贡献者作者都是统计学家，在meta分析的方法学、实证研究和应用研究方面有丰富的经验。JH、JD和DA是Cochrane统计方法组的共同召集人。本文所表达的观点是作者本人的观点。所有作者都对上述方法的发展做出了贡献。JH和ST在开发我²．JH担保人。
资金这项工作部分是由MRC资助的
相互竞争的利益没有宣布

参考文献

↵
1. 症米，
2. 戴维史密斯G
．元分析:潜力和前景。BMJ1997；315：1371- - - - - -4．
OpenUrl 免费的全文
↵
1. Liberati一个，
2. BuzzettiR，
3. 格雷利R，
4. MagriniN，
5. Minozzi年代
．我们可以相信哪些准则?西地中海J2001；174：262- - - - - -5．
OpenUrl CrossRef PubMed 网络的科学
1. 港口R，
2. 米勒J，
3. 为苏格兰校际指导网络评分审查小组
．在基于证据的指南中为建议分级的新系统。BMJ2001；323：334- - - - - -6．
OpenUrl 免费的全文
↵
1. GuyattG，
2. 兰尼D
1. GuyattG，
2. 辛克莱J，
3. 库克D，
4. JaeschkeR，
5. SchunemannH，
6. Pauker年代
．从证据转向行动。GuyattG，兰尼Deds。医学文献的使用者指南:循证临床实践手册．芝加哥：美国医学协会，2002：599- - - - - -608．
↵
1. PetittiDB
．meta分析中的异质性方法。地中海统计2001；20.：3625- - - - - -33．
OpenUrl CrossRef PubMed 网络的科学
↵
1. 希金斯J，
2. 汤普森年代，
3. DeeksJ，
4. 奥特曼D
．临床试验系统评价中的统计异质性:指南和实践的关键评价。J卫生服务Res政策2002；7：51- - - - - -61．
OpenUrl 摘要/免费的全文
↵
1. 科克伦工作组
．来自不同实验的估计的组合。生物识别技术1954；10：101- - - - - -29．
OpenUrl CrossRef 网络的科学
↵
1. Sterne江淮，
2. 症米
．在meta分析中检测偏倚的漏斗图:轴的选择指南。中国论文2001；54：1046- - - - - -55．
OpenUrl CrossRef PubMed 网络的科学
↵
1. 保罗老，
2. 唐纳一个
．k 2 × 2表优势比同质性检验的小样本表现。地中海统计1992；11：159- - - - - -65．
OpenUrl PubMed 网络的科学
↵
1. 哈代RJ，
2. 汤普森SG
．检测和描述meta分析中的异质性。地中海统计1998；17：841- - - - - -56．
OpenUrl CrossRef PubMed 网络的科学
↵
1. 杰佛逊来，
2. DemicheliV，
3. DeeksJJ，
4. RivettiD
．金刚烷胺和金刚乙胺用于预防和治疗成人甲型流感。Cochrane数据库系统Rev2002；(4): CD001169
↵
1. DickersinK，
2. 柏林晶澳
．荟萃分析:尖端科学。论文牧师1992；14：154- - - - - -76．
OpenUrl 免费的全文
↵
1. BarbuiC，
2. Hotopf米，
3. FreemantleN，
4. 博因顿J，
5. 丘吉尔R，
6. 埃克尔斯国会议员，
7. 戈德斯小，
8. 等
．停用选择性5 -羟色胺再摄取抑制剂(SSRIs)和三环抗抑郁药(TCAs)。Cochrane数据库系统Rev2003；(3): CD002791
↵
1. 希金斯JPT，
2. 汤普森SG
．在荟萃分析中量化异质性。地中海统计2002；21：1539- - - - - -58．
OpenUrl CrossRef PubMed 网络的科学
↵
1. 症米，
2. 戴维史密斯G，
3. 奥特曼DG
1. Sterne江淮，
2. Bradburn乔丹，
3. 症米
．占据的荟萃分析。症米，戴维史密斯G，奥特曼DGeds。医疗保健系统回顾:情境下的元分析．第二版。伦敦：BMJ杂志，2001：347- - - - - -69．
↵
1. 早期乳腺癌试验人员合作小组
．他莫昔芬治疗早期乳腺癌:随机试验综述《柳叶刀》1998；351：1451- - - - - -67．
OpenUrl CrossRef PubMed 网络的科学
↵
1. 刘J，
2. Antman新兴市场，
3. Jimenez-SilvaJ，
4. KupelinkB，
5. Mosteller科幻小说，
6. 查尔默斯TC
．心肌梗死治疗试验的累积荟萃分析。英国医学杂志1992；327：248- - - - - -54．
OpenUrl CrossRef PubMed 网络的科学
1. 症米，
2. 戴维史密斯G
．误导的荟萃分析。BMJ1995；310：752- - - - - -4．
OpenUrl 免费的全文
↵
1. Angelillo如果，
2. 维拉里P
．住宅电磁场暴露与儿童白血病:一项荟萃分析。世界卫生组织1999；77：906- - - - - -15．
OpenUrl PubMed 网络的科学
↵
1. Cochrane损伤组白蛋白评论者
．危重病人的人白蛋白给药:随机对照试验的系统回顾。BMJ1998；317：235- - - - - -40．
OpenUrl 摘要/免费的全文
↵
1. 恩格斯EA，
2. 施密德CH，
3. TerrinN，
4. Olkin我，
5. 刘J
．荟萃分析的异质性和统计学意义:125个荟萃分析的实证研究。地中海统计2000；19：1707- - - - - -28．
OpenUrl CrossRef PubMed 网络的科学
↵
1. DeeksJJ
．二元结果临床试验荟萃分析总结统计选择中的问题。地中海统计2002；21：1575- - - - - -1600．
OpenUrl CrossRef PubMed 网络的科学
↵
1. 弗里曼公关
．两阶段分析的两处理，两阶段交叉试验的表现。地中海统计1989；8：1421- - - - - -32．
OpenUrl CrossRef PubMed 网络的科学
↵
1. Steyerberg电子战，
2. Eijkemans乔丹，
3. HabbemaJD
．小数据集的逐步选择:logistic回归分析中偏倚的模拟研究。中国论文1999；52：935- - - - - -42．
OpenUrl CrossRef PubMed 网络的科学

视图抽象

测量元分析中的不一致性

需要的一致性

测试的异质性

量化异质性:一个更好的方法

价值观的例子我²

进一步的应用我²

异质性与效应测量的选择有关

临床上重要的子组

异质性有多大?

的优点我²

总结分

致谢

脚注

参考文献

文章警告

登录或注册:

下载本文到引文管理器

帮助

提出这一页

内容链接

关于我们

资源

探索BMJ

我的账户

信息

搜索表单

测量元分析中的不一致性

需要的一致性

测试的异质性

量化异质性:一个更好的方法

价值观的例子我2

进一步的应用我2

异质性与效应测量的选择有关

临床上重要的子组

异质性有多大?

的优点我2

总结分

致谢

脚注

参考文献

文章警告

登录或注册:

下载本文到引文管理器

帮助

提出这一页

内容链接

关于我们

资源

探索BMJ

我的账户

信息

价值观的例子我²

进一步的应用我²

的优点我²