如何分析实用的随机试验中的成本数据?
BMJ2000;320doi:https://doi.org/10.1136/bmj.320.7243.1197(2000年4月29日出版)引用如下:BMJ320:1197 2000;- 西蒙·G·汤普森教授,(simon.thompson在{}mrc-bsu.cam.ac.uk),
- Julie A Barber研究员
- 通信:S G汤普森,MRC生物统计单元,公共卫生研究所,剑桥CB2 2SR
- 接受12月13日
实用的随机试验通常是大规模的多中心研究,其中干预措施或医疗政策在现实环境中进行比较。1其目的是,如果这些试验的结论被接受,可以直接应用于医疗实践。2与这些试验同时进行的经济评估越来越普遍,因为评估成本和成本效益以及临床结果通常很重要。3.成本通常来自试验中每个患者使用的医疗资源的数量信息。每种资源的使用量乘以固定的单位成本值,然后对不同类型的资源求和,得出每个患者的总成本。4
比较月经过多妇女子宫内膜切除术与子宫切除术的试验费用分布。费用基于从随机到两年的卫生资源使用情况;它们包括术前、手术、住院、并发症、再治疗和初级保健部分5
这些信息导致了试验参与者的一系列不同成本。例如,该图显示了月经过多妇女随机接受子宫内膜切除术或腹式子宫切除术治疗的费用分布。5这种高度倾斜的分布是成本数据的典型特征;右长尾反映了一些患者因医疗并发症、再手术或延长住院时间等因素而产生高费用的事实。
总结分
卫生经济评估现在通常包括在实用的临床试验中,为政策决策提供信息
尽管成本分布通常存在偏倚,但算术平均数是最具信息量的衡量标准
算术平均值以外的测量方法不能提供有关治疗所有患者的成本的信息,而这些信息是医疗保健政策决策所需要的基础
基于转换成本数据或使用标准非参数方法比较中位数的统计分析可能会得出误导性的结论
成本数据的哪些方面是重要的?
当有关替代治疗费用的信息用于指导医疗保健政策决策时,治疗疾病患者所需的总预算是相关的。例如,医疗保健计划人员可能需要有关在特定医院提供治疗所需的年度总预算的信息。总费用的估计值可从试验数据中获得,方法是将特定治疗组的算术平均费用乘以待治疗的患者总数。因此,算术平均数是实际临床试验中成本数据的信息性度量。
然而,在描述成本数据时,经常报告其他措施。例如,成本中位数是一半患者的成本低于或高于的值。另一种度量方法,几何平均成本,可以通过将成本转换为对数刻度,计算平均值,然后将其转换回来得到。对于正倾斜的数据,如图中所示,中位数和几何平均值总是小于算术平均值。例如,在子宫内膜切除术组,中位费用为523英镑,几何平均值为683英镑,算术平均值为790英镑。这些量之间的差异程度取决于分布的形状和偏度。因此,在子宫切除术组中,成本数据的偏差较小,1053英镑的中位数和1100英镑的几何平均值更接近1110英镑的算术平均值。
在某些目的上,算术方法以外的方法可能有用。例如,中位数成本可以用来描述个人的“典型”成本。对于医疗保险公司来说,了解发生特别极端费用的概率可能是有用的。然而,算术平均值以外的测量方法并不能提供关于治疗所有患者将产生的总成本的信息,而这是医疗保健政策决策所需要的基础。
如何比较成本?
许多常用的统计方法要求数据近似于对称的钟形分布或正态分布。因此,研究人员选择了统计技术,试图处理成本数据分布中的偏态。乍一看,考虑到统计指南和教科书中的建议,这是合理的。例如,BMJ的统计指南指出,“具有高度倾斜(不对称)分布的数据……可能需要在分析之前进行一些转换,或者使用替代的‘无分布’方法。”6数据的变换,如对数变换,可以用来实现更正态分布,其中“参数”方法,如At测试是适当的。另外,也可以使用“非参数”或无分布方法,它们适用于任何形状的分布。
这种传统的建议意味着分析方法应该根据数据分布的形状来选择。然而,所使用的分析方法对结果的解释也有重要的影响,因为不同的方法比较分布的不同方面。一个t对未转换数据的检验比较算术平均值,而t对对数转换数据的测试比较几何平均值。Mann-Whitney U检验是一种非参数方法,通常被解释为中位数的比较,尽管它实际上是在形状和位置方面的分布的总体比较。7在这三个测试中,只有t对未转换数据的测试可能适用于成本,因为它是唯一处理算术平均值比较的方法。一个合理的担忧,以及传统统计指南的基础,是基于的方法t只有当成本数据服从正态分布时,测试才严格有效。8然而,一个t如果偏态不是太极端,或者样本量适中(稍后我们将回到这个问题),那么检验和由此得出的置信区间将是可靠的。
例子来自最近的三份出版物
在一项比较家庭医院和住院医院护理的实用随机试验中,统计分析的策略如下:“在适当的情况下,在进行进一步参数分析之前,对具有非正态分布的数据进行日志转换。Mann-Whitney U检验用于连续数据,在对数变换后不近似于正态分布。”9下表显示了试验中纳入的髋关节置换术患者组采用这种策略的结果。对医院费用进行了算术平均比较t检验中,全科医生的费用以中位数表示,并与Mann-Whitney U检验进行比较,尽管总费用以算术平均值表示,但通过使用基于对数转换值的分析进行几何平均值的统计比较。对分析方法及其结果表示的混淆是显而易见的。然而,它源于对连续数据进行统计分析的常规准则。此外,在统计上比较几何平均值的同时,呈现算术平均值(这似乎是最近推荐的方法)10)只会助长误解。
在第二个例子中,进行了一项实用的随机试验,以评估急性精神疾病患者在一年日间医院与住院治疗的成本效益。11由于成本数据是倾斜的,作者使用中位数来总结分布,并使用Mann-Whitney U检验来进行组间比较。该分析表明,日间医院组的患者总成本在统计上显著降低。然而,这并不意味着算术平均成本也显著降低。因此,作者的结论是,日间医院的治疗总体上更便宜,这有直接的政策影响,是不被所提供的统计分析所证明的。
一个类似的例子是一个实用的随机试验,评估出院的精神病患者的护理。在这项研究中,比较了社区多学科团队和医院一年多的护理。12算术平均,中位数,和几何平均成本,但只有几何平均成本进行统计比较,使用t测试日志转换值“以纠正倾斜分布”。至于前一个例子中的中位数,几何平均成本的不显著差异不能被认为意味着算术平均成本的相似结果。
方法的选择重要吗?
在这些例子中,尚不清楚使用算术平均数的比较是否会改变结论。读者不能确定,因此不能从所提出的分析中得出可靠的结论。当原始数据可用时,就可以很容易地进行必要的分析,因此很容易找到例子来说明分析方法的选择对结论的影响。在一项试验中,比较了基于社区的锻炼计划和普通全科医生对腰痛患者的护理,12个月的算术平均费用分别为360英镑和508英镑。13使用t基于测试的方法评估了148英镑的平均差异,给出了- 146英镑至442英镑的95%置信区间和0.32的非显著P值,因此没有提供差异的证据。然而,对相同的数据进行Mann-Whitney U检验得到显著的P值0.02,这可以解释为成本差异的实质性证据。显然,这两种方法导致了对成本评价的非常不同的解释,如果使用了曼-惠特尼U检验,则会产生极大的误导。
另一个例子是上述医院在家试验中纳入子宫切除术患者的亚组。9有人指出,在这种情况下,“那些分配到医院在家护理的人的医疗服务成本要高得多。”该结论基于几何平均值的比较,引用的P值<0.01。但是,利用本文报道的算术平均值和标准差进行了一个标准t测试给出了一个不太显著的P值0.1。同样,这两种分析导致了不同的解释。
这些问题有多普遍?
最近发表于1995年的一项对45项随机试验(包括经济评估)的综述显示,在使用成本统计方法方面存在严重不足。14在报道统计比较的论文中,只有一半使用了处理算术平均值差异的方法,其他论文使用了不适当的非参数方法(例如,Mann-Whitney U检验)或对数转换方法。最近一些文章对成本数据的统计分析提出了不正确或误导性的建议,使情况变得更糟。虽然已经提到标准的非参数方法是不合适的,但一些作者(错误地)建议对对数转换成本数据进行分析。15- - - - - -18这些建议影响了后续研究中使用的分析方法。19在成本数据方面,不加思考地应用常规统计准则来分析扭曲的数据,会导致不适当的分析和可能具有误导性的结论。
适当的分析方法
考虑到需要在算术平均成本方面比较治疗组,标准方法如t测试似乎是合适的。事实上,在对已发表的经济评估的审查中,t所有报告的算术平均数比较均采用检验。14然而,它们的有效性依赖于“常态”的假设,因此对于扭曲的成本数据来说是值得怀疑的。8虽然已知这些方法对非正态具有相当的鲁棒性,特别是在样本量很大的情况下,但很难判断特定数据集的鲁棒性。7因此,比较算术平均成本的标准方法可能必须谨慎使用。
另一种方法是非参数引导法。20.这种方法避免了对分布的形状(如正态)作出假设的需要,而是使用所分析的研究中观察到的成本数据的分布。统计分析是利用计算机程序对观测数据进行反复抽样的方法。21Bootstrap方法可用于假设检验、计算置信区间和回归分析。应用非参数bootstrap来测试和推导置信区间的差异在算术平均成本最近已被描述。2122到目前为止,尽管最近有一些例子,bootstrap方法在实践中还没有经常用于分析成本。1323- - - - - -25
根据我们的经验,结果来自标准t测试和t在大多数现实情况下,基于测试的置信区间足以比较两组之间的算术平均成本。对于一般的成本数据,我们更倾向于不假设两组的标准差相同的方法。26例如,在月经过多试验中(见图),两组之间算术平均费用差异的95%置信区间(320英镑)非常相似t使用基于测试的方法或bootstrap方法(分别为204英镑至437英镑和192英镑至426英镑)。尽管成本数据偏倚,特别是在子宫内膜切除术组,并且每组患者数量适中(78和70)。即使样本量较低,每组约15-20名患者,成本数据高度倾斜,结果也可能相似。例如,在一项针对故意自残患者的认知行为疗法试点试验中,P值为t测试和自举测试几乎相同(分别为0.20和0.21),方法再次给出相当相似的置信区间。23
结论
在旨在对医疗政策产生影响的成本评估中,重要的是总医疗成本。因此,尽管成本数据的分布通常是倾斜的,但对算术手段的分析是有信息的。一个简单的t对未转换成本的检验可能就足够了,但这些结果的有效性,特别是对于小样本或极端倾斜的数据,应该使用自举技术来检查。有必要修订经济和统计准则,以强调这些问题,因为将重要的政策决定建立在使用不适当的成本分析方法的研究基础上,可能弊大于利。
致谢
我们感谢Mark Sculpher和他的同事以及Jennifer Klaber Moffett和他的同事允许我们使用他们研究中的数据。
脚注
资金ST由HEFC伦敦大学资助,JB由泰晤士NHS执行。
相互竞争的利益没有宣布。