临床试验分析的核心概念,通俗易懂。 
“德州枪手”2

临床试验分析的核心概念,通俗易懂。 “德州枪手”2

Can we help?

临床试验方法与流行病学领域的权威专家、医学博士斯蒂芬·埃文斯医生为患者解析关键统计学概念。他阐释了何为效力不足的试验,以及这类试验为何难以检测出真实的治疗效果。埃文斯医生详细说明了预先设定主要终点对避免偏倚的重要作用,并深入剖析了需治疗病例数(NNT)这一指标,强调其适用场景与局限性。这些概念对于正确解读医学新闻和评估治疗有效性至关重要。

理解临床试验分析:把握检验效能、终点指标与需治人数

快速导航

检验效能不足的临床试验

检验效能不足的临床试验是指受试者数量不足以可靠检测真实治疗效应的研究。Stephen Evans医学博士指出,检验效能反映了试验在存在真实差异时发现该差异的能力。他以COVID-19治疗试验为例,说明研究死亡率需要大样本量,因为死亡率本身可能较低。

例如,要检测死亡率从10%降至7%的变化,就需要大量患者参与。如果试验规模太小,就会导致检验效能不足,可能错过具有临床意义的重要获益。早期的COVID-19试验常因将死亡率作为终点而出现检验效能不足的问题。Stephen Evans医学博士强调,检验效能与所研究的特定结局指标直接相关。

主要终点与次要终点

临床试验通过定义主要和次要终点来衡量治疗的成功与否。主要终点是试验设计用于评估的关键结局指标。Stephen Evans医学博士提到,死亡率虽然重要,但作为主要终点具有挑战性,因为它需要大量患者。

研究者常选择更易评估的主要结局,如康复时间或病毒载量。这些客观指标可能需要的参与者较少。但Evans博士提醒,这些定义必须在试验开始前明确设定。如果在看到结果后更改终点,会引入显著偏倚,并使研究发现无效。

德州神枪手谬误

德州神枪手谬误是维护临床试验完整性的关键概念。Stephen Evans医学博士将其比喻为先开枪后画靶心。在研究中,这指的是在看到数据后更改试验的主要结局,以得到期望的结果。

这种做法会引入严重偏倚,破坏试验的有效性。虽然存在正当理由更改终点,但必须在揭盲前进行。Evans博士强调,预设终点对可信的临床试验分析至关重要,这可以防止研究者操纵结局以显示假阳性结果。

需治人数(NNT)

需治人数(NNT)是帮助患者理解治疗获益的有效指标。Stephen Evans医学博士将NNT定义为需要接受治疗以预防一例不良结局的患者数。例如,如果某药物将死亡率从10%降至5%,则NNT为20。

这意味着需要治疗20人才能预防1例死亡。但Stephen Evans医学博士指出,NNT有其局限性:它不是纯数字,其数值取决于随访时间和结局的定义。只有在NNT计算方式完全一致的情况下,治疗间的比较才有效。尽管NNT看似简单,解读时仍需谨慎。

解读试验结果

正确解读临床试验结果需要理解关键统计概念。Stephen Evans医学博士建议,应关注那些预设了终点且检验效能充足的研究,这可以确保发现可靠,而非偶然或偏倚所致。

患者还应考虑结局的临床相关性。如果NNT极高,即使统计学上显著的结果也可能缺乏实际意义。Anton Titov医学博士强调,这些概念对提升公众健康素养非常重要。理解检验效能、终点和NNT,有助于人们批判性地评估医疗新闻,并做出知情的决策。

完整文字记录

Anton Titov医学博士: Evans教授,临床试验中有一些基本概念,比如“试验检验效能不足”是什么意思?这些术语如今常见于报纸头条,公众有必要理解它们。那么,试验检验效能不足具体指什么?什么是需治人数(NNT)?这类概念各有其利弊。另外,什么是临床试验的主要与次要终点?显然,部分试验存在“移动球门”的现象,这已是医学界的常见问题。

Stephen Evans医学博士: 我们可以用当前的COVID-19形势举例。如果研究死亡率,就需要相当多的受试者。幸运的是,即使在住院情况下,也并非所有人都会死亡。假设死亡率为10%,要检测可能十分重要的差异——比如将治疗开始30天内的死亡率从10%降至7%——就需要大量患者才能确定此类差异是否真实存在。

我们会对此进行统计分析。但如果试验人数过少,就称为检验效能不足的研究。这类研究检测真实差异的能力太低。早期部分COVID-19潜在治疗试验就存在这个问题。

如果研究涉及数千患者,试验对死亡率结局的检验效能通常不会不足,前提是处理的是合理差异。如果要检测10%与9.9%死亡率的差异,就需要数万患者,当然,这对个体患者来说并非有意义的差异。

因此,检验效能不足的试验是有问题的。检验效能不足是相对于所研究的结局而言的。如果将死亡率设为主要结局,就需要大量患者。常见的做法是将死亡率作为次要结局,而将更易研究、需要较少患者的主要结局设为主要指标。

这种情况下,常以疾病康复时间作为主要结局。问题在于,这可能稍显主观。我们可以根据临床评估定义患者是否达到某康复水平,但也可能基于病毒载量等客观评估。

因此,我们可以采用比死亡率更易研究的客观评估作为主要结局。问题在于,审视康复时,我们有其定义,但可能患者并不符合这些定义。试验中可能会明显发现,预设的主要结局无法提供有用数据。

存在更改的正当理由,但困难在于,如果已知结果呈现何种趋势,人们可能更改问题以得到期望的答案。流行病学中这称为德州神枪手综合征:德州枪手站在谷仓旁向仓壁开枪,然后走上前画上靶心。

试验需要预先设定靶心,然后进行试验观察结果,而不是在试验进行中更改靶心。总体而言,存在更改结局的正当理由,但必须非常谨慎,确保不是在开枪并看到弹着点后才这样做。

更改必须在不知道弹着点位置前完成。

衡量结局时,我们可以计算死亡率。假设治疗差异使死亡率从10%降至5%,意味着每百人中有五人因治疗免于死亡,即每20人中有一人免于死亡。

用倒数表示,需治人数(即预防一例死亡需治疗的患者数)为20——这是基于10%与5%的差异。如果差异是20%与15%或50%与45%,结果亦然。这是衡量需治疗以预防一例死亡的患者数的指标。

有时我们关注的是特定事件(如心肌梗死或卒中)而非死亡。此数值的问题在于它不是纯数字:其取决于患者随访时长,且存在其他统计问题。

因此,我并非特别推崇这一指标,尽管它听起来很吸引人:“此药需治人数为20才获益,彼药需治人数为50”。如果对两者采用相同规则,NNT可能很有帮助,但必须谨慎确保NNT的定义(它不是纯数字)在治疗比较时完全一致。