上海交大胸科医院张波博士:临床试验中相关参数的解读

网站首页

药品目录

远程问诊

临床招募

新上市

上海交大胸科医院张波博士:临床试验中相关参数的解读

赵药师

发布日期：2023-09-06 09:25:07

2336

9月4日，“罕卫而行，肺启新篇”——泛长三角胸部肿瘤罕见论坛”完美落下帷幕，该会议由泛长三角胸部肿瘤联盟专业委员会举办，邀请国内多个知名专家共同探讨BRAF V600突变的非小细胞肺癌(NSCLC)诊疗的现状。来自上海交通大学附属胸科医院的张波博士，在此次会议上，以肺癌相关的临床试验为例，分享了临床试验中相关参数的解读。

张波.png

张波博士简介

临床试验的参数是什么?有何意义?

临床试验中，参数与变量息息相关，以总生存期作为变量为例，治疗组和对照组之间在各个时间点上的差异，就是参数，当存在差异时，认为其出现阳性结果，具有统计学意义，即证实治疗有效，否则为阴性，无统计学意义，该治疗无效。张波博士会议中，分享了临床试验中最常见的两个参数—P值(P value)和HR(风险比)的看法，并对中位无进展生存期和亚组分析的是否客观进行了阐述，主要内容可分为四个部分：

1.P值<0.05是不是统计学的阳性结果?

2.HR值是个完美的参数吗?

3.中位无进展生存期传递的信息是否全面客观?

4.亚组分析出现阳性结果，其结果是否稳定?

试验参数P值和HR的区别.png

临床试验参数P值和HR的比较

P值<0.05是不是统计学的阳性结果?

通常情况下，P值<0.05意味着两组存在差异，即统计学上出现阳性结果。但在实际开展的临床试验中，并非如此，张波教授举出了反例。

在NEJ009研究和KeyNote-604研究中，两项研究的总生存期的P值分别为0.02和0.0164，远小于0.5，研究者均认为是阴性的结果，不具有统计学意义。这种问题同样出现在备受业内人士关注的flaura研究^[3]上，其无进展生存期的P值也是<0.05，结果认定为阴性，这些情况中，P值<0.05，却无统计学意义，最根本的原因是它涉及到了多重性比较的问题。

两个研究合并.png

左为NEJ009研究无进展生存期1、2和总生存期;右为KeyNote-604研究无进展生存期和总生存期

什么是多重性比较?多重性比较会给临床试验带来哪些不利影响?

多重性比较是指同一个临床试验中，需要对多个检验假设分别进行统计推断，其本质是进行重复的统计检验。多重性比较带来的直接后果是，在进行多次统计推断时，研究的全局I类错误飘升，假阳性结果的可能性大大增加，统计学上称之为1类错误膨胀。

研究的全局I类错误飘升，假阳性结果的可能大大增加.png

多重性比较导致假阳性结果的理论推导过程

举个简单的例子，一个简单的临床试验通常具备两组设计(治疗组和对照组)，只使用单个主要指标，即一个主要终点，并且只在一个时间点上进行统计推断，当试验设计以下内容时，就会面临多重性比较的问题：

1.新药治疗中，设计多个分组，如中、高、低剂量组与标准治疗进行比较;

2.若使用无进展生存期和总生存期作为共同终点;

3.设置多个期中分析，如50%和75%的重点事件出现，需在每次进行期中分析时，进行数据的同期推断。

如何规避多重性比较的不利影响?

规避多重性比较需要控制1类错误的发生，目前，常用的有两种方法，固定顺序检验法(传递法)和拆分法。

固定顺序检验法

固定顺序检验法定义

优点

因每次开始检验时，α都是在0.05水平以下，因此不需要每次都对α进行校正，还保证了α最大程度被利用。

适用范围

(1)当效应量随时间、剂量或检验的顺序,呈单调变化时(即变量和结局呈单调变化)，使用固定顺序检验法的效果最好。

张波博士提到在临床上，PD-L1的表达水平和疗效呈单调变化，PD-L1表达越高，患者的临床获益越多，因此默沙东公司开展的KeyNote-042研究，只有一个主要终点—总生存期，但定义了3组人群，试验步骤是先进行PD-L1≥50%的人群检验，取得阳性结果后，在进行PD-L1≥20%人群的检验，再次出现阳性结果，接着进行PD-L1≥1%人群的检验，一步步将适应症拓开，此举了避免将PD-L1表达在1%-49%的人群吸收进来，整体疗效被稀释，从而导致一个阴性的结果，此方法相对更加保守，最起码PD-L1≥50%的人群对该治疗有效可做兜底。

(2)通常患者疾病分期越晚，在术后辅助治疗中的获益越大，基于此结论，术后辅助治疗的多重性比较多采用固定顺序检验法。

特殊情况

罗氏公司开展的在恶性黑色素瘤中，使用维莫非尼(维罗非尼、威罗菲尼)术后辅助治疗的研究，研究设立了晚期和早期两个人群，通常情况下，需先检验晚期人群再检验早期人群，恰恰相反，在该试验中，晚期IIIC期的P值为0.2598，是一个阴性的结果，反而早期人群中P值为0.001，是一个阳性的结果，所以该试验的结论指出，即使在早期人群中P值<0.05，也只能认为是一个探索性的数据，并不具有统计学意义。

左为维莫非尼瑞士罗氏 240mg*56片，右为罗氏公司维莫非尼术后辅助治疗恩行呢黑色素瘤的无病生存期(DFS)

拆分法

共享一个α，根据主要终点的重要性、达到的难易程度，对总体的α(显著性水准)进行分配。

适用范围

临床研究中，只有设置多次期中分析或某些共终点设计的临床试验，并且期中分析每次检验前，纳入的样本量相等才可以应用拆分法，常见的拆分方法有Pocock、 O' Brien-Fleming(OBF)、 Haybittle-Peto法。

常见的分割方法.png

三种拆分方法简介

其中最常见的是OBF拆分法，例如KeyNote-604研究，其总生存期结果最终判定为阴性的原因是，该研究采用OBF拆分法，设立无进展生存期和总生存期为共同终点，中间还有两次期中分析，OBF拆分后，其P值为0.0128，而通过计算得出的P值为0.0164，该值大于其显著性水准，所以统计学上是一个阴性的结果。既然P值<0.05并不能完全意味着试验出现具有统计学意义的阳性结果，那么另一个常见参数HR又如何?

HR值-是个完美的参数吗?HR值能否传递更多的信息?

HR值反映的是在整个临床试验过程中，两组相对风险的变化，是整个临床试验动态的过程，而并非是一个点。

临床试验中使用HR值作为参数，需先设立其生存数据严格服从指数分布，此时HR值为两组中位总生存期的比值，但更多的情况下，临床试验的生存数据不服从指数分布，故实际HR值需基于COX模型进行中位无进展生存期和中位总生存期的计算，张波博士提到了两项典型的HR值未能传递更多的试验信息的研究。

免疫治疗缺乏生物标记物，HR值无法成为完美参数

首先是CheckMate-078研究^[6]，在此研究中，研究者比较了纳武单抗和多西他赛的临床疗效，两组中位无进展生存期都是2.8个月，而HR估计值为0.77，95%置信区间上限0.95未超过1，P值0.014也未超过0.05，是一个阳性的结果，最终被美国药监局批准，在靶向治疗领域，从未遇到过此研究中，两组中位无进展生存期完全相等，统计学上还有差异的情况，究其原因，最主要的是在前期两条生存曲线是紧密交织在一起的，50%平行线的交叉点恰好重叠，两条生存曲线重叠原因是中位无进展生存期的疗效相对偏早，不能很好的去反映免疫治疗的获益情况。并且过了50%后，两条生存曲线是分开的，HR值体现获益更多的是凸显后半程的获益，所以在免疫治疗早期不建议将无进展生存期作为主要终点，更倾向于选择总生存期作为主要研究终点，或者选择无进展生存期和总生存期作为共同主要研究终点。

另一项研究是CheckMate-057研究，此研究入组了发生免疫治疗超进展的患者，这部分患者经免疫治疗后疾病恶化更加严重，进展较治疗前更迅速，患者预后非常差，生存时间甚至按天来计算。纳入这部分患者后，研究的整个生存曲线迅速下移，所以免疫治疗的中位无进展生存期在化疗的下面，等到超进展患者因死亡出组后，长期获益的人群体现出来，反而会超过化疗，若此时50%的平行线交叉在前部分，中位无进展生存期还有差异，能够证实免疫治疗更优，但若交叉到后部分，免疫治疗组的中位无进展生存期反而不如化疗。

由此可见，HR值也不是临床试验的完美参数，尤其是在免疫治疗相关的研究中，最主要的原因是当面免疫治疗不够精准，缺少相应的生物标记物，一方面无法识别和排除前部分中出现超进展的患者，另一方面无法判断和纳入后部分可长期获益的患者，从而导致整个生存曲线出现双交叉的情况。

两项研究的无进展生存期.png

CheckMate-078研究和CheckMate-057研究的无进展生存期

中位无进展生存期传递的信息是否全面客观?

确定中位无进展生存期的方法

中位无进展生存期以替代整条生存曲线，具有以偏概全的弊端

默沙东公司开展的KeyNote-407研究^[8]更新了两次数据，两次数据分析时，中位无进展生存期是不同的，分别为6.4个月和8.0个月，第一次数据分析随访8个月，随访的时间超过中位无进展生存期，理论上应当比较稳定，但该研究的这种差异主要是由生存曲线的走向发生改变导致的，因中位无进展生存期是用了某个点的数据代替了整条生存曲线，存在以偏概全的问题，最终使两次数据分析出现接近2个月的差异。

KeyNote-064研究两次分析时的无进展生存期变化.png

KeyNote-064研究两次分析时的无进展生存期变化

而在另一项罗氏公司进行的ALEX研究中，研究者(34.8个月)评估的中位无进展生存期比独立评审委员会(27个月)评估的长7.8个月，该研究中位无进展生存期存在差异的原因是：

1.数据上，研究者评估的更加乐观，独立评审委员会评估的相对保守;

2.生存曲线正好在生存率50%的附近，存在一段较长的平台期，独立评审委员会定位的中位无进展生存期靠前，研究者定位的偏后。

ALEX研究患者的无进展生存期.png

ALEX研究患者的无进展生存期

亚组分析出现阳性结果，其结果是否稳定?

临床试验主要探索的是某种治疗对某疾病是否有效，而亚组分析是其中的分支，通常分析的是某一类型患者(具有相同的临床病理特点)的获益情况。

吉非替尼：亚组分析出现阳性结果,再研究亚裔女性不吸烟腺癌可接受治疗

英国阿斯利康研发的吉非替尼(易瑞沙、Gefitinib) 获美国药监局(FDA)有条件批准上市，是基于IFUM研究的结果，而ISEL研究[10]是它的III期确认性临床研究，令人大跌眼镜的是，ISEL研究最终出现阴性结果，未再现吉非替尼的临床疗效，美国药监局和阿斯利康协商后，目前对吉非替尼有效的患者可继续使用，新诊断的患者不再允许应用吉非替尼，相当于变相的宣布了吉非替尼的强制退市，随后阿斯利康对吉非替尼进行亚组分析时发现，亚裔和女性患者对其获益更加明显，两条生存曲线会有明显的分开趋势，这意味着亚裔人群接受吉非替尼治疗能够获得更好的临床疗效。

亚裔人群和非亚裔人群的生存曲线.png

ISEL研究亚裔人群和非亚裔人群的生存曲线

基于此亚组分析，艾斯利康将研发重点由北美改投为亚洲地区，并在亚洲人群中开展了一项新的临床试验—IPASS研究(吉非替尼泛亚太地区研究)，该研究是一项非劣效研究，核心入排标准就是ISEL研究的亚组分析—亚裔女性不吸烟腺癌，最终IPASS研究取得了阳性结果，换句话说，IPASS研究就是验证了ISEL研究的亚组分析是可靠的，亚裔女性不吸烟腺癌可以接受吉非替尼治疗。

吉非替尼英国阿斯利康 250mg*30片

绝大多数情况下，再验证亚组分析结果的阳性率仅为10%-15%

但是大多数情况下，亚组分析传递的信息并不是很稳定，同样是阿斯利康开展的AURA3研究，在 EGFR T79OM突变的晚期非小细胞肺癌患者中，有中枢神经系统转移(脑转移)的患者接受奥希替尼(泰瑞沙、奥西替尼)治疗，疗效更差，很显然这是一项不靠谱的亚组分析。首先奥西替尼作为第三代靶向药物，其优势就在于入颅脑的效果更佳，有脑转移的患者应当首先接受三代靶向药物治疗，这已成为医学界普遍认可的共识，基本上不存在争议，在此结论上去看该亚组分析的结果，有脑转移的患者应当接受化疗，三代靶向药物更差，此结果毫无可靠性。

奥西替尼英国阿斯利康 80mg*30片

因此在大多数情况下，很难去判断亚组分析给出的结论或信息是否稳定，有学者做过统计，若III期确认性研究是基于II期研究的阳性亚组开展的话，该III期确认性研究的阳性率只有10%-15%，这意味着绝大多数情况下，亚组分析得到的阳性结果还是不太靠谱的。

亚组分析结论的可靠性如何判断?

（1）存在生物学机制可以解释亚组分析结果;

（2）主要研究终点和次要研究终点是否稳定存在这一亚组效应;

（3）亚组分析的发现能否在不同的研究中重现;

（4）亚组分析因素是否是预设的或分层变量;

（5）亚组分析数目是否有限(<5)。

临床试验应参考多个参数，使结论更加客观和全面

张波博士通过对临床试验相关参数进行解读，发现由于存在多重性比较，P值<0.05并不意味着试验具有统计学意义的阳性结果，但可以采取固定顺序检验法和拆分法尽可能避免这种情况，HR值也不是完美的参数，尤其是在缺乏明确生物标记物的免疫治疗相关的临床试验中。而中位无进展生存期只是生存曲线的一个点的数据，无法代表整条生存曲线的走向，此外，即便亚组分析出现阳性结果，只能作为参考，不可以此为根据。

就此张波博士和其他专家经过讨论，共同认为临床试验不可只参照一个参数，要结合临床研究设计及多个参数进行分析，以免出现以偏概全，脱离实际的情况，需要注意的是，临床试验整体设计是围绕主要终点进行的，其他的次要终点、亚组分析等尽管出现阳性结果，其本质仍是探索性结果，不可单拎出作为整个临床试验的结论，临床试验要保持客观性，应当审慎分析。

免责声明：以上内容整理于FDA说明书、DRUGS及网络，仅作信息交流之目的，文中观点不代表药队长立场，亦不代表药队长支持或反对文中观点。本文也不是治疗方案推荐。页面内容仅供医学药学专业人士阅读参考，具体用药请咨询主治医师，本站只做信息展示，不销售药品。如需获得治疗方案指导，请前往正规医院就诊。

参考资料： FDA说明书，FDA更新于2020年5月的说明书https://www.accessdata.fda.gov/scripts/cder/daf/index.cfm?event=overview.process&ApplNo=202429

2022ESMO:阿贝西利+内分泌治疗乳腺癌生存期超5年

患者参加临床试验常见问题解答

维莫非尼

成人

药品价格

张波博士简介

临床试验的参数是什么?有何意义?

临床试验参数P值和HR的比较

P值<0.05是不是统计学的阳性结果?

左为NEJ009研究无进展生存期1、2和总生存期;右为KeyNote-604研究无进展生存期和总生存期

什么是多重性比较?多重性比较会给临床试验带来哪些不利影响?

多重性比较导致假阳性结果的理论推导过程

如何规避多重性比较的不利影响?

固定顺序检验法

固定顺序检验法定义

优点

适用范围

特殊情况

左为维莫非尼 瑞士罗氏 240mg*56片，右为罗氏公司维莫非尼术后辅助治疗恩行呢黑色素瘤的无病生存期(DFS)

拆分法

适用范围

三种拆分方法简介

HR值-是个完美的参数吗?HR值能否传递更多的信息?

免疫治疗缺乏生物标记物，HR值无法成为完美参数

CheckMate-078研究和CheckMate-057研究的无进展生存期

中位无进展生存期传递的信息是否全面客观?

确定中位无进展生存期的方法

确定中位无进展生存期的方法

中位无进展生存期以替代整条生存曲线，具有以偏概全的弊端

KeyNote-064研究两次分析时的无进展生存期变化

ALEX研究患者的无进展生存期

亚组分析出现阳性结果，其结果是否稳定?

吉非替尼：亚组分析出现阳性结果,再研究亚裔女性不吸烟腺癌可接受治疗

ISEL研究亚裔人群和非亚裔人群的生存曲线

吉非替尼 英国阿斯利康 250mg*30片

绝大多数情况下，再验证亚组分析结果的阳性率仅为10%-15%

奥西替尼 英国阿斯利康 80mg*30片

亚组分析结论的可靠性如何判断?

临床试验应参考多个参数，使结论更加客观和全面

左为维莫非尼瑞士罗氏 240mg*56片，右为罗氏公司维莫非尼术后辅助治疗恩行呢黑色素瘤的无病生存期(DFS)

吉非替尼英国阿斯利康 250mg*30片

奥西替尼英国阿斯利康 80mg*30片