9月4日,“罕卫而行,肺启新篇”——泛长三角胸部肿瘤罕见论坛”完美落下帷幕,该会议由泛长三角胸部肿瘤联盟专业委员会举办,邀请国内多个知名专家共同探讨BRAF
V600突变的非小细胞肺癌(NSCLC)诊疗的现状。来自上海交通大学附属胸科医院的张波博士,在此次会议上,以肺癌相关的临床试验为例,分享了临床试验中相关参数的解读。
临床试验中,参数与变量息息相关,以总生存期作为变量为例,治疗组和对照组之间在各个时间点上的差异,就是参数,当存在差异时,认为其出现阳性结果,具有统计学意义,即证实治疗有效,否则为阴性,无统计学意义,该治疗无效。张波博士会议中,分享了临床试验中最常见的两个参数—P值(P value)和HR(风险比)的看法,并对中位无进展生存期和亚组分析的是否客观进行了阐述,主要内容可分为四个部分:
1.P值<0.05是不是统计学的阳性结果?
2.HR值是个完美的参数吗?
3.中位无进展生存期传递的信息是否全面客观?
4.亚组分析出现阳性结果,其结果是否稳定?
通常情况下,P值<0.05意味着两组存在差异,即统计学上出现阳性结果。但在实际开展的临床试验中,并非如此,张波教授举出了反例。
在NEJ009研究和KeyNote-604研究中,两项研究的总生存期的P值分别为0.02和0.0164,远小于0.5,研究者均认为是阴性的结果,不具有统计学意义。这种问题同样出现在备受业内人士关注的flaura研究[3]上,其无进展生存期的P值也是<0.05,结果认定为阴性,这些情况中,P值<0.05,却无统计学意义,最根本的原因是它涉及到了多重性比较的问题。
多重性比较是指同一个临床试验中,需要对多个检验假设分别进行统计推断,其本质是进行重复的统计检验。多重性比较带来的直接后果是,在进行多次统计推断时,研究的全局I类错误飘升,假阳性结果的可能性大大增加,统计学上称之为1类错误膨胀。
举个简单的例子,一个简单的临床试验通常具备两组设计(治疗组和对照组),只使用单个主要指标,即一个主要终点,并且只在一个时间点上进行统计推断,当试验设计以下内容时,就会面临多重性比较的问题:
1.新药治疗中,设计多个分组,如中、高、低剂量组与标准治疗进行比较;
2.若使用无进展生存期和总生存期作为共同终点;
3.设置多个期中分析,如50%和75%的重点事件出现,需在每次进行期中分析时,进行数据的同期推断。
规避多重性比较需要控制1类错误的发生,目前,常用的有两种方法,固定顺序检验法(传递法)和拆分法。
因每次开始检验时,α都是在0.05水平以下,因此不需要每次都对α进行校正,还保证了α最大程度被利用。
(1)当效应量随时间、剂量或检验的顺序,呈单调变化时(即变量和结局呈单调变化),使用固定顺序检验法的效果最好。
张波博士提到在临床上,PD-L1的表达水平和疗效呈单调变化,PD-L1表达越高,患者的临床获益越多,因此默沙东公司开展的KeyNote-042研究,只有一个主要终点—总生存期,但定义了3组人群,试验步骤是先进行PD-L1≥50%的人群检验,取得阳性结果后,在进行PD-L1≥20%人群的检验,再次出现阳性结果,接着进行PD-L1≥1%人群的检验,一步步将适应症拓开,此举了避免将PD-L1表达在1%-49%的人群吸收进来,整体疗效被稀释,从而导致一个阴性的结果,此方法相对更加保守,最起码PD-L1≥50%的人群对该治疗有效可做兜底。
(2)通常患者疾病分期越晚,在术后辅助治疗中的获益越大,基于此结论,术后辅助治疗的多重性比较多采用固定顺序检验法。
罗氏公司开展的在恶性黑色素瘤中,使用维莫非尼(维罗非尼、威罗菲尼)术后辅助治疗的研究,研究设立了晚期和早期两个人群,通常情况下,需先检验晚期人群再检验早期人群,恰恰相反,在该试验中,晚期IIIC期的P值为0.2598,是一个阴性的结果,反而早期人群中P值为0.001,是一个阳性的结果,所以该试验的结论指出,即使在早期人群中P值<0.05,也只能认为是一个探索性的数据,并不具有统计学意义。
共享一个α,根据主要终点的重要性、达到的难易程度,对总体的α(显著性水准)进行分配。
临床研究中,只有设置多次期中分析或某些共终点设计的临床试验,并且期中分析每次检验前,纳入的样本量相等才可以应用拆分法,常见的拆分方法有Pocock、 O' Brien-Fleming(OBF)、 Haybittle-Peto法。
其中最常见的是OBF拆分法,例如KeyNote-604研究,其总生存期结果最终判定为阴性的原因是,该研究采用OBF拆分法,设立无进展生存期和总生存期为共同终点,中间还有两次期中分析,OBF拆分后,其P值为0.0128,而通过计算得出的P值为0.0164,该值大于其显著性水准,所以统计学上是一个阴性的结果。既然P值<0.05并不能完全意味着试验出现具有统计学意义的阳性结果,那么另一个常见参数HR又如何?
HR值反映的是在整个临床试验过程中,两组相对风险的变化,是整个临床试验动态的过程,而并非是一个点。
临床试验中使用HR值作为参数,需先设立其生存数据严格服从指数分布,此时HR值为两组中位总生存期的比值,但更多的情况下,临床试验的生存数据不服从指数分布,故实际HR值需基于COX模型进行中位无进展生存期和中位总生存期的计算,张波博士提到了两项典型的HR值未能传递更多的试验信息的研究。
首先是CheckMate-078研究[6],在此研究中,研究者比较了纳武单抗和多西他赛的临床疗效,两组中位无进展生存期都是2.8个月,而HR估计值为0.77,95%置信区间上限0.95未超过1,P值0.014也未超过0.05,是一个阳性的结果,最终被美国药监局批准,在靶向治疗领域,从未遇到过此研究中,两组中位无进展生存期完全相等,统计学上还有差异的情况,究其原因,最主要的是在前期两条生存曲线是紧密交织在一起的,50%平行线的交叉点恰好重叠,两条生存曲线重叠原因是中位无进展生存期的疗效相对偏早,不能很好的去反映免疫治疗的获益情况。并且过了50%后,两条生存曲线是分开的,HR值体现获益更多的是凸显后半程的获益,所以在免疫治疗早期不建议将无进展生存期作为主要终点,更倾向于选择总生存期作为主要研究终点,或者选择无进展生存期和总生存期作为共同主要研究终点。
另一项研究是CheckMate-057研究,此研究入组了发生免疫治疗超进展的患者,这部分患者经免疫治疗后疾病恶化更加严重,进展较治疗前更迅速,患者预后非常差,生存时间甚至按天来计算。纳入这部分患者后,研究的整个生存曲线迅速下移,所以免疫治疗的中位无进展生存期在化疗的下面,等到超进展患者因死亡出组后,长期获益的人群体现出来,反而会超过化疗,若此时50%的平行线交叉在前部分,中位无进展生存期还有差异,能够证实免疫治疗更优,但若交叉到后部分,免疫治疗组的中位无进展生存期反而不如化疗。
由此可见,HR值也不是临床试验的完美参数,尤其是在免疫治疗相关的研究中,最主要的原因是当面免疫治疗不够精准,缺少相应的生物标记物,一方面无法识别和排除前部分中出现超进展的患者,另一方面无法判断和纳入后部分可长期获益的患者,从而导致整个生存曲线出现双交叉的情况。
默沙东公司开展的KeyNote-407研究[8]更新了两次数据,两次数据分析时,中位无进展生存期是不同的,分别为6.4个月和8.0个月,第一次数据分析随访8个月,随访的时间超过中位无进展生存期,理论上应当比较稳定,但该研究的这种差异主要是由生存曲线的走向发生改变导致的,因中位无进展生存期是用了某个点的数据代替了整条生存曲线,存在以偏概全的问题,最终使两次数据分析出现接近2个月的差异。
而在另一项罗氏公司进行的ALEX研究中,研究者(34.8个月)评估的中位无进展生存期比独立评审委员会(27个月)评估的长7.8个月,该研究中位无进展生存期存在差异的原因是:
1.数据上,研究者评估的更加乐观,独立评审委员会评估的相对保守;
2.生存曲线正好在生存率50%的附近,存在一段较长的平台期,独立评审委员会定位的中位无进展生存期靠前,研究者定位的偏后。
临床试验主要探索的是某种治疗对某疾病是否有效,而亚组分析是其中的分支,通常分析的是某一类型患者(具有相同的临床病理特点)的获益情况。
英国阿斯利康研发的吉非替尼(易瑞沙、Gefitinib) 获美国药监局(FDA)有条件批准上市,是基于IFUM研究的结果,而ISEL研究[10]是它的III期确认性临床研究,令人大跌眼镜的是,ISEL研究最终出现阴性结果,未再现吉非替尼的临床疗效,美国药监局和阿斯利康协商后,目前对吉非替尼有效的患者可继续使用,新诊断的患者不再允许应用吉非替尼,相当于变相的宣布了吉非替尼的强制退市,随后阿斯利康对吉非替尼进行亚组分析时发现,亚裔和女性患者对其获益更加明显,两条生存曲线会有明显的分开趋势,这意味着亚裔人群接受吉非替尼治疗能够获得更好的临床疗效。
基于此亚组分析,艾斯利康将研发重点由北美改投为亚洲地区,并在亚洲人群中开展了一项新的临床试验—IPASS研究(吉非替尼泛亚太地区研究),该研究是一项非劣效研究,核心入排标准就是ISEL研究的亚组分析—亚裔女性不吸烟腺癌,最终IPASS研究取得了阳性结果,换句话说,IPASS研究就是验证了ISEL研究的亚组分析是可靠的,亚裔女性不吸烟腺癌可以接受吉非替尼治疗。
但是大多数情况下,亚组分析传递的信息并不是很稳定,同样是阿斯利康开展的AURA3研究,在 EGFR T79OM突变的晚期非小细胞肺癌患者中,有中枢神经系统转移(脑转移)的患者接受奥希替尼(泰瑞沙、奥西替尼)治疗,疗效更差,很显然这是一项不靠谱的亚组分析。首先奥西替尼作为第三代靶向药物,其优势就在于入颅脑的效果更佳,有脑转移的患者应当首先接受三代靶向药物治疗,这已成为医学界普遍认可的共识,基本上不存在争议,在此结论上去看该亚组分析的结果,有脑转移的患者应当接受化疗,三代靶向药物更差,此结果毫无可靠性。
因此在大多数情况下,很难去判断亚组分析给出的结论或信息是否稳定,有学者做过统计,若III期确认性研究是基于II期研究的阳性亚组开展的话,该III期确认性研究的阳性率只有10%-15%,这意味着绝大多数情况下,亚组分析得到的阳性结果还是不太靠谱的。
(1)存在生物学机制可以解释亚组分析结果;
(2)主要研究终点和次要研究终点是否稳定存在这一亚组效应;
(3)亚组分析的发现能否在不同的研究中重现;
(4)亚组分析因素是否是预设的或分层变量;
(5)亚组分析数目是否有限(<5)。
张波博士通过对临床试验相关参数进行解读,发现由于存在多重性比较,P值<0.05并不意味着试验具有统计学意义的阳性结果,但可以采取固定顺序检验法和拆分法尽可能避免这种情况,HR值也不是完美的参数,尤其是在缺乏明确生物标记物的免疫治疗相关的临床试验中。而中位无进展生存期只是生存曲线的一个点的数据,无法代表整条生存曲线的走向,此外,即便亚组分析出现阳性结果,只能作为参考,不可以此为根据。
就此张波博士和其他专家经过讨论,共同认为临床试验不可只参照一个参数,要结合临床研究设计及多个参数进行分析,以免出现以偏概全,脱离实际的情况,需要注意的是,临床试验整体设计是围绕主要终点进行的,其他的次要终点、亚组分析等尽管出现阳性结果,其本质仍是探索性结果,不可单拎出作为整个临床试验的结论,临床试验要保持客观性,应当审慎分析。
适用于治疗经 CFDA 批准的检测方法确定的 BRAF V600 突变阳性的不可切除或转移性黑色素瘤