目的:探索肺癌表皮生长因子受体(EGFR)突变三代靶向药(奥希替尼)患者的中医证素分布规律,并基于机器学习与生成式大语言模型构建生存预测模型。方法:回顾性收集国家健康大数据中心2020—2023年新发Ⅲ~Ⅳ期非小细胞肺癌患者,按7:3随机分训练集与测试集。进行人群与中医证素描述性统计分析,运用LASSO-Cox回归筛选变量,建立Cox比例风险模型并绘制列线图。采用受试者工作特征曲线(ROC)评估模型曲线下面积(AUC),一致性指数(C-index)衡量预测准确性。进一步基于Llama架构的生成式大语言模型构建预测系统,对比传统机器学习性能。结果:中医证素分布以气虚(50.44%)、血瘀(25.01%)、痰(22.53%)为主。LASSO-Cox回归筛选出年龄、纤维蛋白原、CYFRA21-1、合并脑梗死、家族史及既往一代TKI治疗6项独立预后因素。多因素Cox模型显示训练集AUC=0.80 (95%CI为0.76~0.84)和测试集AUC=0.78(95%CI为0.73~0.83)的C-index分别为0.77和0.75。生成式模型在40个epoch、学习率5.00×10-5时表现最优,准确率86.6%、召回率95.7%、F1-score 92.8%,显著优于传统方法。结论:本研究构建的肺癌EGFR突变口服三代靶向药患者生存预测模型可以有效预测患者的生存预后风险,并为预测方法提供新方法新思路。