修回日期: 2025-04-21
接受日期: 2025-05-08
在线出版日期: 2025-05-28
机器学习(machine learning, ML)通过强大的数据处理能力在预测各种临床事件中取得良好表现. 本研究旨在利用临床和超声内镜数据开发ML模型以实现胰腺良恶性病变的准确预测, 并通过沙普利加和解释(SHapley Additive exPlanations, SHAP)方法解释ML模型.
根据超声内镜影像组学特征和临床特征开发可解释的机器学习模型, 以预测胰腺病变的良恶性.
收集天津医科大学总医院2014-01/2024-12接受超声内镜检查的共216名胰腺病变患者的超声内镜图像及临床信息, 其中训练集150名, 验证集66名. 应用t检验和最小绝对收缩和选择运算符逻辑回归算法选择超声内镜影像组学特征并构建5种影像组学机器学习模型, 选择性能最优的极端梯度提升(extreme gradient boosting, XGBoost)模型以进行后续分析. 采用单因素和多因素Logistic回归分析训练集胰腺良恶性病变中有统计学差异的临床指标以构建临床XGBoost模型. 最后, 联合影像组学和临床特征构建多模态联合XGBoost模型. 采用SHAP工具探索模型的可解释性.
影像组学XGBoost机器学习模型由15个影像组学特征构建, 训练集和验证集曲线下面积(area under curve, AUC)分别为0.8521和0.8761. 临床XGBoost机器学习模型由3个临床特征构成, 训练集和验证集的AUC分别为0.9286和0.9200. 多模态机器学习模型由上述15个影像组学特征和3个临床特征构成, 其在训练集和验证集的AUC分别为0.9458和0.9357, 优于上述2种模型. SHAP分析表明多模态机器学习模型中贡献度居前5位的特征或指标包括3项临床实验室指标和2项影像组学特征.
联合影像组学和临床特征的多模态机器学习模型, 可以有效预测胰腺病变的良恶性, SHAP工具将预测过程可视化以供临床应用.
核心提要: 我们收集了天津医科大学总医院2014-01/2024-12接受超声内镜检查的共216名胰腺病变患者的超声内镜图像及临床信息, 基于超声内镜影像组学特征和临床特征, 构建了多模态机器学习模型以识别胰腺病变的良恶性, 并用沙普利加和解释分析以探索模型的可解释性.