临床研究
Copyright ©The Author(s) 2025. Published by Baishideng Publishing Group Inc. All rights reserved.
世界华人消化杂志. 2025-05-28; 33(5): 361-372
Published online 2025-05-28. doi: 10.11569/wcjd.v33.i5.361
基于影像组学和临床特征构建用于区分胰腺良恶性病变的多模态可解释机器学习模型
蔡晓晗, 范晓飞, 李姝, 方维丽, 王邦茂, 王玉峰, 冯月, 穆金宝, 刘文天
蔡晓晗, 范晓飞, 李姝, 方维丽, 王邦茂, 刘文天, 天津医科大学总医院消化内科 天津市 300052
王玉峰, 冯月, 穆金宝, 天津御锦人工智能医疗科技有限公司 天津市 300392
基金项目: 天津医科大学总医院临床医学研究项目, No. 22ZYYLCCG09.
作者贡献分布: 蔡晓晗与范晓飞对此文所作贡献均等; 此课题由蔡晓晗、范晓飞、刘文天设计; 研究过程由蔡晓晗、范晓飞、李姝、方维丽、王邦茂、王玉峰、冯月、穆金宝、刘文天操作完成; 数据分析由蔡晓晗、范晓飞、王玉峰、冯月、穆金宝完成; 本论文写作由蔡晓晗和范晓飞完成.
通讯作者: 刘文天, 教授, 300052, 天津市和平区鞍山路154号, 天津医科大学总医院消化内科. lwentian64@163.com
收稿日期: 2025-04-01
修回日期: 2025-04-21
接受日期: 2025-05-08
在线出版日期: 2025-05-28
Abstract
背景

机器学习(machine learning, ML)通过强大的数据处理能力在预测各种临床事件中取得良好表现. 本研究旨在利用临床和超声内镜数据开发ML模型以实现胰腺良恶性病变的准确预测, 并通过沙普利加和解释(SHapley Additive exPlanations, SHAP)方法解释ML模型.

目的

根据超声内镜影像组学特征和临床特征开发可解释的机器学习模型, 以预测胰腺病变的良恶性.

方法

收集天津医科大学总医院2014-01/2024-12接受超声内镜检查的共216名胰腺病变患者的超声内镜图像及临床信息, 其中训练集150名, 验证集66名. 应用t检验和最小绝对收缩和选择运算符逻辑回归算法选择超声内镜影像组学特征并构建5种影像组学机器学习模型, 选择性能最优的极端梯度提升(extreme gradient boosting, XGBoost)模型以进行后续分析. 采用单因素和多因素Logistic回归分析训练集胰腺良恶性病变中有统计学差异的临床指标以构建临床XGBoost模型. 最后, 联合影像组学和临床特征构建多模态联合XGBoost模型. 采用SHAP工具探索模型的可解释性.

结果

影像组学XGBoost机器学习模型由15个影像组学特征构建, 训练集和验证集曲线下面积(area under curve, AUC)分别为0.8521和0.8761. 临床XGBoost机器学习模型由3个临床特征构成, 训练集和验证集的AUC分别为0.9286和0.9200. 多模态机器学习模型由上述15个影像组学特征和3个临床特征构成, 其在训练集和验证集的AUC分别为0.9458和0.9357, 优于上述2种模型. SHAP分析表明多模态机器学习模型中贡献度居前5位的特征或指标包括3项临床实验室指标和2项影像组学特征.

结论

联合影像组学和临床特征的多模态机器学习模型, 可以有效预测胰腺病变的良恶性, SHAP工具将预测过程可视化以供临床应用.

Keywords: 胰腺; 超声内镜; 机器学习; 影像组学; 沙普利加和解释

核心提要: 我们收集了天津医科大学总医院2014-01/2024-12接受超声内镜检查的共216名胰腺病变患者的超声内镜图像及临床信息, 基于超声内镜影像组学特征和临床特征, 构建了多模态机器学习模型以识别胰腺病变的良恶性, 并用沙普利加和解释分析以探索模型的可解释性.