7月21日,腾讯对外披露了其在医疗健康领域研究的最新进展。钟南山院士团队与腾讯AI Lab联合发布了一项利用AI预测COVID-19患者病情发展至危重概率的研究成果,可分别预测5天、10天和30天内病情发展至危重症的概率,有助合理地为病人进行早期分诊。
据悉,相比传统衡量肺炎严重程度的CURB-6模型和未进行深度学习的经典Cox模型,此次联合研究团队提出的深度学习生存Cox模型具有更高的预测准确性。通过回溯1393例外部患者的检验数据,该模型的预测性能也得到了实践验证,证明了模型的可靠性与有效性。
这项研究已在2020年7月15日发布于国际顶级期刊《Nature》子刊《Nature Communications》。研究成果也已通过网站服务与微信小程序的形式全面开放,相关机构可免费、快速调用。同时,模型代码也在Github面向全球开源,以帮助全世界共同战胜新冠疫情。
这项名为《深度学习在新冠肺炎危重患者早期分诊中的应用》(Early Triage of Critically-Ill COVID-19 Patients Using Deep Learning)的研究,是钟南山院士团队与腾讯公司共同成立的大数据及人工智能联合实验室的成果之一,第一作者分别是广州呼吸健康研究院院长助理梁文华博士,以及腾讯AI Lab医疗中心首席科学家姚建华博士,钟南山院士、广州呼吸健康研究院院长何建行、腾讯AI Lab医疗中心负责人黄俊洲均为共同作者。
在该研究项目中,联合研究团队首先结合 Cox 生存分析算法与 LASSO 算法,对来自全国 575 家医院的 1590 名患者的脱敏入院数据进行了分析建模,并从中确定了 10 项能很好预测重症风险的患者特征,即年龄、是否气促、是否有恶性肿瘤病史、是否有慢性肺阻、合并症数量、是否有 X 光平片异常、血液中性粒细胞与淋巴细胞比例、血液乳酸脱氢酶含量、血液直接胆红素含量、血液肌酸激酶含量。这 10 项特征都是可以通过常规的医学检测手段在合理的时间内有效获取的,因此可用于在早期快速预测患者的重症风险。
训练队列中 10 项所选特征的单因素分析,可以看到年龄是新冠肺炎重症最显著的风险因素之一;事实上超过 60 岁的患者的重症概率明显更高
训练队列中 10 项所选特征的单因素分析,可以看到年龄是新冠肺炎重症最显著的风险因素之一;事实上超过 60 岁的患者的重症概率明显更高。
为了更精确地建模这 10 项特征与重症风险的关系,研究团队采用了最新的深度学习技术来挖掘数据之中的隐含联系,进而计算病人的重症风险系数。
具体来说,研究团队采用了基于深度学习的生存分析 Cox 算法对这 10 项指标进行建模。相比于传统经典方法,深度学习的优势是可通过神经网络对特征进行高阶非线性组合,从而更深层次地建立特征与目标函数之间的映射。经过训练,所设计的模型在验证集上的 C-index (即一致性指数“index of concordance”,通过评估模型预测结果与实际观察结果的符合程度,以评价模型的预测准确性,值越接近1,准确率越高)从0.876提升到了 0.894,AUC (指受试者工作特征曲线下面积,值在1.0和0.5之间,在AUC>0.5的情况下,AUC越接近于1,说明诊断效果越好)从 0.889 提升到了 0.911。
此外,使用该模型对另外 1393 例外部检验患者的回溯数据分析也获得了令人满意的预测性能。外部测试集中 106 例发展成重症的患者中,只有 2 例存在数据异常的患者被错误划分到了低风险组。同时,该模型在不同中心的数据上获得的 C-index 均高于0.85,证明了模型的可靠性与有效性。
不仅如此,研究团队还考虑到了实践中数据不完整的情况,即模型所需的 10 项特征中可能有一部分并未得到测量,原因可能包括接诊医院不具备测试条件或相关医疗资源极度紧张。
针对这一问题,研究团队在系统中加入了多变量数据插补模块,其基于可观察到的变量来找到相似的样本作为参考,通过拟合算法来插补缺失的数值。另一方面,为了提升模型的鲁棒性,研究团队还在训练深度模型的过程中采用了随机丢弃数据并添加数据噪音的实践方法。基于这些数据增强策略,最终得到的模型在仅观测到 7 项特征时依然能取得相当好的表现。
而为了使该技术得到实际应用,研究团队在深度 Cox 模型的基础上又加了一层线性 Cox 模型,以便产生可供医生解读的最终结果。该线性模型会按重要性分别对深度学习模型的预测值与 10 项特征的值赋予不同的权重,然后通过求和得到最终风险系数。
基于深度学习的生存分析 Cox 算法为一位新冠肺炎患者所得到的诺模图。可以看到该患者的总体诺模图分数为 209,未来 5、10、30 天的总体重症概率分别为 0.58、0.62、0.69,因此该患者被归类为具有较高的重症风险。
据悉,该线性模型可以通过诺模图进行手动计算,因其便利性在临床上经常被用来综合各项数值换算最终评估分数。通过诺模图,医生可以很直观地了解各项观察值与风险系数之间的关系,同时也可以在没有电脑的情况下手动计算风险系数。