随着 AI 向各行各业逐渐深入地渗透,“AI + 医疗”近年来在健康管理、医学影像、辅助诊断等应用场景方面取得了不少进展,而极具技术壁垒的新药研发场景仍然还是一片蓝海,由此也博得了产业界和资本界的高度关注。
目前,“AI + 新药研发”的入局者主要有两类:一类是以 Insilico Medicine、Atomwise 等为代表的初创企业,团队以生物计算交叉背景居多,发展势头强劲;另一类是已经具备先进的 AI 技术能力,后向医学领域溢出的互联网科技公司,比如谷歌和赛诺菲联合推出药物研发虚拟创新实验室,微软宣布与诺华进行为期 5 年的 “AI + 药物研发” 合作。
在国内,腾讯也加入了这一行列,此前,腾讯曾多轮投资做药物晶型预测的晶泰科技。本月初,腾讯首席运营官任宇昕在 “世界人工智能大会 2020 云端峰会” 对外宣布进军 “AI + 新药研发” 领域,其自主研发的 AI 药物发现平台“云深智药(iDrug)”正式亮相。
两个模块已开放使用
“云深智药” 缘起于 “只在此山中,云深不知处”, 道出了新药研发的复杂过程。众所周知,新药研发周期一般为 14 年,研发费用超过 10 亿美元,且研发成功率低,原研化药研发成功率约 6%。
图 | “云深智药”药物发现平台(来源:“云深智药”官网)
“云深智药”是一个小分子药物发现平台,其功能模块覆盖临床前新药发现的全流程,包括蛋白质结构预测、虚拟筛选、分子设计 / 生成、ADMET 预测及合成路线规划五大模块。平台已于 7 月 8 日上线虚拟筛选和 ADMET 性质预测两个模块,供用户免费使用;蛋白质结构预测、分子设计 / 优化、合成路线规划等模块将陆续在年内上线。官方称,除了能够免费使用平台搭载的核心功能外,药企、科研机构还可以与腾讯共同开发定制化的 AI 工具。
图 | “云深智药”五大模块,目前虚拟筛选和 ADMET 性质预测两个模块已开放上线,供用户免费使用 (来源:“云深智药”官网)
腾讯告诉生辉,目前 “云深智药” 平台上已经在运行十个左右研发项目,包括筛选抗新冠病毒药物的相关研究等。其合作伙伴主要包括高校等科研机构和医药研发企业(包括国内外知名药企)。
“云深智药”是腾讯以 AI 技术赋能药物发现的首个产品,由腾讯 AI Lab 打造。腾讯 AI Lab 于 2017 年开始 “AI + 医疗” 探索,从影像筛查、病理诊断、再到 2019 年初启动了药物研发项目。今年 7 月 21 日,腾讯对外披露了其在医疗健康领域的最新进展。钟南山院士团队与腾讯 AI Lab 联合发布了一项利用 AI 预测 COVID-19 患者病情发展至危重概率的研究成果,可分别预测 5 天、10 天和 30 天内病情危重的概率,有助合理地为病人进行早期分诊。
当被问及缘何加入 “AI + 新药研发” 领域,腾讯回答:“数字化、智能化的药物研发方法已展示出重要的潜力和价值;同时,在 “AI + 医疗” 领域,腾讯已经积累了一定的前沿算法、数据库优化和计算资源上的优势,希望通过整合自身的研究能力与应用经验,打造 AI 驱动的新药研发平台,用技术助力药企与科研机构,缩短药物研发周期,提高药物研发流程的效率和准确率。”
“AI + 新药研发”是一个交叉学科领域,只有精深的 AI 技术远远不够,生物学以及物理化学等知识体系与药物发现平台息息相关。对此,腾讯向生辉透露了其团队构成,其团队成员包括来自顶级科研机构和知名药企的生物医药专家,和国内外一流高校的 AI 算法科学家(以 AI 相关专业博士为主),以及平台系统技术开发工程师。
平台优势
腾讯称:“该平台的一大优势在于各功能模块为用户提供腾讯自研的创新算法,其算法准确度达到国际领先水平,能更高效率、高质量地完成研发任务。比如在蛋白质结构预测模块,平台的自研算法在国际权威的 CAMEO 大赛中获得验证,比分大幅超越其他顶级学界与企业队,保持了月度及周度冠军。在药物虚拟筛选和 ADMET 性质预测上,平台的自研算法也在多个公开数据集上取得了较高精确度、突破了业界标准。还提供数据库 - 算法 - 算力一体化服务,药企、科研机构登录平台即可开展研究,不需要再自行部署计算资源,从而能快速地将 AI 能力引入现有的研发流程中。”
CAMEO 平台提供蛋白质结构预测、三维蛋白质结构质量评估和氨基酸残基接触预测评估,采用由蛋白质结构预测社区制定的质量评估标准。它是全球预测蛋白质结构领域最权威的测试平台,也是全球唯一的蛋白质结构预测自动评估平台。在与包含华盛顿大学、密歇根大学在内的 35 支顶级学界与企业队的较量中,“云深智药”在半年内夺得五次月度冠军。
图 | 腾讯算法测评(来源:https://cloud.tencent.com/developer/article/1658085)
根据腾讯的介绍以及平台官网数据,以 “云深智药” 已开放的虚拟筛选模块为例,其具体功能是:
基于配体的药物设计方法(ligand-based drug design,LBDD)是虚拟筛选的常见方法之一,指的是从已知有活性的配体小分子结构出发,学习和建立分子结构与活性之间关系的模型,用来预测新化合物的活性,适用于在靶点和晶体结构不明确的情况下筛选分子。目前,该模块支持对 920 个蛋白质靶点相关的 2224 个生物测试实验进行活性预测和分子筛选。
具体使用流程是:
第一步,在不知道 Assay ID 的情况下,通过靶点选择相关 Assay,输入靶点后再勾选相关的 Assay ID;在知道 Assay ID 的情况下,通过直接指定的方式选择 Assay ID 列表,点击 “Assay” 选项输入 Assay ID,系统会根据输入的前缀给出相关候选 Assay ID;
第二步,选择 Safety Panel Assay;
第三步,选择 Kinase 相关 Assay;
第四步,选择分子库;
第五步,设置好上述参数以后,点击提交任务;
第六步,查询任务结果,点击历史记录按钮,并以 csv 文件的格式导出。
图 | 基于配体的药物设计方法操作流程(来源:“云深智药”官网)
平台开放的另一个模块,ADMET 性质预测,指的是对药物的吸收、分布、代谢、排泄和毒性性质的全面研究,药物早期的 ADMET 性质预测可以明显提高药物研发的成功率。目前,ADMET 模块已经上线了 50 个模型(包括 12 个基本理化性质和 38 个 ADMET 性质)。通常,计算 100 个分子需要大约 3 分钟。
具体操作流程是:
第一步通过分子式编辑器、SMILES 表达式和上传分子式文件等方式输入数据;
第二步,输入数据后,会显示预测结果(主要包括 3 个部分即分子结构图、基础属性和 ADMET 属性),然后把预测结果保存为 csv 格式导出;
第三步,用户可以查询历史记录;
第四步,查看 ADMET 属性。
图 | ADMET 预测流程(来源:“云深智药”官网)
数据及可解释性问题带来的挑战
虽然 AI 技术通过深度学习算法,加快新药研发进程,但是也存在着一系列局限性。比如说 AI 对数据样本依赖大(但是很多数据掌握在药厂和医院手中)以及预测指标单一,这些往往是药物发现的重要制约条件。当前,国内 “AI + 新药研发” 起步相对较晚,研发周期相对较长,加上算法需要大量的数据积累,短期之内企业难以盈利。目前,还没有一家 AI 药物研发的成功案例,也还没有一款 AI 研发的药物被批准上市。此外,传统医药行业对于 AI 驱动药物研发也不乏质疑之声,这些都为 “AI + 新药研发” 增添了一抹不确定性。
谈及如何克服 AI 存在的局限性,腾讯认为:“‘云深智药’平台使用的分子大数据,基于现有公开数据集,且进行了多个环节的精细清洗整理工作,得到可以用于直接构建深度学习模型的药物分子大数据集,从而帮助用户解决了数据难以对齐、字段缺失较多、总体质量不佳等开源数据集的常见问题。此外,平台还可提供本地版本等灵活的部署形式,药物企业和研究机构利用自有数据开展研究,数据安全能得到有效保障。”
“从目前情况来看,药物研发行业既希望 AI 能帮助改变药物研发的漫长过程和低成功率,也要求此类工具能充分验证自身能力并提供可解释性。‘云深智药’平台很重视 AI 的可解释性问题。比如在在分子属性预测问题上,模型缺可解释性就是一大挑战。该平台的 ADMET 模块,可以在精确预测分子属性的同时,给出模型预测的依据,提高模型的可信度。” 腾讯补充道。
AI 毕竟不是魔法,无法点石成金。“AI + 新药研发”亦是如此,还需要长期的沉淀。腾讯此番入局 “AI + 新药研发” 能否帮助找到“云深之处”,同样也需要时间来证明。
-End-