出品丨虎嗅科技组
作者丨石晗旭
题图丨谷歌研究员博客
最顶级的医生也不一定都有火眼金睛,更何况全球范围内的顶级医生又算得上稀有“物种”。
这正是海内外AI公司们发力医疗影像的根本原因。
但强如谷歌AI医生,也被实操狠狠撞了一下腰。坐拥打败人类的AlphaGo的谷歌,在医疗领域的初次实践反倒给护士和患者们帮了倒忙。
2018年年底,谷歌在泰国启动的AI筛查糖尿病视网膜病变(以下简称糖网)临床项目终于在最近发布了研究结果。
谷歌自曝的研究数据显示,这套AI系统实际“看病”的结果在临床应用的11家泰国诊所间存在高度差异。
这也让参与其中的医护和患者们备受煎熬。
其中一家诊所现场等待筛查的人们
在筛查中,21%的图像因为清晰度问题被系统拒绝识别。随后,护士不得不浪费时间重新拍摄患者眼底照片——即便这些模糊或者过暗的图片用肉眼就可以辨别发病迹象。
而想即时拿到诊断的患者也因为等待时间过长抱怨不止。由于网络问题,一家诊所的筛查甚至中断了两个小时。
“他们从早上6点开始一直等在这儿。而最初的两个小时中,我们只筛查了10个患者。”这是谷歌披露的一位护士的叙述。
临床应用的效果分分钟打了谷歌的脸。早在2016年,谷歌就公布过利用AI筛查糖网的研究成果。经过几年研究,这套系统已经可以在10分钟内识别糖网,且准确率超过90%。
再联想到IBM Watson的大撤退,我们不得不承认,理想还远不能照进现实其实是整个医疗AI行业正在面临的困境。
此前曾有医生告诉虎嗅,对医院来说,AI辅助诊断系统免费用用可以,付费免谈,症结其实也就在这里。
说穿了,AI医生根本没有想象中那么有用。
帮倒忙
这套AI糖网筛查系统,是Google Health团队研究的核心项目之一。
糖网是糖尿病的严重并发症,也是主要致盲的眼病之一。美国疾控中心(CDC)数据显示,14%的美国成年人患有糖尿病,这一慢性健康问题困扰了约3000万人。其中,每年有超过2.4万人因糖网而失明。
不过,如果可以更早、更及时地发现糖网病变迹象,治疗效果就会得到极大提升。
然而在美国,并不是每个可以看糖尿病的全科医生都能充当眼科医生的角色。意识到问题,再去找眼科医生看眼睛,又可能错过了治疗的绝佳窗口期。
糖网防治的现实难度,让谷歌看到了需求。
为此,谷歌团队建立了一个由12.8万幅图片组成的数据集,每张图片均记录着3~7名眼科医生的诊断结果。
被这些数据投喂后的算法,再经过临床数据集的验证,最终被团队评估为已达到人类专家的水平,准确率超过90%。
不过由于尚未通过FDA批准,这套系统在美国的研究进展仍停留在实验室阶段。
直到与泰国卫生部合作,手握CE认证的谷歌才有了下场实践的机会。泰国卫生部希望年度内完成对60%的糖尿病人进行糖网筛查。
在泰国的筛查体系中,护士先为患者拍摄眼底照片,然后将照片发送给专家进行诊断,这一过程往往需要5~6周、甚至10周的时间。而泰国有450万糖尿病人,视网膜专家仅有200位,缺口巨大。
谷歌为泰国的11家诊所安装了数据表现傲人的AI系统。按照理想状态,这无疑将大幅提升糖网筛查的效率——几分钟内就可以完成。
没成想,这套系统令泰国的护士们叫苦不迭。
一方面,护士们想要拿到AI“认可”的眼底照片并不容易。如今,为了免去麻烦,眼底照片的拍摄采用免散瞳眼底相机。
眼底照相机
这一设备对环境要求非常高,因为人类必须在暗室中才能出现足够的瞳孔自然扩大。但谷歌进入的11家诊所中,只有2家有专门的暗室。
而为了保证筛查的准确性,谷歌AI对图像的要求很高。如果模糊或者有暗区,即便图像本身已经可以表明糖网迹象,系统也会拒绝识别。“有些图片比较模糊,我能看清,但系统看不清”,护士吐槽。
护士尝试将光线变化下拍摄的同一只眼睛的眼底图像合成一张清晰图像,但显然“骗不过”AI
在泰国11家诊所的实际应用中,超过五分之一的图像被拒绝识别。也就是说,每个护士在诊所资源限制下每小时拍摄几十名患者的眼底,但这些照片往往还要返工。而就算返工,也不一定能成,时间就这么白白浪费了。
另一方面,网速限制让简单的图片上传都无限卡壳,也给效率添了堵。
此外,就算AI诊断顺利,制定后续治疗方案仍需患者实地就医,这又是一个麻烦事儿。因此,谷歌观察到其所标注的4号和5号诊所中都有护士劝阻患者参加这项AI临床研究。
泰国的患者们显然也不太买账。
对患者来说,图像被系统踢出去意味着他们不得不另找时间就诊。“患者并不关心准确性,而是更关心体验如何”,护士告诉谷歌研究人员,“40%~50%的人不会加入研究,因为他们认为必须要去医院”。
到底谁需要?
实际上,业内人士对谷歌医疗AI翻车并不意外。
在特定的场景下(比如要求严苛的实验室),AI完成得再准确,也无法改变临床时水土不服的窘境。
“从技术来讲,我认为谷歌这套系统的算法还是处于初级的阶段,存在很大的问题”,国内一家医疗AI公司的技术人员告诉虎嗅。
“科研和临床毕竟是两码事。而且所有抛开验证集谈准确率的说法,都是在‘耍流氓’。”
点内科技CEO葛亮也有相同的感受。“临床有其特殊性,既需要产品开发人员对流程非常熟悉,又要进入场景根据医生的需求一起不断优化流程、打磨产品,挑战团队的恒心和耐心。”
显然,这些问题无法在短时间内解决。
技术不足还只是表象。在葛亮看来,全球范围内不少医疗AI产品都是从供给侧出发,而非从临床需求入手。换句话说,先解决技术问题,才拿去临床试碰运气。
以国内医疗AI公司扎堆的肺结节辅助诊断为例。葛亮在实际应用场景中发现,医生最关心的不仅是结节的检出,更是对于结节良恶性的分析、是否需要手术以及采取哪种手术方式的判断——这也是患者所关心的。
这也不难理解。如果只是结节检出,资历稍深的医生很快便可以完成。虽然AI理论上来讲可以加速审片过程,但是其误诊或漏诊给医生带来的复查负担也并不小。
从患者的角度来讲,没有人关心到底是谁给我做出的诊断。让患者做检查和最终对检查结果负责、提出治疗方案的,始终是医生,而非AI。
而肺部疾病的筛查,或者说AI+CT,已经是国内医疗AI发展得最快的领域了,但依然无法避免躺在医院吃灰的冷遇。
也就是说,起码在当下这一阶段,医生和患者的需求都并未得到满足。
不过在远毅资本合伙人杨瑞荣看来,谷歌在泰国面临的网络难题,在国内鲜少存在;同时,国内医疗AI产品的验证数据集更为丰富,使得AI对源图像的质量要求会更宽松一些,可能表现更好。
对这些问题,谷歌也有同样的反思。
“在广泛部署AI工具之前,我们必须了解AI工具将如何在特定环境中为人们服务,尤其是在医疗保健领域。”Google Health的用户体验研究人员Emma Beede在博客中写道。
“在广泛应用这项技术之前,研究和纳入现实评估的临床试验同样重要,我们应该与临床医生和患者进行更有意义的互动。”
说到这里我们不难发现,医疗AI发展的进程,远比实验报告和满天飞的企业公告中所描写的慢得多。而这,正是医疗AI企业迟迟难以商业化的症结所在。
除此之外,到底是哪个科室的医生需要哪种医疗AI产品,也是企业们必须弄清楚的事实。
现在国内的AI产品大多涌入了影像科,但这些影像的辅助诊断结果是影像科医生需要的吗?答案显然是否定的。
而最终需要这份诊断的科室和医生,才是医疗AI产品最可能的付费方。
以糖网筛查产品为例。据悉,中国的糖尿病患者主要在内分泌科就诊。尽管指南建议糖尿病患者定期做眼底检查,但大多数病人仍直到出现视物模糊等症状,才考虑去眼科做进一步检查。
然而,“对眼科医生来说,有时候根本不用拍眼底照片,只要看一下病人的眼底情况就了解了”,曾从事过糖网AI研究的点内科技合伙人兼CBO金胜昔告诉虎嗅。
当然,一些医疗AI公司也在探索医疗之外的更多应用场景。如Airdoc所做的眼底筛查产品目前与宝岛眼镜母公司星创视界合作,可以在眼镜店这样的场景中寻找更多的商业模式。
但若要真正打通技术、需求、场景的连接,从而获得收入,医疗AI仍然任重道远。