当前位置: 首页 > 科技 > 人工智能 > 岑少宇:哈佛新冠论文的漏洞,你以为就那么几条?_腾讯新

岑少宇:哈佛新冠论文的漏洞,你以为就那么几条?_腾讯新

天乐
2020-06-13 13:49:40 第一视角

【文/ 观察者网专栏作者 岑少宇】

6月8日,美国哈佛医学院公布了一篇尚未经过同行评议的论文,在太平洋两岸火了一把。

论文标题是“对中国武汉医院交通与搜索引擎的数据分析,提示2019年秋季有早期疾病活动”,什么疾病呢?标题没有明说,看下去就知道,当然是全球瞩目的新冠病毒肺炎了。

作者们在摘要里说,2019年夏末秋初,武汉医院的停车量和百度上“咳嗽”的搜索量都增加了,虽然“咳嗽”可能和流感季相符,但“腹泻”更多地是个具有新冠特征的症状,“只和当前流行病相联系”(only shows an association with the current epidemic)。“这些信号都早于12月,突出新颖的数字信息对监测新传染病的价值。”

摘要里还不敢明言新冠就是夏末秋初爆发的,但显然已经明确联系起来。

可我就纳闷啦,有些新冠病人有腹泻,但引起腹泻的病那可多了去了。你们不知道武汉夏末秋初有多热是吧?东西时间放得长了,吃坏肚子很正常啊。

我迫不及待地打开论文,想看看作者们到底是怎么想、怎么做的。

你猜怎么着,他们还真的煞有介事地说:“我们发现,8月对腹泻的搜索有独特的增长,过去的流感季里没有观察到,与咳嗽的搜索趋势也不相符。虽然令人惊讶,但这一发现与最近的一项研究一致,那项研究确认胃肠道症状是新冠的特征之一,可能是现有相当一部分病人的主诉。”

然而,流感季原文用了复数,显得好像以前一直没有,2019年真的很特别的样子。但图说明确写着,只是2018年1月到2020年5月。因此8月仅有2018年与2019年比较,根本不说明问题。

我详细看了看方法,作者声称用WebPlotDigitizer在百度指数的页面上提取“咳嗽”与“腹泻”的“相对搜索量”(relative search volume),也没有具体解释什么是“相对搜索量”。也许就只是“搜索指数”的数值吧,毕竟百度并不公布“绝对搜索量”,但为什么不写明呢?

不大了解中国网络的外国研究者,会不会被volueme和index搞糊涂,不方便查验呢?

论文作者后来又在讨论搜索数据时承认:“尽管此方法在复制时间序列时显示有效,但使用自动化工具(提取数据),生成数字图像,确实意味着提取的时间与数值是近似值。”

没想到,观察者网编辑一查验“百度指数”,发现不管怎么理解所谓的“相对搜索量”,“咳嗽”的曲线形态是一致的,但“腹泻”的曲线形态完全不同,根本不存在8月的独特增长。这个问题怎么解释?还能认为只是近似值的问题吗?

蓝线为咳嗽,红线为腹泻

所谓显示“复制时间序列时有效”的参考文献,我看了,是纽约市2012-2013年流感季的推特数据,换了一个完全不同的平台就真的有效?事实就是打脸了。

就算按照论文作者的图表,“腹泻”搜索有暴增(第一根虚线的左侧一小段),但同时“咳嗽”搜索在下降。假如真是新冠,必定存在大量有消化道症状、没有呼吸道症状的患者。

但我看了论文作者引用的那项“胃肠道症状”研究,这类患者在新冠病人中占多少?只有3%!这个问题,他们又怎么解释?

不要以为论文引用了什么,就一定是站它的,其实可能只是浑水摸鱼。

“咳嗽”搜索的问题,当然也不攻自破。只要看看作者自己的图片,就能发现,2018年流感季的“咳嗽”搜索,迅猛增长发生的月份比2019年流感季更早。

更重要的是,每年流感季的时间、强度都不同,单把流感季的相关特征拿来比较,根本无法推断是否有新的疫情发生。更何况只有两年的比较。

论文作者在讨论搜索数据时,自己也坦承“不能给增长的原因下结论”,但又“假设有广泛的社区传播”,明明缺乏严密的逻辑、靠谱的证据,还要如此推论,这是学术还是话术?

剩下的就是停车问题了。论文作者说,“10月和11月医院停车量增加了,‘咳嗽’搜索也增加了”。普通人看了,都知道这是废话,这不是流感季理所当然会有的情况吗?

且不说进医院的人数,完全无法和特定疾病相联系,你根本无法知道一个人进医院是看什么病,就算真的都是呼吸系统疾病,又能说明什么问题呢?

看上去,2019年的停车量比2018年相应月份的高,但论文的“结果”部分,只是描述了2019年的曲线形态,根本没有与2018年的具体比较,只是说“2018至2020年间,医院停车量总体呈增长趋势”,难道自己也对仅仅两年的比较有点心虚?

其实一搜索就能发现,“据武汉交警介绍,武汉市机动车保有量……2015年年末达到205万辆;随后,每年以30万辆左右的速度递增,2019年年底突破330万辆。”停车量整体增长是很正常的。

还有更复杂的,武汉的轨道交通建设也热火朝天。2018年10月1日,武汉地铁7号线、11号线东段一期开通试运营。12月28日,武汉地铁纸坊线正式开通运行。2019年2月19日,武汉地铁2号线南延线开通,9月25日,武汉地铁蔡甸线正式开通试运营,11月6日,武汉轨道交通8号线三期开通试运营。

也就是说,两种出行方式的基本情况变化都很大。在具体某一时刻,你根本无法判断机动车用户、轨道交通用户的增减情况。

论文作者里好像有懂中文的呀,这些信息都查不到?是不是查到了也不敢说?因为本来证据就薄弱,如果再承认背景条件变动如此剧烈,这论文就没法看了。

其实论文的方法还有更多问题。作者声称搞了一个全面的武汉医院名单(a comprehensive list),但排除专科医院(如武汉亚洲心脏病医院),以及没有卫星图像的医院(如金银潭),选定了6家医院用于图像分析。

从一个“全面”名单,砍到只剩6家……6家啊,这能有什么代表性?

论文作者在2018年1月9日到2020年4月30日几乎整整28个月里,总共只搜集到111张武汉卫星图片,提取出140张医院图片。分摊到每家医院,平均只有23张多,连每月一张都不到。因此,医院数据有长达半年、甚至一年以上的跳断。这又能有什么代表性?

论文作者解释,由于“缺乏商业价值”,武汉的卫星图片比其他城市中心的相对较少,长时段存在多云天气与雾霾,甚至抱怨在向中国卫星公司获取数据时“遇到挑战”……但关键问题,难道不是数据不理想,就不要硬写论文吗?

作者还选中武昌火车站、汉口火车站、华南海鲜市场作为方法有效性的验证(validation)。然而,这个验证对象的选择是错误的。

虽然中国医院往往“人满为患”,但从实际的就医经验看,上午、中午、下午医院里的人数多寡、等候的时间长度,都是不同的。

论文作者在讨论时,其实提到了时刻问题,但出发点是规避高楼阴影,要用中午时的图片。然而,全部选择正午的卫星图片是做不到的,只能选接近的时刻。但这近似就有问题了,上午11点和下午1点,完全可能是两种出行模式。

如果数据对时间敏感,卫星又难以保证在每天同一时刻掠过目标上空,最需要验证的是,不同时刻获取的数据,能否真实反映当天医院客流量的相对多寡。但火车站和时刻表相关,海鲜市场也不是医院,这样的验证设置,毫无意义。

作者最后在“结果”的文字部分只提了验证地点的照片数量是117张,没有具体的分析,另在附图中出现了天佑医院与海鲜市场的比较。但令人惊奇的是,医院有三张图片,是2018年10月、2019年10月与2020年2月,市场却只有2019年9月、2020年2月两张图片。

且不说时刻的问题,单看这个日期选择,就是匪夷所思。2020年2月已经是封城的特殊时期,根本没有比较的价值。如果作者想呈现特殊时期的情况,也应该同时提供与论文主旨——“早期疾病活动”相关(如2019年12月)的图片,看看10月与12月的差别,以及2018年相应月份的比较。(不过需要再次指出,即使如此,也是有问题的,就像前面所说,流感季每年会有数量与时间前后的波动,仅比对两年不合适。)

现在2018年市场图片又缺失,无从比较,光有2019年的图片有什么用?这五张图完全失去意义。

有人嘲讽说论文是本科水平,我觉得高中生都未必会这样展示所谓的“验证”吧?也许作者有什么难言之隐?

用卫星监测整体就医量,对于公共卫生可能有一定的参考意义,但在具体操作上有前面所述的种种困难与陷阱,可比较的数据不足,很难得到理想的结果。而且,在医院系统内部有迅捷的数字统计与上报系统的情况下,并没有优势。如果要针对单一疾病,在原理上就有根本缺陷——无法从整体中辨别出单一疾病,这点远不如医院系统的直接统计。

至于搜索的信息,同样有根本缺陷。某种症状的搜索量增加了,当然有些提示作用,但一种症状,往往对应许多种疾病,根本无从判断是哪种疾病的患者增加,更不要说判断有没有新疾病了。

那么,论文作者们为什么在承认诸多不足时,依然对自己的方法颇有自信,非写文章不可呢?我不揣测他们是否对中国有什么主观恶意,还是从论文分析。

他们在引言第二段里就说:“数字流行病学和非传统数据流,如卫星图像和互联网搜索趋势,以前曾被用于呼吸道疾病监测”。

听着好像很厉害啊,早有验证呢。但看看这句话后面的两篇参考文献。

一篇是《H7N9流感与数字流行病学的重要性》,其实也不算是论文,是发在《新英格兰医学杂志》上的“perspective”,可以称为“热点透视”。

但看下来,这“透视”里也没多少有价值的独家信息。2013年3月31日,中国官方向WHO通报发现了H7N9流感,“透视”作者们的工作,只是看了下3月31日后,推特数量、中英文报道的数量、新病例和新增死亡的数量。

这只是爆发后的“数字流行病学”,又不是没发现H7N9时的“早期疾病活动”,和新论文没什么关系嘛。

疾病曝光后,相关新闻、帖子数量当然增加,随着新增病例归零,舆论热度也消退,拍拍脑袋都能想到。

另一项工作是从微博上找信息,比如附在文中的图片,是4月3日流出的病例,作者的意思是要重视这种社交媒体上的信息。但当时官方都已经通报,这病例又能说明什么问题呢?和早期监测、预警也无关。

我是搞不懂为什么要引用这样的文献,一看作者,很眼熟啊,这John S. Brownstein不也是新论文的作者吗?

再看第二篇参考文献《利用从高分辨率卫星图像获取的医院交通数据监测疾病趋势》。稍微有点干货了,大意是在墨西哥、智利、阿根廷通过医院的卫星图片,经过一番操作,最终拟合出流感样病例在病人总数中的比例,与停车数量的趋势呈现一致性。

这篇参考文献的主要作者也有John S. Brownstein,另一个Elaine Okanyene Nsoesie,也是所评哈佛论文的作者之一。

自己引用自己,玩得挺溜。这当然不犯法,但看上去,给人的感觉好像这套方法就是你们小圈子里在玩啊。前面提到的那些根本性的障碍,在拉美的研究里,为什么就“神奇”地解决了呢?作者们是不是要好好反思下基本原理、数据获取与处理的方法,甚至是否存在更严重的学术问题?

喜欢自引自high,还非要硬着头皮写论文,难怪论文公开后饱受批评,只有政客和西方媒体在吹捧;也难怪世卫组织卫生紧急项目负责人迈克尔·瑞安会说:“重要的是不要过多推测……因为本身并没有证据表明实际发生了什么……世卫组织将不会基于此类研究展开推测,因为其不会在提供支持和跟踪疾病上产生帮助。”

本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。

提示:支持键盘“← →”键翻页
为你推荐
加载更多
意见反馈
返回顶部