处处是“垃圾”：人工智能太缺高质量数据了！_腾讯新闻

来源｜读芯术

图源：blazent

某种程度上讲，人工智能已经超越了我们过去最大胆的想象；但再看实际中，Siri甚至无法告诉用户今天天气如何。

问题在于什么呢？创建高质量的数据库来训练和测量我们的模型仍然是件无比困难的事情。我们本应能在一天内收集到20000个标签来训练Reddit分类器，但实际相反，我们等待了三个月并得到了一个满是垃圾邮件的训练集。

四年前，AlphaGo打败了世界围棋专家们，大型科技公司们对每一个能接触到的机器学习创业公司进行了人才收购，《纽约时报》宣称道“机器学习将对计算机技术进行彻底改造”。

2016年，DeepMind开始建造一个人工智能来玩《星际争霸2》，到2019年底，名为“AlphaStar”的人工智能程序达到了大师级成就。

好像不用几年，Alexa就将会占领我们的家园，而Netflix会比我们的朋友更好地提出电影建议。

在那之后发生了什么？

更快的GPU放弃了训练神经网络的消耗，并允许越来越大的模型得到训练。新型工具们使基础建设工作更加的简单。

能够学习运行更主观的任务的新型神经网络结构也得到了发展。比如说OpenAi的GPT-3模型，这是一个语言生产器，能够撰写博客文章且拿下黑客新闻网站的头条。

一个关于生产效率的GPT-3写的博文拿下了黑客新闻的头条。

那么改革发生在何处？

所以为什么人工智能还没占领世界？为何人们虽然能用GPT-3来生成博文，但是社交媒体公司很难将煽动性的内容从订阅源中剔除?为何有了超人类的星际争霸算法，但电商们仍在推荐我再买一个吐司机？为何模型们能够合成现实的图片（和电影）但却无法面目识别？

模型正在进步，而数据仍止步不前。模型们在数据集上受到训练，而这些数据集仍存在有错误，且和创作者真正想表达的鲜少相符。

现在的数据怎么了？来也垃圾，去也垃圾

在某些情况下，数据是在基于类如链接和用户协议的代理商上进行训练。

比如说，社交媒体推文不是为了提供用户最佳体验而得到训练；相反，它们只是对链接和协议充分利用，这是最简单的数据获取途径。

但是点赞量与数量无关，骇人听闻的阴谋论非常捉人眼球，但是你真的想在你的推文中看到他们吗？这样的错误匹配导致了许多意料之外的副作用，包括有点击诱饵的激增，政治上的虚假信息广泛传播，充满恶意的、煽动性的内容广泛存在。

在另一些时候，模型在这样的数据集上进行训练：由非母语使用者或由那些知道低质量的结果永远不会被检测到的工作者创立的数据集。以下面推文为例：

一个典型的标记器会识别到“bitches”，“fucking”和“shit”并将此推文标记为有害的，不管这些谩骂其实是基于一个正向的，向上的态度。在训练集中这样的情况出现过无数次。数据定义模型。如果数据是错误标记的垃圾，没有一位机器学习专家能够防止模型也同样无用无效。

我们需要怎样的进步？

数据集问题引起了一大堆问题。

当遇到运行不佳的模型时，工程师们花费数月的时间来修补产品特征和新的算法，未曾意识到问题存在于他们的数据当中。本应用来凝聚亲情和友情的算法，相反之下，带来了炽热的情绪和愤怒的评论。如何解决这些问题呢？

熟练且高质量的，能够理解你正尝试去解决的问题的标记器

虽然AI系统越来越复杂，我们需要先进巧妙的人类标记系统来教导和测量它们的性能。想想那些对世界有足够了解的模型，可以对误导的信息进行分类，或者那些可以增加时间而不是点击的算法。

这种复杂程度不会因为多用低技能工人而提高。为了让我们的机器了解仇恨言论，并识别算法的偏见，我们需要高质量的、它们自己也了解这些问题的标签力量。

给机器学习小组和识别器交流的空间

机器学习模型在不断变化着。今日被识别为垃圾邮件的信息明天可能不会如此，而我们永不可能对标记口令的每一个边边角角都有所掌握。

正如构建产品是用户和工程师之间反馈驱动的过程一样，创建数据集也应该如此。当数一张图片中的脸时，卡通人物算吗？当标记仇恨言论时，引号在哪里？标记器在浏览了成千上万的例子后发现了歧义和见解，为了最大化数据质量，我们需要双方进行沟通。

目标功能与人类价值观一致

模型常常是在数据集上训练的，而这些数据集仅仅是它们真实目标的近似值，从而导致了意想不到的分歧。

例如，在人工智能安全的辩论中，人们担心机器智能发展到威胁世界的程度。另一些人则反驳说，这是一个在遥远的未来才会出现的问题——然而，看看今天科技平台面临的最大问题，这不是已经发生了吗?

例如，Facebook的使命不是获得“赞”，而是将我们与朋友和家人联系起来。但是通过训练其模型来增加喜好和互动，他们学会了传播那些高度吸引人的内容，但也会带来伤害和误导。

如果Facebook能将人类价值观注入到其培训目标中会怎样？这并不是一个幻想：谷歌搜索已经在其实验过程中使用了人类评估，我们正在构建的人工智能系统也致力于这样做。

一个数据驱动的AI未来

从核心而言，机器学习是关于教导计算机按照我们所想的方式工作，而我们通过示以正例的方法来实现目标。所以为了构建高质量的模型，一个机器学习工程师需要掌握的最重要技能不应该是构建高质量的数据集，并确保他们与手头的问题相符吗？

最终，我们关心的是AI能否解决人类的需求，而不是它是否超过了人工基准。

如果你在处理内容调节，你的数据集是检测到了恶意言论，还是也捕捉到积极向上、振奋人心的谩骂？

如果你正在建设下一代的搜索和推荐系统，你的数据集是在设置模型的相关性和质量，——还是令人入迷的误导和引诱点击？

创建数据集不是学校里教的东西，对于那些花了数年时间研究算法的工程师来说，专注于arXiv中最花哨的模型是很容易的。但如果希望人工智能能够解决自己的现实需求，我们需要对定义模型的数据集进行深度思考，并赋予它们一定的人文色彩。

来源｜读芯术编译｜欧舒蔓周婷

关于腾讯AI加速器

腾讯AI加速器是腾讯产业加速器的重要组成部分。其背靠腾讯产业生态投资，依托腾讯AI实验室矩阵的核心技术，腾讯云的平台、计算能力以及合作伙伴丰富的应用场景，为入选项目提供课程、技术、资本、生态、品牌等层面的扶持；并与入选项目共同打造行业解决方案，推动AI技术在产业中的应用落地。

在前两期AI加速器中，从全球2000+项目中甄选出的65个项目，整体估值662亿+，融资总额高达70亿+，70%的项目完成新一轮融资；其中腾讯投资乐聚机器人、工匠社机器人、Versa马卡龙玩图，并形成行业解决方案50+。

2019年8月16日，腾讯AI加速器三期名单出炉。TOP30项目从1500个报名者中脱颖而出，录取率仅2%，三期项目总估值超200亿。项目聚焦于金融、教育、安全、工业、机器人、IoT、云计算、5G等。入选腾讯AI加速器三期，意味着正式成为腾讯智慧产业生态的合作伙伴，将与腾讯各智慧产业业务深度结合。

人工智能

为你推荐

科沃斯引领行业智能进化京东超品日掀家用机器人消费热潮

Unity助力创作者制作百万级播放量神作_腾讯新闻

神州泰岳创新新技术，实现产业全覆盖_腾讯新闻

新一代人工智能计算平台发布：当算力成为一种新生意_腾讯

百度输入法不仅让你打字如飞，还让你风趣浪漫会聊天_腾讯

张院士，开讲了！_腾讯新闻

没有车企愿意只作华为的“肉体”_腾讯新闻

5 张图带你了解 Pulsar 的存储引擎 BookKeeper_腾讯新闻

世界首座金属3D打印桥梁成功在阿姆斯特丹安装_腾讯新闻

4层楼的距离拾音：腾讯会议发布天籁语音模组方案_腾讯新闻

热门文章

猜你喜欢