来源:战略前沿技术
“大数据”一词是20多年前在1997年第8届电气电子工程师学会(IEEE)可视化技术研讨会上发表的一篇论文中提出的。这个术语用于描述单个数据集,这些数据集太大,无法装入主存储器。
在当时,计算机内存是以MB为单位的,最牛掰的内存也仅为128MB。进入21世纪,随着互联网的日益普及,人们更多地通过互联网共享信息,越来越多的数据以更快的速度进行传输、汇聚,人们就需要开发处理大数据的技术来缓解这种压力。
时至今日,最便宜的智能手机都运行在1GB的内存上,不断增长的数据量并不像以前那么严重。用今天的话来说,2013年的世界数据量是4.4 泽字节(zettabyte,1 zettabyte=44万亿GB),据专家预测,到2020年可能会增加到44泽字节或更多。可喜的是,水涨船高,目前快速发展的先进计算机硬件使得数据收集和存储相对便宜、容易。此外,人工智能(AI)和机器学习(ML)技术的最新发展,也使数据分析变得更易于管理。
人工智能(AI)和机器学习(ML)技术的最新发展,也使数据分析变得更易于管理
大量的数据,如果管理得当,对包括军事在内的许多行业都是一个福音。如果不知道部署资源的时间、地点和内容,就不可能开展有效的军事行动。因此,军事大数据有助于国防领导人做出更好的决策,前提是它不是“黑暗数据”(Dark Data,指通过各种计算机网络操作获取的数据,但不以任何方式用于获取见解或用于决策)
谷歌帮助美国国防部搞的Maven项目,旨在开发无人机利用人工智能、机器学习技术用于数据收集
然而,在军方收集大数据的过程中,经常会出现争议。最近的一个争议是使用开源机器学习平台收集视觉数据,你猜的没错,就是谷歌帮助美国国防部搞的Maven项目,最后在谷歌员工的群情鼎沸抗议下偃旗息鼓转入地下。Maven项目旨在开发无人机利用人工智能、机器学习技术用于数据收集,或者用军事术语来说,用于情报收集。不过说实话,这次抗议活动并不是针对数据本身,而是针对机器学习的潜在攻击性。
米帝情报界17大机构
不管Maven项目何去何从,美国军方还是继续选择与情报界(Intelligence Community)一起合作收集情报。美国情报界包含17大机构(可参见防务菌之前的推送:【Intelligence Community】揭秘米帝情报界17大机构),它们在军事领域的情报搜集涉及以下范畴:
人力情报(HUMINT)
地理空间情报(GEOINT)
信号情报(SIGINT)
开源情报(OSINT)
一、人力情报(HUMINT)
人力情报收集是通过与人的个人接触来收集信息的。信息采取以文件、照片、数字文件和其他材料的形式,通过非官方渠道秘密获得,或通过外交或领事人员公开获得,以及与外国官员的授权通信。军方也可能通过审问敌人或听取漫游者的汇报来获取情报。
美国国防情报局(DIA)在阿富汗开展的人力情报工作
大多数人把人力情报与间谍活动联系在一起。间谍有时被戏称为世界上第二古老的职业,这种说法基本上是对的。间谍在这门学科中确实继续在情报收集中扮演重要角色,尽管它与其他情报更具互补性。例如,人力情报员可以提供代码,使信号情报操作员能够远程访问系统。
通过人力情报收集的数据通常有不同的格式,包括模拟和数字格式。它可能是音频、视频、文本或图像,必须经过分析才能与通过其他学科收集的数据集成。基于人工智能的软件可以标记、组织和分析人力情报数据。目前,美国军方正在对军工巨头雷声公司的FoXTEN情报数据分析平台进行使用评估。
然而,人工智能可能很快就会发挥更积极的作用来对抗跟踪技术,有些是专门为间谍设计的,有些则是不为人知的工具。美国中央情报局有几个正在进行的人工智能项目,包括想出各种方法来欺骗跟踪设备,或在敌对或未知地区绘制监控摄像机的位置图。
二、地理空间情报(GEOINT)
地理空间情报是指使用和研究图像和地理空间数据,以解释、审查和直观地表示地理特征和活动。简单地说,地理空间情报包括从空中、地面或水下拍摄的图像、视频和其他视觉表现中收集的所有情报。
地理空间情报是指使用和研究图像和地理空间数据,以解释、审查和直观地表示地理特征和活动
地理空间情报在军事意义上的价值在于提供物体活动的精确位置,解释它们的含义,并为其提供帮助军事决策的框架。这些视觉数据通常来自卫星、无人机、无人潜航器和其他测量装备。
在大多数情况下,地理空间情报数据是来自不同来源的地理空间数据的集成,以创建一个三维的情景展示。这反过来又集成到多情报源数据中。
地理空间情报数据是来自不同来源的地理空间数据的集成
现在一说到地理空间情报,不得不提无人机的使用,更通俗地说是无人侦察机。多年来,美国军方一直在使用无人机收集情报,以支持军事人员和行动。然而,通信速度、存储容量和机器视觉软件自主操作无人机的能力的提高也直接导致了数据过载。
公开的数据显示,美国军方库存的8000多架无人机使用效果良好。人类分析师每天要审查大约1600小时的无人机录像,这还不包括静态图像。这些数据对地面士兵和总部指挥官来说是无价的,但前提是分析必须准确及时。
美国军方库存的8000多架无人机贡献了海量情报数据
人工智能和机器学习算法能够比人工操作更快速、更彻底地分析无人机视频和检测威胁。这是Maven项目的基础,该项目使用基于TensorFlow(一个开源软件库,用于各种感知和语言理解任务的机器学习)平台对无人机镜头进行预测分析。在谷歌决定不再更新人工智能开发项目后,美国国防部转而需求安德里尔工业公司(Anduril Industries)的帮助,为军用无人机开发传感器融合平台。
据该公司网站介绍,借助莱迪思(Lattice)人工智能平台,“只有最后的信息才被传回给用户。这使得一个由功能强大的计算机组成的大规模可扩展网状网络能够在不需要部署服务器场或命令中心的情况下进行数字计算。”
三、信号情报(SIGINT)
信号情报是通过截获信号和传输获得的有关外国目标的行动、目标和能力的信息。信号情报的三个子集取决于传输类型。通信情报(COMINT)来自通信系统,电子情报(ELINT)来自雷达和武器系统,外国仪器信号情报(FISINT)来自正在开发或测试的武器系统。
基于非常广泛的数据源,信号情报总是有足够多的数据可以使用
美国国家安全局(NSA)通常会收集使用各种方法的恐怖分子、组织和与国际或外国协会有联系的人员的信号情报,搜集的渠道往往使用无人机多于其他任何手段。它只有在美国政府正式要求时才会这样做。国家安全局将原始数据翻译、解码和分析为非国家安全局分析员(如中情局和情报界的其他分析员)可用的形式。这些机构将美国国家安全局的资料与其他情报机构的数据结合起来,描绘出一幅完整的画面。
基于非常广泛的数据源,信号情报总是有足够多的数据可以使用。在各种活动中,电话交谈、电子邮件、无线电波、卫星传输、无线连接甚至键盘振动一直在进行,这些都为国家安全局的信号情报搜集提供了大量的信息。
借助军事人工智能,对海量信号情报进行分析研判
这里面的挑战在于从随机信号的碎片中挖掘出有价值信息的核心。收集过程包括首先从信号层提取特定类型的信号,或者从杂乱的对话中提取对话。经提取后,信号情报分析人员根据一组参数筛选候选项以选择要保留的项。国家安全局随后储存这些选定的信息,并将其发送给提出情报请求的机构作进一步分析。
这一过程是繁复的,并不总是尽可能彻底。情报界将不可避免地期待先进的人工智能和机器学习技术,使这一进程更快、更好地发展。信号情报的主要目的是防御,了解敌人的位置、意图和能力,可以在很大程度上防止对士兵和平民的伤害。
然而,研究人员越来越希望信号情报能做其他事情。一是提供洞察,帮助他们从所收集的数据中准确预测未来的事件。
为此,美国情报界中的研究机构“情报高级研究计划局”(IARPA)联系了学术和商业领域的数据科学家和机器学习工程师,以开发连续、自动化的信号情报分析技术。IARPA发起的“水星挑战赛”在去年春季落下帷幕,奖励颁给了开发出定制算法的团队,这种算法能够有效地“预测涉及军事行动、内乱或传染病的事件,特别是在中东和北非讲阿拉伯语的国家。”
IARPA发起的“水星挑战赛”
此外,复杂的网络与电磁活动(CEMA)以及来自敌方的电子战的迅速兴起,迫使美国陆军将信号情报、网络和电磁系统融合到一个平台上:地面层情报系统。陆军正在积极寻求加快集成的建议,包括开发机器学习软件以减少工作量。
DARPA的Insight项目旨在为情报、监视与侦察(ISR)信息创建一个适应性强的集成系统,以增强情报分析员对战场上时敏行动的支持
信号情报技术的另一个潜在用途是承担更积极的防御作用。探测、识别和评估信号威胁程度的能力,例如地空导弹的雷达,可以造成任务成功与失败的巨大区别。
美国波音公司研制的EA-18G“咆哮者”电子战飞机通过干扰敌方雷达信号来保护己方作战人员的安全。美国海军正在有计划地通过集成能够更快地检测到信号并更准确地区分敌我信号的人工智能软件,使“咆哮者”在防御方面更加有效。
未来,信号情报收集和分析的世界不再是截取消息和破解代码以供其他人采取行动。借助于精确的数据和机器学习,信号情报正面临着迅速发展的电子战带来的挑战。
四、开源情报(OSINT)
正如这一术语字面上所显示的那样,开源情报是从开源或公共来源中收集数据,以用于特定目的。这是对开源情报的一个非常宽泛的定义,在开源情报存在的50年里,很难找到一个更详细的定义。兰德公司认为,原因在于公开的数据源总是在变化。随着互联网的普及和社交网络的激增,这一点变得更加明显。
随着互联网的普及和社交网络的激增,开源情报的数据量也在激增
开源情报的来源经过多年的发展。在第一次迭代中,最多产的开源情报源是电视、广播和印刷媒体。在过去,人工操作人员会手动查看这些数据源。后来,情报机构使用商用现货(COT)软件来收集、清理和分析开源情报数据。
传统媒体仍然是开源情报的来源,但真正的数据收集引擎是互联网。即时访问随时可用和不断更新的数据有利于情报收集行动。其中包括博客、在线报纸、社交网络、视频流服务、论坛和其他用户贡献的内容以及网站后端隐藏的“大秘宝”。
分析师必须执行从事实检查到情绪分析的所有操作,始终牢记数据的上下文情境
开源情报带来的问题在于可用数据的庞大数量和复杂性。来自互联网的数据流有层层细微差别,分析师必须执行从事实检查到情绪分析的所有操作,始终牢记数据的上下文情境。
为了显现这项任务的艰巨性,你可以了解下当前世界上主流社交媒体的数据量:“推特”(Twitter)用户平均每天上传6.56亿条推文(川建国同志拥有每日至少三推的贡献量),“非死不可”(Facebook)用户平均每天发布43亿条信息。这是两个社交网络的数据。再加上谷歌每天的搜索量(52亿),“油管”(YouTube)视频的观看量(每分钟400万),博客文章的发布量,这为美国军方提供了可获取的海量数据。
世界上主流社交媒体产生了海量情报数据
在军队中,分析员必须能够过滤这些数据流,以识别和分类对军事战略和行动有任何用途或影响的一切。这可能与某些国家、特定个人、高危人群、武器等有关。他们必须在与人类行为相关的情况下,并在实时的情况下,彻底地做到这一点。
没有人工协助,对于操作人员来说,这显然是不可能完成的任务,情报界深知这一点。为了满足这一需求,美国中央情报局(CIA)目前正在研究几个使用人工智能进行开源情报搜集分析项目,但又不只是用于分析。它计划使用人工智能软件和自然语言处理算法,系统地浏览社交网络和其他开源情报源的数据流。软件将只选择相关的项目,理论上减少了75%的开源情报收集器的工作量。
中央情报局的想法是在5年内与私营公司合作,利用机器学习在开源情报和大数据收集与分析方面进行实验。中情局在2018年5月宣布了梅萨维德(Mesa Verde)项目,但目前还没有关于该项目的最新进展。
然而,商业部门并没有像军方这样谨慎。像谷歌这样的公司已经有了专门用来处理大数据的工具和API,例如BigQuery这一全管理、PB级、低成本分析数据仓库。BigQuery是无服务器的,没有要管理的基础设施,也不需要数据库管理员,因此用户可以集中精力分析数据以找到有意义的见解。BigQuery是一个强大的大数据分析平台,适用于所有类型的组织,从初创企业到财富500强企业。
军队的大数据来源多,信息过载是一个非常现实的问题。人工智能和机器学习可能是一个有效的解决方案,指望商业和学术机构来处理大数据是军方采取的合乎逻辑和最具战略意义的举措。
注:原文来源网络,文中观点不代表本公众号立场,相关建议仅供参考。