当前位置: 首页 > 科技 > 人工智能 > 全球最大7nm GPU诞生!20倍AI性能升级史上最强!_腾讯新闻

全球最大7nm GPU诞生!20倍AI性能升级史上最强!_腾讯新闻

天乐
2020-05-17 00:55:28 第一视角

电子发烧友网报道(文/张慧娟)疫情所致,英伟达今年的GTC(GPU Technology Conference)改为线上举办,日期也由原来的3月下旬推迟到5月中旬。于是,就有了北京时间5月14日晚,英伟达创始人兼CEO黄仁勋人生中首次的“Kitchen Keynote”。嗯,或许这篇也可以取名为《疫情当前,GPU大佬厨房带货忙》。

当然,姗姗来迟的GTC并没有让人失望,豪横的硬菜有:全球最大的7nm处理器 A100 GPU、可用于对抗COVID-19的最新AI系统DGX A100、收购Mellanox以来的首个成果SmartNIC,这些创新直接彰显了这位GPU霸主对于未来数据中心的理解,以及坚决捍卫既有地位的决心。同时,还有对于边缘市场、自动驾驶、医疗、AI机器人、对话式AI等领域的无限扩张。

第八代GPU A100成全球最大7nm处理器,堪称英伟达史上最大性能飞跃

过去的一年内,英伟达的第八代GPU曾引发了业界的诸多猜测。也正如他早先放风出来“你不会失望的”,这款基于英伟达Ampere架构的NVIDIA A100,将AI训练和推理性能提高20倍,可以说是英伟达GPU迄今为止最大的性能飞跃。作为一款通用型工作负载加速器,A100还被设计用于数据分析、科学计算和云图形。

云计算和AI的强大趋势正在推动数据中心设计的结构性转变,高效的加速计算基础架构正在取代传统的服务器架构。黄仁勋对A100 GPU寄予厚望,认为它“作为一个端到端的机器学习加速器,有史以来首次在一个平台上实现横向扩展以及纵向扩展的负载的加速。在提高吞吐量的同时,能够降低数据中心的成本。”

A100 GPU的突破来源于五大关键性创新:

NVIDIA Ampere架构:这是A100的核心,该架构包含超过540亿个晶体管,这使其成为全球最大的7nm处理器;

具有TF32的第三代TensorCore核心:TensorCore被英伟达广泛采用,现在变得更加灵活且易于使用,使FP32精度下的AI性能提高多达20倍。此外,TensorCore核心现在支持FP64精度,相比前代,它为HPC应用所提供的算力提高了2.5倍。

多实例GPU:MIG,这是一种全新的技术功能,可将单个A100 GPU分割为七个独立的GPU,为不同规模的工作提供不同的算力,将利用率和效率最大化。

第三代NVIDIA NVLink:使GPU之间的高速联结增加至原来的两倍,实现服务器的高效扩展。

结构化稀疏:这种全新的效率技术利用AI数学固有的稀疏性,使性能提升了一倍。

凭借这些新功能,A100可成为AI训练和推理以及科学模拟、对话式AI、推荐系统、基因组学、高性能数据分析、地震建模和金融预测等各种高要求工作负载的理想选择。值得强调的是,A100既可以做训练也可以做推理。根据英伟达给出的数据显示,A100对比前代Telsa V100,进行BERT模型训练性能提升了6倍,BERT模型推理性能提升了7倍。

据了解,A100已全面投产并已向全球客户交付。众多全球云服务供应商和系统构建商计划将A100 GPU集成到其产品中,其中包括:阿里云、AWS、百度智能云、思科、Dell Technologies、富士通、Google Cloud、新华三、HPE、浪潮、联想、Microsoft Azure、甲骨文、腾讯云等等。

新系统已搭载A100,首批订单用于对抗COVID-19

同时发布的还有NVIDIA DGX A100系统,内置8个由NVLink 互联的A100 GPU,具有5Petaflops的AI性能。利用AI00的多实例GPU功能,每台DGX A100能够被分割为56个实例,用于加速多个小型工作负载的处理速度。凭借这些功能,用户可在一个完全集成的软件定义平台上根据自身需求优化算力和资源,加快数据分析、训练和推理等各种工作负载的速度。

针对端到端的机器学习工作流,从数据分析到训练再到推理构建的AI系统,DGX A100提供的性能,能够帮助机器学习工程师应对指数级增长的AI模型和数据。

一个由5台DGX A100系统组成的机架,可代替过去包括AI训练和推理基础设施的数据中心,功耗仅是其1/20,所用空间是其1/25,成本是其1/10。

据了解,多家全球大型企业、服务供应商和政府机构以及订购了前几批DGX A100。首批系统已于本月早些时候交付给了美国能源部(U.S. Department of Energy, DOE)的阿贡国家实验室(Argonne National Laboratory),该实验室将运用该集群的AI和算力来更好地研究和应对COVID-19。

阿贡国家实验室计算机、环境和生命科学实验室副主任Rick Stevens表示,全新DGX A100提供的算力,将帮助研究人员探索治疗方法和研发疫苗、研究病毒的传播方式,使科学家能够利用AI加速工作,在数月甚至数日内完成以前需要数年才能完成的工作。

英伟达还展示了由140台DGX A100系统组成的DGX SuperPOD AI超级计算机,用于公司内部对话式AI、基因组学和自动驾驶等领域的研究。该集群是全球速度最快的AI超级计算机之一,其性能相当于此前数千台服务器的性能,AI计算能力高达700 Petaflops。

面向新一代数据中心的安全加速智能网卡

根据市场研究机构Dell’Oro的数据显示,预计到2024年,智能网卡(SmartNIC)市场规模将超过6亿美元,占全球以太网适配器市场的23%。而整体控制器和适配器市场将以7%的年复合增长率增长,其中25Gbps和100Gbps的销售将是主要增长驱动力。

英伟达显然早已看到这一巨大的机会,收购Mellanox以来首个发布就是25G安全智能网卡(SmartNIC)。据了解,全新发布的ConnectX-6 Lx SmartNIC就是面向新一代解耦式的、可重组的数据中心的经济高效、可加速应用的和安全的智能网卡,是ConnectX系列网卡的第11代产品。

这款产品专为满足现代化数据中心的需求而设计,在这个市场,25Gb/s网络已成为各种主流应用的标准,例如企业级应用、AI和实时分析等。这款全新的SmartNIC充分利用了软件定义和硬件加速等先进技术,将更多的安全和网络处理工作从CPU卸载到网卡上来。

就在今年3月份,赛灵思推出了一体化SmartNIC Alveo U25,通过将SmartNIC平台与FPGA引擎相结合,实现全可编程与一站式加速应用。赛灵思的这款产品卖点之一就是实现了网络、存储、计算加速能力的全集成。

而英伟达的这款ConnectX-6 Lx更强调的是安全加速功能。包括IPsec在线加密和硬件信任根(Hardware Root of Trust),可提升10倍性能的连接追踪(Connection Tracking)功能等,实现了整个数据中心的在零信任下的安全保障(Zero Trust security)。RoCE(RDMA over converged Ethernet)技术、虚拟化和容器化技术,以及NVMe over Fabrics存储卸载技术等,都成为高性能可扩展网络的保障。

SmartNIC正在成为加速计算的下一个必争之地。

云原生技术支持的EGX边缘AI平台

巨大的边缘计算市场自然也是英伟达的重点。

本次发布的两款EGX边缘AI 平台产品分别是:适用于较大型商业通用服务器上的 EGX A100聚合加速器,和适用于微型边缘服务器的微型EGX Jetson Xavier NX。这两款产品能够在边缘提供安全、高性能的AI处理能力。

EGX A100是首个基于NVIDIA Ampere架构的边缘AI产品,结合了NVIDIA Ampere架构所具有的突破性计算性能与ConnectX-6 Dx SmartNIC所具备的网络加速和关键性安全功能,能将标准型和专用型的边缘服务器转变为安全的云原生AI超级计算机。随着AI日益向边缘发展,企业机构可将EGX A100添加到其服务器中,从而实时处理和保护来自边缘传感器的海量流式数据。

EGX Jetson Xavier NX则号称是全球体积最小、性能最强大的AI超级计算机,适用于微型服务器和边缘智能物联网盒。目前,生态圈内的合作伙伴已提供了超过20种解决方案。该产品将NVIDIA Xavier SoC的性能整合到了一个信用卡大小的模块中。运行EGX云原生软件堆栈的EGX Jetson Xavier NX可以快速处理来自多个高分辨率传感器的流式数据。

这两款产品可满足不同尺寸、成本和性能方面的需求。例如搭载了EGX A100的服务器可以管理机场中的数百台摄像头,而EGX Jetson Xavier NX则可用于管理便利店中的少量摄像头。但是,云原生技术支持能够确保整个EGX产品家族都可以使用同一经过优化的AI软件构建和部署AI应用。

黄仁勋表示:“物联网和AI的融合已开启了“万物智能”革命。就像手机行业通过智能手机为用户提供智能服务一样,大型行业现在也可以为用户提供智能互联的产品和服务。EGX边缘AI平台能够将标准服务器转变为一个小型的云原生、安全型AI数据中心。借助于我们的AI应用框架,企业可以构建从智能零售到机器人工厂再到自动化呼叫中心等各类AI服务。”

推荐系统Merlin和对话式AI Jarvis

对于在企业内部开发AI应用的用户,值得关注以下两个框架:推荐系统框架Merlin和对话式AI框架Jarvis。

GPU长期以来都被广泛用于加速神经网络训练,主要因为其强大的并行处理能力可以高效完成各类数据密集型任务。现在,随着数据规模的不断扩大,GPU也正在得到更广泛的应用。借助于RAPIDS数据科学和分析流程加速软件库,数据科学家们能够更快速的完成更多的分析工作。

NVIDIA刚刚宣布的Merlin推荐应用框架,也进一步降低了使用GPU来加速推荐系统的门槛。Merlin为用户提供了一个全链路的方案,用于为推荐系统提供GPU加速的数据提取、模型训练和模型部署。据黄仁勋介绍,Merlin将100TB数据集创建推荐系统所需的时间缩短到20分钟。

随着居家办公、远程医疗和远程学习的快速兴起,对于能够保持人们工作效率和联系的客户支持、实时转录、视频通话摘要等定制化语言型AI服务的需求也随之激增。

基于Jarvis构建的应用程序可以应用全新 NVIDIA A100 Tensor Core GPU 中的各项创新技术进行AI计算,并使用NVIDIA TensorRT的最新优化进行推理。现在,使用最强大的视觉和语音模型运行整个多模态应用已成为可能,而且其速度比实时交互所需的300毫秒阈值还要快。

Jarvis 提供了一整套 GPU 加速软件堆栈和工具,使开发者能够轻松地创建、部署和运行端到端的实时 AI 应用程序,并且能够准确理解各企业及其客户沟通时所用的各种专业术语。

结语

英伟达1999年发明GPU后激发了PC游戏市场的增长,重新定义了现代计算机显卡,并且对并行计算进行了革新。加速计算迅猛发展的25年,也是计算架构、计算系统与软件堆栈风驰电掣般演进的25年。

以GPU深度学习为代表的技术已经点燃了全新的计算时代——现代人工智能,同时也带动了CUDA软件生态的繁荣和开发者数量的迅猛增长。

世界总在前行中,科技也在不断创新。但科技总是为了让生活更美好,正如黄仁勋在今年的Keynote中首先致敬疫情期间坚守在各自工作岗位的普通人,平凡背后蕴藏的巨大能量。黄仁勋仍在挖掘GPU背后的强大潜力。

提示:支持键盘“← →”键翻页
为你推荐
加载更多
意见反馈
返回顶部