AI的决议性时刻，英伟达「赢麻了」_国际期货,香港期货开户

来源：民众期货 2023-03-22 11:29

“切勿错过AI的决议性时刻！”这是英伟达2023年GTC大会的广告语。不知英伟达所说的“决议性时刻”是指黄仁勋在GTC大会主题演讲中三次强调的“AI的iPhone时刻”，照样说本届GTC大会就是AI的“决议性”时刻。

固然，今时今日可能确实是AI的决议性时刻。

从上周三到现在，一系列或惊艳，或不那么惊艳的最前沿AI手艺连续不断地刷爆科技新闻版面。从OpenAI公布GPT-4，到百度公布文心一言，再到微软公布Office的AI助手Microsoft 365 Copilot，以及Midjourney公布能“画手指”的V5版本，甚至几个小时前，谷歌也上线了Bard谈天机械人接受排队测试。

在这样的AI要害时刻，手握GPU算力手艺的英伟达自然不会缺席，究竟在大模子军备竞赛中，作为“军器商”的英伟达，已经赢麻了。

北京时间3月21日晚11点，2023春季GTC大会正式上线，在大会的主题演讲中，黄仁勋围绕AI、量子盘算、芯片等前沿科技，公布了一系列前沿手艺和产物。

ChatGPT专用GPU可提速10倍

围绕AI的公布自然少不了GPU的提速，在黄仁勋的主题演讲中公布了全新的GPU推理平台，该平台包罗4种差异设置，针对差异事情负载举行优化，划分对应了AI视频加速、图像天生加速、大型语言模子（LLM）加速和推荐系统和LLM数据库。包罗：L4 Tensor Core GPU、L40 GPU、H100 NVL GPU和Grace Hopper超级芯片。

其中，H100 NVL是专门为LLM设计的GPU，接纳了Transformer加速解决方案，可用于处置ChatGPT。相比于英伟达HGX A100，一台搭载四对H100和双NVLINK的尺度服务器速率能快10倍，可以将大语言模子的处置成本降低一个数目级。此外，H100 NVL配备94GB HBM3显存的PCIe H100 GPU，接纳双GPU NVLink，支持商用PCIe服务器轻松扩展。

L4是针对AI天生视频的通用GPU，用于加速AI视频，可以提供比CPU高120倍的性能，能效提升约99%。可以优化视频解码与转码、视频内容审核、视频通话等性能，一台8-GPU L4服务器可以取代100多台用于处置AI视频的双插槽CPU服务器。现在，英伟达GPU在AI视频生产手艺供应商Runway的产物中已经提供了响应的手艺支持。

L40则是用于图像天生，针对2D、3D图像天生举行优化，并可以连系Omniverse，直接天生3D内容，甚至是元宇宙内容。该平台推理性能是英伟达的云推理GPU T4的10倍。

此外，Grace Hopper超级芯片是为推荐系统和大型语言模子AI数据库设计的。可用于图推荐模子、向量数据库和图神经网络。它可以通过900GB/s的高速一致性芯片到芯片接口毗邻英伟达Grace CPU和Hopper GPU。

盘算光刻手艺提速40倍

黄仁勋带来的另一项革命性手艺，也关乎英伟达自身的产物研发，是一项聚焦先进芯片设计制造的手艺——NVIDIA cuLitho的盘算光刻库。

NVIDIA cuLitho盘算光刻库可以通过盘算手艺大幅优化芯片制造流程，行使GPU手艺实现盘算光刻，可以使传统光刻手艺提速40倍以上，为2nm及更先进芯片的生产提供助力。

事实上，英伟达的盘算光刻库在研发历程中，已经与3家全球*的芯片制造厂商开展了长达4年的相助。包罗晶圆制造巨头台积电、光刻机制造商阿斯麦，以及EDA巨头新思科技，现在3家厂商均已最先将该手艺引入芯片设计和制造流程。

“盘算光刻是芯片设计和制造领域中*的盘算事情负载，每年消耗数百亿CPU小时。”黄仁勋先容说，大型数据中央24x7全天候运行，以便确立用于光刻系统的掩膜板。这些数据中央是芯片制造商每年投资近2000亿美元的资源支出的一部门。

NVIDIA H100需要89块掩膜板，在CPU上运算时，处置单个掩膜板，当前需要2周时间。若是在GPU上运行cuLitho则只需8小时即可处置完一个掩膜板。黄仁勋说：“台积电可以通过在500个DGX H100系统上使用cuLitho加速，将功率从35MW降至5MW，替换用于盘算光刻的40000台CPU服务器。”

GPU&量子盘算

除了AI和芯片以外，英伟达还在研究另一项前沿科技——量子盘算。

本次GTC上宣布的*个全新产物就是与Quantum Machines相助的NVIDIA DGX Quantum。该产物连系了通用量子控制系统Quantum Machines OPX 和NVIDIA Grace Hopper超级芯片，这个平台可以为高性能和低延迟量子经典盘算的研究职员提供了一种革命性的新架构。

据黄仁勋先容，NVIDIA DGX Quantum是全球*GPU加速的量子盘算系统，可以实现GPU和量子处置单元（QPU）之间的亚微秒级延迟。这种组合使研究职员能够确立壮大的应用，实现校准、控制、量子纠错和夹杂算法，将量子盘算与*进的经典盘算相连系。

DGX Quantum还为开发职员配备了统一软件栈，夹杂GPU-Quantum编程模子NVIDIA CUDA Quantum，能够在统一系统中整合和编程 QPU、GPU 和 CPU，是一个夹杂型量子经典盘算平台。现在，CUDA Quantum 已经开放了源代码，为开发者提供了更多的支持。

AI超级盘算上云

本次GTC的另一个重头戏是云。

英伟达公布的DGX Cloud云服务，提供了专用的NVIDIA DGX AI超级盘算集群，搭配NVIDIA AI软件，使每个企业都可以使用简朴的网络浏览器接见AI超算，消除了获取、部署和治理内陆基础设施的庞大性。

该服务现在已经与Microsoft Azure、Google GCP和Oracle OCI开展相助。每个DGX Cloud实例都具有八个H100或A100 80GB Tensor Core GPU，每个节点共有640GB GPU内存。

使用NVIDIA Networking构建的高性能、低延迟结构，可以确保事情负载跨互连系统集群扩展，允许多个实例充当一个伟大的GPU，以知足高级AI训练的性能要求。

现在，英伟达开放的*NVIDIA DGX Cloud，是与Oracle Cloud Infrastructure（OCI）相助的云服务。用户可以租用DGX Cloud的月租为36999美元起。

AI工厂，制造智能

除了算力以外，英伟达还想要通过云服务，把制造大模子的能力交给更多的用户。

黄仁勋带来的另一项关于云的重磅公布是NVIDIA AI Foundations，旨在为用户提供定制化的LLM和天生式AI解决方案。该服务包罗语言模子NEMO、视觉模子PICASSO和生物学模子BIONEMO。

其中，NEMO是用于自然语言文本的天生式模子，可以提供80亿、430亿、5300亿参数的模子，且会定期更新分外的训练数据，可以辅助企业为客服、企业搜索、谈天机械人、市场剖析等场景定制生产天生式AI模子。

PICASSO则用于制作视觉模子，可以用于训练包罗图像、视频和3D应用的天生式AI模子。PICASSO可以通过高文本提醒和元数据用DGX Cloud上的模子缔造AI模子。现在英伟达已经与Shutterstock相助，开发了Edify-3D天生式AI模子。

本次GTC英伟达还着重关注生物制药领域。BIONEMO是专门为用户提供确立、微调、提供自界说模子的平台，包罗AlphaFold、ESMFold、OpenFold等卵白质展望模子。生物圈的热门偏向是行使天生式AI发现疾病靶因、设计新分子或卵白类药物等。

此外，英伟达还与Adobe相助，将天生式AI融入营销职员和创意人士的一样平常事情流，并开展了对于艺术家版权珍爱的事情。

写在最后

有人将GPU在深度学习方面的乐成比作是中了手艺的彩票，但黄仁勋并不这么以为。他曾多次示意自己在10年前就已经看到了AI行业的生长潜力，以及GPU对AI的决议性作用。英伟达正是看好这点，才孤注一掷地投入气力开发更适合AI的GPU产物。

OpenAI在2018年推出的GPT-1，只有1.2亿参数目，而最后一个宣布了参数目的GPT-3则有1750亿，虽然有一些专家以为ChatGPT和GPT-4的参数目有可能更小，但业界多数的声音以为，更壮大的模子就以为这更大的参数规模，且要消耗更多的算力。

OpenAI已宣布的信息显示，在训练上一代的GPT-3时，使用了数千个NVIDIA V100 GPU。

调研机构TrendForce在一份讲述中提到，GPT-3训练时也许用到了20000个NVIDIA A100 GPU左右的算力，而ChatGPT商业化后所需的GPU数目将到达30000个以上。

某AI芯片专家告诉虎嗅，现在OpenAI宣布的手艺细节不多，前期的训练又都是在英伟达的显卡上做的。“这给了英伟达更多针对Transformer的GPU实验数据，从一定水平上造成了英伟达对ChatGPT和GPT-4的手艺垄断，从市场竞争的角度说来说，对其他AI芯片很晦气。”

事实上，谷歌此前曾推出过针对TenserFlow的TPU产物，然而，英伟达此次公布的GPU推理平台针对时下火热的GPT大模子，举行了Transformer架构优化，则似乎又*了谷歌一步。

————民众国际期货金融有限公司

上一篇：字节跳动照样想吃下b站_外盘期货,期货开户

下一篇：广东设立新型储能产业天使投资基金_香港期货开户,国际原油