微软终于开始生产定制芯片了——它们都是关于人工智能的

   日期:2025-04-05     来源:本站    作者:admin    浏览:86    
核心提示:      传言是真的:微软已经打造了自己的定制人工智能芯片,可用于训练大型语言模型,并有可能避免对英伟达的昂贵依赖。微

  

  

  传言是真的:微软已经打造了自己的定制人工智能芯片,可用于训练大型语言模型,并有可能避免对英伟达的昂贵依赖。微软还为云工作负载构建了自己的基于arm的CPU。这两款定制芯片都是为Azure数据中心提供动力,并为该公司及其企业客户迎接充满人工智能的未来做好准备。

  微软的Azure Maia人工智能芯片和arm驱动的Azure Cobalt CPU将于2024年上市,今年英伟达的H100 gpu需求激增,这些gpu被广泛用于训练和操作生成图像工具和大型语言模型。对这些gpu的需求如此之高,一些gpu在eBay上的售价甚至超过了4万美元。

  微软Azure硬件系统和基础设施主管拉尼?博卡在接受The Verge采访时解释说:“微软在芯片开发方面其实有着悠久的历史。微软早在20多年前就合作开发了Xbox的芯片,甚至还合作设计了Surface设备的芯片。“这些努力是建立在这些经验的基础上的,”博卡说。“2017年,我们开始构建云硬件堆栈,我们开始了这一旅程,使我们走上了构建新的定制芯片的轨道。”

  新的Azure Maia AI芯片和Azure Cobalt CPU都是由微软内部构建的,并对其整个云服务器堆栈进行了深度检修,以优化性能、功耗和成本。博卡表示:“我们正在重新考虑人工智能时代的云基础设施,并真正优化该基础设施的每一层。”

  Azure Cobalt CPU以蓝色颜料命名,是一款128核芯片,基于Arm Neoverse CSS设计,并为微软定制。它旨在为Azure上的一般云服务提供支持。博卡解释说:“我们花了很多心思,不仅要让它变得高性能,还要确保我们注意到电源管理。”“我们做了一些非常有意识的设计选择,包括控制每个核心和每个虚拟机上的性能和功耗的能力。”

  微软目前正在微软Teams和SQL server等工作负载上测试Cobalt CPU,并计划明年为客户提供各种工作负载的虚拟机。虽然Borkar不会直接将其与亚马逊在AWS上提供的Graviton 3服务器进行比较,但与微软目前用于Azure的基于arm的服务器相比,应该会有一些明显的性能提升。“我们的初步测试表明,我们的性能比目前使用商用Arm服务器的数据中心提高了40%,”博卡说。微软还没有分享完整的系统规格或基准。

  微软的Maia 100人工智能加速器以一颗明亮的蓝星命名,专为运行云人工智能工作负载而设计,如大型语言模型训练和推理。它将用于支持该公司在Azure上的一些最大的人工智能工作负载,包括与OpenAI数十亿美元合作伙伴关系的一部分,微软将为OpenAI的所有工作负载提供支持。这家软件巨头一直在与OpenAI在Maia的设计和测试阶段进行合作。

  OpenAI的首席执行官萨姆·奥特曼说:“当微软第一次分享他们的Maia芯片设计时,我们很兴奋,我们一起努力改进并用我们的模型测试它。”“Azure的端到端人工智能架构,现在与Maia一起优化到芯片,为训练更有能力的模型铺平了道路,并使这些模型对我们的客户来说更便宜。”

  Maia采用台积电5纳米工艺制造,拥有1050亿个晶体管,比AMD的竞争对手英伟达(Nvidia)的MI300X AI GPU的1530亿个晶体管少了30%左右。“为了协同设计硬件和软件,Maia支持我们的第一个8位数据类型,MX数据类型的实现,”Borkar说。“这有助于我们支持更快的模型训练和推理时间。”

  微软是包括AMD、Arm、英特尔、meta、英伟达和高通在内的一个组织的一部分,该组织正在为人工智能模型标准化下一代数据格式。微软正在建立开放计算项目(OCP)的协作和开放工作,以使整个系统适应人工智能的需求。

  “Maia是微软制造的第一个完整的液冷服务器处理器,”Borkar透露。“我们的目标是以更高的效率实现更高的服务器密度。因为我们正在重新构想整个堆栈,我们有意考虑到每一层,所以这些系统实际上适合我们目前的数据中心占地面积。”

  这对微软来说是关键,它可以更快地启动这些人工智能服务器,而不必在世界各地的数据中心为它们腾出空间。微软建造了一个独特的机架来放置Maia服务器主板,并配有一个“助手”液体冷却器,它的工作原理就像你在汽车或高档游戏PC上找到的散热器一样,可以冷却Maia芯片的表面。

  除了共享MX数据类型,微软还与合作伙伴共享其机架设计,以便他们可以在内部有其他芯片的系统上使用它们。但Maia芯片的设计不会被更广泛地分享,微软将其保留在内部。

  Maia 100目前正在GPT 3.5 Turbo上进行测试,与ChatGPT、Bing AI工作负载和GitHub Copilot的模型相同。微软正处于部署的早期阶段,就像Cobalt一样,它还不愿意发布确切的Maia规范或性能基准。

  这使得我们很难准确解读Maia将如何与英伟达(Nvidia)流行的H100 GPU、最近发布的H200,甚至AMD最新的MI300X进行比较。博卡不想进行比较,而是重申,与英伟达和AMD的合作对于Azure的人工智能云的未来仍然非常关键。博卡表示:“在云计算运营的规模下,优化和整合堆栈的每一层,以最大限度地提高性能,使供应链多样化,坦率地说,为我们的客户提供基础设施选择,这一点非常重要。”

  供应链的多样化对微软来说很重要,尤其是考虑到英伟达目前是人工智能服务器芯片的主要供应商,各家公司一直在竞相收购这些芯片。据估计,为了ChatGPT的商业化,OpenAI需要超过3万个英伟达的老款A100 gpu,因此微软自己的芯片可以帮助其客户降低人工智能的成本。微软还为自己的Azure云工作负载开发了这些芯片,而不是出售给英伟达、AMD、英特尔和高通等其他公司。

  博卡坚持认为:“我认为这是一种补充,而不是与他们竞争。”“今天,我们的云计算领域同时有英特尔和AMD,同样,在人工智能领域,我们宣布AMD,而我们今天已经有了英伟达。这些合作伙伴对我们的基础设施非常重要,我们真的希望给我们的客户选择。”

  你可能已经注意到Maia 100和Cobalt 100的命名,这表明微软已经在设计这些芯片的第二代版本。“这是一个系列,不只是100次而已……但我们不会分享我们的路线图,”博卡说。目前还不清楚微软多久会发布一次新版本的Maia和Cobalt,但考虑到人工智能的发展速度,如果看到Maia 100的继任者以与英伟达H200相似的速度发布(大约20个月),我不会感到惊讶。

  现在的关键是,微软将以多快的速度让Maia行动起来,加快其广泛的人工智能雄心的推出,以及这些芯片将如何影响人工智能云服务的使用定价。微软还没有准备好谈论这款新服务器的定价,但我们已经看到该公司悄悄地推出了针对Microsoft 365的Copilot,每位用户每月收取30美元的溢价。

  目前,微软365版的Copilot仅限于微软的大客户,企业用户必须承诺至少拥有300个用户,才能使用这款新的人工智能Office助手。随着微软本周推出更多的Copilot功能,并对必应聊天进行品牌重塑,Maia可能很快就会帮助平衡对支持这些新体验的人工智能芯片的需求。

 
打赏
 
更多>同类文章

推荐图文
推荐文章
点击排行