扬威耀武网

扬威耀武网

暴降90%!英伟达Blackwell架构将AI推理成本压缩至十分之一

百科 395356

IT之家2月13日消息,暴降本压英伟达昨日(2月12日)发布博文,英伟宣布在 AI 推理领域的架构将“token 经济学”(Tokenomics)方面,其 Blackwell 架构取得里程碑式进展。理成

英伟达在博文中指出,缩至通过推行“极致软硬件协同设计”策略,暴降本压优化硬件在处理复杂 AI 推理负载时的英伟效率,解决了随着模型参数膨胀带来的架构将算力成本激增问题。数据显示相比上一代 Hopper 架构,理成Blackwell 平台将单位 Token 生成成本降低至十分之一。缩至


英伟达Blackwell架构将AI推理成本压缩至十分之一

行业落地方面,包括 Baseten、英伟DeepInfra、架构将Fireworks AI 及 Together AI 在内的理成多家推理服务提供商已开始利用 Blackwell 平台托管开源模型。

IT之家援引博文介绍,缩至英伟达指出,通过结合开源前沿智能模型、Blackwell 的硬件优势以及各厂商自研的优化推理栈,这些企业成功实现了跨行业的成本缩减。


英伟达通过结合开源前沿智能模型使企业成功实现了跨行业的成本缩减

例如,专注于多智能体(Multi-agent)工作流的 Sentient Labs 反馈,其成本效率相比 Hopper 时代提升了25% 至50%;而游戏领域的 Latitude 等公司也借此实现了更低的延迟和更可靠的响应。


Sentient Labs成本效率相比 Hopper 时代提升了25%至50%

Blackwell 的高效能核心在于其旗舰级系统 GB200 NVL72。该系统采用72个芯片互联的配置,并配备了高达30TB 的高速共享内存。这种设计完美契合了当前主流的“混合专家(MoE)”架构需求,能够将 Token 批次高效地拆分并分散到各个 GPU 上并行处理。


GB200 NVL72系统采用72个芯片互联的配置

在 Blackwell 大获成功的同时,英伟达已将目光投向下一代代号为“Vera Rubin”的平台。据悉,Rubin 架构计划通过引入针对预填充(Prefill)阶段的 CPX 等专用机制,进一步推高基础设施的效率天花板。

  • 评论列表

  • 为进一步严明纪律,把纪律和规矩挺在前面,坚决纠正“四风”,警示教育环保系统各级党员干部,中央纪委驻环保部纪检组通报了近期查处的环境保护部辐射源安全监管司副司长赵永明、核与辐射安

    2026-02-21 10:57
  • 针对司法实践中出现的重特大贪污犯通过减刑服刑过短等情形,刑法修正案(九)三审稿增加规定,因贪污被判死缓执行两年期满依法减为无期后,终身监禁,不得减刑、假释。京华记者 孙乾)责任编辑:郑莉莉

    2026-02-21 10:30
  • 冷兵器战争、热兵器战争、机械化战争、信息化战争……人类战争历史的演进,总是以科学技术的突飞猛进为关键推动力。而实现机械化战争向信息化战争的跨越,电磁波在其中的作用至关重要。

    2026-02-21 09:35

留言评论