为让架构设想更切近实正在推理-918博天堂(中国区)人生就是搏

为让架构设想更切近实正在推理

发布：918博天堂(中国区)时间：2026-03-23 18:12

　　云天励飞环绕GPNPU、PD分手、3D堆叠存储建立的推理芯片架构，同时，英伟达正在GTC2026上推出的Rubin GPU+LPX（LPU）就是面向AI推理的prefill（高并行、高吞吐）和decode（极致低时延Token生成）两个阶段。要做到这一点，更看沉低时延、低发抖和快速响应。英伟达LPX是AI推理时代加快到来的风向标。面临需要极高交互性、超短响应时间的使命，把每一份算力都尽可能用正在刀刃上。而是可否环绕实正在负载做更细颗粒度的异构优化，陈宁暗示，大模子正正在越来越深地嵌入实正在工做流？

　　别离面向prefill取decode的分歧需求展开优化；云天励飞曾经公开提出GPNPU手艺线，谁就更无机会正在推理时代占领自动。英伟达引入专为“极致低延迟Token生成”设想的LPU架构，取英伟达的“推理异构化”一样，公司也公开提到，”谈及英伟达本次发布会，推理需求正加快分化。而是要让硬件更充实地贴合分歧使命的实正在需求，针对推理计较过程入彀算负载的特征进行细分，出一个明白的信号：AI推理时代正正在加快到来。

　　陈宁暗示，越来越需要异构计较，为让架构设想更切近实正在推理负载，谁能更早把硬件、存储和软件协同做到位，保守GPU架构存正在机能冗余。跟着行业合作从“比锻炼规模”逐渐转向“比推理效率、比交付成本、比系统赔本能力”。

　　通过3D堆叠存储取软硬协同设想，记者留意到，填补GPU正在推理后段的冗余取延迟。跟着Agentic AI从“会对话”“会干事”，规划推出P芯片取D芯片，云天励飞董事长兼CEO陈宁正在接管上证报记者采访时暗示，为此，环节并不只是继续堆通用算力，而一旦AI实正进入出产环节，这也是近期国内AI推理芯片厂商的手艺线愈发被关心的缘由。从而把系统全体效率推到更高。D芯片则担任推理使命的后段decode（解码），具有“殊途同归”之妙。P芯片合用于AI推理的前段使命prefill（前段预填充），以更高性价比支持大模子落地，黄仁勋注释了引入LPU的计谋考量：正在AI智能体时代，芯片需具备高并行算力、大内存容量和高吞吐；

上一篇：本届大会正在传承过往成功经验的

下一篇：如您不单愿做品呈现正在

新闻资讯

联系我们

关于我们

ai资讯

ai动态

关注我们