家族导航

NPU / AI accelerator

NPU / AI accelerator 家族页，围绕定位、典型负载、关键架构变量、软件栈和代表产品建立入口。

快速导览

用最少的信息先抓住这个家族最重要的边界、代表产品和相关内容入口。

Scope

子类入口

4 个常见子类

Reference

代表产品

4 个代表芯片条目

Links

延伸阅读

6 条相关内容

定义与边界

NPU / AI accelerator 以神经网络与矩阵计算为中心设计，目标是在特定 AI 路径上换取更高能效或更高密度。

更强调特定算子路径、编译映射和模型部署效率，不一定适合广义通用计算。
和 GPU 的边界常由软件栈成熟度、模型覆盖和部署环境决定，而不是单看峰值算力。

主要子分类

先看 NPU / AI accelerator 内部常见子类，再进入具体芯片、软件栈与选型问题。

edge NPU
datacenter AI accelerator
inference accelerator
training accelerator

典型工作负载

先按 workload 看这类器件为什么存在，再去判断具体厂商和具体芯片。

端侧推理、视频分析、训练加速、推荐与多模态 AI 服务。
功耗敏感、成本敏感或需要软硬一体交付的 AI 场景。

关键架构变量

这些变量通常比单个峰值参数更能解释同一家族内部的代际差异。

张量计算阵列、片上存储组织、数据流设计和编译器映射能力是核心变量。
算子覆盖、混合精度支持与跨卡扩展方式会直接影响可用范围。

软件栈观察点

xPU 的真实可用性经常取决于软件链路，而不只是硬件参数表。

重点看模型转换链路、运行时、算子库、框架插件和部署工具稳定性。
迁移成本和生态资料密度通常决定 NPU 能否真正成为生产方案。

代表厂商与芯片

NPU / AI accelerator 页面会同步给出代表厂商、代表产品和相关内容，帮助用户从概念直接跳到具体对象。

代表厂商：华为 / Google / 寒武纪 / Intel / AWS / Qualcomm
代表产品：Intel Gaudi 3 / 华为昇腾 910B / Google TPU v5e / 寒武纪 MLU370
延伸阅读：6 条

代表厂商

华为

NPU / ASIC / SOC

在 AI 加速、昇腾软件栈和端边云协同方面值得持续追踪。

Google

NPU / ASIC

通过 TPU 和云平台把专用 AI 加速器与软件服务深度绑定，代表云上专用化路线。

寒武纪

NPU

国产 AI 加速器代表之一，适合持续跟踪其训练、推理和生态落地进展。

Intel

CPU / GPU / FPGA / NPU

覆盖 CPU、GPU、FPGA、AI 加速等多条路线，是理解传统通用计算厂商转向异构计算的重要样本。

AWS

CPU / NPU / ASIC

通过 Graviton、Inferentia、Trainium 把芯片设计和云服务整合到一起，适合看云厂商自研路线。

Qualcomm

SOC / DSP / NPU

SoC、DSP、端侧 NPU 三线协同明显，是端侧异构计算的重要观察对象。

代表芯片

Intel Gaudi 3

Intel · NPU / AI accelerator

面向 AI 训练与推理的数据中心加速器，是 Intel 在 GPU 之外切入 AI 加速的重要产品线。

华为昇腾 910B

华为 · NPU / AI accelerator

面向 AI 训练与推理的加速器，适合作为观察国产 NPU 软件栈与落地路径的代表产品。

Google TPU v5e

Google · NPU / AI accelerator

Google 云上 AI 加速器路线代表，适合从云平台一体化和专用化部署角度观察。

寒武纪 MLU370

寒武纪 · NPU / AI accelerator

国产 AI 加速器代表产品之一，适合观察训练与推理市场中的国产替代与生态成熟度。

芯片档案覆盖维度

该家族下的芯片档案会沿 16 个重点维度展开，兼顾常青信息与动态更新。

定位与概览
产品线与代际关系
微架构与设计思路
制程、封装与物理实现
计算单元与并行结构
内存层级与带宽
互连、I/O 与扩展能力
ISA / 编程模型 / 可编程性
软件栈、驱动、编译器与框架
性能特征与主要指标
功耗、热设计与部署约束
适用工作负载与典型应用
基准、方法与结果解读
横向对比与替代关系
生态、社区与商业化情况
最新动态与版本跟进