家族导航

NPU / AI accelerator

NPU / AI accelerator 家族页,围绕定位、典型负载、关键架构变量、软件栈和代表产品建立入口。

快速导览

用最少的信息先抓住这个家族最重要的边界、代表产品和相关内容入口。

定义与边界

NPU / AI accelerator 以神经网络与矩阵计算为中心设计,目标是在特定 AI 路径上换取更高能效或更高密度。

  • 更强调特定算子路径、编译映射和模型部署效率,不一定适合广义通用计算。
  • 和 GPU 的边界常由软件栈成熟度、模型覆盖和部署环境决定,而不是单看峰值算力。

主要子分类

先看 NPU / AI accelerator 内部常见子类,再进入具体芯片、软件栈与选型问题。

  • edge NPU
  • datacenter AI accelerator
  • inference accelerator
  • training accelerator

典型工作负载

先按 workload 看这类器件为什么存在,再去判断具体厂商和具体芯片。

  • 端侧推理、视频分析、训练加速、推荐与多模态 AI 服务。
  • 功耗敏感、成本敏感或需要软硬一体交付的 AI 场景。

关键架构变量

这些变量通常比单个峰值参数更能解释同一家族内部的代际差异。

  • 张量计算阵列、片上存储组织、数据流设计和编译器映射能力是核心变量。
  • 算子覆盖、混合精度支持与跨卡扩展方式会直接影响可用范围。

软件栈观察点

xPU 的真实可用性经常取决于软件链路,而不只是硬件参数表。

  • 重点看模型转换链路、运行时、算子库、框架插件和部署工具稳定性。
  • 迁移成本和生态资料密度通常决定 NPU 能否真正成为生产方案。

代表厂商与芯片

NPU / AI accelerator 页面会同步给出代表厂商、代表产品和相关内容,帮助用户从概念直接跳到具体对象。

  • 代表厂商:华为 / Google / 寒武纪 / Intel / AWS / Qualcomm
  • 代表产品:Intel Gaudi 3 / 华为昇腾 910B / Google TPU v5e / 寒武纪 MLU370
  • 延伸阅读:6 条

代表厂商

华为

NPU / ASIC / SOC

在 AI 加速、昇腾软件栈和端边云协同方面值得持续追踪。

Google

NPU / ASIC

通过 TPU 和云平台把专用 AI 加速器与软件服务深度绑定,代表云上专用化路线。

寒武纪

NPU

国产 AI 加速器代表之一,适合持续跟踪其训练、推理和生态落地进展。

Intel

CPU / GPU / FPGA / NPU

覆盖 CPU、GPU、FPGA、AI 加速等多条路线,是理解传统通用计算厂商转向异构计算的重要样本。

AWS

CPU / NPU / ASIC

通过 Graviton、Inferentia、Trainium 把芯片设计和云服务整合到一起,适合看云厂商自研路线。

Qualcomm

SOC / DSP / NPU

SoC、DSP、端侧 NPU 三线协同明显,是端侧异构计算的重要观察对象。

代表芯片

Intel Gaudi 3

Intel · NPU / AI accelerator

面向 AI 训练与推理的数据中心加速器,是 Intel 在 GPU 之外切入 AI 加速的重要产品线。

华为昇腾 910B

华为 · NPU / AI accelerator

面向 AI 训练与推理的加速器,适合作为观察国产 NPU 软件栈与落地路径的代表产品。

Google TPU v5e

Google · NPU / AI accelerator

Google 云上 AI 加速器路线代表,适合从云平台一体化和专用化部署角度观察。

寒武纪 MLU370

寒武纪 · NPU / AI accelerator

国产 AI 加速器代表产品之一,适合观察训练与推理市场中的国产替代与生态成熟度。

芯片档案覆盖维度

该家族下的芯片档案会沿 16 个重点维度展开,兼顾常青信息与动态更新。

  • 定位与概览
  • 产品线与代际关系
  • 微架构与设计思路
  • 制程、封装与物理实现
  • 计算单元与并行结构
  • 内存层级与带宽
  • 互连、I/O 与扩展能力
  • ISA / 编程模型 / 可编程性
  • 软件栈、驱动、编译器与框架
  • 性能特征与主要指标
  • 功耗、热设计与部署约束
  • 适用工作负载与典型应用
  • 基准、方法与结果解读
  • 横向对比与替代关系
  • 生态、社区与商业化情况
  • 最新动态与版本跟进