选对加速器和边缘 AI 芯片让推理在端侧跑起来
边缘 AI 芯片不是一类器件。它从挨着主控的独立加速器,到把神经引擎折进同一颗裸片的应用处理器,再到小得大半辈子都在睡觉的微控制器。这些器件在规格表上彼此重叠,放进产品里却表现得毫不相像。像 TOPS(每秒总运算次数)这样一个数字,让它们在分销页面上看着可比;可在真实设计里,它们回答的是不同的问题。选型从模型和功耗预算起步,而不是从厂商给器件归的那个档次起步。
芯片要干的活很快就把范围缩小了。一个以每秒三十帧跑目标检测的摄像头,需要持续的吞吐量,以及一条宽到能不停喂饱运算的存储通路。一个每分钟醒来几次、判一下声音的电池传感器,要的是空闲时的微安级电流,根本不在乎帧率。同一个词,推理,盖住了这两件活,而两个设计之间几乎再没有别的共同点。为其中一个挑的器件,拿去当另一个的起点通常就是错的,所以下面按器件在系统里所处的位置来组织,而不是按它跑得多快。
所以下面是一张地图,不是一份排名。
算力在哪里跑
最先要定的是谁来执行模型。通用处理器能用软件跑个小模型,对偶尔来一次的推理,这往往就是对的答案:不多一颗器件,也没什么新东西要纳入供应。问题在于它为此放弃了什么,也就是它欠下应用其余部分的那些时钟周期,以及随每评估一层就往上爬的电流。想清楚专用加速器什么时候比一颗更快的通用处理器更划算,靠的是工作占空比,远多于峰值速率。一个一秒分类一次的器件,往往可以留在主控上、把推理之间的时间用来干别的活;一个一帧接一帧永不停歇的,才是值得专用硬件的那种。这两种模式之间的那条线,就是整个决定所在;更快的 CPU 移不动它,因为问题在于把活干掉所花的能量和时间,不在于干一次有多快。低占空比也很少能赚回多加一颗芯片的固定成本,因为不管加速器一小时跑一次还是一秒跑十次,那块板面积和那颗要采购的料都摆在那里。
接到主控旁边的加速器
当主控已经定了、扛着系统其余部分时,可以在它旁边加一颗独立加速器,只接神经这摊活,别的都留在原处。主控保留操作系统、应用和接口;加速器拿着模型和一条进得去的快通路,通常走 PCIe、USB 或 M.2。代价是多一颗要摆放、布线、纳入库存的器件,换来的是主控不再为每一帧卡住。在一块本就为别的原因带了能干处理器的板子上,这往往是加视觉最低风险的办法。
视觉是这种拆分最划算的地方,因为数据率高、网络又重。让 Hailo-8 接下视觉推理、摆在一颗常规处理器旁边,能让摄像头管线以真实帧率跑检测或分割,而不把这摊负载压到主控上,并且是在一颗同等吞吐的 GPU 撑不住的功耗范围里做到的。它要回去的,是载板上一条 PCIe 或 M.2 通道,以及一条在模型连跑几小时(不是台架演示那几秒)时仍然够用的散热通路。加速器有没有用,取决于主控能不能把帧喂给它,所以两者之间那条链路是设计的一部分,而不是事后才补的。
自带 NPU 的处理器
另一条拿到神经吞吐的路,是挑一颗本就带着它的处理器。一颗带板载 NPU 的应用处理器跑 Linux、驱动摄像头和显示、把模型留在同一颗裸片上,于是物料清单不增加,也没有主控到加速器的链路要画。要注意的是,这个 NPU 是厂商做进去的那一个,它的工具和支持的算子,决定了一个给定模型有多少落到加速器上、又有多少回退到 CPU 上以零头的速度跑。两颗标称 TOPS 相同的器件,把不支持的层算进去之后,实测吞吐能差很多。
RK3588 作为一颗带板载 NPU 的边缘 AI 处理器,带来高核数和一个有本事的神经单元,适合一个能花几瓦、又想用这个价钱拿到大量算力的盒子。它适合跑完整 Linux 栈、想给多路摄像头或更重的模型留余量的设计。它的工具链要的 bring-up 时间,比一颗背后有更大厂商支持的器件更多,而这份工夫,不是单价,才是那个诱人标称数字背后的真实代价。
i.MX 8M Plus,把 NPU 折进应用处理器,拿原始吞吐换来一份长期的工业供货承诺、一个宽工作温度范围,以及那一类器件附带的文档和生命周期保证。在一个要出货十年、进工业插槽的产品上,这颗芯片还会被继续生产这件事,往往比一个没人缺的更高帧率更值钱。
TDA4VM 用在车载和机器视觉的边缘推理,靠向功能安全和多传感器那一端,带着通用 NPU 没有的视觉前端和信号处理硬件块。这让它很适合一个把好几路摄像头和一颗雷达拉到一起的辅助驾驶或机器人设计,而对一个用不上这套管线、却要为这份复杂买单的单摄产品就很不合适。
在这三者之间挑,与其说看 TOPS 数字,不如说看哪一种支持、生命周期、片上块和工具链成熟度合这个产品。幻灯片上数字最大的那颗,很少是进到量产的那颗;生态合团队的那颗,通常才是。
当 MCU 自己就是那个 AI
在最低端,模型和控制器是同一颗芯片。没有主控、没有 Linux、没有独立加速器。器件醒来、跑一个小网络、按结果动作、再睡回去,常常靠一颗要撑好几年的纽扣电池。模型得装进几百 KB 的片上存储、在一个几十到一百多兆赫的核上实时跑,这就排除了任何重的东西,留下了关键词唤醒、简单手势和视觉、信号分类这些活。这些器件的工具链预期的是一个一开始就照着这个存储上限训练的模型,所以这个约束在模型还没到芯片之前很久,就已经在塑造网络了。
能干这活的器件并不能互换,区分它们的是能效和集成度,不是原始速度。MAX78000 做超低功耗神经推理,在微控制器核旁边放了一个专用卷积加速器,于是一个小网络跑起来只花核自己做同样乘累加所需能量的零头;在一个一天推理几千次、靠电池的器件上,这个每次推理的能量数字定下了电池寿命,而它不印在数据手册的首页上。K210 作为一颗低成本 RISC-V AI MCU,走的是性价比一端,把一个神经单元和 RISC-V 核配在一起,价钱适合一个模型轻、单价主导物料成本的大批量消费类设计;它的工具更薄,这是为那个价钱付的代价。NDP120 做常开语音的神经决策更窄,专门以一个低到可以永远开着的空闲电流,去听唤醒词和声音事件,守在一个睡着、等小器件听到值得唤醒之物才醒的更大系统旁边;一颗通用 MCU 跑同样的模型,光是让自己醒着听就会把电池耗干。ESP32-S3 用它的向量指令跑轻量推理,是务实而非专门打造的那种:它不是专用 AI 芯片,而是很多团队本就在板上的一颗联网微控制器,带着够用的向量运算,能不另加一颗器件就跑一个轻模型,在模型小到能装下时,这就是这一档里最便宜的神经推理。这些器件里只要有一颗合模型,它就从板上拿掉了整整一层料。
约束它们所有的是存储和时钟,而且它来得比标称暗示的要早。一个在实验室开发板上还绰绰有余的模型,等真实输入缓冲、通信栈和固件其余部分共用同样那几百 KB 时,对量产件可能就太大了。在器件锁定之前早早把这个量出来,省下日程后期一次痛苦的重做。
真正决定它的是什么
模型大小和占空比定下地板,和边缘 AI 别处一样。在单 MCU 设计上它们咬得更狠,因为一旦闪存和 RAM 分配完,就没地方藏一个低估了的数。
地板之上,工具链比标称分量更重。一个神经块只回报它的编译器能放上去的那么多,而一颗工具薄的器件,会把模型的大半留在核上、以挫败选型初衷的速度跑。转换流程的成熟度、围着它的社区,在真实日程上和硅片一样值钱。
供货收尾。一颗为出货多年的产品挑的微控制器,得是那种整段时间都还买得到量的,在第一次投板之前就在 BOM 里写好第二来源,而不是等缺货停线之后才去找。
出货的那颗,很少是赢了跑分的那颗。它是功耗、供货、工具都合这个产品的那颗,挑它时心里清楚模型将来会怎么长。
相关信息

- 2026.06.25 给传感器找等效替代并排好供货

- 2026.06.25 同一颗传感器在不同行业里怎么用

- 2026.06.25 从封装校准和漂移看传感器能用多久

- 2026.06.25 给伸出板外的传感器线做供电和防护
