给会发热降频的 AI 芯片做散热
AI 硅片靠降速来保护自己不被热坏。当结温越过厂商设的那条线,器件把时钟降下来,甩掉性能,并且一直这么做、直到热缓过来,这意味着一块搬不走热的板子不会死机;它只是安安静静地,交出买它时图的那个推理速率的一个零头。AI 器件上的散热不是机械上的事后补丁。它是设计里决定花钱买来的算力到底到不到货的那一部分。
这笔算术不讲情面。一颗扛着持续负载的加速器,把它电功率几乎全部变成热,积在一块指甲盖大的裸片里,热要穿过封装、一层界面、一个机壳才到空气,而这条路上每升一开尔文,都从硅片降频前的余量里扣掉。搬热的那些件,均热板、界面材料、散热器、风扇,跟料单上任何器件一样,是对着数字挑的。
结温就是全部故事。
降频的代价
降频是写进硅片的一纸合同:越线,时钟就掉,没得谈。这个机制在演示里看不见,因为一个短跑分在裸片焐热之前就结束了,而它在量产里毫不留情,摄像头整天推流、加速器每帧都跑。一颗器件的突发性能和它在一个焐热机壳里扛得住的性能之间的差距,几乎全由热设计定,两个用同一颗硅片的产品,推理速率能差出一半,因为一个搬热、一个存热。
一个 AI 产品诚实的指标,是机壳能见到的最坏环温下的持续速率,而那个数字先是个热学结果、才是个算力结果。把模组数据手册里的降频门限读出来,把设计做到大热天满载时结温压在它底下,就是本页要讲的活。
从功耗算到结温
让热设计变得可核对的工具,是一串热阻。热从结流过封装、界面、散热硬件到环境空气,每一级的温升等于功率乘它的热阻,结温就是环温加总和。结温怎么从功耗和热阻推出来把这笔账走了一遍,它短到硬件还不存在时就能在纸上做完。
功夫在用对数字。数据手册的结到环境热阻,是在标准测试板上、静止空气里测的,真实产品从不复现那种条件,所以诚实的链是从结到壳、过界面材料的那份、过散热器在它真会见到的风量下的额定,一级级搭起来的。每个数字都带着它的条件,而一条用不同假设下测的数字拼起来的链,给出的结温估计精确、自信、并且错。这些数字本身值得按它们的精确程度来怀疑:结到壳假设热全从盖子出去,一颗也往板里倒热的器件不认这个账;一个几颗裸片共一块均热板的模组,最热的那颗不是平均的那颗;厂商的壳温定义在装好的产品里热电偶可能根本够不着的一个点上。这些都不破坏方法,它们只是给余量标了价。瞬态那一侧带着自己的坑、也带着自己的礼物:裸片和均热板存热,一次短突发骑在热容上,根本到不了链预测的稳态温度,这就是为什么成阵推理的设计能用比它峰值功耗暗示的更小的散热,也是为什么持续跑的设计借不到这个巧。最后那份余量不是装饰。环温是估的,接触压力一台一台不一样,灰尘在产品一生里慢慢到来,铣平的散热器对上的是一个并不平的封装。算出的结温和降频门限之间留十开尔文,是一支机队几年稳住速率、和第一个夏天就掉下去之间的差别。这笔账还能往回指:如果在硅片想烧的功率下这条链怎么都合不拢,选项是更大的散热、更低的功率上限、或者换硅片,而在纸上发现这件事花一个下午,在机壳里发现它花一次开模改版。
倒着跑,同一条链给散热定尺寸。从降频门限出发,减去最坏环温,除以功率,得到的就是设计被允许的总热阻;器件随后照着压线挑,余量在采购开始前就数好。
纸面只有在一次测量确认之后才闭环。满载时壳上贴一支热电偶,对着链在那一点的预测比一比,花台架上一小时,就把它上游每一项都验了,而第一台跑起来的样机,就是花这一小时的对的时候。一条把壳温估进几开尔文的链,到结温也信得过;一条差了十五开的,藏着一个没人看就会出货的错假设。
这是整块板上最便宜的分析,也是在要紧的那次被跳过的那个。
被动散热到哪里就不够了
被动散热是对的第一答案。散热器加自然对流,没有活动件,没有噪声,没有会磨损的轴承,没有会堵的滤网,对一个开放机壳里不大的功率,它把活扛到产品寿命结束。加速器什么时候被动散热就不够了是那道边界题,而边界比直觉放的位置更低。
自然对流在自由空气里、一个合理尺寸的散热器上,搬的是个位数的瓦,而机壳把散热器刚做出来的热空气兜住,再砍掉一截。一颗在密闭盒子里持续烧十几瓦的加速器,金属再大方也已经离开被动的疆界,症状就是一台在台架上开着盖跑得好好的产品,到现场盖上盖就降频。
挪动这条边界的变量,是表面积、朝向、和热空气走的路。鳍片顺着重力排、让空气能从中间升上去,买来真实的余量;一块平躺在密封盖下的散热器,买来的是质量、别的没多少。一个带烟囱通路的开孔机壳,能让同一块金属扛的翻倍。
这个决定属于早期,因为它塑造机械设计。一个要带风扇的产品,进风、出风、风道、维护口得从第一张草图就画进机壳,一个被动的产品,鳍片体积和开孔得在工业设计收形之前就排进预算。把任何一个事后塞进另一个的机壳,是热项目折戟的地方。
给降频的器件配一台离心风机
功率越过被动边界,空气就得被驱动。给一颗一热就降频的芯片配风机是一道匹配题、不是一次目录检索:风扇沿一条曲线在压力下交付风量,机壳和散热器摆出它们自己的一条阻力曲线,系统跑在两条线的交点上。只看自由空气数字挑的风扇,过一条真实风道只交出它的零头,这是页面上最响的风扇照样可能是错的那台的礼貌说法。
离心式的形状在薄而密的产品里挣到位置:它轴向进风、侧向甩出,在同样的高度下给出比轴流扇更高的压力,正合边缘盒子通常只给得出的那条憋屈风道。调速闭环收尾,风扇由硅片自己的温度驱动,产品空闲时安静、只在活计要求时才响,控制曲线调成在降频门限之前就把风拉起来,而不是之后。
风扇也是板上唯一的活动件,它按活动件的方式老去。轴承寿命按温度标、随温度掉,灰尘负载一年年涨,一支机队的风扇是要计划的耗材:一根固件真在看的转速线,一套掉到低功率上限、而不是把硅片煮了的失效响应,和一个不用动烙铁就能换风扇的机械设计。
挣到位置的界面材料
封装和金属之间躺着没人看见的那一层,而它经常主宰整条链。两个平面只在高点上相碰,其余地方兜着空气,而空气是绝缘体,所以缝得填上。热界面材料怎么选才不浪费归结到装好之后那一层的热阻、而不是管子上印的导热系数:一款普通的膏抹得薄,赢过一款奇异的料涂得厚,因为热阻是厚度除以导热,而厚度才是装配管得住的那一项。膏给出最薄的层,要夹持压力和一次可重复的点胶;垫片原谅公差堆叠和粗糙装配,代价是更厚的结合线;相变膜折中,并在服役里守住位置。选择由机械设计的间隙和压力、产线每次都涂成一样的本事、和五年后机器被打开时会发生什么这个服务问题来定。对着这些约束挑的界面,消失在链里;只看导热系数挑的那个,变成壳和散热器之间十个没人解释得了的开尔文,而那正是整个设计本该留住的余量。
真正决定它的是什么
结温决定,一切都从它往回读。降频门限减最坏环温是预算;热阻链花这笔钱;器件照着让总和压线、还给真实世界留余量来挑。
持续性能是个热学产品。硅片定天花板,散热定产品离它住多近,一个同芯片、风道更好的对手,出的是一台更快的盒子。
供货有它自己的热学角落。风扇是有寿命的器件、有交期的脾气,界面材料是第二来源得对配方、而不是模样的东西,而在第一次投板前就给这两样点好替代的设计,在任何一样进了配给名单时还在出货。
相关信息

- 2026.06.04 给设备做声音采集和振动监测

- 2026.06.04 把流量和液位测准的传感方案

- 2026.06.04 无接触地把位置和角度测出来

- 2026.06.04 在联网设备里感知温湿度、气体与空气质量
