第327章 悟道算力平台的负载调优(1/2)

投票推荐 加入书签 留言反馈

    作战室里的电子地图被关掉了,取而代之的是四块八十寸的显示墙,每块墙上都密密麻麻地铺满了曲线丶热力图和拓扑结构。中间的主屏上,悟道算力平台的全局架构图正在缓缓旋转——从底层的三万两千颗天权晶片,到中间层的分布式训练框架,到顶层的模型推理服务,每一层都被标注了颜色丶负载系数和故障率。

    许承站在主屏前,手里拿着雷射笔,但没有点。他在等所有人到齐。

    赵静是第一个进来的,手里抱着一台厚重的笔记本,屏幕上已经跑着小芯对悟道平台过去一周负载数据的初步分析结果。她身后跟着小芯团队的三个核心工程师,每个人脸上都带着那种连续熬了几天夜特有的疲惫和亢奋混杂的表情。

    章宸第二个到,他刚从地下二层的验证中心上来,天权4号的NPU调度器修改还在进行中,但他答应过赵静,悟道平台的负载调优会议他必须到场——因为调优的核心瓶颈不在软体,在天权晶片的内存带宽和片间互联延迟。

    林薇第三个到,她带了追光材料实验的最新数据,虽然和悟道平台没有直接关系,但她需要赵静的小芯帮忙跑一组热应力分布的模拟,顺便听听算力平台的进展。

    陈醒最后一个走进作战室,他没有坐主位,而是坐在了靠门的位置。今天这场会议他不需要做决策,只需要听。悟道算力平台是天机云的核心基础设施,也是未来科技AI能力的底座,它的负载调优不是一次性的技术攻关,而是一个持续演进的过程。他要听的是团队有没有找到正确的方向。

    许承等所有人坐定后,点了一下雷射笔,主屏上的全局架构图被替换成了过去四周的负载总览。

    「悟道算力平台目前部署了三万两千颗天权晶片,分布在华夏境内七个数据中心和南洋两个边缘节点。总算力达到每秒三点六亿亿次浮点运算,理论峰值算力在国内排名第一,全球排名第四。」

    「但理论峰值和实际利用率之间,有一道我们一直没填平的鸿沟。」

    许承调出一张曲线图,横轴是时间,纵轴是算力利用率。曲线在过去四周里剧烈波动,最高点达到百分之七十八,最低点跌到百分之四十一,平均利用率只有百分之六十二。

    「理论峰值算力全球第四,实际有效算力可能连全球前十都进不去。这不是硬体的问题,是负载调度的问题。」

    赵静接过话头,把笔记本上的分析结果投到第二块显示墙上。

    「小芯对过去四周的负载数据做了全量分析,发现了三个核心问题。」

    「第一,负载特徵极度不均匀。悟道平台同时支撑三类负载——大模型训练丶推理服务丶科学计算。这三类负载对算力丶内存丶通信的需求特徵完全不同。训练任务需要高带宽丶低延迟的片间互联,推理服务需要低延迟丶高并发的单卡响应,科学计算需要高精度丶大内存的单卡容量。目前的调度策略没有区分这些特徵,把三类负载混在一起跑,结果就是互相干扰。」

    第二块显示墙上出现了一张热力图,不同颜色的色块代表不同类型的负载在时间轴上的分布。训练任务通常是深蓝色的长条,持续几个小时甚至几天;推理服务是浅绿色的短脉冲,每秒几十个;科学计算是黄色的中等长度块,持续几十分钟到几小时。三种颜色在时间轴上交错在一起,像一幅混乱的抽象画。

    「第二,片间通信的拥塞控制太保守。天权晶片之间的互联带宽是理论上每链路每秒五十吉比特,但实际跑大模型训练时,有效带宽只有不到三十吉比特。原因是我们使用的拥塞控制算法过于保守,一旦检测到轻微拥塞就大幅降低发送速率,导致带宽利用率不足百分之六十。」

    章宸点头确认了这个问题的技术细节:「天权晶片的片间互联硬体本身没有问题,瓶颈在协议栈的拥塞控制参数。我们目前用的是通用数据中心的参数配置,但通用配置对大模型训练这种周期性丶大批量的通信模式不适用。需要针对训练任务的特徵重新调参,甚至重写部分拥塞控制逻辑。」

    「第三,」赵静继续说,「推理服务的负载预测准确率太低。悟道平台的推理服务接入了天枢生态的二十七个应用,流量特徵极其不稳定。有的应用在白天流量大,有的应用在晚上流量大,有的应用受社交媒体热点驱动,流量可以在十分钟内暴涨十倍。目前的负载预测模型用的是过去七天的历史数据,预测准确率只有百分之六十五,导致平台不得不预留大量的冗余算力应对突发流量,进一步拉低了平均利用率。」

    赵静把这三个问题的严重程度排了序:负载混跑造成的利用率损失最大,约百分之十五;片间拥塞造成的损失次之,约百分之十;预测不准造成的冗余预留损失约百分之八。如果把这三个问题全部解决,悟道平台的平均算力利用率可以从百分之六十二提升到百分之八十五以上。

    「百分之八十五是理论上限,」许承说,「但能做到百分之七十八到百分之八十,就已经是全球领先水平了。」

    陈醒靠在椅子上,没有说话。他在等赵静说出解决方案。

    赵静翻到下一页,三块显示墙同时更新。

    「解决方案分三个层面,对应三个问题。第一层:负载特徵感知调度。不再把三类负载混在一起跑,而是把平台分区——训练区丶推理区丶科学计算区,每个区根据负载特徵做针对性的调度策略优化。」

    「训练区需要高带宽丶低延迟的片间互联,所以我们把训练任务集中部署在同一机柜或相邻机柜的天权晶片上,减少跨机柜通信。推理区需要低延迟的单卡响应,所以我们在推理区部署了小芯的边缘调度器,可以根据请求的实时延迟需求动态分配算力,延迟敏感的请求优先处理,延迟不敏感的请求可以排队。科学计算区需要大内存的单卡容量,所以我们把内存最大的那批天权晶片专门划给科学计算区,同时优化了内存分配算法,减少了内存碎片。」

    「第二层:片间拥塞控制调优。章宸的团队正在修改互联协议栈的拥塞控制参数,把拥塞检测的窗口从微秒级调整到纳秒级,同时增加了『训练任务优先』的调度策略——当训练任务和推理任务共享同一片网际网路时,训练任务的数据包优先级更高。这个修改不会影响推理服务的延迟,因为推理服务的数据量小丶对带宽不敏感。」

    章宸补充了一句:「参数调优已经跑了两轮仿真,效果符合预期。预计两周内可以上线测试。」

    「第三层:负载预测模型升级。」赵静说到这里,语气变得慎重了一些。「小芯团队正在训练一个新的预测模型,不再只依赖历史流量数据,而是融合了外部信号——社交媒体热点丶新闻事件丶应用版本发布计划丶甚至天气和节假日。这个模型的参数量比现有模型大十倍,训练一次需要悟道平台百分之三十的算力跑三天。」

    「代价不小。」许承说。

    「代价不小,但值得。」赵静调出初步的实验结果,「在离线测试中,新模型的预测准确率达到了百分之八十三,比现有模型提高了十八个百分点。如果上线后能保持这个水平,我们可以把冗余算力的预留比例从百分之三十降低到百分之十五,相当于释放出百分之十五的算力用于更多任务。」

    陈醒听到这里,在笔记本上写了两个字:「值得。」

    赵静看到了他的动作,但没有停下来,继续往下讲。

    「除了这三个核心问题,小芯在分析负载数据时还发现了一个更深层的问题——悟道平台的算力浪费不只是调度策略的问题,还有模型本身的效率问题。很多训练任务使用的模型架构是五年前设计的,计算效率只有现在最优架构的百分之六十。他们浪费算力不是因为平台调度不好,而是因为他们自己的代码写得差。」

    「这个问题怎么解决?」许承问。

    赵静调出了一份统计:「在悟道平台上跑的训练任务中,有百分之三十七来自未来科技内部团队,百分之六十三来自外部合作夥伴和学术机构。内部团队我们可以要求他们优化代码,外部团队我们没有这个权力。」

    「但我们可以给他们工具。」赵静说,「小芯团队正在开发一个『算力效率分析器』,可以自动分析一个训练任务的代码,找出计算效率低下的环节,给出优化建议。这个工具可以开放给所有悟道平台的用户,不是强制,但每个任务跑完后会收到一份效率报告,告诉他们『你的任务比最优方案慢了百分之多少』。」

    林薇第一次开口:「这个工具如果做出来,不只是帮用户省算力,也是在帮我们积累模型优化的经验。每一个任务的效率分析结果,都可以反哺给小芯的训练数据,让小芯越来越擅长发现算力浪费的模式。」

    赵静点了点头。这正是小芯团队的长期目标——让悟道平台成为一个「越用越聪明」的算力系统。

    会议进行到第二部分,许承把讨论从「发现问题」转向「落地执行」。

    「负载分区的方案,我已经让天机云团队做了两周的仿真,今天上午刚跑完最后一轮。」许承调出仿真结果。「分区后的理论利用率可以提升到百分之七十九,但代价是某些极端情况下,训练区可能会因为任务太多而排队,推理区可能会因为流量突增而临时缺算力。」

    「排队和缺算力的问题怎么解决?」秦峥问。他虽然负责汽车业务,但天行者的自动驾驶模型训练重度依赖悟道平台,训练任务的排队时间直接影响模型叠代速度。

    许承调出另一张图:「分区不是物理隔离,而是逻辑隔离。每个区都有『弹性边界』——如果训练区的任务排队超过一定时间,调度器可以从推理区或科学计算区临时借用算力;如果推理区流量突增,调度器可以从训练区借用算力。借用是有优先级的,训练任务可以接受几分钟的延迟,推理任务不能接受,所以借用的方向是单向的——只能从训练区借给推理区,不能反过来。」

    秦峥接受了这个方案。

    章宸提出了一个更技术性的问题:「分区方案上线后,片间拥塞控制调优的工作量会变大。因为不同区的通信模式不同,拥塞控制的参数需要分区配置,不能一刀切。」

    许承表示已经考虑到了这一点:「训练区用训练优化的拥塞控制参数,推理区和科学计算区用默认参数。-->>

本章未完,点击下一页继续阅读

章节目录