而与此同时,肖宿正背著双肩包,准备出发去算力实验室。
小智的特徵维度压缩后,现有分布式调度算法的冗余节点会成为效率瓶颈,肖宿之前思考过,这个问题的关键在於如何实现维度与算力分配的动態匹配,今天主要是去验证一下他的想法。
昨天顾清尘就已经和算力研究室那边约好了。
“小宿,等等,拿上牛奶。”
顾清尘快步走到他面前,把温好的牛奶递给他,“一会儿我跟你一起去算力实验室吧,那边人多,难免有各种寒暄,我跟著你,能帮你挡一挡,省得耽误你时间。”
肖宿停下动作,转过身,神色平淡却带著不容置喙的坚定,直视著顾清尘:“不用了,顾叔叔。”
顾清尘脸上的笑意微微一顿,正要再说些什么,却见肖宿的眼神愈发坚定,眼底藏著一丝他从未见过的执拗。
肖宿从前一直以为顾清尘很閒,没有什么要紧的课题要做,所以才会事事跟著自己。
可那天他去顾清尘的办公室拿东西,看到顾清尘正对著电脑专注地写课题论文。
那篇论文的难度不算太高,以顾清尘的能力,本来用不了多久就能完成的。
可一个多月过去了,肖宿都已经攻克了哥德巴赫猜想,甚至还完善了小智,而顾清尘那篇论文依旧没有任何动静。
肖宿觉得,肯定是顾清尘把太多的时间和精力都花在了自己身上,才耽误了自己的论文进度。
他已经不是需要被人时刻照顾的小孩了,不能再让顾清尘因为自己,耽误他自己的学术发展。
所以从那天起,他就打定了主意,不能再让顾清尘跟著自己。
“我已经长大了。”
肖宿的语气平静却清晰,一字一句,“算力调度的问题我能解决,林砚也会跟著我,你不用费心,专心做自己的课题就好。”
顾清尘看著肖宿的眼睛,那里面只有不容动摇的坚定。
他沉默了片刻,眼底的急切和担忧渐渐褪去,取而代之的是一丝欣慰,还有一丝不易察觉的落寞。
他知道,肖宿是真的长大了,不再是那个需要他时刻护在身边的小孩了,他有自己的想法,有自己的坚持,也有足够的能力独当一面。
最终,顾清尘轻轻点了点头,妥协道:“好,我不跟著你,但你一定要让林砚寸步不离地跟著,有任何事,让他第一时间给我打电话。”
“嗯。”肖宿微微頷首,朝著门口喊了一声,“林砚,走了。”
早已在门口等候的林砚应声上前,手里抱著笔记本电脑,跟在肖宿身后。
顾清尘站在门口,望著两人渐渐远去的背影,心里满是惆悵。
但这份惆悵並没有持续太久,他很快便振作起来。
以肖宿现在的身份,以后事情肯定会越来越多,他必须给肖宿找一个专业的助手,既能帮肖宿处理学术上的琐事,也能在关键时刻搭把手,这样才能让肖宿有更多的时间专注於核心研究。
顾清尘沉吟了许久,反覆思索著合適的人选。
最后,他好像下定了某种决心,在手机上按下了一串熟记於心却许久未拨的號码。
电话响了很久,久到顾清尘几乎都要掛断了,那头才传来一道冷淡的男声:
“什么事?”
顾清尘深吸一口气,缓了缓语气,轻声说道:
“哥,肖宿那个孩子,事情越来越多了,他一个人忙不过来,需要一个专业的助手,我想来想去,只有找你才最放心了。”
电话那头陷入了长久的沉默,空气仿佛都要静止了。
顾清尘的指尖攥紧了手机。
良久,那头才传来一个淡淡的“好”字,隨后便是掛断电话的忙音。
顾清尘握著手机,呆呆的坐了许久,才长长的舒了口气。
而另一边的算力研究室內,已经乱成了一锅粥。
“快快快!把桌上那堆期刊收起来,別让肖神看到咱们实验室这么乱,丟不起这个人!”
一个戴黑框眼镜的研究员手忙脚乱地把散落的《计算机学报》往柜子里塞,指尖都在冒汗。
“急什么急,肖神是来解决问题的,又不是来查卫生的!”
另一个穿白大褂的女生一边擦著实验台,一边吐槽,可手上的动作半点不慢,连键盘缝里的灰尘都用棉签抠了出来。
“不过说真的,肖神怎么会突然来咱们这儿啊?他不是刚搞定哥德巴赫猜想吗?这大佬的精力也太离谱了,比咱们实验室的伺服器还能转!”
“谁知道呢!听说肖神是盯上咱们的算力调度算法了,”男生挠了挠头,语气里满是崇拜又紧张,“咱们那套调度算法,在行业里也算顶尖了,可在肖神眼里,估计就是小儿科。万一他问起来,我要是答不上来,岂不是要社死?”
“放心吧,有周主任在呢!”
女生撇撇嘴,目光看向办公室的方向,“周主任昨天可说了,让咱们今天务必打起十二分精神,別给京大算力实验室丟脸。”
两人说话间,一个身著浅灰色衬衫、头髮梳得一丝不苟的中年男人走了出来,正是算力研究室的负责人周庆宇。
他眼下带著淡淡的青黑,显然是没休息好,脸上却强装著镇定,扫视了一圈实验室,沉声说道:
“都別忙了,正常发挥就好,肖宿同学是来交流学习的,不是来考核咱们的,放宽心。”
话虽这么说,周庆宇自己的手心却全是汗。
昨天傍晚,顾清尘的电话突然打过来,说肖宿想看看实验室的算力系统,当时周庆宇手里的水杯差点摔在地上。
他从事算力研究二十余年,见过的天才不计其数,甚至和mit、斯坦福的顶尖算力专家有过合作,可从来没有像现在这样激动又紧张。
那可是肖宿啊。
十六岁就攻克周氏猜想、孪生素数猜想,如今又疑似证明哥德巴赫猜想,还研发出全球顶尖ai的天才少年。
全球学术界都要抢著拉拢的香餑餑,多少高校和科研机构挤破头想邀请他去做讲座、搞合作,都被他婉拒了,如今竟然主动找上门来,要来他们这个算力实验室看看?
周庆宇一夜没睡好,脑子里反覆回想实验室现有的算力调度算法,琢磨著肖宿可能会提出的问题,甚至连夜翻出了肖宿发表的所有论文,哪怕其中很多关於数论、辛几何的內容,他看不太懂,也硬著头皮啃了一遍。
“周主任,肖神来了!”门口的研究员突然小声喊道,语气里带著一丝雀跃。
周庆宇立刻回过神,快步迎了上去。
只见肖宿穿著简单的白色t恤和黑色运动裤,背著一个双肩包,神色平淡,和普通的京大学生没什么两样,可周身那种从容不迫的气场,却让人不由自主地心生敬畏。
他身后还跟著林砚,手里抱著一台笔记本电脑。
“肖宿同学,欢迎欢迎!”
周庆宇伸出手,语气里难掩热情,“我是算力研究室的周庆宇,早就听说你的大名,一直想找机会向你请教,没想到你竟然主动来了,真是蓬蓽生辉啊!”
肖宿轻轻握了握他的手,语气清朗而平稳:“周老师好。”
想了想又补了一句,“打扰了。”
周庆宇连忙迎上去:“不打扰不打扰,肖宿同学,快请进,这位是……”
“林砚,肖宿的助手。”林砚咧嘴一笑,自觉地把自己定位得很清楚。
周庆宇把他们引到会议区,宋晓曼已经沏好了茶。
肖宿没有坐,目光越过所有人,直接落在了那三排机柜上。
黑色的机柜靠墙排列,指示灯像繁星一样明灭闪烁。
散热风扇的嗡鸣声低沉而持续,像某种巨大生物的呼吸。
透过玻璃柜门,可以看到里面插满了一块块计算卡,线缆整齐地綑扎成束,沿著走线架延伸到天花板上的桥架里。
这是京大高性能计算中心的家底。
三台管理节点,四十八个计算节点,每个节点八张gpu加速卡,总共三百八十四张卡。另外还有两组专门做数据存储的磁碟阵列,和一个从去年才开始搭建的液冷实验集群。
这些设备加在一起,峰值算力大约是两点八个pflops。
这个数字放在国內高校里算得上第一梯队,但跟深度求索那种动輒上万张h100的商业公司比起来,差了一个数量级。
不过肖宿今天来,关心的不是算力总量。
他关心的是算力被使用的方式。
周庆宇站在机柜旁边,开始介绍情况。
“我们目前的调度系统用的是slurm框架,搭配自主研发的能耗管理模块。调度策略上,我们採用的是改进后的加权公平队列算法,结合动態电压频率调节来平衡负载,具体的资源分配逻辑是……”
他说了大概三分钟。
肖宿一直没说话,只是安静地听著,目光在机柜的指示灯和旁边监控屏幕上的实时负载曲线之间来回移动。
等周庆宇说完,肖宿才缓缓开口。。
“你们现在的调度策略,是针对高维特徵空间设计的吧?”
周庆宇愣了一下,隨即点头:
“对,目前主流的ai训练任务,特徵维度都很高,所以我们默认按照高维张量运算的负载模型来分配资源。
这个策略是我们去年在sc会议上发表的,核心思想是把高维张量拆分成多个低维子块,然后分配到不同节点上做並行计算。
业內评价还不错,有几个学校还专门来我们这儿取过经。”
肖宿站在监控屏幕前,目光落在那条负载曲线上,看了一会儿。
实验室里的人都没有出声。
周庆宇站在他侧后方,手里还攥著刚才介绍系统时用来指屏幕的笔,笔帽不知道什么时候被他在指尖转鬆了,发出细微的咔咔声。
他自己都没注意到。
所有人的注意力都在肖宿身上。
“周老师,你们的调度器在处理通用ai训练任务的时候,节点利用率大概是多少?”
周庆宇微微鬆了口气,这个问题他答得上来。
“通用任务的话,gpu平均利用率在百分之七十五到八十五之间,峰值能到九十以上。”
他说这话的时候语气里带著一点不明显的底气。
这个数字在国內高校的算力中心里確实算漂亮的,去年sc会议的论文里专门有一段就是分析这个利用率数据的。
肖宿点了点头,没有评价这个数字是高还是低。
他的目光从负载曲线移到了机柜的指示灯上,那一排排绿灯有规律地明灭,像某种呼吸的节奏。
“那如果跑小智的框架呢?”
周庆宇那点底气一下子散了。
“小智框架我们上周跑过一次基准测试,解耦度確实很惊人,和论文里的数据一致,但是实际运行速度只比传统模型快了三成左右,节点利用率……”
他停了一下,“不到百分之五十。”
“跟我预估的差不多。”
肖宿说这句话的时候语气很平淡。
他走到白板前。
宋晓曼几乎是下意识地往旁边让了一步,手里还攥著那块擦白板的抹布。
“我在设计小智的时候,用了一个前提假设。”
他的手快速的在白板上移动,很快就画出了一张结构清晰的层次图。
“传统大模型的特徵空间是高维的,所有信息搅在一起。语义、逻辑、符號,全都在同一个高维向量里。
这种结构下,计算密集度集中在张量收缩操作上,单次计算量大,但跨节点通信的频率低。
通信开销相对於计算开销来说占比很小,所以调度策略把任务拆碎、撒出去、並行跑,是对的。”
他的笔停在第一层和第二层之间。
“小智的思路相反,我把这三层解耦了,语义层的表徵被压缩到紧致群的不可约表示空间里,逻辑层单独建模,符號层再单独建模。
每一层的维度都比传统模型低了將近两个数量级。”
他在每一层旁边標註了对应的计算复杂度。
语义解析:o(n log n)。
逻辑推理:o(n2)。
符號映射:o(n)。
“维度降低之后,单次计算量变小了,但三层之间的依赖关係比传统模型复杂。
语义层的输出是逻辑层的输入,逻辑层的中间结果需要和符號层频繁交换。
而且三层的计算复杂度不一样,逻辑层算得最慢,语义层次之,符號层最快。”
他转过身,笔尖点了点监控屏幕上那条负载曲线。
“所以如果还用传统调度策略,把每一层都拆成等大的子块撒出去,会出现一个情况,那就是符號层的节点很快就跑完了,然后空转,等逻辑层的节点把结果传过来。
逻辑层的节点本身就算得慢,还要负责匯总子节点的数据,通信压力全堆在它身上,结果就是……”
“大部分节点不在算,而是在等。”周庆宇接了一句。
肖宿点头。
小智的特徵维度压缩后,现有分布式调度算法的冗余节点会成为效率瓶颈,肖宿之前思考过,这个问题的关键在於如何实现维度与算力分配的动態匹配,今天主要是去验证一下他的想法。
昨天顾清尘就已经和算力研究室那边约好了。
“小宿,等等,拿上牛奶。”
顾清尘快步走到他面前,把温好的牛奶递给他,“一会儿我跟你一起去算力实验室吧,那边人多,难免有各种寒暄,我跟著你,能帮你挡一挡,省得耽误你时间。”
肖宿停下动作,转过身,神色平淡却带著不容置喙的坚定,直视著顾清尘:“不用了,顾叔叔。”
顾清尘脸上的笑意微微一顿,正要再说些什么,却见肖宿的眼神愈发坚定,眼底藏著一丝他从未见过的执拗。
肖宿从前一直以为顾清尘很閒,没有什么要紧的课题要做,所以才会事事跟著自己。
可那天他去顾清尘的办公室拿东西,看到顾清尘正对著电脑专注地写课题论文。
那篇论文的难度不算太高,以顾清尘的能力,本来用不了多久就能完成的。
可一个多月过去了,肖宿都已经攻克了哥德巴赫猜想,甚至还完善了小智,而顾清尘那篇论文依旧没有任何动静。
肖宿觉得,肯定是顾清尘把太多的时间和精力都花在了自己身上,才耽误了自己的论文进度。
他已经不是需要被人时刻照顾的小孩了,不能再让顾清尘因为自己,耽误他自己的学术发展。
所以从那天起,他就打定了主意,不能再让顾清尘跟著自己。
“我已经长大了。”
肖宿的语气平静却清晰,一字一句,“算力调度的问题我能解决,林砚也会跟著我,你不用费心,专心做自己的课题就好。”
顾清尘看著肖宿的眼睛,那里面只有不容动摇的坚定。
他沉默了片刻,眼底的急切和担忧渐渐褪去,取而代之的是一丝欣慰,还有一丝不易察觉的落寞。
他知道,肖宿是真的长大了,不再是那个需要他时刻护在身边的小孩了,他有自己的想法,有自己的坚持,也有足够的能力独当一面。
最终,顾清尘轻轻点了点头,妥协道:“好,我不跟著你,但你一定要让林砚寸步不离地跟著,有任何事,让他第一时间给我打电话。”
“嗯。”肖宿微微頷首,朝著门口喊了一声,“林砚,走了。”
早已在门口等候的林砚应声上前,手里抱著笔记本电脑,跟在肖宿身后。
顾清尘站在门口,望著两人渐渐远去的背影,心里满是惆悵。
但这份惆悵並没有持续太久,他很快便振作起来。
以肖宿现在的身份,以后事情肯定会越来越多,他必须给肖宿找一个专业的助手,既能帮肖宿处理学术上的琐事,也能在关键时刻搭把手,这样才能让肖宿有更多的时间专注於核心研究。
顾清尘沉吟了许久,反覆思索著合適的人选。
最后,他好像下定了某种决心,在手机上按下了一串熟记於心却许久未拨的號码。
电话响了很久,久到顾清尘几乎都要掛断了,那头才传来一道冷淡的男声:
“什么事?”
顾清尘深吸一口气,缓了缓语气,轻声说道:
“哥,肖宿那个孩子,事情越来越多了,他一个人忙不过来,需要一个专业的助手,我想来想去,只有找你才最放心了。”
电话那头陷入了长久的沉默,空气仿佛都要静止了。
顾清尘的指尖攥紧了手机。
良久,那头才传来一个淡淡的“好”字,隨后便是掛断电话的忙音。
顾清尘握著手机,呆呆的坐了许久,才长长的舒了口气。
而另一边的算力研究室內,已经乱成了一锅粥。
“快快快!把桌上那堆期刊收起来,別让肖神看到咱们实验室这么乱,丟不起这个人!”
一个戴黑框眼镜的研究员手忙脚乱地把散落的《计算机学报》往柜子里塞,指尖都在冒汗。
“急什么急,肖神是来解决问题的,又不是来查卫生的!”
另一个穿白大褂的女生一边擦著实验台,一边吐槽,可手上的动作半点不慢,连键盘缝里的灰尘都用棉签抠了出来。
“不过说真的,肖神怎么会突然来咱们这儿啊?他不是刚搞定哥德巴赫猜想吗?这大佬的精力也太离谱了,比咱们实验室的伺服器还能转!”
“谁知道呢!听说肖神是盯上咱们的算力调度算法了,”男生挠了挠头,语气里满是崇拜又紧张,“咱们那套调度算法,在行业里也算顶尖了,可在肖神眼里,估计就是小儿科。万一他问起来,我要是答不上来,岂不是要社死?”
“放心吧,有周主任在呢!”
女生撇撇嘴,目光看向办公室的方向,“周主任昨天可说了,让咱们今天务必打起十二分精神,別给京大算力实验室丟脸。”
两人说话间,一个身著浅灰色衬衫、头髮梳得一丝不苟的中年男人走了出来,正是算力研究室的负责人周庆宇。
他眼下带著淡淡的青黑,显然是没休息好,脸上却强装著镇定,扫视了一圈实验室,沉声说道:
“都別忙了,正常发挥就好,肖宿同学是来交流学习的,不是来考核咱们的,放宽心。”
话虽这么说,周庆宇自己的手心却全是汗。
昨天傍晚,顾清尘的电话突然打过来,说肖宿想看看实验室的算力系统,当时周庆宇手里的水杯差点摔在地上。
他从事算力研究二十余年,见过的天才不计其数,甚至和mit、斯坦福的顶尖算力专家有过合作,可从来没有像现在这样激动又紧张。
那可是肖宿啊。
十六岁就攻克周氏猜想、孪生素数猜想,如今又疑似证明哥德巴赫猜想,还研发出全球顶尖ai的天才少年。
全球学术界都要抢著拉拢的香餑餑,多少高校和科研机构挤破头想邀请他去做讲座、搞合作,都被他婉拒了,如今竟然主动找上门来,要来他们这个算力实验室看看?
周庆宇一夜没睡好,脑子里反覆回想实验室现有的算力调度算法,琢磨著肖宿可能会提出的问题,甚至连夜翻出了肖宿发表的所有论文,哪怕其中很多关於数论、辛几何的內容,他看不太懂,也硬著头皮啃了一遍。
“周主任,肖神来了!”门口的研究员突然小声喊道,语气里带著一丝雀跃。
周庆宇立刻回过神,快步迎了上去。
只见肖宿穿著简单的白色t恤和黑色运动裤,背著一个双肩包,神色平淡,和普通的京大学生没什么两样,可周身那种从容不迫的气场,却让人不由自主地心生敬畏。
他身后还跟著林砚,手里抱著一台笔记本电脑。
“肖宿同学,欢迎欢迎!”
周庆宇伸出手,语气里难掩热情,“我是算力研究室的周庆宇,早就听说你的大名,一直想找机会向你请教,没想到你竟然主动来了,真是蓬蓽生辉啊!”
肖宿轻轻握了握他的手,语气清朗而平稳:“周老师好。”
想了想又补了一句,“打扰了。”
周庆宇连忙迎上去:“不打扰不打扰,肖宿同学,快请进,这位是……”
“林砚,肖宿的助手。”林砚咧嘴一笑,自觉地把自己定位得很清楚。
周庆宇把他们引到会议区,宋晓曼已经沏好了茶。
肖宿没有坐,目光越过所有人,直接落在了那三排机柜上。
黑色的机柜靠墙排列,指示灯像繁星一样明灭闪烁。
散热风扇的嗡鸣声低沉而持续,像某种巨大生物的呼吸。
透过玻璃柜门,可以看到里面插满了一块块计算卡,线缆整齐地綑扎成束,沿著走线架延伸到天花板上的桥架里。
这是京大高性能计算中心的家底。
三台管理节点,四十八个计算节点,每个节点八张gpu加速卡,总共三百八十四张卡。另外还有两组专门做数据存储的磁碟阵列,和一个从去年才开始搭建的液冷实验集群。
这些设备加在一起,峰值算力大约是两点八个pflops。
这个数字放在国內高校里算得上第一梯队,但跟深度求索那种动輒上万张h100的商业公司比起来,差了一个数量级。
不过肖宿今天来,关心的不是算力总量。
他关心的是算力被使用的方式。
周庆宇站在机柜旁边,开始介绍情况。
“我们目前的调度系统用的是slurm框架,搭配自主研发的能耗管理模块。调度策略上,我们採用的是改进后的加权公平队列算法,结合动態电压频率调节来平衡负载,具体的资源分配逻辑是……”
他说了大概三分钟。
肖宿一直没说话,只是安静地听著,目光在机柜的指示灯和旁边监控屏幕上的实时负载曲线之间来回移动。
等周庆宇说完,肖宿才缓缓开口。。
“你们现在的调度策略,是针对高维特徵空间设计的吧?”
周庆宇愣了一下,隨即点头:
“对,目前主流的ai训练任务,特徵维度都很高,所以我们默认按照高维张量运算的负载模型来分配资源。
这个策略是我们去年在sc会议上发表的,核心思想是把高维张量拆分成多个低维子块,然后分配到不同节点上做並行计算。
业內评价还不错,有几个学校还专门来我们这儿取过经。”
肖宿站在监控屏幕前,目光落在那条负载曲线上,看了一会儿。
实验室里的人都没有出声。
周庆宇站在他侧后方,手里还攥著刚才介绍系统时用来指屏幕的笔,笔帽不知道什么时候被他在指尖转鬆了,发出细微的咔咔声。
他自己都没注意到。
所有人的注意力都在肖宿身上。
“周老师,你们的调度器在处理通用ai训练任务的时候,节点利用率大概是多少?”
周庆宇微微鬆了口气,这个问题他答得上来。
“通用任务的话,gpu平均利用率在百分之七十五到八十五之间,峰值能到九十以上。”
他说这话的时候语气里带著一点不明显的底气。
这个数字在国內高校的算力中心里確实算漂亮的,去年sc会议的论文里专门有一段就是分析这个利用率数据的。
肖宿点了点头,没有评价这个数字是高还是低。
他的目光从负载曲线移到了机柜的指示灯上,那一排排绿灯有规律地明灭,像某种呼吸的节奏。
“那如果跑小智的框架呢?”
周庆宇那点底气一下子散了。
“小智框架我们上周跑过一次基准测试,解耦度確实很惊人,和论文里的数据一致,但是实际运行速度只比传统模型快了三成左右,节点利用率……”
他停了一下,“不到百分之五十。”
“跟我预估的差不多。”
肖宿说这句话的时候语气很平淡。
他走到白板前。
宋晓曼几乎是下意识地往旁边让了一步,手里还攥著那块擦白板的抹布。
“我在设计小智的时候,用了一个前提假设。”
他的手快速的在白板上移动,很快就画出了一张结构清晰的层次图。
“传统大模型的特徵空间是高维的,所有信息搅在一起。语义、逻辑、符號,全都在同一个高维向量里。
这种结构下,计算密集度集中在张量收缩操作上,单次计算量大,但跨节点通信的频率低。
通信开销相对於计算开销来说占比很小,所以调度策略把任务拆碎、撒出去、並行跑,是对的。”
他的笔停在第一层和第二层之间。
“小智的思路相反,我把这三层解耦了,语义层的表徵被压缩到紧致群的不可约表示空间里,逻辑层单独建模,符號层再单独建模。
每一层的维度都比传统模型低了將近两个数量级。”
他在每一层旁边標註了对应的计算复杂度。
语义解析:o(n log n)。
逻辑推理:o(n2)。
符號映射:o(n)。
“维度降低之后,单次计算量变小了,但三层之间的依赖关係比传统模型复杂。
语义层的输出是逻辑层的输入,逻辑层的中间结果需要和符號层频繁交换。
而且三层的计算复杂度不一样,逻辑层算得最慢,语义层次之,符號层最快。”
他转过身,笔尖点了点监控屏幕上那条负载曲线。
“所以如果还用传统调度策略,把每一层都拆成等大的子块撒出去,会出现一个情况,那就是符號层的节点很快就跑完了,然后空转,等逻辑层的节点把结果传过来。
逻辑层的节点本身就算得慢,还要负责匯总子节点的数据,通信压力全堆在它身上,结果就是……”
“大部分节点不在算,而是在等。”周庆宇接了一句。
肖宿点头。
