陈阳回到宿舍推开门,室友都已经回来了。
    徐子枫戴著耳机,正打著游戏,时不时爆出一句:
    “兄弟们顶住!这波能翻!“
    李明轩在坐位上捧著一本厚厚的英文原版书在看;
    赵俊豪则在阳台上打电话。
    “回来了?“
    听到开门声,李明轩抬头看了他一眼。
    “嗯。“
    陈阳打了声招呼后,便回到床铺拿出换洗衣服去洗澡。
    热水冲在身上,水汽驱散了晚饭时的酒意和一身的疲惫。
    洗完澡出来,陈阳擦著头髮坐到书桌前,打开手机。
    屏幕有一条未读消息。
    “我到宿舍啦。谢谢你陪我散步,感觉没那么紧张了。”
    是沈清雪十几分钟前发的。
    陈阳嘴角微微上扬,指尖在屏幕上轻点:
    “早点休息。明天还要领军训物资。“
    消息几乎是秒回。
    “好~室友她们正在热烈討论咱们学校的男生质量[偷笑]“
    “结论呢?“
    “她们说姚班的大神个个都神神秘秘的,都在猜你是不是那种只会读书的书呆子。[坏笑]“
    “那你怎么说?“
    “我说……保密![吐舌头]“
    陈阳失笑,还学会卖关子了。
    “好啦不逗你了,晚安啦!做个好梦~[月亮]“
    “晚安。“
    放下手机,陈阳爬上床铺。
    夜色渐深,室友们的声响逐渐平息,只剩下徐子枫偶尔的滑鼠点击声。
    陈阳的思绪彻底沉淀下来,开始梳理后续的计划。
    考入姚班,只是他庞大计划的第一步。
    “第一阶段:立足”
    军训是缓衝期,但真正的战斗在九月就要打响。
    姚教授是姚班的灵魂人物,也是国內计算机领域的泰斗。
    他打算在开学后,他需要让姚教授注意到自己。
    有了初步的关注,下一步就是“成果”。
    暑假参加的那场比赛,结果大概会在10月初公布。
    如果一切顺利,那將是他的“敲门砖“。
    但光有敲门砖还不够。
    他要提前准备相关的论文,把核心说清楚。
    一种全新的“大脑“结构,让电脑“看“图片的能力產生质的飞跃。
    在此之前,电脑识別一张猫的照片还很费劲。
    而“启示网络“能让它轻鬆看懂成千上万种事物。
    这篇论文,將是他在学术界的第一块招牌。
    但学术声誉,还不够。
    陈阳的思绪转向了更现实的问题。
    钱,做ai,最烧的就是钱。
    论文发表带来的名气,还能反哺他现在的“小金库“——星城数据服务。
    他要趁著这股东风,迅速拓展公司的新业务。
    不再局限於单一的验证码识別。
    图像识別、文字识別、金融票据处理……
    每一个都是金矿。
    这些业务一旦跑通,就能带来更稳定、更庞大的现金流。
    “必须在10月结果公布之前,把这些功能都做出来。“
    陈阳在心里盘算著时间。
    接下来这段时间,会很忙。
    之后將进入第二阶段:基建。
    名气有了,业务也在跑。
    但这些钱,还远远不够。
    “钱”
    陈阳想到了a股。
    12年底,全球最大的“提款机“不在纳斯达克,而在国內的创业板。
    从12年底到13年上半年,一场围绕移动网际网路的题材狂欢正在酝酿。
    而手游,就是这场狂欢的引爆点。
    陈阳的目標是两只股票:中青宝(300052)和掌趣科技(300315)。
    “利用星城数据这几个月赚的钱,全仓赌一个时间差。”
    他要的不是价值投资,而是快速积累资本。
    “到13年5、6月份,手游概念最疯狂的时候,准时套现。“
    至少4倍,甚至5倍的利润。
    这笔钱,將是他启动“军火库“的第一桶金。
    他要用来提前订购gpu——显卡。
    做ai的人都知道,gpu才是真正的弹药。
    陈阳沉吟片刻。
    “凭藉imagenet冠军和论文的名气,在国內找vc融个几百万天使轮,应该不难。“
    第三阶段:发布模型。
    有了钱,有了名气。
    他的最终目的,才真正开始。
    陈阳的呼吸微微急促起来。
    “13年显卡到来之前,必须完成三件事。“
    第一,搭建大模型基础框架——一套属於自己的深度学习框架。
    第二,transformer架构。
    这是他最大的底牌。
    他要提前“发明“这个基於“注意力机制“的划时代模型。
    它將是未来所有大语言模型的基石。
    第三,小模型。
    基於新框架和transformer架构,做出一个参数量在20亿到30亿的“小“模型。
    “这个方案已经是极限了。“
    陈阳在心里默念:
    “必须在13年底完成训练。2014年1月,准时发布。“
    “第三阶段:发布模型”
    有了钱和名气,他的最终目的才真正开始。
    “13年,必须完成三件事。”
    大模型基础框架:搭建一套属於自己的深度学习框架。
    陈阳在心里默念著这个计划的核心。
    深度学习框架,说白了就是ai的“作业系统“。
    它要解决两个最核心的问题:模型並行和模型通信。
    2012年,单块显卡的显存只有几个g,根本装不下一个大模型。
    唯一的办法,就是把模型“切开“——一部分放在这块显卡,一部分放在那块显卡,让它们协同工作。
    就像一本太厚的书,一个人拿不动,只能撕成几本,分给几个人同时看。
    这是模型並行。
    但问题来了——这几个人需要频繁交流,才能把內容串起来。
    显卡之间也一样,它们要不断传递数据,互相配合。
    这就是模型通信。
    如果通信效率低,几块显卡互相等待,再多显卡也没用。
    这两个技术,將是未来做大模型的核心基础。
    谁掌握了高效的模型並行和通信,谁就能训练更大的模型。
    陈阳很清楚,现在市面上,这两块几乎还是一片空白。
    他要做的,就是一套支持大规模模型並行和高效通信的框架。
    等这套框架成熟了,別人想做大模型,就得用他的“作业系统“。
    那时候,他就掌握了整个行业的底层规则。
    transformer架构:
    这是他最大的底牌。
    为什么transformer是跨时代的?
    两个原因。
    第一,它能理解前后关係。
    传统技术一个字一个字往后看,看到后面,前面就忘了。
    transformer基於“注意力机制“,能看懂一句话里,哪些词和哪些词有关係。
    比如“他拿起苹果,咬了一口“——它知道“咬“和“苹果“有关联。
    这让ai第一次能真正“读懂“一段话。
    第二,它能並行处理。
    传统模型必须一个字一个字按顺序处理。
    transformer可以同时处理所有字,效率高出几十倍。
    这两个特性,让transformer成为未来所有大语言模型的基石。
    陈阳要提前把它“发明“出来。
    最后基於新的框架和transformer架构,做出一个参数量在30亿(3b)的小模型。
    “30亿参数...“
    陈阳很清楚这个数字意味著什么。
    在fp32精度训练中,光是模型权重就需要12gb显存。
    但训练时,还要存储梯度、优化器状態...
    总共需要超过100gb的显存。
    “2013年11月,k40显卡发布。“
    陈阳在心里盘算著时间节点。
    k40是英伟达即將推出的新一代旗舰计算卡,12gb显存,性能强悍。
    “要容纳100gb的训练显存,用12gb的k40来算...“
    陈阳在脑海中快速计算。
    “至少需要9张卡,才能勉强装下这个模型。“
    但他的眉头很快皱了起来。
    “只有9张卡,训练速度太慢了。到14年年中?恐怕到15年都训不完!“
    他的目標是4个月內完成训练。
    怎么办?
    陈阳的眼中闪过一道精光。
    “唯一的办法——数据並行。“
    把这个9卡组合的最小单元,再复製4套。
    让4个模型同时开工。
    9张卡x 4套= 36张卡。
    “这样才能4个月內完成训练。“
    陈阳在心里默念。
    “必须提前订购,等11月硬体到位,立刻开始训练。“
    “趁著14年初谷歌6亿美金收购deepmind(一个人工智慧公司)的热度,年中发布模型。“
    到时候,当所有人还在为识別猫狗而欢呼时,他要拿出一个30亿参数的语言模型。
    那不是领先一步,而是领先一个时代。
    届时,全世界的目光,无论是学术界还是投资界,都將被迫匯聚到他身上。
    他將有足够的资本和话语权,去迎接即將到来的、波澜壮阔的人工智慧大时代。
    窗外传来几声犬吠,打破了深夜的寂静。
    陈阳长长地吐出一口气,接下来有的忙了。