第3章计划

佚名 / 著投票加入书签

    陈阳回到宿舍推开门，室友都已经回来了。
    徐子枫戴著耳机，正打著游戏，时不时爆出一句：
    “兄弟们顶住！这波能翻！“
    李明轩在坐位上捧著一本厚厚的英文原版书在看；
    赵俊豪则在阳台上打电话。
    “回来了？“
    听到开门声，李明轩抬头看了他一眼。
    “嗯。“
    陈阳打了声招呼后，便回到床铺拿出换洗衣服去洗澡。
    热水冲在身上，水汽驱散了晚饭时的酒意和一身的疲惫。
    洗完澡出来，陈阳擦著头髮坐到书桌前，打开手机。
    屏幕有一条未读消息。
    “我到宿舍啦。谢谢你陪我散步，感觉没那么紧张了。”
    是沈清雪十几分钟前发的。
    陈阳嘴角微微上扬，指尖在屏幕上轻点：
    “早点休息。明天还要领军训物资。“
    消息几乎是秒回。
    “好~室友她们正在热烈討论咱们学校的男生质量[偷笑]“
    “结论呢？“
    “她们说姚班的大神个个都神神秘秘的，都在猜你是不是那种只会读书的书呆子。[坏笑]“
    “那你怎么说？“
    “我说……保密！[吐舌头]“
    陈阳失笑，还学会卖关子了。
    “好啦不逗你了，晚安啦！做个好梦~[月亮]“
    “晚安。“
    放下手机，陈阳爬上床铺。
    夜色渐深，室友们的声响逐渐平息，只剩下徐子枫偶尔的滑鼠点击声。
    陈阳的思绪彻底沉淀下来，开始梳理后续的计划。
    考入姚班，只是他庞大计划的第一步。
    “第一阶段：立足”
    军训是缓衝期，但真正的战斗在九月就要打响。
    姚教授是姚班的灵魂人物，也是国內计算机领域的泰斗。
    他打算在开学后，他需要让姚教授注意到自己。
    有了初步的关注，下一步就是“成果”。
    暑假参加的那场比赛，结果大概会在10月初公布。
    如果一切顺利，那將是他的“敲门砖“。
    但光有敲门砖还不够。
    他要提前准备相关的论文，把核心说清楚。
    一种全新的“大脑“结构，让电脑“看“图片的能力產生质的飞跃。
    在此之前，电脑识別一张猫的照片还很费劲。
    而“启示网络“能让它轻鬆看懂成千上万种事物。
    这篇论文，將是他在学术界的第一块招牌。
    但学术声誉，还不够。
    陈阳的思绪转向了更现实的问题。
    钱，做ai，最烧的就是钱。
    论文发表带来的名气，还能反哺他现在的“小金库“——星城数据服务。
    他要趁著这股东风，迅速拓展公司的新业务。
    不再局限於单一的验证码识別。
    图像识別、文字识別、金融票据处理……
    每一个都是金矿。
    这些业务一旦跑通，就能带来更稳定、更庞大的现金流。
    “必须在10月结果公布之前，把这些功能都做出来。“
    陈阳在心里盘算著时间。
    接下来这段时间，会很忙。
    之后將进入第二阶段：基建。
    名气有了，业务也在跑。
    但这些钱，还远远不够。
    “钱”
    陈阳想到了a股。
    12年底，全球最大的“提款机“不在纳斯达克，而在国內的创业板。
    从12年底到13年上半年，一场围绕移动网际网路的题材狂欢正在酝酿。
    而手游，就是这场狂欢的引爆点。
    陈阳的目標是两只股票：中青宝（300052）和掌趣科技（300315）。
    “利用星城数据这几个月赚的钱，全仓赌一个时间差。”
    他要的不是价值投资，而是快速积累资本。
    “到13年5、6月份，手游概念最疯狂的时候，准时套现。“
    至少4倍，甚至5倍的利润。
    这笔钱，將是他启动“军火库“的第一桶金。
    他要用来提前订购gpu——显卡。
    做ai的人都知道，gpu才是真正的弹药。
    陈阳沉吟片刻。
    “凭藉imagenet冠军和论文的名气，在国內找vc融个几百万天使轮，应该不难。“
    第三阶段：发布模型。
    有了钱，有了名气。
    他的最终目的，才真正开始。
    陈阳的呼吸微微急促起来。
    “13年显卡到来之前，必须完成三件事。“
    第一，搭建大模型基础框架——一套属於自己的深度学习框架。
    第二，transformer架构。
    这是他最大的底牌。
    他要提前“发明“这个基於“注意力机制“的划时代模型。
    它將是未来所有大语言模型的基石。
    第三，小模型。
    基於新框架和transformer架构，做出一个参数量在20亿到30亿的“小“模型。
    “这个方案已经是极限了。“
    陈阳在心里默念：
    “必须在13年底完成训练。2014年1月，准时发布。“
    “第三阶段：发布模型”
    有了钱和名气，他的最终目的才真正开始。
    “13年，必须完成三件事。”
    大模型基础框架：搭建一套属於自己的深度学习框架。
    陈阳在心里默念著这个计划的核心。
    深度学习框架，说白了就是ai的“作业系统“。
    它要解决两个最核心的问题：模型並行和模型通信。
    2012年，单块显卡的显存只有几个g，根本装不下一个大模型。
    唯一的办法，就是把模型“切开“——一部分放在这块显卡，一部分放在那块显卡，让它们协同工作。
    就像一本太厚的书，一个人拿不动，只能撕成几本，分给几个人同时看。
    这是模型並行。
    但问题来了——这几个人需要频繁交流，才能把內容串起来。
    显卡之间也一样，它们要不断传递数据，互相配合。
    这就是模型通信。
    如果通信效率低，几块显卡互相等待，再多显卡也没用。
    这两个技术，將是未来做大模型的核心基础。
    谁掌握了高效的模型並行和通信，谁就能训练更大的模型。
    陈阳很清楚，现在市面上，这两块几乎还是一片空白。
    他要做的，就是一套支持大规模模型並行和高效通信的框架。
    等这套框架成熟了，別人想做大模型，就得用他的“作业系统“。
    那时候，他就掌握了整个行业的底层规则。
    transformer架构：
    这是他最大的底牌。
    为什么transformer是跨时代的？
    两个原因。
    第一，它能理解前后关係。
    传统技术一个字一个字往后看，看到后面，前面就忘了。
    transformer基於“注意力机制“，能看懂一句话里，哪些词和哪些词有关係。
    比如“他拿起苹果，咬了一口“——它知道“咬“和“苹果“有关联。
    这让ai第一次能真正“读懂“一段话。
    第二，它能並行处理。
    传统模型必须一个字一个字按顺序处理。
    transformer可以同时处理所有字，效率高出几十倍。
    这两个特性，让transformer成为未来所有大语言模型的基石。
    陈阳要提前把它“发明“出来。
    最后基於新的框架和transformer架构，做出一个参数量在30亿（3b）的小模型。
    “30亿参数...“
    陈阳很清楚这个数字意味著什么。
    在fp32精度训练中，光是模型权重就需要12gb显存。
    但训练时，还要存储梯度、优化器状態...
    总共需要超过100gb的显存。
    “2013年11月，k40显卡发布。“
    陈阳在心里盘算著时间节点。
    k40是英伟达即將推出的新一代旗舰计算卡，12gb显存，性能强悍。
    “要容纳100gb的训练显存，用12gb的k40来算...“
    陈阳在脑海中快速计算。
    “至少需要9张卡，才能勉强装下这个模型。“
    但他的眉头很快皱了起来。
    “只有9张卡，训练速度太慢了。到14年年中？恐怕到15年都训不完！“
    他的目標是4个月內完成训练。
    怎么办？
    陈阳的眼中闪过一道精光。
    “唯一的办法——数据並行。“
    把这个9卡组合的最小单元，再复製4套。
    让4个模型同时开工。
    9张卡x 4套= 36张卡。
    “这样才能4个月內完成训练。“
    陈阳在心里默念。
    “必须提前订购，等11月硬体到位，立刻开始训练。“
    “趁著14年初谷歌6亿美金收购deepmind（一个人工智慧公司）的热度，年中发布模型。“
    到时候，当所有人还在为识別猫狗而欢呼时，他要拿出一个30亿参数的语言模型。
    那不是领先一步，而是领先一个时代。
    届时，全世界的目光，无论是学术界还是投资界，都將被迫匯聚到他身上。
    他將有足够的资本和话语权，去迎接即將到来的、波澜壮阔的人工智慧大时代。
    窗外传来几声犬吠，打破了深夜的寂静。
    陈阳长长地吐出一口气，接下来有的忙了。

第3章 计划

第3章计划