“不赶不行。”陆沉舟叹了口气,“大模型赛道,现在是战国时代。每天都有新的公司入场,每天都有新的技术突破。如果我们慢了,就永远追不上别人。”
“所以,我们必须快。”
“快到让对手绝望。”
五、第二封信
凌晨两点。
星辰科技的办公区,已经陷入黑暗。只有陆沉舟的办公室里,还亮着一盏灯。
他坐在电脑前,看着屏幕上不断滚动的训练日志。
第一天,数据管道搭建完成,测试通过。
第二天,分布式框架调试完成,28张A100成功组网。
第三天,模型初始化完成,开始第一次试跑。
现在,是第四天的凌晨。
第一次试跑的结果即将出来。
“Loss:4。7321”——屏幕上显示着这个数字。
Loss,是训练过程中的损失函数。简单来说,这个数字越低,代表模型越”聪明”。
4。7321,不算高,但也不算低。
对于一个刚起步的模型来说,这已经是不错的成绩。
但陆沉舟知道,这还远远不够。
他需要的是”涌现”。
“涌现”是大型语言模型研究中最重要的概念之一。当模型的参数规模超过某个临界点时,模型会突然展现出一些意想不到的能力——比如推理、常识理解、甚至简单的代码编写。
GPT-3之所以伟大,就是因为它展现了1750亿参数下的涌现能力。
而陆沉舟的目标,是让星火大模型也具备这种能力。
“临界值……”他喃喃自语,“我们的临界值是多少?”
突然,屏幕上弹出了一封邮件。
发件人:unknown
主题:你的临界值,在这里。
陆沉舟的心跳骤然加速。
这是他收到的第二封神秘邮件。
他颤抖着手,点开了邮件。
附件是一个文档,只有两页。
第一页是一张图表,显示的是模型规模与性能的关系曲线。
图表上有几个关键节点,分别标注着:
?10亿参数:基础语言理解
?100亿参数:上下文学习
?500亿参数:简单推理
?1000亿参数:涌现开始
?1750亿参数:复杂推理
“1000亿参数……”陆沉舟盯着那个数字,“这就是涌现的临界值?”