读书阁

读书阁>《前馈 > 三叉戟的雏形(第6页)

三叉戟的雏形(第6页)

“不赶不行。”陆沉舟叹了口气,“大模型赛道,现在是战国时代。每天都有新的公司入场,每天都有新的技术突破。如果我们慢了,就永远追不上别人。”

“所以,我们必须快。”

“快到让对手绝望。”

五、第二封信

凌晨两点。

星辰科技的办公区,已经陷入黑暗。只有陆沉舟的办公室里,还亮着一盏灯。

他坐在电脑前,看着屏幕上不断滚动的训练日志。

第一天,数据管道搭建完成,测试通过。

第二天,分布式框架调试完成,28张A100成功组网。

第三天,模型初始化完成,开始第一次试跑。

现在,是第四天的凌晨。

第一次试跑的结果即将出来。

“Loss:4。7321”——屏幕上显示着这个数字。

Loss,是训练过程中的损失函数。简单来说,这个数字越低,代表模型越”聪明”。

4。7321,不算高,但也不算低。

对于一个刚起步的模型来说,这已经是不错的成绩。

但陆沉舟知道,这还远远不够。

他需要的是”涌现”。

“涌现”是大型语言模型研究中最重要的概念之一。当模型的参数规模超过某个临界点时,模型会突然展现出一些意想不到的能力——比如推理、常识理解、甚至简单的代码编写。

GPT-3之所以伟大,就是因为它展现了1750亿参数下的涌现能力。

而陆沉舟的目标,是让星火大模型也具备这种能力。

“临界值……”他喃喃自语,“我们的临界值是多少?”

突然,屏幕上弹出了一封邮件。

发件人:unknown

主题:你的临界值,在这里。

陆沉舟的心跳骤然加速。

这是他收到的第二封神秘邮件。

他颤抖着手,点开了邮件。

附件是一个文档,只有两页。

第一页是一张图表,显示的是模型规模与性能的关系曲线。

图表上有几个关键节点,分别标注着:

?10亿参数:基础语言理解

?100亿参数:上下文学习

?500亿参数:简单推理

?1000亿参数:涌现开始

?1750亿参数:复杂推理

“1000亿参数……”陆沉舟盯着那个数字,“这就是涌现的临界值?”

已完结热门小说推荐

最新标签