第206章 AI界的反应 一(2/2)
电话接通,那头传来杰夫迪恩冷静而富有磁性的声音。
“大卫,现在是凌晨一点。如果不是alphago有了自我意识,或者地球即將毁灭,你最好给我一个合理的解释。”
“杰夫,別睡了!快看我发给你的邮件!我们可能错过了一个亿!”大卫的声音都在颤抖,“不,是错过了一个时代!”
十分钟后。
杰夫迪恩坐在家里的书房,盯著屏幕上的论文和deo数据。
他的眼神,从最初的睏倦,逐渐变得锐利,最后变成了震惊。
作为系统架构的大师,他看到的不仅仅是算法的精妙,更是其背后对计算范式的顛覆。
“这个中国人……他绕过了矩阵。”
杰夫迪恩喃喃自语。
“现在的ai,本质上是建立在矩阵乘法之上的。无论是gpu还是我们引以为傲的tpu,其底层逻辑都是为了加速矩阵运算。”
“但是这个slr……”
杰夫迪恩的手指在桌面上轻轻敲击。
“它的核心是几何求交和非线性变换。这些操作在现有的tpu上跑,效率极低。tpu那庞大的脉动阵列会因为无法填满数据而空转。”
“这意味著,如果我们想大规模部署这个模型,我们现有的硬体架构……全是废铁。”
这对於谷歌来说,是一个灾难性的结论。
要知道,谷歌为了tpu项目,已经投入了数千名工程师和数百亿美元。tpuv4刚刚部署到数据中心,tpuv5正在流片。
现在,突然有人告诉他:你们的路走窄了。
“马上召开战略会议。”杰夫迪恩拿起电话,声音不容置疑,“通知皮查伊,还有deepd的哈萨比斯。所有人,立刻上线。”
……
第二天,谷歌最高级別的战略会议室。
会议室里的气氛,冷静得近乎压抑。
这里坐著的,是谷歌技术体系的最高大脑:桑达尔皮查伊(ceo)、杰夫迪恩(首席科学家)、戴密斯哈萨比斯(deepd创始人)。
屏幕上投射的,正是徐辰的那篇论文。
“结论”皮查伊的声音听不出情绪。
杰夫迪恩推了推眼镜,指著架构图上的核心模块:“从数学上讲,这是完美的。它绕过了transforr最大的缺陷——注意力机制的计算冗余。它用几何关係替代了注意力权重,这让逻辑推理变成了『查表』而不是『计算』。”
“但是,”杰夫的话锋一转,切中了商业逻辑的要害,“这对我们现有的基础设施,是一个灾难。”
“解释一下。”
“我们的tpu,其核心架构是脉动阵列。这种架构是为了大规模矩阵乘法而生的。它就像是一个巨大的流水线工厂,只有当数据像洪流一样整齐划一地流过时,效率才最高。”
杰夫调出一张对比图:
“但徐辰提出的slr模型,其核心算子是极值、交集和隨机採样。这些操作充满了条件判断和非线性变换。”
“如果让tpu跑这个,就像是让一辆f1赛车去送外卖。赛车很快,但它在红绿灯和楼道里会卡死。我们的tpu利用率会从70%暴跌到5%以下。”
会议室陷入了死寂。
这意味著,谷歌引以为傲的算力护城河,在这个新算法面前,失效了。
“英伟达呢”哈萨比斯突然问道,“他们的gpu会好一点吗”
“好不到哪去。”杰夫摇头,“cuda核心虽然比tpu灵活,但本质上也是单指令多线程架构,依然依赖数据並行。面对这种高维几何逻辑,gpu的缓存命中率会低得令人髮指。”
皮查伊的手指轻轻敲击著桌面。
作为ceo,他看到的不是技术难题,而是战略危机,也是战略机遇。
“如果这个算法是真的,那么谁先造出適合它的硬体,谁就定义了下一代ai。”
皮查伊抬起头,目光锐利:“成立『几何计算』专项组。deepd负责算法復现,硬体团队立刻评估tpu v6架构调整的可能性。