登陆

大模型Scaling Law:从预训练的瓶颈到推理的转向

author 2024-12-07 20人围观 ,发现2个评论

近期,关于大模型Scaling Law是否失效的讨论甚嚣尘上。The Information、路透社和彭博社的报道指出,OpenAI、谷歌和Anthropic等公司在最新一代大模型的研发中,进展放缓,投入产出比下降。例如,OpenAI的下一代旗舰模型Orion虽性能有所提升,但远未达到GPT-3到GPT-4的跨越式进步;谷歌的Gemini也未达预期;Anthropic的Claude 3.5也推迟发布。

然而,OpenAI CEO山姆·奥特曼和微软AI主管Mustafa Suleyman都否认了Scaling Law失效的说法。

文章认为,当前的困境主要体现在预训练阶段:模型参数量的增加导致对数据和算力的需求呈指数级增长,而高质量数据的获取日益困难,训练成本也居高不下。国内AI公司也纷纷转向应用层,放弃了大规模预训练模型的研发。

然而,文章也指出,这更多的是预训练Scaling Law的瓶颈,而非Scaling Law本身的失效。新的研究方向转向了后训练和推理阶段的Scaling Law。通过优化推理阶段的计算资源分配(测试时计算),即使模型参数保持不变,也可以显著提升模型性能。OpenAI的O1模型、微软的Copilot以及国内DeepSeek的DeepSeek-R1-Lite-Preview等都是这一方向的成功案例,它们通过增加推理时间和计算量,实现了性能的提升。

文章最后指出,Scaling Law的有效性并非一成不变,但AI技术的整体发展仍然会持续快速增长,只是增长路径会更加多元化,转向算法优化、硬件加速、新型计算架构等多个方面。即使预训练Scaling Law遇到瓶颈,其商业化应用红利仍将持续较长时间。

已有2条评论
  • 2024-12-07 23:56:27

    很有意思的分析!看来单纯堆参数的时代可能过去了,优化推理和算法才是新的方向。期待更多创新!

  • 2024-12-09 08:38:28

    Thanks for the insightful article! It's interesting to see the shift in focus from purely scaling up models to optimizing other stages of the AI pipeline. The challenges mentioned with data acquisition and costs make a lot of sense.

Powered By axaxcoin.com