广密大模型季报谈AGI范式大转移这篇播客,很值得一听。涉及很多大模型产业重要话题,视野和风格很独到。
“范式大转移”的说法太耸人,但风云诡谲,是当下的写照。那是因为大佬军备竞赛虽然依旧如火如荼,可应用落地却处于难产期,如何 justify 投资是一个巨大的拷问,或泡沫。
三大学习: 监督学习、非监督学习(自学习/预训练)、强化学习(RL,自主学习/self-play),伊利亚曾经专门强调后者作为探索大方向的重要性。广密这里特别强调它是正在到来的大模型AGI之道的范式转变。
此前,大家都知道强化学习主要是两个里程碑:一个是 alpha0 围棋完胜人类选手,震惊了世界 ;另一个是所谓RLHM(人类反馈强化学习),强化了与人类偏好的对齐,成就了ChatGPT的核爆。
现在谈的是大模型新生态可能性(并无广泛共识,只是硅谷小圈子在做、在议)以及大模型“军备竞赛”的新趋向。这个话题的背景如下:
1、 预训练 scaling (更大规模)似乎受困,GPT5 迟迟不出;
2、 军备竞赛的大格局和造势,大厂和大佬不要改变;
3、 技术大佬开始提出新路线图或试图构建新的 scaling law 继续AGI 的征程
广密在podcast里面,观察硅谷动向比较 closely,他的小团队不仅定期去湾区做深度调研,也建立了广泛的联系。在硅谷跟他们喝过两次咖啡聊天,一帮生龙活虎的小年轻在他的带领下,我的印象,是一个小而精干的独特存在。
这台节目的个人风格和视野也非常 unique,喜欢他说话的思路敏捷,有跳跃感,但张儿不散,有一种吸引人的表达力。主持人与他的交互也很丝滑,张弛有度。
听他们唠嗑吧,谈笑间大模型AGI的大趋势貌似尽收眼底。还是值得点赞的。
广密条理非常清晰,所涉及的知识面和大形势观非常广泛,却能present到自己的视角参照系,与LLM社区的思想趋势有较好的映射。这不容易,因为LLM这档子事,无论模型还是产业的 landscape,大多都是盲人摸象。很多大专家、商业大佬也都各有自己的三分地和视角,也很难全面评估形势。Meta 小扎刚前不久面对万卡竞赛能不能得到预期的AGI return的天问,回答说(大意):其实没人知道,但总不想万一错过的(典型的 FOMO心态)。
目前形势处于微妙期,其实还没有凝聚太多的共识。但是把英伟达送上天价的几个富可敌国的大佬/大厂,短期内却绝对不允许停止军备竞赛,这是他们科技商业争霸的游戏。这叫欲罢不能,节奏在他们手中。Open AI 不断融资,伊利亚自己也最近融资成功,这些都是这场竞赛持续热度的浪花。
与之相配合的是技术大佬和硅谷AGI主流技术圈对scaling的执着和痴迷。因为这次大模型 scaling 技术浪潮对于资源的无止境需求,真正能有机会实践、感知并做出调整改变路线图的技术人,也只能是一个很小的圈子。
据广密的信息,这个所谓 self-play RL 新生态趋势,目前是局限在硅谷技术大佬小圈子的共识,他提到大约不超过200人的圈子的。如果信息正确的话,一个在硅谷技术核心圈200人以内的某种共识和议论,说明还只是一个动向,甚至连管理圈还没真正 get it 和对齐。
感觉上,广密有一些“春江水暖鸭先知”/“语不惊人死不休”的心态(LOL),有意强调/夸张了这个趋势,警醒国人,甚至说,如果我是大模型创业家,我会200%资源聚焦 RL 方向,bet on it,因为这是未来赢家的选择,云云。
其实,客观说,对于多数人这个不实在,也无可操作性,最多是说给国内大厂玩家或六小龙听的吧,但其实也是白说。RL 本来就不好玩,连开源标杆 Meta Llamma 3 在最基本的 RLHF 方面都选择绕开来走,就更甭提提倡国内大模型公司全力 bet on 以强化学习作为新生态核心的愿景了。何况后者在硅谷最多也只是一种“潜流”,可能要等年底前OpenAI草莓以及Claude新版发布后,才能对这个所谓新生态的影响,看得清楚一些吧。
这个苗头可以 keep in mind,但上半场确实似乎结束了。真正可以在所谓的下半场作为 action items 的,其实不是这种高大上、带有很强探索性的大模型 scaling 方向的尚未确定的 roadmap,更多是趁着 GPT4o/Claude3.5级别的通用模型的推理成本越来越亲民化、趁着LLM供应商多模态功能在进一步推广和完善(例如超拟人全双工语音的最新突破和工具赋能就会大大增加应用层面的机会,还有视频的进展等), 加快找市场切入点(PMF),专注应用场景真正需求的解决。
对于产业而言,当前大模型规模化应用的困局才是悬在大模型产业头上的利剑,决定了这下半场在 tech adoption curve 下行能不能软着陆和最终平缓回升。至于军备竞赛,让马斯克、小扎等首富俱乐部继续玩继续high就好。
作为“预训练”的延深,强化学习属于“后训练”,在前者遇到瓶颈和 diminishing returns的时候,加强后者是自然的补足。从AI对人类认知的模拟来说,前者是继承人类文明的知识和科技积淀,后者是把这些知识真正用到实处,在环境中学习。这个智能学习的总体思路 makes perfect sense,也是大模型应用必须要走的方向。
所以老友吕兄说:“直觉上RL是必须要走的路,因为supervised learning的数据没有那么多了。”
没错,不同程度利用再生数据,其实已经是日常 practice 了,也不再有以前的“心理障碍”,是一个必然。总体而言,模型就是比人能够更高质量产生数据,而且会越来越好。但这还不是这里说的self-play的主动探索和数据再生。
毛老说的也不错:“RL 与人类的认知过程相符,与认识论一致。实质上就是接收外界反馈,接受实践检验的过程。RL 是主动学习,而训练是被动的。”
广密现在是说,需要研究测把 RL 范式化,提供某种 RL dev toolkit,然后有在各种场景去做 scale up RL 的路线。这个所谓“范式大转移”,没有1-2年的大厂/大佬的推动普及,没有抓手。持谨慎乐观或怀疑的open 心态,静观其变吧。