2025 年 AI 感怀

当入口被 Agent 接管,搜索退居后台,手机与汽车开始“替你办事”

2025 年,多模态与 agent 把 AI 从“会回答”推进到“会办事”。Suno v5 让普通人稳定产出可循环音乐;Sora 2 把视频从片段生成推向分镜与一致性生产;FSD 的高覆盖使用让安全讨论更接近 apples-to-apples。更深层的革命发生在入口:Google/OpenAI/Perplexity 把搜索推向 LLM-native 的渲染,豆包手机让 OS 级 GUI agent 可触摸,Tesla Grok 让车载语音向导化。能力狂飙与商业闭环反差巨大,但瓶颈正在从“模型能力”转向“系统化落地”。

我做 AI/NLP 很久了,不好意思,可能是化石级的存在;但 2025 年最让我震撼的并不是“模型评测又强了多少”,而是我第一次在日常里得到反复确认:一些过去需要专家级经验的高门槛能力,正在被产品化、被民主化,进而被规模化地分发给普通人。

如果把“AGI”从玄学拉回到可操作的定义——在多个任务域里稳定达到或逼近人类专家的产出能力——那么 2025 是我第一次切身体验到“部分 AGI 场景落地”的一年:音乐创作、短视频创作、自动驾驶,以及更底层的入口革命(搜索、手机交互、车载语音)开始同频共振。

2025年终前,我想用一个统一框架把这些看似分散的变化串起来,并补上我自己手上的几个“微案例”,让判断不止停留在行业热词。


零、从“信息入口”到“行动入口”,Agent 正在吞掉 GUI

2025 年真正发生的,是入口形态的迁移:

  • 过去的互联网是 GUI(图形界面)驱动:人点按钮、开 App、找菜单、点链接。
  • 现在越来越多关键场景开始变成 Intent(意图)驱动:人说“我想要什么”,系统自己拆任务、调用工具、给出结果并继续执行。

把这件事拆成一个“Agent 栈”,你会发现音乐、视频、驾驶、搜索、手机、车载,底层其实是同一种工程路线:

  1. 意图捕获:自然语言/语音/图像输入成为主入口
  2. 规划与分解:把目标拆成多步可执行任务
  3. 工具使用:调用 API、或直接在 GUI 上跨 App 操作(GUI agent)
  4. 记忆与个性化:持续理解你的偏好、习惯与上下文
  5. 验收与治理:结果可验证、可追溯、可控风险

你会看到:谁掌握入口,谁就重写生态。于是“搜索退居后台”、“App 生态被重定义”、“车载助手从指令执行变成向导 agent”并不是三件事,而是一件事的三个战场。


一、音乐民主化:Suno v5 让“乐盲”也能稳定产出可循环的歌

Suno 的版本演进很能代表 2025:v4(2024.11)→ v4.5(2025.05)→ v5(2025.09)。官方把 v5 定义为“最重要的一次技术跃迁”,强调结构连贯、过渡更专业、音质与人声更自然,并在 2025 年 9 月下旬向 Pro/Premier 推出。

我的微案例(车载循环门槛被击穿)
我自己最信的标准非常朴素:能不能车载循环不腻。不仅是自我陶醉,而是要有共鸣的验证(先从亲友和 folowers开始)。

2025 年,没费什么力气,我就用 Suno 做过多首“可循环播放的流行抒情/伤感歌”,其中一首写的是“最后一班地铁、月台”的分手场景(你知道那类写法:旋律抓耳但不过度刺激、结构重复但不机械,忧伤像连绵的细雨)。最关键的不是“写出一段旋律”,而是我能用自然语言把结构调到一个稳定区间——Verse 的叙事密度、Chorus 的情绪提升、Bridge 的反转力度,反复迭代到“循环也不烦”。这在过去对非音乐人来说几乎不可想象(其实资深音乐人中要制作可以让人车载循环,甚至家喻户晓的歌曲的,也只是少数人,在少数的作品中)。

音乐民主化真正的含义不仅仅是“人人可成音乐家”,而是:普通人第一次能稳定获得音乐家的(部分)生产力,并体验创造以及被接受的乐趣


二、视频民主化:Sora 2 把“会想象”变成“能成片”

OpenAI 在 2025 年 9 月 30 日发布 Sora 2,并将其定位为更可控、更真实、更贴近物理世界、同时支持同步对白与音效的旗舰视频与音频同步生成模型,并以 Sora App 与 sora.com 推广LLM-native的“类抖音”使用链路,及其社交与娱乐社区的建设。

我的微案例(从“片段生成”到“可叙事的分镜生产”)
我做过一个“80 年代校园恋曲”的短片尝试:不是单段炫技镜头,而是按 n 个 scene 的分镜组织(开场氛围、人物相遇、情绪推进、冲突与停顿、尾声回眸)。在早期视频模型里,最大痛点是角色一致性与任务一致性:你很容易得到“好看的镜头”,但很难把同一个人稳定地带过多个 scene。2025 年我第一次感觉到这件事开始变得“工程化可解决”——你可以把它当作一种生产流程,而不是赌运气。Sora 2 的产品化(数字演员可克隆、渲染可控性、工具链、分发入口)本质上在推动这种转变。

短视频的红海之所以会被重构,是因为 AI 不只是提效,而是在扩大想象力的“可交付边界”。


三、自动驾驶民主化:FSD v14 带来的“可比性”转折点

Tesla FSD V14 的推出标志着自动驾驶已经是一个 solved problem,人人可验证。自从一年多前 FSD V12 端到端模型的突破,自动驾驶展现了加速度提升的趋势,直到不久前 FSD V14 的推出。自己的亲身体验以及很多怀疑论者体验后的反馈都指向了这个事实:FSD 已经达到或超过老司机的驾驶水平,不仅丝滑顺畅,而且安全性比人类驾驶的平均水品高(特斯拉最新的统计是比人类驾驶减少7倍的事故)。真正的FSD无人驾驶(特斯拉称为“无监督驾驶”)现在已经在得克萨斯部分区域开始上路。特斯拉专为无人出租设计的 Cybercab 2026年就会规模化量产:这些车辆没有方向盘和脚踏板,全靠FSD实现无人驾驶(可能在极为罕见的特殊情形下,需要远程干预,“极为罕见”指的是大约每一万英里车程最多出现一次这种情形)。

我的微案例(“几乎全程 FSD”带来的 apples-to-apples 直觉)
我以前也是怀疑派或“同情怀疑派”。原因很简单:Autopilot 时代的统计很容易被质疑——遇到复杂、危险或不确定时,人更可能退出系统、手动接管,从而让“开启系统时更安全”显得更漂亮,有潜在的误导性。

但现在多数车主(包括我自己)的驾驶行为发生了结构性变化。拿到新车的几天里,我几乎 100% 的里程都在用 FSD(除了当我不满意FSD给我选择的停车位而干预,告诉FSD指定车位停车这种零碎动作)。在这种“覆盖率接近满值”的使用形态下,选择偏差会显著缩小,至少在“同一个驾驶者、同一辆车、同一生活半径”意义上更接近 apples-to-apples。于是当 Tesla 继续用“相对美国平均水平碰撞更少(例如 7x)”的叙事时,我对其可比性的直觉确实比过去更强——尽管方法学层面的社会争议仍然存在。

2025 年的变化不在于“争议消失”,而在于用户行为改变使得关键争议点(选择偏差)开始被削弱;于是讨论重心会从“能不能”转向“边界在哪里、怎么治理更安全”。


四、注定被重构的搜索:关键词竞价的旧世界开始松动

“搜索退居后台”并不是唱衰搜索,而是搜索的形态正在从“链接检索”变成“答案与行动的协同入口”。

三条线索在 2025 年同时成立:

  • Google 的自我革命:扩展 AI Overviews,并引入实验性的 AI Mode,明确把搜索推向更对话式、更综合的“问答+推理+浏览”体验。他们甚至率先推出了千人千面的结果渲染方式,称为 generative UI。
  • OpenAI 进入 search/browsing 主战场:ChatGPT search 在 2025 年 2 月 5 日更新为“在可用地区对所有人开放、无需注册”,并持续加码搜索能力与产品化节奏。
  • Perplexity 抢占“答案引擎”心智,同时引爆版权冲突:2025 年末围绕 Perplexity 的新闻诉讼(例如 Chicago Tribune 起诉)把“LLM-native search”对内容生态与流量分配的冲击推到台前。

真正会动摇旧商业模式的点在于:当用户不再“点链接”,而是“在 AI 首屏得到可继续追问、可直接行动的结果”,关键词竞价仍会存在,但会被迫迁移到新的版位与新的归因逻辑里。Google 自己也在讨论 AI Mode/AI Overviews 语境下的营销与触达路径,这本质上是一次自我吞噬式的商业模式转型。


五、Phone use:豆包手机把 OS 级 GUI Agent 变成了可触摸的现实

“phone use 革命”很关键,因为它触碰的是 App 生态的地基。

ByteDance 在 2025 年 12 月初推出“豆包手机助手技术预览版”,并与手机厂商合作,将其描述为 OS 级能力:可以看屏幕、用 App、跨应用执行任务(整理文件、填表、推荐餐厅等),本质上是把“操作手机”从点击流程升级为意图驱动的交互式 GUI agent。语音是人类最自然的交互方式,人机交互不再例外。

我的微案例(为什么它是“不归路”)
OS 级 agent 的震撼不在于“又一个助手”,而在于它改变了行为经济学:当你体验过“说一句话,它替你跑完几十次点击”,你很难再回到旧方式。于是 App 不再是“用户直接操作的产品”,而更像“agent 调用的底层服务”。这条路一旦成立,手机行业的竞争维度就会从“硬件参数 + App 生态”转向“OS 级代理能力 + 工具授权体系 + 安全治理”。


六、车载语音:从“人工智障”到实时向导 Agent

车载助手过去最大的问题是:它只会执行单一的固定指令,无法多轮交互,缺乏上下文,更缺乏“动态导航与解释”,很多人称之为“人工智障”。

2025 年 Tesla Holiday Update 的信息显示:Grok 已支持添加/编辑导航目的地,并可在指令里处理多个目的地,并可以多轮交互,动态更新旅程线路。

这件事看似小,但意义非常大:它表明车内语音开始从单一指令的“菜单遥控器”进化为guide agent——能理解意图、能连续对话、能实时改计划。把它与 FSD 放在一起看,你会得到一个更锋利的判断:

  • FSD 解决的是“车怎么开”;
  • 车载语音 agent 解决的是“你要去哪里、为什么去、顺路还能做什么”;
  • 两者结合,才是完整的“移动场景代理”。

七、Coding agent 与 deep research:白领技能被碾压的试验场

到 2025 年末,coding agent 覆盖初级工程师的代码产出、deep research 逼近或超越高级分析师的产能与品质,已经不再是“能不能”的问题,而是要讨论“怎么嵌进组织、怎么验收、怎么负责”,才能最大化其收益。它们与搜索/手机/车载的共同点仍然是同一个框架:从信息到行动,从工具到流程。


八、最扎心的反差:能力狂飙,但商业闭环大面积缺失

MIT 相关研究在 2025 年的报告语境下被媒体广泛引用为“95% 的 GenAI 试点没有产生可衡量 ROI”,并将原因指向集成、优先级错配、以及组织层面的摩擦。

1)企业上下文确实难:不是 RAG 一把梭能补齐

企业上下文不是知识库,是活系统:权限、责任链、例外流程、口径冲突、遗留(legacy)系统、隐性规则。很多失败不是“模型不会答”,而是“系统不知道该走哪条路、调谁的接口、谁来最终签字”。

2)组织摩擦同样难:往往比技术更决定节奏

哪怕上下文能补齐,企业也不一定愿意让 agent 接管:合规、安全、采购、法务、IT 的串联门槛会把 demo 磨成龟速;此外还有 KPI 风险与声誉风险,以及对 legacy 流程的路径依赖。

困惑是——到底是 context 工程还不够,还是企业惰性与人为障碍?现在看来,更准确的答案是:两者叠加。并在今后几年,后者(组织摩擦)可能更决定落地速度。

我自己的判断是:商业闭环不是“等模型更强”就自然出现,而要靠三件事把 agent 变成可交付系统:

  • 可验收(指标与回放)
  • 可负责(责任链与权限)
  • 可嵌入(进入现有工作流)

结语:2025 是AGI前夜

AGI 的到来不会是一声惊雷,而是一连串入口被 Agent 接管后,旧世界的操作方式突然显得笨拙、昂贵、且不可继续。

2025 年我看到的确定性是:

  • 搜索正在从链接走向答案与行动,旧流量分配逻辑开始松动;
  • 手机正在从 App 集合走向 OS 级代理调度,App 被重定位为“可调用服务”;
  • 车载正在从指令执行走向 guide agent,与自动驾驶一起构成移动场景代理的雏形。

当这些入口同时成立,“AI 应用为什么很难商业闭环”的问题,也会被换一种问法:不是“有没有模型”,而是“有没有系统”;不是“能不能做”,而是“能不能负责、能不能验收、能不能规模化嵌入”。


 

 

发布者

立委

立委博士,多模态大模型应用咨询师。出门问问大模型团队前工程副总裁,聚焦大模型及其AIGC应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理