听到一个新成语：日新昼异，脱胎于日新月异，形容这个LLM世界变化之快，此言不虚。例如，AutoGPT 出来不久，AgentGPT 又出来了，二者都是在LLM上再包了一层“自主”计划的AI。

这个称为自主AI（autonomous AI）的研发方向很诱人：用户只要启动一个目标（人定义 what），模型们就开始计划实现这个目标（机器做 how）：首先是拆解这个目标任务成为子任务，子任务成为子子任务，然后用这些子子任务递归调用 chatGPT 去得到中间结果，最后把结果层层推进，最后组装起来，完成目标。看机器边想边干（think then act），不亦乐乎。听上去有些匪夷所思，仿佛机器能够自主完成任务的全过程了，而不是需要人通过对话或编程一步步引导模型去实现目标。

自主AI更加接近科幻小说中的“回形针”陷阱：科幻中说的是机器一旦具有自主计划的能力，为了自主实现一个目标，例如“制造尽可能多的回形针”，机器就会不惜一切手段达成目标。而人类面对这样一个自主实现目标的机器，很可能陷于灭顶之灾，因为人类有可能成为这种目标的障碍物而被机器铲除。现在的实现当然还是小菜，粗糙得很，但这个方向是机器“自主”的前奏。不知道老马会不会把这种研究当成是危险AI 的范围，要求予以封杀。

AgentGPT 有个类似于 ChatGPT 的友好页面：https://agentgpt.reworkd.ai/

我尝试给它一个“编写童话故事”的目标。

看着它在那里think...think..., 做任务分解，“无人监督下” 自个儿在那里忙活，一步步按照计划走，感觉很神奇。揉揉眼睛，确认不是在做梦。

Embarking on a new goal:请汇编一本适合儿童的童话故事手册，选择国内外的童话名篇，所围绕的主题词包括：善良，勤劳，怜悯，乐观。
Thinking...(Restart if this takes more than 30 seconds)
Added task:Scrape and gather a list of popular domestic and international fairy tales
.........

煞有介事，各种策划，让人开眼了。

看看最近退出来的这一长串的相关工具：HuggingGPT / AutoGPT / AgentGPT / GPT4ALL / BabyAGI / MS Jarvis / ChaosGPT / .............，每天都在增长的这个清单中的 keywords 是： agent，action。action 是行动，agent 怎么翻译好？常规翻译是施事（采取行动的实体），或代理人或代理机构，就好像律师代理客户一样，客户只给目标，律师代理决策和行动的过程去实现目标。什么意思？就是 ChatGPT 带来的风暴，越来越激发人们把科幻似的机器人想象带到可实际操作的空间。

什么是科幻中最热衷的机器人故事（之一）？那就是机器人造反，灭了人类。造反的事情能够发生，其前提条件是: 自主决策，可以行动，这与几千年前的陈胜吴广起义也没什么两样。陈胜吴广先密谋，后行动（序列是利用绝境危机 -- 无论如何必然被处死，假托天意组织动员，然后是正式起义）。

为什么这种匪夷所思的科幻情节突然在这个当口开始了工程化的尝试和涌现呢？一个关键的因素是，ChatGPT 之前，从来没有一个可以协调各种实体的通用的“语言”，幻想只能止于幻想，工程无可施展。更大的挑战是缺乏自主性的实现路径，所有的AI都是按照人类（码农）事先编制好的程序走。Chat 改变了前者；GPT 改变了后者。

GPT 是如何导致自主性（或“类自主性”）的，从而机器可以成为自我策划和行动的 agent？现在看来其实很粗糙，但的确可以产生一种让人觉得它自（作）主（张）的感觉。原理就是 GPT 的随机性。

没有随机性，那么一切都是 deterministic，预先决定好的路径，也就谈不上自主。GPT 的好处是它的本性就是随机（生成）。但万变不离其宗。这个就厉害了。随机如果发散，那就谈不上计划和实施。

随机必须遵循目标指向，万变不离其宗的“宗”就是宗旨或目标。目标函数不变（这个是人类赋予代理的），具体过程和路径随机应变，这才是 agent 的本义。作为所有实体的主人，人类关心的也就是目标。

微观层面，GPT 的 next token prediction 就是万变不离其宗的缩影，每个 next token 都有随机性。但所有的生成都在目标生成的空间里，例如你让它翻一句话，它每次翻译可能是不同的文字序列，但你会发现，不仅每一个翻译字通句顺，而且意义基本不变。从模型微观的“基因”上的可控随机到宏观上的 agent，这里面需要一个粘合剂，这就是 ChatGPT，用到的也就是人机接口、机机接口的最重要的媒介 -- natural language prompts（自然语言提示），这些进展既让人兴奋刺激，也让人细思有恐。

其实，最近这些框架下 agent 表现出来的自主性，微观层面就是 ntp（next token prediction）的随机性，宏观层面实际上是由于大模型消化了人类的知识和经验（的数据表述），所以 ChatGPT 可以利用大模型在现有目标的指引下，随机选取一种经验路径。这时候的随机性表现在系统给自己的每一个分解子任务的完成设置了时间限度，尝试不成功就会转向另一个路径。任务分解这种策略型的设计看上去是“自主”的，但实际上也是从大模型中得到的人类经验套路。可是，反过来看人类的决策，人类所谓的自主性就是自己做主么？

这与哲学界一直在辩论的“自由意志”类似，自由意志自由么？正方认为是自由的，所以一个人要为自己的选择负责：对了有回报，错了有惩罚，甚至入罪坐牢。反方认为其实是不自由的，我们每个人表面上看起来的自由意志，其实冥冥之中有命数，这个命数有一个人从父母身上带来的基因的作用，也有后天的生存环境（包括有意无意的在家庭、学校和社会的熏陶和被教育）的影响，真正属于那个人自己能决定的空间其实很小很小。（这个理论推向极端就是所有罪犯都是病人，应该治病，而不是惩罚，更不是肉体消灭。）

回到 LLM 为中心的 agent，这个 agent 的自主性利用的是大模型（蕴含的人类经验）。而人的“自主性”其实很大程度上也是建立在对于人类既往经验知识的学习或被教育的基础之上。这个意义上，自主性的神秘感消失了，就跟创造性的神秘感早已消失一样，很难以自主性作为人之区别于机器的最后灵性堡垒。A(G)I 的圈对于 humanity （人类特性）的领地在进一步挤压中，以至于除了碳基的生命特征（生物性状：例如喜怒哀乐相伴的血压升高、荷尔蒙分泌等）硅基实体无法跨越以外，几乎所有的智能和灵性的表现都已经不再构成支持人作为万物之灵独特存在的不可动摇的论据了。

创造性和自主性的被冲击，是 LLMs 给我们带来的最大心灵震撼之一。我们曾经多么迷信这些人类特质。

从此，我也许不再像以前那样仰望智者和艺人，因为山外有山，人外有模型。更值得仰慕的是那些平凡的人表现出来的善良和感情（良心及其善举），也许这些表现而不是人类智能才构成了 LLMs 的真正挑战？（当然，这也不能深想：第一，机器也可以模拟善心和善举，倾听你，同情你，给你帮助和疏导，不见得比人差；第二，“良心”到底有多大比例植根于生物特质，多大比例受到人类经验知识的影响，也很难说。）

【AI 浪潮：自主性是人类智能的最后堡垒吗】

《AI浪潮博客目录》

发布者

立委

发表回复