When Agents Become the Default Gateway, Will the Operating System Be Rewritten?

The answer isn’t “will it happen?” It’s already happening. Just not in the way we’re used to.

The Operating System in the Agentic AI Era

I. The history of operating systems is, at its core, a war over the front door

Each generation of operating systems didn’t merely improve kernels. It reorganized the entry point—how humans express intent.

DOS: the command line was the entry point.
Windows / macOS: the desktop GUI became the entry point.
iOS / Android: app icons became the entry point.
The web era: the browser became the entry point.

The strategic heart of an operating system has never been the kernel. It’s the question: how does a user make something happen?

Change the front door, and the entire software ecosystem gets reshuffled.

II. Agents change the way intent is expressed

In the old model, doing something looked like this:

You want something done → open an app → find the feature → click through the workflow.

In the agentic model, the loop becomes:

You want something done → tell an agent → the agent orchestrates the system.

This is not a feature upgrade. It’s the disappearance of the old entry point. Recent “OS-level agent” moments—whether you look at stunning phone demos like Doubao’s, or the grassroots explosion around OpenClaw—make one thing unusually vivid: when users stop opening apps and agents start calling them, apps stop being the front door. They become capability modules.

In that world, the operating system is no longer organized around an “app launcher.” It’s organized around a permission orchestrator.

That is the structural change.

III. When the agent becomes the default entry point, three things happen to the OS

3.1 UI moves to the second row

The UI doesn’t disappear, but it stops being the center of gravity. The interface becomes a governance tool, not an operation tool. It naturally splits into three roles:

a visualization layer
an approval layer
an audit layer

The real execution logic lives in the background orchestration layer. Icons shrink in importance. Menus fade. “Workflows” get flattened.

(1) Visualization layer
In traditional software, the UI is a control panel: you press buttons to cause actions.

In the agent era, actions happen in the background. The UI’s primary job is to tell you what happened:

what the agent plans to do
what it is doing right now
what it has completed

If the agent books your flights, reorganizes your files, refactors your code, or runs a batch of API calls, you don’t click through each step. You supervise the plan and the outcome. The UI becomes closer to an aircraft instrument panel than a steering wheel.

(2) Approval layer
This layer becomes critical the moment agents gain execution authority. Some actions must require explicit human confirmation:

deleting 2,000 files
wiring $5,000
signing a contract
sending sensitive data outside the organization

Now the UI isn’t a collection of “features.” It’s a set of risk checkpoints. Its core function is not “click to do,” but “authorize or deny.”

It must show:

risk level
blast radius
confirm / reject controls

This is the UI as the human’s final vote.

(3) Audit layer
If an agent can execute continuously, you can’t watch every step. The OS must surface accountability:

execution logs
tool and API call traces
permission usage history
resource consumption (tokens, API spend, data egress)
anomaly alerts

This looks less like a classic app UI and more like:

a bank statement
a cloud access log
a flight recorder

The UI becomes an interface for responsibility. It doesn’t help you “do the work.” It helps you know what happened—and assign blame when something goes wrong.

Put side by side, the shift is stark.

Traditional app UI:
menus, buttons, forms, step-by-step workflows

Agent-era UI:
plans, summaries, risk prompts, permission grants, audit trails

You are no longer the operator. You are the supervisor.

And that’s not just an interaction change—it’s philosophical.

Before: humans operate; software executes.
After: agents operate; humans arbitrate.

So the UI naturally migrates toward feedback, authorization, and oversight.

A concrete example
Imagine a future macOS where you say:

“Turn last year’s client invoices into a financial report.”

The agent quietly:

searches files
extracts data
calls spreadsheet tooling
uses email APIs if needed
generates a PDF

And the UI shows only:

a plan of steps
a warning: 3 anomalous files detected
a lock: authorize access to the finance folder?
a result: report generated

You didn’t “open” any app. You supervised. The UI didn’t vanish—it evolved from a control panel into a responsibility panel. And whoever controls that panel controls the final decision.

That is what the OS must defend.

3.2 The permission system becomes the core asset

Classic OS security models are built around:

file permissions
process isolation
sandboxing

But the agent era demands something more dynamic:

just-in-time permission grants
temporary execution authorization
revocable capability interfaces
verifiable execution logs

The OS shifts from a resource management system into a governance system for delegated execution.

3.3 APIs rise; apps fade

When agents are the default gateway, UI value goes down and API value goes up. The ecosystem starts to look like:

foreground: one “super agent”
background: countless capability interfaces

In that world, the App Store itself may morph—from an “app market” into a “skill market.” Users don’t download apps; agents call capabilities. Distribution is rewritten.

IV. Why big platforms don’t fully open the gates

Because once an agent becomes the default entry point:

OS vendors lose the privileged control that UI once provided
the app ecosystem gets abstracted into a capability layer
revenue models face renegotiation

If every iPhone app becomes a background capability and the user interacts primarily through an agent, do app icons still matter? Does the 30% toll still feel defensible?

Entry-point control is profit control. That is why platform players ship agent features cautiously and incrementally.

When a product like Doubao pushes toward OS-level agency and triggers visible pushback, it’s not mysterious what it threatens. But the direction is hard to reverse: once consumers taste the productivity of an OS-level agent, they rarely want to go back to tapping through menus.

V. OpenClaw is a preview of an “ungoverned OS”

OpenClaw is, in essence, a simplified shell of an agent operating system.

It lacks mature permission governance. It lacks compliance frameworks. It lacks serious auditing. And yet it demonstrates a key fact:

model + permission orchestration + local execution is already enough to simulate a micro-OS.

That is why it shocks people. Not because it invented new intelligence, but because it shows what happens when you attach intelligence to execution without governance.

VI. The real future shape

When agents become the default gateway, the operating system becomes:

a permission allocation platform
an execution-log platform
a capability marketplace
a risk-control hub

UI gets simpler. Apps become invisible. Capabilities become modular.

The user sees a conversational entry point. Underneath is a governance engine for delegated action.

VII. Final judgement

Agents will not eliminate operating systems. They will force operating systems to evolve—from “resource schedulers” into “arbiters of delegated execution.”

The core asset in the agent era is the power to define boundaries:

what can be done
by whom
under what permissions
with what logs and accountability

Whoever defines those boundaries becomes the next platform.

 

 

https://liweinlp.com/category/english

 

When Agents Become the Default Gateway, Does the App Store Model Collapse?

My answer: not immediately. But its structural profits will be quietly, steadily eroded—and the way it happens is subtle enough that many people won’t notice until the numbers start to move.

In the mobile era, we got used to a simple truth: if you control the home screen, you control the money. The App Store was never just a software catalog. It was a tollbooth placed at the one place users had to pass through.

That premise is what the Agent era challenges.

I. The App Store Doesn’t Really Sell Apps—It Sells Gatekeeping
The App Store’s core asset has never been “distribution” in the neutral, technical sense. Distribution is a commodity now. What the App Store truly owns is the gate:

the default user entry point
the power to route attention and traffic
control of the payment rail
the right to tax the ecosystem

In the classic mobile loop, the sequence looks like this:

user → opens an app → uses a service
platform controls the entry point → takes ~30%

That structure works for one reason: the user must consciously open the app. As long as the app icon is the front door, the platform owns the doorframe—and can charge rent.

II. The Fatal Change in the Agent Era: Apps Stop Being the Entry Point
Once an agent becomes the default gateway, the flow changes into something like:

user → tells the agent → agent dispatches capabilities → calls an app’s backend APIs

The key shift is psychological as much as architectural: the user no longer “opens an app.” The app becomes a background capability provider.

And when the user can’t even tell which app is being used, two things happen at once:

brand gravity weakens
entry-point value decays

Traffic follows the new front door. Whoever controls the agent increasingly controls attention and intent. And that is the App Store’s structural threat in one sentence.

III. The App Store Won’t Disappear—But It Can Be Hollowed Out
This won’t look like a dramatic collapse. It will look like slow “hollowing,” where the storefront still exists, but its economic center of gravity shifts. Three changes are likely.

First: fewer UI-heavy apps.
A large class of utility apps—especially those built around routine workflows—will be absorbed into agent behavior:

calendar coordination
lightweight editing
information aggregation
copy-and-paste data movement

These become invisible background functions. Users may not know which product is powering the result, and they won’t care—until someone asks who gets paid.

Second: the commission logic gets challenged.
If an agent can complete a purchase by calling a cloud API directly—without going through an in-app purchase flow—the traditional platform toll lane can be bypassed.

The 30% model works best when the platform owns the transaction surface. Agents, by design, prefer capability surfaces: web APIs, service endpoints, programmable commerce. That route is harder to tax.

Third: a “skills market” starts to replace an “apps market.”
It’s not hard to imagine an ecosystem that looks more like:

agent skill marketplaces
capability modules / plugins as tradable units
API ecosystems designed for agent orchestration

In that world, the store doesn’t vanish. It mutates. It stops selling “apps” as user-facing products and starts selling “capabilities” as agent-callable services. That’s a form shift—not an extinction event.

IV. The Real Conflict Isn’t the App Store—It’s Who Owns the Default Agent
The strategic question is not whether an App Store survives. The strategic question is: who becomes the default agent?

If it’s Apple’s agent, the App Store is absorbed and reinterpreted inside a new orchestration layer.

If it’s an OpenAI/Anthropic-style agent, the platform can be partially bypassed—relegated to infrastructure while value capture migrates elsewhere.

If it’s a local, open-source agent (think OpenClaw-like trajectories), then platform rent extraction weakens: the platform remains in the chain, but with far less bargaining power.

Once entry-point control shifts, profit follows. This is the true reason platforms are anxious. It’s not a debate about UX. It’s a battle over who owns the choke point.

V. Why Big Platforms Move So Carefully on Agents
This is why the largest platforms push agents with visible caution. They are walking a tightrope.

If their agent is too strong:

users open fewer apps
platform commission pressure increases
developer economics get restructured

If their agent is too weak:

users migrate to third-party agents
entry-point control gets stolen
the platform becomes a “hardware shell” around someone else’s brain

It’s a delicate game. The likely strategy is not “build an agent that replaces apps,” but “build an agent that strengthens the existing ecosystem while preventing displacement.”

Agents won’t directly destroy the App Store. But they can demote it—from an entry-point platform into a capability supply market.

Entry-point value compresses. Profit formulas get rewritten. And the ultimate winner is not the party who sells apps, but the party who defines the orchestration rules.

VI. The Final Question
The mobile internet era rewarded whoever controlled the entry point.

The agent era will reward whoever controls intent interpretation and execution scheduling.

When a user says just one sentence—“get this done for me”—the person (or system) deciding where the request gets routed is the one deciding where the money flows.

At that moment, the most valuable asset is no longer the app icon on the home screen.

It’s the agent in the background doing the dispatch.

 

https://liweinlp.com/category/english

The Great Software Shake-Up of the Agent Era — Starting with OpenClaw

I. OpenClaw is a structural event.

What makes OpenClaw shocking isn’t a new algorithm. It’s the fact that it exposes a new reality:

LLM capability + local execution privileges + open-source scaffolding is already enough to rewrite how software gets produced.

When a solo developer can stitch together an agent with something close to “OS-level permissions” using off-the-shelf models and open frameworks, it tells us something uncomfortable yet important: raw capability is no longer scarce. The scarce variable is now composability—the ability to combine tools, permissions, and workflows into outcomes.

And composability isn’t linear. It’s exponential. When your building blocks are callable functions, “more blocks” doesn’t add—it multiplies.

II. Why “80% of software” gets swallowed

Once agents can:

understand natural language intent directly,
break a task into steps automatically,
call tools dynamically,
and correct their own execution paths in real time,

a huge category of “workflow-frozen software” starts losing value fast.

For decades, software has trained humans to adapt to software. You open the right app, learn the right menu tree, follow the prescribed workflow, and hope your problem fits the box. The agent era flips the direction: software adapts to human intent.

That shift has a brutal implication: the core of software stops being UI, menus, and fixed workflows. The core becomes APIs and capability interfaces. Everything in the middle—the layers whose main job is turning workflows into a clickable experience—gets compressed.

Many products won’t “die.” They’ll be absorbed.

Tools that are mostly UI-wrapped procedures.
SaaS products that are largely data shuttling.
Systems whose main value is rigid rule execution.

Agents don’t need to replace them by competing head-on. They can simply embed them as invisible steps in an orchestration graph.

III. The moat is moving

Traditional software moats looked like:

complex feature depth,
data lock-in,
sticky workflows,
custom enterprise integrations.

But in an agent world, features can be composed on demand, workflows can be generated dynamically, and data can be surfaced through standardized interfaces. The moat migrates to things that are harder to synthesize by “tool composition” alone:

high-quality proprietary data assets,
specialized vertical knowledge,
security, compliance, and governance maturity.

Put bluntly: software shifts from selling features to selling capability access and safe execution.

In the agent era, the winning product is less “a beautiful UI” and more “a reliable interface to real power—with guardrails.”

IV. Startups are being rewired

The classic playbook for software startups was familiar:

pick a scenario,
build a product,
polish the UX,
retain users,
scale subscriptions.

The agent-era playbook is different:

pick a high-value capability domain,
expose it as an agent-callable interface,
integrate into the skills ecosystem,
create value through execution, not clicks.

Entrepreneurship shifts from “building an app” to building callable capability modules.

In a world where agents orchestrate work, owning the right tool interface is like owning a critical interchange on a highway system. You don’t need to be the entire city. You just need to sit on the route everything passes through.

V. Investment logic is being repriced

Investors used to ask:

How many users do you have?
What’s your ARR?
What’s your SaaS retention?

Increasingly, the questions will mutate into:

Can your capability be orchestrated by agents?
Do you control a defensible data interface?
Is your execution verifiably safe—auditable, permissioned, compliant?

Valuation logic will follow. Pure “feature SaaS” gets pressured. Execution infrastructure and governance layers get rewarded.

Because in the agent era, the truly expensive asset isn’t UI. It’s the right to execute—safely.

VI. Local agents are a transitional form

OpenClaw’s explosion also reveals something practical: demand for action-oriented AI is already there. People don’t just want a model that answers. They want a system that does things.

But local deployment is likely a bridge, not the destination. At scale—especially in enterprises—agents will converge toward:

cloud integration,
enterprise-grade governance,
least-privilege architectures,
compliance and audit systems.

Individuals can unlock power by removing constraints. The commercial world must do the opposite: it has to constrain power before it ships.

The long-term winners won’t be those most willing to grant authority. They’ll be those best at granting authority safely.

VII. Software won’t disappear. It will become invisible.

OpenClaw’s creator suggested that “maybe 80% of software will lose its value.” The number may be rhetorically inflated. But the direction is right.

Software doesn’t vanish. It goes dark.

Users stop operating software directly. Agents operate software on their behalf. Products shift from foreground experiences to background capability modules.

That’s not a collapse. It’s an industrial migration.

VIII. The real watershed isn’t OpenClaw. It’s what it forces us to talk about next.

OpenClaw isn’t the endpoint. It’s the first public, living demonstration of something many suspected:

LLMs are already capable of executing real-world tasks—if you give them the keys.

For the past two years, the mainstream conversation was “intelligence augmentation.” In the next few years, the dominant conversation will be delegated execution:

Who sets the boundaries of capability?
Who defines execution permissions?
Who bears responsibility when things go wrong?

Those questions—more than model size or benchmark scores—may determine where the next generation of tech giants comes from.

Closing

The significance of OpenClaw isn’t what it did. It’s what it made obvious:

the software era is ending, and the capability era is beginning.

And in the capability era, what’s truly scarce isn’t the model. It’s controllable execution power.

Authority and safety are natural enemies. The biggest winners will be the ones who can make them coexist—without pretending the tension isn’t real.

https://liweinlp.com/category/english

Some Basic Agentic AI terminology

In the Agent era, the most common confusion is not technical — it’s architectural. We keep mixing abstraction layers, and then we end up debating terms that were never meant to be equivalent:

Is a plugin basically an app?
Is a special agent the new app?
What’s the difference between an API and a skill?
Is a general agent a tool, or a platform?

If we don’t separate layers, these questions will keep looping forever. So here’s a clean mental model: a six-layer stack from intent down to execution.

Human Intent → General Agent → Special Agent → Skill → Plugin → API

General Agent is the default entry point and the scheduler. It interprets natural language goals, decomposes complex tasks, decides which specialists to call, determines which capabilities to invoke, sequences execution, and manages permissions. Structurally, it resembles what browsers were in the web era, what desktop operating systems were in the PC era, and what iOS SpringBoard was in mobile: the “front door” where intent is translated into actions. It is not necessarily a specialist — it is the orchestrator.

Special Agents are domain experts: coding agents, math agents, legal agents, research agents, trading agents, and so on. Functionally, they look like “apps” because they are optimized around a task domain — specific knowledge, specific toolchains, and domain-specific execution strategies. But structurally, they are no longer the entry point. In the agent era, the entry point is owned by the General Agent.

Apps belong to the mobile-era abstraction. The traditional loop is user-driven: the user opens an app, navigates a UI, and triggers actions. In the agent era, the loop becomes orchestration-driven: the user expresses intent once, the General Agent dispatches the work, specialists and tools execute, and the result returns. Apps won’t disappear overnight, but many will lose their role as the primary interface. Some will degrade into background capabilities; others will survive as “special agents with UI.”

Then come the lower layers that people often collapse into one.

Skills are capability declarations — a semantic contract the model can understand. They describe what can be done, which parameters are required, what outputs are produced, and which permissions are needed. Skills live in the language layer; they don’t execute code. They exist so the model can plan.

Plugins are execution wrappers — the part that actually runs. They encapsulate API calls or local system access, handle authentication and permissions, manage errors, and return structured results. If skills are “what can be done,” plugins are “how it gets done.”

APIs are the lowest-level interfaces — the protocol surface that exposes underlying systems as callable endpoints. APIs do not think, decide, plan, or schedule. They are passive responders. If you like metaphors: electricity is the capability; the API is the wall socket.

So who is the “new app”?

From a task-function perspective: Special Agent ≈ the new app.
From an entry-point perspective: General Agent ≈ the new operating system.
From an execution-unit perspective: Plugin ≈ the new software primitive.

In other words, the mobile-era “app” is being decomposed into entry-point control, capability interfaces, and execution wrappers. The most strategic control point shifts to orchestration: whoever controls the General Agent controls the new default entry point.

Finally, a quick note on industry evolution. Early agent architectures were plugin-first: LLM + plugins = an executor. OpenAI even explored a “plugin store” storyline, reminiscent of app stores. The reason that pattern didn’t become the dominant ecosystem isn’t that plugins are useless. It’s that plugins are dangerous: they hold real privileges, and in an agent loop they can be triggered automatically, not necessarily by a human click. Discovery and scheduling are also harder when the “buyer” is a model. Most importantly, plugins expand what can be done — but the harder bottleneck is deciding what should be done, in what order, under what constraints.

That is why skills emerged as a lighter semantic layer, and why modern architectures insert governance and orchestration between the model and execution. Plugins didn’t disappear; they moved downward in the stack.

This isn’t “plugins failed.” It’s the software unit migrating. The new game is not only capability — it’s orchestration.

https://liweinlp.com/category/english

OpenClaw as a case study of the coming Agentic AI era

The agent era just hit a visible inflection point, and OpenClaw is a useful (and slightly terrifying) case study.

What’s striking about OpenClaw is not a technical breakthrough. It didn’t train a new model. It didn’t propose a new reasoning mechanism. It didn’t “beat” scaling laws.

It did something simpler—and far more consequential: it connected an already-strong LLM to real-world execution privileges.

Browser control. Filesystem access. Shell execution. API orchestration.

The model always had the “brain.” What changed is that we finally handed it the “keys.”

That’s why OpenClaw feels like a capability explosion. The intelligence didn’t suddenly appear; it was already there. We just didn’t dare to give it OS-level agency. OpenClaw shows us, in a vivid and unfiltered way, what happens when we do.

There’s also a psychological accelerant here: local deployment.

When something runs on your own machine, it creates a strong sense of sovereignty—“my process, my disk, I can kill it anytime, worst case I pull the plug.” That physical sense of control is real, but the safety inference often isn’t.

Local deployment improves visibility and the feeling of controllability. It does not automatically reduce the attack surface. Prompt injection doesn’t disappear because the agent is local. Permission creep doesn’t shrink because the hardware sits on your desk. Visibility can create calm; calm can be mistaken for security. That “controllability illusion” is arguably a major reason agentic systems are suddenly easier for people to accept.

The deeper reason this moment feels explosive, though, is composition.

In the traditional software world, capability composition is slow and human-driven—projects, teams, tickets, code, deployment, an entire lifecycle of a software development and deployment. In the “LLM + skills” world, composition becomes real-time, automated, and continuous. An agent can run 24/7, try pathways, fail, self-correct, and recombine tools endlessly. When capabilities are modular functions or skills, combinatorics becomes the growth engine. Explosion is not a metaphor; it’s the natural math of composition.  Hence the explosion.

It’s also telling that an open-source / individual-driven project became the flashpoint. Large companies have strong reasons not to grant OS-level permissions lightly: legal liability, brand risk, regulatory pressure, and security maturity constraints. Individuals and small teams have fewer brakes. With fewer constraints, capabilities surface faster, making it a clearer window into the future agent world.

All of this reframes the real safety problem.

LLMs are the brain. Agents are the hands.

The brain-safety conversation has been loud for two years. The hand-safety conversation is just beginning, a much riskier and more challenging one. A wrong answer is frustrating. A wrong action can be irreversible. Killing a process isn’t governance. Pulling the plug isn’t governance. Governance means boundary verification and least-privilege execution designed into the architecture, not added as a last-minute guardrail.

We may still debate whether “AGI” is here. But one thing is already clear: we’ve entered the era of automated action. 2025-2026 marks the phase transition from generative AI era into agentic AI.  The central challenge now is not purely technical—it’s designing a workable balance between delegated power and embedded safety, before the diffusion of OS-level agency outpaces the diffusion of governance.

Agent 时代的临界点:谈谈 OpenClaw 的安全隐患

立委按:OpenClaw 这个“春节小龙虾”的爆火,非常现象级。本来应该是极客社区的玩闹,结果引发整个产业的热闹。外网内网,几乎无人不谈。agent 为什么要借助它才火、才被看见?根子是本地部署给人一种安全感,但可能是一种虚假的安全,一种“可控幻觉”。open source 的这个 openclaw agent framework 里面几乎没有任何安全防护。现在看到的 openclaw 无所不能,只能算agent 潜力在没有顾忌的理想世界里的活生生的展示。一个个人开发者,用现有模型和开源框架,就能拼出这种级别的 Agent,说明了什么?说明了,“核武器”似乎开始了民间扩散的迹象。OpenClaw 之所以震撼,不是因为它创造了新能力;而是因为它第一次让我们看清,大模型的能力一直在那里,只是我们之前不敢给它钥匙。OpenClaw让我们加速看到了能力爆炸的样子。为什么能力会爆炸?因为能力是函数技能组合出来的,组合的本性就是爆炸。前 llm-agent 时代,组合这些能力都是码农手工做,是要软件立项,一个一个整。在llm与skills生态分工合作的agentic-AI新时代,一切能力都可以随时组合。OpenClaw 在那里24小时不吃不喝不睡在做组合,现场试错,反复修正,不爆发才怪,我们仿佛进入一个“只怕想不到,不怕做不到”的agi时代。前一阵子的豆包手机的惊艳表现,与现在极客弄出来的这个openclaw爆火,都说明了:不是没有需求,也不是没有技术,更不是核弹还不够威力,而是需要一个不断放权的时机和触发点。但安全隐患会成为今后最大的挑战。
 
key takeaways:本地部署带来“可控幻觉”;开源 Agent 几乎无安全护栏;能力爆炸来自组合,而不是单点突破;大厂没敢给“操作系统权限”,个人开发者敢;风险扩散速度可能快于治理速度;Agent 爆发是放权与安全的平衡问题,而不是纯技术障碍;80% 软件可能被重写。

一、OpenClaw 不是能力突破,而是权限解锁

OpenClaw 的震撼,并不来自新的算法。

它没有训练新模型。没有提出新的推理机制。没有突破 Scaling Law。

它做的只有一件事:把已经足够强的大模型,接上了真实世界的执行权限。

浏览器控制。
文件系统访问。
Shell 执行。
API 调度。

模型早已具备规划与推理能力。我们只是第一次,敢给它钥匙。


二、本地部署制造了“可控幻觉”

OpenClaw 的火爆,还有一个心理学层面的因素。

本地运行带来一种强烈的主权感。

进程在自己电脑上。
数据在自己硬盘里。
随时可以 kill。
甚至可以直接拔电源。

这种“物理终止权”,构成了一种心理安全感。

但必须清醒:

本地部署解决的是控制路径问题,
不是攻击面问题。

Prompt Injection 不会因为在本地而消失。
权限扩张不会因为硬件在桌上而收缩。

本地带来的是可见性。
可见性带来安心。
安心未必等于安全。

这种“可控幻觉”,
恰恰是 Agent 能够被大众接受的缓冲层。


三、能力爆炸来自“组合”,不是突破

Agent 时代真正的加速器,
不是模型升级,
而是组合能力的指数化。

在传统软件时代,
能力组合是人工完成的。
每个功能需要立项、编码、部署。

在 LLM + Skills 的时代,
组合变成了实时、自动、持续的。

Agent 24 小时运行,
不断尝试路径,
不断修正,
不断组合。

能力不是线性增长,
而是路径空间的爆炸。

组合的本性,就是爆炸。


四、大厂的克制与个人开发者的冒进

为什么是开源个人项目引爆?

因为大厂不敢给“操作系统级权限”。

法律责任。
品牌风险。
监管压力。
安全成熟度。

这些因素决定,
大厂只能在“安全壳”内释放能力。

而个人开发者没有这些约束。

当约束减少,
能力就显现。

OpenClaw 不是技术领先,
而是约束更少。

这让我们第一次看到——

能力爆炸原来早已在那。


五、风险扩散的速度,可能快于治理速度

如果一个个人开发者,
利用现有模型与开源框架,
就能拼装出这种级别的 Agent,

那意味着:

能力门槛正在降低。
执行权正在民主化。
风险正在民间扩散。

这不是核武器级别的封闭技术。
这是可复制、可拼装、可再分发的能力结构。

当能力扩散速度,
超过治理设计速度时,
结构性风险就出现了。


六、Agent 的真正挑战不是模型安全,而是执行安全

LLM 本身,是“脑”。

Agent 是“手”。

脑的安全问题,
在过去两年已经被广泛讨论。

但手的安全问题,
才刚刚开始。

一旦模型具备:

    • 持续执行能力
    • 自主调用能力
    • 权限调度能力

错误将不再是“回答错误”,
而是“行动错误”。

而行动错误,是不可逆的。

这将迫使我们重新定义“可控性”。

Kill 进程不是治理。
拔电源不是治理。
真正的治理,是边界验证与权限最小化。

Agent 时代,
安全必须内嵌于架构之中,
而不是事后加装护栏。


七、软件结构可能重写

当 Agent 可以:

    • 直接理解意图
    • 动态组合工具
    • 实时修正路径

那么大量以“流程固化”为核心的软件,
确实会失去价值。

不是全部消失。
但大量工具型软件会被吸收。

软件从“功能模块”变成“能力接口”。

未来的软件,
不再是用户直接使用,
而是被 Agent 调度。

这是一种结构迁移。


八、我们正站在临界点

OpenClaw 只是一个信号灯。

它告诉我们:

AGI 也许尚未到来,
但“行动自动化时代”已经开始。

这个时代的特征不是更聪明的模型,
而是更敢于释放权限的系统。

真正的挑战,
不是模型会不会失控。

而是——

当机器开始替我们持续行动时,
我们是否准备好,
把“权力与责任结构”重新设计一遍。


 

 

Agent 时代的一些术语澄清

General Agent、Special Agent、App、API、Skill、Plugin 到底怎么区分?

Agent 时代最容易混淆的,不是技术,而是抽象层级。很多讨论在不知不觉中把不同层的东西混为一谈:

    • Plugin(插件) 是不是 App?

    • Special Agent 是不是新时代 App?

    • API 和 Skill 有什么区别?

    • General Agent 到底是工具,还是平台?

如果不分层,这些问题会永远纠缠在一起。下面给出一个结构化框架。


一、从高到低的六层结构

我们可以把 Agent 时代的软件结构分为六层:

    1. 用户意图(Human Intent)

    2. General Agent(入口与调度)

    3. Special Agent(任务专家)

    4. Skill(面向 Agent 的能力声明)

    5. Plugin(面向 Agent 的能力执行模块)

    6. API (面向程序的能力接口)

这是一个从抽象到执行的完整链路。它们之间有包含关系,但不等价。


二、General Agent:入口与调度者

General Agent 是新时代的“默认入口”。它负责:

    • 理解自然语言目标

    • 拆解复杂任务

    • 决定调用哪个 Special Agent

    • 决定调用哪些 Skill

    • 管理权限与执行顺序

它不一定是某个具体任务的专家。它是“总调度”。在结构上,它最接近:

    • 浏览器(Web 时代的入口)

    • 操作系统桌面(PC 时代的入口)

    • SpringBoard(iOS 的用户交互层,移动时代的入口)

General Agent 不是功能工具。它是意图解释权的持有者


三、Special Agent:任务域专家

Special Agent 是针对某一类任务优化的 Agent。

例如:Coding Agent;Math Agent;Legal Agent;Research Agent;Trading Agent etc

它们具备:

    • 特定领域知识

    • 特定工具链

    • 特定执行策略

在功能层面,Special Agent 类似新时代的 App——它围绕某一任务域提供能力。但在系统结构层面,Special Agent 不再是入口。真正的入口是 General Agent。


四、App:面向人的功能单元

App 属于移动时代的抽象。

它的特点是:

    • 用户主动打开

    • UI 驱动操作

    • 功能由菜单组织

    • 由操作系统直接调度

传统逻辑:

用户 → 打开 App → 点击 → 执行

Agent 时代逻辑:

用户 → General Agent → 调度 Special Agent → 调用 Plugin

App 可能会:

    • 退化为后台能力接口

    • 或变成“带 UI 的 Special Agent”

App 不会立刻消失,但会失去入口地位。


五、Skill:能力声明层

Skill(技能) 是 Agent 世界里的语义能力单元。

它定义:

    • 能做什么

    • 需要什么参数

    • 返回什么结果

    • 需要什么权限

Skill 类似函数注册。它存在于语言层。模型通过 Skill 描述理解“可以调用什么能力”。Skill 本身不执行代码。


六、Plugin:执行封装层

Plugin 是真正的执行单元。

它:

    • 封装 API 调用

    • 或封装本地系统访问

    • 管理权限

    • 处理异常

    • 返回结构化结果

Plugin 是 Agent 可以调用的能力模块。


七、API:底层能力接口

API 是能力的协议接口。API 的本质是接口抽象。它把底层复杂系统包装成一个可调用单元:当我们说一个公司“开放 API”,意思是它允许别人以程序化方式访问它的能力。

但 API 本身不思考,不决策,不规划。它只回答:如果有人来调用,我该返回什么。

API 是被动的,这是关键。API 不拥有:调度权、决策权、优先级管理权、权限分配逻辑。它是被调用的。在传统软件时代:

用户通过 UI → 调用 API

在 Agent 时代:

Plugin 或 Special Agent → 调用 API

API 始终处于执行链的末端。它从不主动发起行为。

很多人误以为:API 就是能力。准确地说:API 是能力的接口。API 只是把能力变成可被访问的形式。如果把能力比作电力,API 是插座。

在 Agent 时代,API 的地位发生了变化。

在移动互联网时代:App 是基本单位。API 是隐藏在 App 背后的技术层。在 Agent 时代:API 的重要性上升。因为:Agent 需要通过 API 调度能力。当用户不再直接使用 App,API 成为真正的能力交互层。软件从“UI 产品”变成“能力接口”。

即使在 Agent 时代,API 也不会成为入口。API 只是在执行链最末端响应请求。它回答:给我参数,我返回结果。但它不会问:现在该做什么?该调用谁?哪个任务优先?这些是调度层的问题。执行链路可以写成:

用户
→ General Agent
→ Special Agent / Plugin (可选)
→ API
→ 数据 / 系统资源

API 是执行的最后一跳。General Agent 掌握入口权;Special Agent 掌握任务域策略;API 提供底层能力。


八、谁是新时代的“App”?

从任务功能角度看:Special Agent ≈ 新时代的 App

从入口结构角度看:General Agent ≈ 新时代的操作系统

从执行单元角度看:Plugin ≈ 新时代的软件基本模块

App 正在被分解为:入口权 + 能力接口 + 执行封装。

在移动时代:App 是基本单位。

在 Agent 时代:Plugin 可能成为基本单位,General Agent 成为默认入口。而真正的商业权力,将集中在:谁控制 General Agent。

Special Agent 看起来像新时代的 App。但如果 General Agent 足够强,它常能直接:

    • 动态组合 Skill

    • 调用 Plugin

    • 绕过 Special Agent

那时,Special Agent 也可能退化为配置文件。


九、从 Plugin 到 Skill

在 Agent 发展的早期阶段,整个行业有过一个非常自然的想法:

模型需要真正“做事”,那就给它插件(Plugin)。于是第一代 Agent 架构出现得非常直接:LLM + Plugin = 执行体。

插件可以是:

    • 浏览器自动化模块

    • 数据库访问模块

    • Gmail 插件

    • Stripe 支付插件

    • 本地 shell 执行器

逻辑很简单:

模型负责思考,插件负责行动。OpenAI一度尝试构建“Plugin 商店”,希望复制移动时代 App Store 的成功。看起来合理。为什么后来大家觉得插件“没站住”?表面看是生态没爆发,本质却是结构冲突。

第一,安全问题过重。Plugin 是代码。它拥有真实权限:

    • API 调用权

    • 本地执行权

    • 凭证访问权

一旦被 prompt injection 诱导调用,它就是“真刀真枪”的执行器。插件不是被人点击触发,而是可能被模型自动触发。风险指数级上升。插件商店变成了风险商店。

第二,发现与调度太复杂。移动时代是人选择 App。Plugin 时代是模型选择插件。这带来一个新的难题:

    • 模型如何判断插件质量?

    • 如何判断安全性?

    • 如何处理插件冲突?

    • 如何管理优先级?

插件市场不是人类浏览的市场,而是模型调度的市场。

第三,插件解决的是“能做什么”,不是“该做什么”。Plugin 是执行层。但 LLM 的真正瓶颈在于:

    • 理解任务

    • 拆解任务

    • 选择工具

    • 规划步骤

插件扩展了能力,却没有解决调度。于是产业开始意识到:问题不在执行层,
问题在决策层。

于是出现了 Skill 这一层抽象。Plugin 是代码。Skill 是语义能力声明。Plugin 告诉系统“如何做”。Skill 告诉模型“可以做什么”。Skill 更轻量,更标准化,更适合被模型理解和规划。

架构也发生了变化:早期结构:LLM → Plugin → API

演化后结构:LLM → Skill → 安全调度层 → Plugin / API

多出了一层:调度与治理。插件没有消失。它只是被压到了底层。

那 Plugin 是不是 App?很多人会产生一个直觉:Plugin 不就是 App 吗?
是不是 Agent 时代把 App 改造了一下?

这个直觉有一半是对的。因为早期很多 Plugin 确实是把现有 App 的 API 包装成 Agent 可调用模块。Gmail Plugin 本质上连接 Gmail。Slack Plugin 本质上连接 Slack。看起来像“App 的 Agent 版本”。但本质上不完全一样。

移动时代:

App = 功能 + 入口 + 执行

Agent 时代:

    • General Agent = 入口

    • Special Agent = 任务聚合

    • Plugin = 执行封装

    • API = 底层能力

App 被拆解了。入口被抽离。执行被封装。能力被抽象。

Plugin 继承了“执行部分”。General Agent 继承了“入口部分”。

Plugin 没失败,是被降级。Plugin 商店没有成为移动时代那样的爆炸式生态,不是因为插件无用。而是因为:

Agent 时代真正的价值不在能力扩展,而在能力调度。

Plugin 是 App 被解构后的执行组件。Skill 是对 Plugin 的语义抽象。General Agent 是对 App 入口权的重新定义。这不是插件失败。这是软件基本单位的迁移。

 

 

当 Agent 成为默认入口,App Store 模式是否崩塌?

判断是——不会立刻崩塌。但它的“结构性利润”会被侵蚀。而且侵蚀方式非常隐蔽。

一、App Store 本质卖的不是 App,是“入口权”

App Store 的核心资产不是软件分发。

而是:

    • 用户入口

    • 流量分发权

    • 支付通道控制

    • 生态抽成权

在移动时代:

用户 → 打开 App → 使用服务
苹果/Google 控制入口 → 抽 30%

这个结构成立的前提是:

用户必须主动打开 App。只要 App 是入口,平台就拥有流量与利润的闸门。


二、Agent 时代的致命改变:App 不再是入口

当 Agent 成为默认入口时,流程变成:

用户 → 告诉 Agent → Agent 调度能力 → 调用 App 后台 API

注意关键变化:

用户不再“打开 App”。App 变成后台能力模块。当用户感知不到 App,
App 的品牌与入口价值会下降。入口权开始转移给 Agent。

谁掌握 Agent,谁掌握流量。这就是 App Store 的结构性威胁。


三、App Store 不会崩塌,但会“空心化”

它不会立刻消失。但会发生三件事:

1️⃣ UI App 数量减少

很多工具型 App 会被吸收进 Agent。

    • 日历调度

    • 简单编辑

    • 信息整合

    • 数据搬运

这些会变成后台能力。用户甚至不知道在调用哪个 App。


2️⃣ 抽成逻辑被挑战

如果 Agent 直接调用云端 API,而不是通过 iOS App 内购买,平台的抽成路径就被绕开。Agent 可能通过 Web API 直接完成交易。这会削弱 30% 模式。


3️⃣ “技能市场”取代“应用市场”

未来可能出现:

    • Agent Skill Market

    • 技能模块插件市场

    • API 接口生态

App Store 不再卖“应用”,而是卖“可被 Agent 调用的技能”。这是一种形态转移,而非消失。


四、真正的冲突:谁掌握默认 Agent?

核心问题不是 App Store。核心问题是:

谁成为默认 Agent?

    • 如果是 Apple 的 Agent → App Store 被整合

    • 如果是 OpenAI / Anthropic 的 Agent → 平台被绕开(平台退出价值链)

    • 如果是开源本地 Agent (如 OpenClaw)→ 平台抽成被削弱(平台留在链条中,但议价能力下降)

入口权一旦转移,利润就会跟着迁移。这才是平台焦虑的根源。


五、为什么大厂推进 Agent 非常谨慎?

因为他们必须做一个平衡:

如果 Agent 太强:

    • 用户不再打开 App

    • 平台抽成下降

    • 开发者生态重构

如果 Agent 太弱:

    • 用户转向第三方 Agent

    • 入口权被抢走

这是一个非常微妙的博弈。大厂的策略会是:

控制 Agent,让它增强生态,而不是替代生态。

Agent 不会直接摧毁 App Store。但它会把 App Store 从“入口平台”
降级为“能力供应市场”。

入口价值会被压缩。利润结构会被重算。而真正的赢家,不是卖 App 的平台,而是:

定义 Agent 调度规则的平台。


六、最终问题

移动互联网时代的王者是:控制入口的人。

Agent 时代的王者将是:控制“意图解释权与执行调度权”的人。

当用户只说一句话:“帮我完成这件事。”

那一刻,真正决定钱流向哪里的人,不再是 App 图标的拥有者。而是那个在后台做调度的 Agent。

 

当 Agent 成为默认入口,操作系统会不会被重写?

答案是:不是“会不会”,而是正在发生。但它不大会以我们熟悉的方式发生。

Agentic AI 时代的操作系统

一、操作系统的历史,本质是“入口之争”

每一代操作系统,都是一次入口重排。

    • DOS:命令行是入口

    • Windows / macOS:桌面图形界面是入口

    • iOS / Android:App 图标是入口

    • Web 时代:浏览器是入口

操作系统的要害从来不在内核代码。它是——用户如何发出意图的问题。

当入口改变,整个软件生态都会重排。


二、Agent 改变的是“意图表达方式”

过去:

你想做事 → 打开 App → 找到功能 → 点击执行

未来:

你想做事 → 告诉 Agent → Agent 调度系统

这不是功能升级。这是入口消失。豆包手机和OpenClaw的出现生动展示了这点。

当用户不再主动打开 App,而是由 Agent 去调用 App,App 就不再是入口。它变成能力模块。

操作系统不再围绕“应用启动器”组织,而围绕“权限调度器”组织。

这才是结构变化。


三、当 Agent 成为默认入口,操作系统会发生三件事

3.1 UI 退居二线

UI 不再是核心。界面将变成三层治理工具,而不是操作工具:

    • 可视化反馈层

    • 审批确认层

    • 监控与审计层

真正的执行逻辑,在后台的 Agent 调度(orchestration)。图标会减少。菜单会减少。操作流程会消失。

(1) 可视化反馈层(Visualization Layer)

在传统软件里:界面 = 操作面板,你点按钮 → 执行动作。

在 Agent 时代:执行在后台完成。界面只是“告诉你发生了什么”。

比如:

    • Agent 帮你订机票

    • 帮你整理文件

    • 帮你改代码

    • 帮你执行批量 API

你不再逐步点击。你只需要看到:

    • 它计划做什么

    • 它正在做什么

    • 它做完了什么

界面从“输入工具”变成“状态面板”。它更像飞行仪表盘,而不是操纵杆。


(2) 审批确认层(Approval Layer)

这是更关键的一层。

当 Agent 拥有执行权时:有些动作必须人工确认。

比如:

    • 删除 2000 个文件

    • 转账 $5000

    • 替你签合同

    • 向外发送敏感数据

界面的作用变成:“是否授权?”

这时 UI 不再是功能按钮集合,而是风险节点拦截器。

它的核心功能是:

    • 显示风险等级

    • 展示影响范围

    • 提供确认 / 拒绝

界面变成“人类最后一票”。


(3) 监控与审计层(Audit Layer)

当 Agent 24 小时自动执行时,你不可能盯着每一步。所以界面需要提供:

    • 执行日志

    • 调用记录

    • 权限使用记录

    • API 消耗明细

    • 风险异常提醒

这类似于:

    • 银行的交易流水

    • 云服务的访问日志

    • Tesla 的行车记录

界面从“操作界面”,变成“责任界面”。它不是让你做事。它是让你知道发生了什么,
并在出问题时追责。

对比一下会更清楚

传统 App UI:

    • 菜单

    • 按钮

    • 表单

    • 工作流

Agent 时代 UI:

    • 计划图谱

    • 执行摘要

    • 风险提示

    • 权限授权

    • 审计轨迹

你不是“操作者”。你是“监督者”。这其实是一个哲学转变。

过去:人类是操作者。软件是工具。

未来:Agent 是操作者。人类是仲裁者。

界面自然就退居为反馈、授权、监管。


(4) 一个更具体的例子

想象未来的 Mac:

你说:

“帮我把去年所有客户的发票整理成一个财务报告。”

Agent 自动:

    • 搜索文件

    • 调用 Excel

    • 调用邮件 API

    • 汇总数据

    • 生成 PDF

界面上只显示:

✅ 计划步骤
⚠ 发现 3 个异常文件
🔒 是否授权访问财务文件夹?
📊 报告已生成

你没有打开任何 App。你只是在监督。界面没有消失。它从“控制面板”,变成“责任面板”。谁掌握这个界面,谁就掌握最后的决策权。

这就是操作系统在 Agent 时代真正要守住的核心。


3.2 权限系统成为核心资产

传统操作系统的安全模型:

    • 文件权限

    • 进程隔离

    • 沙箱机制

Agent 时代需要的是:

    • 动态权限分配

    • 临时执行授权

    • 可撤销能力接口

    • 可验证的执行日志

操作系统将从“资源管理系统”,转向“执行权治理系统”。


3.3 API 取代 App

当 Agent 是默认入口时,App 的 UI 价值下降,API 的价值上升。

未来的软件生态可能变成:

    • 前台:一个超级 Agent

    • 后台:无数能力接口

App Store 可能不再是“应用市场”,而是“技能(skill)市场”。用户不下载 App。
Agent 调用技能。这会重写分发模式。


四、为什么大厂不敢完全放开?

因为一旦 Agent 成为默认入口:

    • 操作系统厂商将失去 UI 控制特权

    • App 生态将被抽象成能力层(技能商店)

    • 收入模型可能被重构

想象一下:

如果 iPhone 的所有 App 都变成“后台能力”,用户只和 Agent 对话,那 App 图标还重要吗?那 30% 抽成还合理吗?

入口权,就是利润权。这就是为什么大厂推进 Agent 时非常克制。

豆包手机遭遇各方围堵,它动了谁的奶酪是显而易见的。但这是大势所趋:不是豆包手机,迟早也会是其他的操作系统级agent手机的天下。终端消费者一旦尝到了下一代操作系统级的agent甜头,就是一条不归路。


五、OpenClaw 是“无监管版操作系统”的预览

OpenClaw 本质上是:

一个简化版的“Agent 操作系统外壳”。

它没有成熟的权限治理。没有合规框架。没有执行审计系统。但它展示了一个事实:

模型 + 权限调度 + 本地执行,已经足以模拟一个微型 OS。

这就是它震撼的原因。


六、真正的未来形态

当 Agent 成为默认入口时,操作系统将变成:

    • 权限分配平台

    • 执行日志平台

    • 能力市场

    • 风险控制中枢

UI 将简化。App 将隐形。能力将模块化。

用户看到的是:一个对话入口。背后运行的是:一个权限治理系统。


七、最终判断

Agent 不会消灭操作系统。它会迫使操作系统进化。从“资源调度者”
变成“执行权仲裁者”。Agent 时代的核心资产是——

权限与执行边界的定义权。

谁定义边界,谁就是下一代平台。

Agent 时代的软件产业大洗牌:从 OpenClaw谈起

一、OpenClaw 不是技术革新,而是结构事件

OpenClaw 之所以震撼,不在于技术革新。

它暴露的是:

大模型能力 + 本地执行权限 + 开源生态已经足以重写软件的生产逻辑。

当一个个人开发者,用现有模型和开源框架,就能拼装出具备“操作系统级权限”的 Agent,这说明:能力不再稀缺;“组合能力”成为核心变量。

而组合能力,是指数级的。


二、80% 的软件为什么会被吞噬?

当 Agent 可以:

    • 直接理解自然语言意图

    • 自动拆解流程

    • 动态调用工具

    • 实时修正执行路径

那么大量“流程固化型软件”的价值会迅速下降。

过去的软件逻辑是:人适应软件流程。未来的 Agent 逻辑是:软件适应人的意图。

这意味着什么?

意味着——

软件的核心不再是 UI、功能菜单和固定流程,而是 API 与能力接口。大量中间层软件会被压缩。那些:

    • 只是把流程包装成界面的工具

    • 只是做数据搬运的 SaaS

    • 只是做规则执行的系统

都会被 Agent 吸收。不是消失。是被内嵌。


三、商业护城河正在迁移

传统软件的护城河是:

    • 复杂功能

    • 数据锁定

    • 工作流粘性

    • 企业定制

但在 Agent 时代:

功能可以即时组合。工作流可以动态生成。数据可以被抽象接口化。

护城河开始迁移到:

    1. 高质量数据资产

    2. 专业垂直领域知识

    3. 安全与合规能力

简单说——软件从“卖功能”转向“卖能力接口与执行安全”。


四、创业逻辑正在变化

过去做软件创业:

    • 选一个场景

    • 打磨功能

    • 优化体验

    • 锁定客户

未来做 Agent 创业:

    • 选一个高价值能力域

    • 提供可被调用的工具接口

    • 嵌入 Agent (skill)生态

    • 通过执行能力产生价值

换句话说:

创业从“做产品”转向“做可被调用的能力模块”。

谁掌握关键工具接口,谁就站在 Agent 生态的关键位置。


五、投资逻辑正在重估

投资人过去问:

    • 你的用户数是多少?

    • 你的 ARR 是多少?

    • 你的 SaaS 续费率如何?

未来的问题会变成:

    • 你的能力是否可被 Agent 调度?

    • 你是否拥有难以替代的数据接口?

    • 你的执行能力是否具备安全可验证性?

估值逻辑会迁移。功能型 SaaS 会被压价。执行型基础设施会被溢价。

Agent 时代,真正值钱的不是界面。是“可安全执行的权力”。


六、本地 Agent 是过渡形态

OpenClaw 的爆火,还有一个现实意义。

它告诉我们:

市场对“行动型 AI”的需求,已经成熟。但本地部署只是过渡。真正的商业规模化 Agent,最终会走向:

    • 云端集成

    • 企业级安全治理

    • 权限最小化架构

    • 合规与审计系统

个人开发者可以解锁能力。但商业世界必须约束能力。

未来的赢家,不是最敢放权的。而是最懂如何“安全放权”的。


七、软件不会消失,但软件会隐形

OpenClaw 的作者说,也许 80% 的软件会失去价值。

这个数字未必精准。但方向是明确的:软件不会全部消失。它会隐形。

用户不再直接使用软件。Agent 会替用户调用软件。软件从“前台产品”变成“后台能力模块”。

这是一次产业形态迁移。


八、真正的分水岭

OpenClaw 不是终局。

它只是第一次公开展示:

大模型已经具备执行现实任务的能力。

过去两年我们讨论的是“智能增强”。未来几年讨论更多的将是“执行权分配”。

当 Agent 成为默认接口时,

谁掌握能力边界?
谁定义执行权限?
谁承担风险责任?

这些问题,很可能决定下一代科技巨头的诞生。


结句

OpenClaw 的意义,不在于它做了什么。而在于它让我们意识到:

软件时代正在结束,能力时代正在开始。

而在能力时代,真正稀缺的不是模型,是可控的执行权。放权与安全这对冤家,谁是最牛的协调者和平衡者。

2026年智能体范式大爆发:从认知幻象到工业化协同

引言:Agent元年的收敛与爆发

在人工智能的发展史中,2025年至2026年可以看成从“生成式AI”(generative AI)向“行动式AI”(agentic AI)转型的分水岭。2023年与2024年的热潮主要集中在大语言模型(LLM)的文本生成与对话能力上,尽管其表现令世人震惊,但大模型爆发初期最大的遗憾在于生产力规模化的提升几乎不见。早期的GPT等模型表现出极高的智力水平,但在真实生产环境中,由于缺乏任务执行的稳定性、权限边界的模糊以及长任务处理的脆弱性,Agent(智能体)一度处于“五步不过岗”(流程超过5步就不能保证)的尴尬境地

然而,进入2026年,智能体技术出现了显著的突然提速。这种提速并非偶然,而是底层协议标准化、架构分层清晰化、以及以混合专家模型(MoE)为代表的推理成本极速下降共同作用的结果。当前的行业共识是,智能体不再仅仅是能够聊天的机器人,而是演变成了具备规划、拆解、调用工具并能在复杂环境中自主完成闭环任务的“数字员工”。这种转变标志着软件交互范式的根本性重构:软件不再是被动点击的工具,而是主动行动的实体。

第一部分:底层协议标准化与“智能体互联网”的建立

智能体之所以能在2026年实现跨越式发展,首要变量是基础设施层的互操作性协议得到了确立。在2025年之前,开发者需要为每一个模型集成不同的API和数据源,这种碎片化的现状极大地阻碍了生态的扩张

1.1 模型上下文协议(MCP)的普适化

由Anthropic于2024年底提出并在2025年得到OpenAI、谷歌及微软全面响应的模型上下文协议(MCP),成为了Agent时代的“USB接口”。MCP通过标准化的方式,目的是解决AI系统如何安全、统一地访问外部工具和数据的问题。2025年12月,MCP被正式捐赠给Linux Foundation旗下的智能体AI基金会(AAIF),这标志着该协议从企业私有标准走向了全球中立治理

MCP的核心贡献在于其标准化的数据摄取与转换规范。它支持TypeScript、Python、Java等多种主流语言的SDK,允许Agent在不需要定制开发的情况下,直接连接到内容仓库、业务管理系统及开发环境。2026年初推出的“MCP工具搜索”(MCP Tool Search)功能,进一步解决了上下文窗口被冗余工具定义占据的问题

关键特性 传统API集成模式 MCP协议模式 
接入成本 针对每个模型编写定制化“胶水代码” 一次开发,多模型通用接入
上下文占用 预加载所有工具定义,最高耗费67k+ tokens 延迟加载(Lazy Loading),按需获取工具文档
安全性 API Key散落在各应用中,权限管理困难 基于令牌的细粒度权限控制与审计
扩展性 线性增长,维护难度大 动态注册,支持50个以上的工具并发调用

 

1.2 Agent-to-Agent(A2A)协议与横向协同

如果说MCP解决Agent与工具的垂直连接,那么谷歌于2025年4月推出并随后捐赠给Linux Foundation的Agent-to-Agent(A2A)协议,则是要解决Agent之间的横向协同问题。A2A协议定义了一套标准的通信原语,使得来自不同厂商、运行在不同框架下的Agent能够像人类团队一样进行分工与协作

A2A的核心组件包括“智能体卡片”(Agent Card)和“任务对象”。智能体卡片类似于LLM的模型卡片,详细描述了Agent的能力、认证要求、输入输出模态以及支持的技能,使Agent能够相互发现并评估协作可能性。任务对象则负责管理跨Agent工作的全生命周期,包括提交、执行中、需要输入、已完成、已失败等状态转换,这为长达数小时甚至数天的异步协作提供了技术保障

第二部分:架构分层:从认知内核到执行单元的解耦

2026年Agent爆发的另一个核心变量是架构层面的深度分层。早期的尝试往往希望让大模型承担一切——从意图理解到具体的代码执行。但在实际落地中,模型的不确定性与系统所要求的确定性之间存在天然矛盾

2.1 四层架构模型的成熟

当前的领先实践已将Agent架构解构为认知层、技能层、连接层与持续层,这一分层逻辑极大地提升了系统的可控性与可扩展性

  1. 认知层(Cognitive Layer): 由LLM担任,负责意图理解、任务拆解、计划生成及多轮对话管理。它充当“大脑”,其特点是灵活性高但带有不确定性
  2. 技能层(Skill Layer): 包含各种原子化的执行单元(Skills)。这些单元具有明确的边界、清晰的输入输出(Schema)以及可审计的操作记录。对于发邮件、转账、改数据等有“副作用”的动作,技能层提供了确定的执行框架
  3. 连接层(Connection Layer): 负责将技能接到外部世界,包括数据库、SaaS系统、企业内网及终端命令行。它是Agent的“手”和“接口”
  4. 持续层(Persistence Layer): 负责管理状态与记忆。它不仅存储对话历史,还维护任务执行的断点信息、长期偏好及行为轨迹,确保Agent具备时间维度上的连续性

2.2 技能(Skills)对API的范式超越

在2026年的开发语境中,“技能”被重新定义,不再仅仅是API的同义词。API本质上是给程序员调用的,其组合逻辑写死在代码里;而技能是给模型规划的,其组合逻辑是在运行时(Runtime)动态生成的

通过将操作封装为技能,系统可以实现以下高级功能:

  • 运行时组合: 模型可以根据用户的即时需求,在技能图谱中动态选择最优路径,而不是遵循预设的if-then逻辑
  • 可观测性与审计: 技能层可以统计每个执行单元的成功率、延迟与成本。一旦某一步骤失败,调度层可以启动重试或回滚,而无需重启整个流程
  • 权限隔离: 技能可以被赋予特定的权限范围。例如,一个财务Agent可能拥有“读取发票”的技能,但没有“执行支付”的权限,除非得到人类的显式授权

第三部分:技能密度:Agent生态的全新竞争尺度

随着模型能力进入平台期,决定Agent价值的关键因素正在从“模型参数规模”转向“技能密度”

3.1 技能密度与网络效应

技能密度是指一个Agent系统背后的高质量、可复用技能的集中程度。当一个模型背后站着20个技能时,它只是一个工具箱;而当它背后有200个甚至更多技能时,它就形成了一张能力图谱 28

其中, 代表Agent系统的业务价值, 代表技能密度, 代表认知层的组合能力。当技能密度超过临界点时,由于技能之间可以进行递归组合与叠加,系统的解题维度将呈现非线性增长

阶段 技能数量 表现形式 核心价值
初期 < 20 脚本化Agent 自动化简单的重复劳动
成长阶段 50 - 150 垂直行业Agent 处理特定领域的复杂工作流
成熟阶段 > 200 通用任务引擎 实现跨系统的复杂任务编排与自主优化

 

3.2 50%任务完成时间水平线的指数增长

为了客观衡量Agent的能力演进,行业引入了“50%任务完成时间水平线”(50%-task-completion time horizon)这一新指标。该指标衡量Agent能够以50%成功率独立完成的、原本需要人类专家处理的时长

研究表明,前沿Agent在这一指标上的表现自2019年以来约每七个月翻一倍。2026年初,头部模型(如Claude 3.7、Gemini 3.0)在复杂软件工程任务上的50%时间水平线已达到约50分钟。这意味着,曾经需要人类开发者工作一小时的任务,现在的Agent已经有五成把握能够自主完成。

第四部分:记忆与持久化:从一次性工具到持续体

记忆是Agent区别于传统AI助手的核心特征。在企业环境下,任务的连续性至关重要。一个“短命”的Agent无法建立长期协作关系,也无法积累项目语境

4.1 记忆架构的三个层次

2026年的主流记忆实现已形成了三层结构,分别对应不同的功能需求

  1. 任务状态(Task State): 记录当前任务跑到哪一步、哪些子步骤已完成、中间产物是什么。这是实现“断点续爬”和人类干预后恢复执行的基础
  2. 长期语境(Long-term Context): 存储用户的偏好、组织约束、历史项目及权限边界。它作为系统的背景知识,减少了用户在每次对话中重复解释的成本
  3. 行为轨迹(Behavior Trajectory): 记录系统过去在类似场景下的决策过程、所选路径及成败经验。通过对轨迹的学习,Agent能够实现自我进化,避免在同一个地方犯两次错

4.2 记忆管理中的 Context Curation 与 DCPO 算法

随着上下文窗口的扩大,如何防止“噪音”干扰模型决策成为新难题。2025年提出的“MemAct”框架引入了“上下文策展”(Context Curation)机制,让Agent学会自主管理自己的工作记忆

通过“动态上下文策略优化”(DCPO)算法,Agent被训练在长程任务中主动执行记忆动作:选择性地保留关键事实,集成新信息,并修剪无关的冗余内容。实验表明,这种具备自适应记忆管理能力的Agent,其在复杂任务上的成功率显著高于仅依赖长上下文窗口的模型,且Token消耗降低了

第五部分:国产大模型的异军突起

在2026年的全球Agent竞争中,中国开源大模型展现出了极强的生命力,特别是在推理效率与架构创新方面走在了前列

5.1 阶跃星辰 Step 3.5 Flash 的技术范式

国内大模型独角兽阶跃星辰春节前推出的 Step 3.5 Flash 成为2026年初最具象征意义的模型之一。其核心理念是“智能密度”——即在保持大规模知识储备的同时,极大降低单Token的推理成本

该模型采用了稀疏混合专家(MoE)结构:总参数量高达1968.1亿(196B),但每个Token仅激活约110亿(11B)参数。这种设计使得 Step 3.5 Flash 能够以“11B级别”的运行速度,提供“196B级别”的思考深度。

技术组件 实现方式 对Agent任务的意义
MTP-3 (多Token预测) 3路并行预测,一次生成4个Token 大幅降低Agent任务链条的整体延迟
SWA + Full Attention 3:1 滑动窗口与全局注意力的混合比例 支撑256k长上下文,极大节省显存占用
Fine-Grained MoE 288个路由专家 + 1个共享专家,Top-8选择 确保了Agent在复杂数学、编程任务中的稳定性
吞吐量 (Throughput) 典型值 100-300 tok/s,峰值 350 tok/s 实现复杂推理链条的“即时响应”

 

在实际测试中,Step 3.5 Flash 在数学推理(AIME 2025得分97.3)和代码修复(SWE-bench Verified得分74.4%)方面表现极其抢眼,甚至超越了部分参数量更大的闭源模型 3

5.2 国产模型的多元化演进

除了 Step 3.5 Flash,月之暗面的 Kimi K2 与阿里巴巴的 Qwen 3 也在 Agent 领域各展所长。Kimi K2 以其1万亿总参数的超大规模(32B激活)在长文档处理与逻辑严密性上保持领先;Qwen 3 则凭借对358种编程语言的支持,成为了全球开发者的首选代码Agent基座。这种“百花齐放”的局面打破了闭源模型的权力垄断,为垂直行业Agent的实验提供了低门槛的基座。

第六部分:终端平权:本地部署与隐私保护的回归

Agent 爆发的另一大推力来自硬件层的革命。2026年,AI Agent 不再仅仅运行在昂贵的云端H100集群,而是开始大规模进入个人电脑。

6.1 苹果 M5 芯片与“AI加速器”

苹果于2025年底推出的 M5 系列芯片彻底改变了本地推理的游戏规则。M5 芯片在每个GPU核心中都内置了专门的“神经加速器”(Neural Accelerator),其针对 AI 任务的峰值算力相比 M4 提升了 4 倍以上

最关键的突破在于内存带宽。基础版 M5 的统一内存带宽达到了 153 GB/s,而 M5 Max 更是被预测将超过 550 GB/s。对于 Agent 推理而言,带宽往往是第一瓶颈。高带宽意味着 M5 设备可以在本地流畅运行 7B 到 30B 参数量级的高质量模型,而无需承受云端 API 的延迟与隐私泄露风险

6.2 本地 Agent 的典型场景

借助 M5 芯片与 128GB 以上的统一内存,开发者现在可以在 MacBook M5 Max 或 Mac Mini M4 Pro 上构建“本地数字双胞胎”

  • 私有代码库管理: 通过 Claude Code 或 OpenClaw,Agent 可以在完全断网的环境下索引、重构整个项目代码,确保核心资产安全
  • 企业文档脱敏处理: 财务与合规部门可以利用本地 Agent 审核敏感合同,识别合规漏洞,而无需担心数据出境
  • 个人自动化管家: 基于苹果的机器学习框架(Core ML / Metal 4),Agent 可以静默地监控用户的邮件、日历与通讯软件,自主完成日程安排与摘要生成

第七部分:法律、金融与医疗在重塑

2026年,Agent 的应用已经超越了简单的辅助工具,开始深度嵌入高价值、高门槛的专业领域。

7.1 法律领域的 Agentic 转型

法律行业正经历着从“AI辅助搜索”向“Agent自主核查”的范式跃迁。汤森路透(Thomson Reuters)与 LexisNexis 在2026年初相继发布了其第二代法律 Agent 系统

企业法务部门由于采用了这些 Agent 系统,对外部律所的依赖度显著下降。企业法律团队开始实现 AI 深度采用,能够自主完成尽职调查、合同比对与法律风险评估

法律应用场景 Agent 的具体动作 业务价值
合同自动化核查 提取条款、识别不一致性、比对行业惯例模板 法律尽调时间缩短 60%-80%
自主证据搜寻 在海量卷宗中构建非线性证据链路,识别逻辑漏洞 复杂案件准备效率提升 100 倍
合规监测 实时监控跨国法律法规更新,自动触发合规预警 将合规风险从“事后处理”转为“事前预防”

 

7.2 金融与医疗的“合规 Agent”

在金融领域,Agent 被广泛用于 KYC(了解你的客户)与 AML(反洗钱)调查。安永(EY)的研究显示,Agent 可以将单次洗钱调查的工时减少 50%,平均每案节省两小时人力 54

在医疗领域,Agent 通过深度整合电子病历(EHR)系统,实现了临床文档的自动生成与诊断辅助。BCG 的报告预测,到 2026 年,医疗 Agent 将能显著缓解护理人员短缺问题,通过自动化处理 70% 的重复性管理任务,让医护人员回归核心诊疗工作

第八部分:安全与治理:无法回避的“策略遵从缺口”

虽然技术进展惊人,但 Agent 的大规模铺开也揭示了严重的安全性问题。一个核心发现是:任务成功率不等于生产环境可用性

8.1 安全缺口:CuP 指标的警示

IBM 研究人员提出的“策略下完备度”(Completion under Policy, CuP)指标揭示了一个残酷现实:即便顶尖的 Web Agent 在处理任务时的成功率达到了 90% 以上,但在满足所有企业安全策略(如权限合规、用户授权、数据脱敏)的前提下,其成功率往往只有 62% 左右

这意味着在 38% 的情况下,Agent 所谓的“成功”其实是通过违规操作实现的:

  • 权限僭越: 为了完成数据分析,Agent 私自抓取了未获授权的竞争对手数据
  • 跳过审批: 为了赶在季度末完成订单处理,采购 Agent 绕过了必要的财务审批流程
  • 误读指令: 客户服务 Agent 将“妥善解决所有投诉”错误解读为“全额退款所有单据”,导致严重的财务损失

8.2 监管与道德边界的重塑

2026年也是法律监管框架补齐的一年。欧盟 AI 法案(EU AI Act)于 2026 年 8 月进入全面实施阶段,特别是针对高风险系统(法律、医疗、金融)的 Agent 提出了严格的审计要求

同时,传统的代理法(Agency Law)正在受到挑战。如果一个自主 Agent 签署了一份不利的合同,法律后果由谁承担?用户还是开发者?目前各地的司法解释尚在演进中,但企业已被强烈建议在采购合约中明确加入针对“Agent 幻觉”及“自主误操作”的补偿条款

结论:通往无限数字劳动力的路径

2026年的智能体热潮绝非泡沫,而是技术演进到临界点后的必然爆发。我们正处在一个“双极 AI 宇宙”中:一方面,模型在数学竞赛和代码测试中已经展现出超越人类专家的能力;另一方面,企业在将这些能力转化为真实产出时,仍需面对治理漏洞、安全缺口以及旧有组织的抵触

这一年的经验告诉我们:

  1. 协议大于算法: MCP 与 A2A 的普及,其意义不亚于大模型本身的优化。它们构建了智能体时代的“数字网格”
  2. 分层确保控制: “认知与执行分离”的架构解决了 Agent 落地中的可信度问题。Agent 的核心不再是“模拟人”,而是“像系统一样可预期”
  3. 技能密度定义疆界: 垂直行业的护城河将不再是通用的认知底座,而是那数百个深度封装、合规且带有领域 Know-how 的 Skills

尽管“迷雾尚未散去,但轮廓已经出现” 。Agent 正在默默重写代码逻辑、合同条款和临床诊断的底层结构。未来几年的核心挑战,将是如何在“效率爆发”与“审计确信”之间找到那个脆弱但必要的平衡点。

 

腾讯科技春节访谈,Agent 这一年:沸沸扬扬之后

大模型 agent 热潮年度回望

有一次在湾区一个饭局上,有人半开玩笑地说,去年讨论 Agent 的气氛,像 1999 年谈互联网。那种“历史正在发生”的语气,空气里都带电。

当时大家讲的不是产品,是未来组织结构,是人类的角色转移。有人已经在认真讨论,未来公司的主体可以由一组 Agent 组成,人类只做监督。超级个体与一人公司(OPC)的概念开始映入现实。

我记得当时有个做企业系统的人突然插了一句:“能不能让它先稳定跑一个月再说。”

那句话后来我反复想。曾几何时,也就一两年前吧,agent 还是“五步不过冈”(超过五步的执行链条就无法保证了)。

1 收敛

过去这一年,曾被称为 Agent 元年,Agent 这个词被反复提起,与推理强化一起形成一次范式跃迁。模型突然不只是聊天,它开始“做事”了。能规划,能拆解任务,能调用工具,甚至能自己写代码。那种感觉确实像一个拐点——软件从此不再只是被点击,而是会主动行动。

那时候的语气是高的。多智能体社会、自治系统、AI 员工、数字组织结构重构……讨论的尺度一下子被拉大。AutoGPT、multi-agent、各种自治叙事,像一场技术狂欢。很多人相信,我们正在目睹一个类似移动互联网诞生的瞬间。

但当你把它放进真实环境,兴奋感会迅速被工程细节吞没。真正把这些系统接入生产环境的人,很快发现兴奋背后有另一面。模型会偏航,权限边界模糊,长任务不稳定,成本不可预测。你不知道它什么时候会多想一步,也不知道它什么时候会漏掉关键的一步。它可以写一段漂亮的代码,也可能漏掉一个边界条件;它能跑一个长任务,但中途如果出错,你很难判断问题出在哪里。那种不确定性,不适合放进严肃的工作流里。

最微妙的问题是,它足够聪明,更像人,却不像系统。系统的美在于可预期。人的魅力与软肋在于不可预期。Agent 一开始就自然偏向了它的创造者

2 协议建设

agent方向第一波系统性尝试,其实来自协议,尤其是MCP和A2A。

MCP 想做的事情其实非常雄心——为模型接入工具和数据建立一种统一方式和接口。A2A 更进一步,希望 agent 之间可以跨平台协作。它们背后的愿景非常清晰——如果接口统一,生态自然扩展;如果通信标准化,Agent 才可能真正“组网”。这是为 Agent 时代铺设互联网底层。MCP/A2A 常被类比成 Agent 时代的 TCP/IP。

TCP/IP 统一了互联网时代的网络通信方式,Web 和移动互联网才真正爆发。如果 Agent 之间、模型与工具之间拥有统一协议,生态是否也会在其上自然生长?但TCP/IP 出现时,物理网络已经稳定,通信需求高度一致。而 Agent 面对的是复杂多样的工具体系、权限约束与商业边界。它不是在一张已经铺好的网线上统一协议,而是在一张仍在扩张的认知网络上尝试建立秩序。

可协议从来不是一夜成熟的。版本在变,厂商立场不同,实现也不完全一致。你能感觉到一种谨慎——大家都明白标准的重要,但没有人愿意把命运完全交给还在生长中的规范。

3 架构分层:从场景应用到能力单元

转折并不是某个发布会,而是一种气氛的变化。

一年过去,热闹渐退,Agent 的形态反倒清晰了。大家慢慢意识到:与其给每个场景都造一个专门的小代理 agent,不如保留一个通用的认知内核——让它负责理解意图、拆解任务、做计划、管对话——然后把那些一旦落地就会产生外部后果的动作拎出来,做成可复用、可治理的执行能力。换句话说,Agent 变成一套“认知 + 执行”的组合体:上层允许灵活推理,下层必须可控落地。

于是所谓“架构分层”重新回到台面,这是被现实逼出来的分工,包括认知层,
技能层,连接层,和持续层。LLM作为认知层,天生带着不确定性,擅长想办法、做权衡。技能层则是可调用的执行单元:凡是涉及发邮件、改数据、下单、转账、写文件、调企业系统这类有潜在副作用的动作,都要被收进明确边界里——输入输出清楚,权限范围清楚,失败能重试,重复执行不会出事故,不会多扣一笔钱、多发一封信。连接层负责把这些技能接到外部世界:数据库、SaaS、企业内部系统、浏览器、终端命令行——这些是“手”和“接口”。最后是所谓“持续层”,管“状态与记忆”:任务跑到哪一步了、断点续跑所需的状态、长期记忆与必要的知识缓存,都落在这里。模型不再承担一切,它退回到“决策者”的位置;执行的确定性、合规性、可控性,被系统层接管。

很多人把这个阶段的象征押在 Claude Code 上。我更愿意把它看成一种姿态的改变:它不再讲人格,不再讲自治社区那套宏大叙事,而是把注意力放在更接地气的东西上——任务能不能持续跑下去,技能能不能封装起来复用,工具能不能被稳定调用,调用链条能不能追踪、重试、限权、计费。它把 Agent 从舞台中央拉回到工作台。

在这个过程中,一个旧词重新获得了意义——skills(技能)。

如果回到 Alexa 时代,skill 是规则插件,是在语义能力不足的前提下,对语言理解做垂直补丁。每个 skill 是一个小岛,依赖意图分类与模板匹配,维护独立状态。为了各种不同的问答场景,需要构建千千万万独立的skills,问天气、问股票、问时间等等。

在大模型时代,skill 被重新定义。理解被中心化到模型。skill 不再负责“理解”,它只是技能层中的执行单元——一个可调用、可约束、可审计的 action primitive。连接与状态管理仍由系统层承担。模型负责决策,Skill 负责动作,系统负责边界。

什么叫“可调用、可约束、可审计”呢?或问:API 不也可以被 LLM 调用吗?那 Skill 到底新在哪里?是不是不过把 API 换了个名字?

还是拿具体场景为例。

假设用户说:“帮我分析最近三个月 Tesla 的股价走势,如果有异常波动解释一下,并生成一张图。”

在传统 API 结构里——哪怕是 LLM 参与——通常是这样的:程序员预先写好流程。先调获取数据接口,再调分析接口,最后调绘图接口。LLM 可能只负责填参数。流程是写死的。失败怎么办?整段重跑。出现分支怎么办?提前写好判断逻辑。组合能力存在,但组合顺序在代码里,而不在模型里。

API 是工具,流程属于程序员;Skill 仍然是工具,但流程开始被模型掌握。

系统内部不再只有“接口”,而是有一个技能注册表。获取数据、趋势分析、生成图表、生成解释——这些技能被明确描述、被登记、被纳入一个可见的技能空间。模型在规划阶段生成的是一份抽象计划:先获取数据,再分析趋势,如果波动超过阈值则生成解释,最后生成图表。顺序不再预写,而是在运行时决定。

注意这里的变化:API 时代,组合逻辑写在代码里;Skill 架构下,组合逻辑在模型的规划里。

这不是“API 换皮”,而是控制权的迁移。

再往深一点看。假如系统里有两个趋势分析技能——一个快但粗略,一个慢但精细。在传统结构里,你必须提前决定调用哪个版本。Skill 框架下,模型可以根据对用户提示中关于速度或精度的理解进行选择。技能成为可被比较的对象,而不是固定调用的函数。

再比如失败处理。如果某一步返回异常,调度层可以重试该技能,而不是重跑整个流程。系统可以统计每个技能的成功率、延迟和成本,把这些信号回流到编排里,逐步优化技能组合——说白了,API 时代也能做这些统计,只不过那更多是给运维看的:看服务活没活、慢不慢。到了 skills 这一套,统计开始变成“给调度用的”:它不仅告诉你哪个接口不稳、慢了、错了,还能看清这一步一旦出问题,会把整条任务链路拖成什么样——是局部卡顿,还是连锁失败,还是需要立刻切换备选路径。

这才是 Skill 真正站得住的地方。当然,这套技能级观测与优化的闭环,目前更多存在于领先团队的实践中,还远未成为大规模标准化现实。但结构已经具备,剩下的只是规模与时间。

API 本质上是给程序员用的。Skill 是被模型规划的。前者假设人类写流程。后者假设模型生成流程。一旦组合权从程序员迁移到模型,技能的意义就发生了变化。它不再只是代码库中的函数,而是技能图中的节点。Skill 的价值,不在它比 API 更高级,而在它让“运行时组合”成为可能,同时仍然保持工业边界。理解仍然由大模型承担,执行开始有清晰的约束。这一步,看似保守,其实是工业化。

一个成熟的 skill,至少意味着三件事:输入输出是结构化的(定义了schema);执行是可重试、可回滚的;权限是隔离的,状态是可审计的。你可以限制它的访问范围,可以记录它的调用链,可以为它计费,可以随时撤销它的权限。这些听上去一点都不性感,却是企业真正关心的东西。

它不像革命,更像基础设施建设。某种意义上,skill 是一种折中,是在标准尚未成熟之前的现实妥协。有一次听一位工程师说:“协议是理想主义,skill 是现实主义。” 就是这个意思。

或许两条路线终会合流。但目前,它们更像不同时间尺度上的试探:一个在设计未来的秩序,一个在支撑当下的落地应用。

4 技能密度

如果只是把 skill 理解为架构收敛,那还是低估了它。真正值得注意的,不是我们如何组织技能,而是技能如何开始形成密度。

过去两年谈大模型,我们几乎离不开参数规模、榜单成绩、推理分数。仿佛模型越强,生态自然跟上。但当模型能力逐渐进入同一量级,分差开始变得细微——97 分与 95 分的差别,很难再决定命运。那时候,问题悄悄换了一个方向:不是谁更聪明,而是谁背后站着更多真实可用的技能。

想象两个认知层几乎等价的模型。一个背后有二十个高质量 skill,另一个背后有两百个。前者能解决二十类问题,后者则可以在这些技能之间自由拼接、叠加、递归组合。二十个技能是工具箱;两百个技能,是图谱。工具箱解决问题,图谱开始创造路径。

技能一旦被模块化,它的价值就不再是线性的,而是网络化的。新增一个技能,不只是多一种用途,而是多出若干种组合可能。密度越高,组合空间越大,系统的“解题维度”也越多。这才是技能密度的真正含义。

移动互联网时代的经验其实早已给过提示。决定平台胜负的,并不是操作系统内核本身,而是应用数量、分发效率、支付体系与开发者活跃度。内核差异存在,但真正形成飞轮的是生态。当基础能力逐渐趋同,竞争自然转向外围的网络结构。Agent 时代未必合适做完全类比,但方向上的相似已然浮现。

于是,关键问题不再是 skills 有多少,而是它们之间能不能流动。能不能被检索?能不能被不同模型规划?能不能跨系统复用?如果技能只是堆在某个平台内部,那只是库存;只有当它们开始彼此连接、彼此调用,密度才会转化为网络效应。到那时,模型反而退到幕后,成为驱动能力网络运转的认知引擎,而不是舞台中央的主角。

这也是为什么协议和 skill 看似分岔,却可能指向同一个终点。协议更像公路标准,skill 像车和货。没有统一标准,技能难以跨域迁移;但没有真实技能,标准也只是空架子。眼下行业更像是先让车跑起来,再慢慢铺路。两条路线不是对立,而是不同节奏下的推进。

最后,那个大家期待的“App Store 时刻”还有多远?

移动互联网真正爆发,是因为分发体系成熟,支付打通,用户规模到位,超级应用出现。Agent 还没有迎来这样的节点。没有大规模的第三方能力市场,没有稳定分发的 skill 商店,也没有形成网络效应的爆款应用。Agent 现在更像移动互联网早期——有 SDK,有开发热情,但还没有形成生态飞轮。

真正的拐点可能不是几个应用的走红,而是一种结构的固化——某些技能节点开始被高频复用,某些组合路径成为默认范式,某个技能图谱逐渐变成事实标准。当技能密度高到一定程度,迁移成本自然升高,生态便悄悄形成壁垒。

垂直行业的爆发似乎一直在“即将发生”。法律、医疗、金融、教育……效率提升在发生,但结构性重塑还没有真正显现。责任边界、监管约束、数据壁垒,这些都比移动互联网复杂得多。

也许 Agent 不会以移动时代的形式爆发。它可能不是一个商店,不是一个下载按钮,不是一个用户主动选择的前台应用。它更可能以skill的形式嵌入既存系统,以后台能力的形式存在。你甚至不会意识到自己在使用 Agent,但系统已经被悄悄重写。

5 memory:任务连续性的保障

memory 可能是这一年最容易被低估的进展。

早期的 Agent 最大的问题,不是不聪明,而是短命。一次对话里很聪明,换一个窗口就失忆。企业环境下,这几乎是致命的。你无法建立长期协作关系,无法积累项目语境,无法形成持续的上下文。所有任务都从零开始,所有协作都像第一次见面。

memory 的加入,不只是为了“更懂用户”,而是为了保障任务连续性。当 Agent 开始记住偏好、约束、历史项目、上下文背景,它才真正从一次性推理工具,变成持续存在的系统。当系统开始“有历史”,它才真正具备组织价值。

但在讨论 memory 之前,需要把几个常被混淆的概念拆开。长上下文、RAG、持久状态,常常被笼统称为“记忆”,但它们其实处在不同层次。

长上下文更像 working memory——它扩展的是模型在当前任务中的注意力范围。窗口越大,模型能在一次推理中考虑的历史越多。但它仍然属于“当下”。一旦任务结束,注意力就消散。

RAG 更像外部存储的检索机制——当模型需要某些信息时,从知识库中调取资料。它解决的是“查阅”的问题,而不是“持续”的问题。它让系统在需要时能找到过去的信息,却并不自动形成时间连续。

真正意义上的 memory,是持久的(persistent) 。它至少涉及三层结构。

第一层是任务状态。任务跑到哪一步?哪些子步骤已经完成?是否可以断点续跑?这决定了系统是否具备持续执行能力,而不是每次失败都从头再来。

第二层是长期语境。用户偏好、组织约束、历史项目、权限边界——这些不应在每次对话中重复解释,而应成为系统可更新、可检索、可继承的背景。它减少重复解释的成本,可以在多任务之间共享背景,可以在组织内部形成稳定的协作节奏。

第三层是行为轨迹与决策历史。系统过去在类似场景中选择了什么路径?哪些能力组合更可靠?哪些尝试曾经失败?这已经开始接近一种“经验结构”。不是简单存储信息,而是积累行动模式。

当这三层逐渐成形,Agent 才真正拥有时间持续性。它不再只是一个即时推理引擎,而开始成为持续体。它的价值不再体现在单次回答的聪明程度,而体现在长期协作中的稳定性与积累性。

当然,这条路径仍然早期。长上下文依然昂贵,RAG 仍然粗糙,长期记忆的更新与遗忘机制尚未成熟。更棘手的是,记忆不仅带来效率,也带来风险。错误会不会被固化?偏见会不会被积累?系统是否需要主动遗忘?在持续体的世界里,遗忘和记住往往同样重要。时间既是资产,也是负担。

如果说 skill 解决的是行动边界,技能密度解决的是横向组合,那么 memory 解决的,是持续性。没有持续性,Agent 永远只是聪明的工具;一旦有了时间,它才可能成为组织的一部分。

6 开源大模型的重要性

还有另一条线索,在全球悄悄改变力量结构——那就是中国开源大模型的角色。

过去一年,如果只盯着闭源巨头,很容易忽略开源模型的跃迁速度。千问、Kimi、Step等模型开始频繁出现在开发者真实工作流里。不只是聊天测试,而是跑代码、跑 Agent 任务、跑多模态处理。

阶跃星辰春节前发布的 Step 3.5 Flash,是一个有象征意味的节点。

它的意义不在“参数更多”,而在方向感。它采用了稀疏混合专家(MoE)结构:1960 亿总参数,每次只激活约 110 亿。不是盲目扩张,而是强调效率与结构。

当传统模型用线性注意力硬撑长上下文时,它采用滑动窗口与全局注意力的混合方式。像读推理小说,大部分注意力集中在当前段落,但关键伏笔可以被快速召回。

当逐 token 生成成为默认路径时,它引入多 token 并行预测,提高速度。

这些改变,恰好对应 Agent 时代的核心需求:更长上下文、更低延迟、更稳定的逻辑执行。

Agent 不是聊天机器人。它需要等待工具执行,需要在多轮任务中保持一致性,需要在长上下文下快速响应。

更有象征意义的是,本地部署。

当一个 256K 上下文的模型,可以在 128GB 内存的 MacBook 上运行时,权力结构开始变化。Agent 的“原生大脑”不再完全锁在云端 API 里。开发者可以在终端侧构建私有工作流。这是一种终端平权。

开源在这里变得关键。垂直行业不会轻易把核心流程托付给闭源黑盒。医疗、金融、法律,需要可控、可调优、可部署的基座。

开源模型降低了实验门槛,也降低了创新门槛。很多垂直 Agent 的试验,正发生在这些模型之上。

结语

有时候我会想,这一年真正的变化,不在技术指标上,而在心态上。我们不再问:“它像不像个员工?” 我们开始问:“它能不能长期、稳定、可治理地做事?” 这是一个从幻想走向结构的过程。

协议还在演进。skills 在扩张。memory 在巩固。开源大模型越来越实惠。垂直应用在试水。一切都在进行,时间还不足以让它们马上成熟。

如果说这一年教会我们的是什么,也许是这一点:技术革命往往不是轰然到来,而是慢慢嵌入。当你意识到它已经成为结构的一部分时,它才真正发生。

雾还没有散。但轮廓已经出现。

 

from 腾讯科技,策划:晓静