大模型时代的语音技术突破:超写实和全双工

大语言模型(LLM)延展至音频,一路狂飙,LLM-native 的语音技术大约在半年多前开始成熟,全行业都起来了。技术成熟的重要标志是两个重要的 featrures:超写实与全双工。

像LLM类似的音频token化,不只造就了模型音乐家(代表产品Suno,另文介绍),更重要的是直接催生了两件真正改变语言交互的事:超写实的语音合成,和像人一样边说边听、随时可插话的自然对话能力(称为“全双工”)。

先说“超写实”。过去的机器配音,总像一位训练有素、拿腔拿调的播音员,字正腔圆,却缺乏日常语音的个人特色与颗粒感。神经编解码器把语音整理成可逆的离散token之后,合成不再只是把“内容”读出来,而是能把“怎么说”也一并还原,接地气的日常语音开始成熟。模型先在“文字→声音语义”的层面写一份乐谱般的草稿:哪里该停一口气,哪里该压低声线,哪一个词要轻轻上扬;接着把这份草稿译成一串音频 token,由解码器把气息、齿音、房间的尾响都带出来。你会听到嗓音里的毛边、笑意里那一丝鼻音,甚至能在跨语言时保留说话人的“人格音色”。交互不再是千篇一律的声音类型,而是像与邻家或朋友的自然交谈,与前大模型时代的差别就在这些被“分层离散码”承载的微观纹理上。

再说全双工。早年的语音助手像对讲机:你说完它再说,轮流发言;而真正的对话更像我们的厨房场景——你在切菜,朋友在提醒烤箱预热,你随口打断一句“等一下先把盐减半”,朋友立刻收住,改口回应关于加盐的火候。要做到这份自然,表面是“能被打断、能抢话”的交互设计,底层却是三件事配合起来:第一,持续听——把听到的语音分成小片段实时转成 token;第二,同时说——一边生成自己的音频 token准备回应,一边留好“随时刹车”的余地;第三,低延迟的理解与改写——在几百毫秒的量级里完成听懂→更新计划→改口输出的闭环。

神经编解码器此处再次立功:它把“听到的”和“要说的”都变成同一种离散序列,模型才方便在同一时间轴上又读又写,像人在自然交互时那样管理“轮到谁说”的节奏感。

这两件事并不孤立。你会发现,越是超写实的合成,越要求在“写 token”时把停顿、重音、笑声这些细节也写进去;越是流畅的全双工,越依赖稳定、稠密而紧凑的音频 token 流,让模型能在不中断的情况下随时调头。正因为底层表达统一成了“可读可写的序列”,才让我们今天能自然地说一句“别这么一本正经好吗,像当初那样跟我讲就好”,助手就立刻会意换个口吻。我们也能在它说到一半时插话,例如“不用扯那个了,咱们来点实的,去还是不去”,以此毫不尴尬地完成对话里的“你来我往”。

真正把“超写实 + 全双工”做顺的系统,今天多半是“听—想—说”的混合体:前端用流式的听觉模型把声音连续地变成紧凑的音频 token 序列,中间由一个大模型负责理解与规划,后端再把它想说的话实时“写回”成音频 token 并解码成波形。之所以不总是能把一切都交给一个端到端的自回归 GPT 直接从声音到声音,主要是两件事卡着:毫秒级的延迟目标,以及对可打断、可改口的强控制需求。

你可以把它想成一支分工明确的乐队。流式语音编码器(ASR)像鼓手,按几十毫秒一拍稳稳往前推;中间的大模型像指挥,随时根据新的听觉 token 改编配器;后端的神经 codec 解码器(TTS)像主唱,边唱边留出刹车距离,让你一插话就能“踩停”。这里的“鼓手”和“主唱”确实常用到相对“小而快”的专用模型(RNN-T/Conformer 一类的流式识别,配合基于神经 codec 的快速合成),而不是把所有细节都并入一个庞大的自回归堆栈里逐 token 生成。否则一旦遇到打断或回退重说,延迟可能失控。

但这并不等于回到老派的语音与文字的转换(ASR/TTS)。关键变化在于底层表达已经统一成离散音频 token:听的那头不再只产生文本字符,而是也能产出语义或声学单元;说的这头不再只是拼接字音,而是写一串可逆的 codec token,把气息、重音、尾响都带出来。大模型要么在文本层规划,要么在“语义 token→声学 token”的两步里细化,再把结果交给解码器渲染出来。这样既守住了全双工的低延迟,又保留了超写实的质感。

往前看,研究在合流:端到端“口语大模型”正把听与说进一步并到同一套参数里,直接以音频 token 为输入输出;工程上仍会在会话管理层保留“谁在说、何时打断、怎么改口”的调度与安全闸门。今天的最佳实践像一部混合动力车:底盘是离散 token 化的统一语言,发动机是大模型,起步与刹车常交给专用的小电机去控速,于是既快又稳,还保留了人声的温度。

发布者

立委

立委博士,多模态大模型应用咨询师。出门问问大模型团队前工程副总裁,聚焦大模型及其AIGC应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理