今天想到做个小结,以“玩”的心态,回顾一下前两年的AIGC旅程,以及一个NLP老兵一路走来的心路历程和感受。
大模型爆发前,最痴迷的是当时就有的 txt2img 文生图模型。当时尝试过很多种工具,“小雅”就是那个阶段的产物。不仅人物,也做过各种绘画风格,在群里和博客也分享多次。后来疲劳了,就不怎么玩了。
开始对数字人感兴趣,2D 的 talking photo,2.5D 的有姿态虚拟主播,以及 3D 舞蹈等。因为是自家产品「奇妙元」,玩起来没限制,作为“产品体验官”,疯玩了一阵子。
可惜数字人的黄金时期转瞬即去,还没来得及起飞,就开始鱼龙混杂、遍地开花了,市场给卷的。
紧接着对于超拟人/超写实配音,以及跨语言的突破,包括最近“双工”的突破,各大头部模型开始显摆自己的语音亲民能力,与普通真人无异,不再是板着腔调的播音味了。 咱们自家的AIGC拳头产品「魔音工坊」赶上了这波语音tokens化的端到端大模型浪潮,也实现了超写实,那是大约半年前的事儿。意义重大,因为语音是所有copilot类大模型应用的最自然的接口,也是数字人和短视频的必要赋能点,但语音从可玩性上,不如音乐生成。
Suno 惊艳登场,我入迷了几个月,实现了自己也做“音乐人”的梦想。当然,现在也淡化了,不是不好,是没时间玩了。
时间被中国的 Sora,快手可灵AI的视频生成大模型占用了。视频生成疯玩到今天,我用它做了很多儿时的回忆,定格和再现了人生的高光时刻,虚拟了超生活的场面,最 high 的时期也过去了。这一通尝试,包括三分钟视频连续生成的极限试验,以及种种提示词工程探索,对当前视觉大模型的优点短板看得比较清晰了。
视觉模型的重要应用形态之一就是“一键成片”,也是自家产品了,叫「元创岛」。 目前还很粗糙和简陋,但的确做到了“傻瓜”制作能力,零门槛,任何人都可以用它来生成视频。显然有落地场景和起飞的迹象。
这种对多模态体验和迷恋,想起来与一辈子只做文本NLP得经历,本来是格格不入的。但背后有个大模型的宏大背景。原来,LLM炸平了NLP后,马不停蹄,又开始炸平多模态。这种通用性让人觉得这一切有着共同的主线贯之,是自然的技术汇合之流。这是从模型研究的心路历程看。
从人文和科技结合的角度看,我们这种“老文科生”与生俱来对于人文、艺术的追求本性,并没有因为在工业界的码农环境“挖煤”几十年,而(被)湮灭,应用到如今又是一个自然汇聚。这有点像乔布斯当年的说法,他追求的就是人文意味的科技产品,工程结合美学品味,嘲笑微软产品的粗鄙,no taste。
想想这一路走来挺有意思,无论研发还是应用,冥冥之中都在汇聚。而我们何等有幸见证、经历和投入到这种汇聚的潮流中,虽然这个汇聚也同时意味着颠覆自己、碾压自己、否定自己的过往,抛弃很多过去的“绝技”,例如曾经做到世界顶尖的符号解析(symbolic parsing)的庖丁解牛之术。 靠的是终身学习,不至于掉队太远。但一切的一切,更需要一种 精神,尤其是 passion:passion 所驱,乐此不疲。
下一个passion点 应该是 to b 场景,因为最终的应用大期待,大概率在垂直。To c 虽然很卷,但路线图和态势,能做什么,包括 aigc,已经基本清晰。但 to b 还在泥潭里挣扎,方向都还隔雾看花,闪闪烁烁,但也看到高人。例如白硕老师,感觉他就在捻须微笑,坐在金融交易的莲花池上,仗着to b 积淀。
个人而言,垂直赛道,最喜欢是教育,其次是法律,这都在大模型知识能力的路上:既容易最终被通用大模型碾压,又立即能对齐场景呈现价值。金融太繁琐,水更深。水利、电力、汽车等非常专门,行外人感觉枯燥。但医疗和心理,却很诱人,虽然比教育、法律更难涉入。看命运之神领我何往吧。