创业邦深圳会议马毅教授的演讲链接在此:https://mp.weixin.qq.com/s/ibxGO_A7H-akpbwf2R2mGw
马教授还是很能讲的,他上面的演讲,很值得听。他的100多页论文也已经放出来了,可惜没时间钻研了,等以后更多人接受或验证后再说。
他目前所做出的 claims,是说用那种极度稀疏化的方法逼迫 transformer 透明化,结果也在多方面匹敌了BERT 和 GPT2。但并不说明短期他有办法赶上GPT3以上。话说回来,那也不公平。他作为教授没有资源去以军备竞赛的方式与AI产业主流打擂台。只是说,从路线上说,他觉得自己打开了一扇门,一条可以通向可解释AI的大模型大门。还是应该赞佩这样的反潮流的教授的。
其实,我也一直隐隐约约对伊利亚说的最短程序压缩论,持有怀疑:从终极目的(理论上以无损压缩作为理想目标)来看,不断加大训练、加深加长学习,结果就是朝着让模型真正成为最小程序,伊利亚理论也许没错。但在任何一个实际条件约束下(例如预算约束、方法论约束),这种纯粹靠 gradiant descent “凑出来”的模型/路径,很难说是最小 program,因为模型看上去就是个庞然大物,谈何“最小”。
千亿万亿参数的超大模型本来就是以大取胜,而不是以精简和规则见长的怪兽(gigantic monster),非要强调自己的压缩率厉害,无损压缩做得好,虽然有从理论上方便说明序列学习达成的通用性、泛化现象以及“涌现”能力,但实践中,在任意一个特定时间条件下的模型,都远远不是“最小程序”。
这是理论和实践躲不开的一种矛盾。在伊利亚那里,实际上他是以未来时间轴,用理论对实践做了对冲。我们的真实感觉并非如此,不敢这么说。就好比一个摔跤选手,都那么笨重了,还非要标榜自己性感、苗条?
直觉上,LLM 里面充满了死记硬背和信息冗余的,在现实条件下其实不可能做到极度/无损的压缩。
但另一方面,马教授也太奇了,他的稀疏化直觉上做得“过分”,QKV直接拉平,看上去有点简单粗暴,但居然也最终能训练出来。可见,transformer 的肚子里的操作空间还是很大的,你给它各种限制,动不动就剪枝(化零),也不用担心它走不出来。这种意义上,马教授追求的才是真正的“最短程序”,短到了连“豆腐脑”的人类都可以看懂路径(hence 可解释性)。
疑问还是这两个极端差距太大。一边庞然大物,一边无限精简,二者都能走通,也是震撼了。
谈到精简可解释,谈个掌故。老老年做 symbolic MT,一个著名的早期的实用系统(西门子的 METAL)做英语德语的翻译,整个系统只用了8个 symbolic features(例如人、动物等),规则简单而可解释,系统也一样上线实用了。可见极度精简和规则化,做到完全透明和人类可解释,在粗线条的应用场景(英语和德语距离较近,翻译难度低),有时候也是管用的。
我们后来把 8 个 features 扩展到千数量级,才擦了长尾的屁股。但也没擦干净。当时觉得,也许认真做可以对垒统计MT的品质(与董振东老师谈过,我们都觉得可以在翻译上最终用符号打败统计的,只是需要时间磨细活),但现在知道即便匹敌了统计MT,也远远不能与神经MT比高下。
那就把 features 往细做,成不?不是因为我们不想继续把 symbolic features (类似于 one hot encoding,但人为在 features 内部强加了类似于 HowNet 的 ontology/taxonomy 的结构性),从千这个量级进一步提升到万的量级。实际情况是,千几乎已经达到专家人脑的极限了,再扩大 features 的范围,我们就无法掌控和调试了。
可是,神经里面有多少 params 啊,其所能反映的 representation 的空间和细密度,与千量级的 symbolic features,尺度完全无法比拟。二者表征的尺度如此悬殊,对拉近二者距离的任何努力,我们天然会产生怀疑:这怎么可能做到呢。
所以一直就觉得大模型可解释性是一个可望不可及的目标。马教授告诉世人,他们做到了。
相关链接: