马毅教授的演讲，值得一听

创业邦深圳会议马毅教授的演讲链接在此：https://mp.weixin.qq.com/s/ibxGO_A7H-akpbwf2R2mGw

马教授还是很能讲的，他上面的演讲，很值得听。他的100多页论文也已经放出来了，可惜没时间钻研了，等以后更多人接受或验证后再说。

他目前所做出的 claims，是说用那种极度稀疏化的方法逼迫 transformer 透明化，结果也在多方面匹敌了BERT 和 GPT2。但并不说明短期他有办法赶上GPT3以上。话说回来，那也不公平。他作为教授没有资源去以军备竞赛的方式与AI产业主流打擂台。只是说，从路线上说，他觉得自己打开了一扇门，一条可以通向可解释AI的大模型大门。还是应该赞佩这样的反潮流的教授的。

其实，我也一直隐隐约约对伊利亚说的最短程序压缩论，持有怀疑：从终极目的（理论上以无损压缩作为理想目标）来看，不断加大训练、加深加长学习，结果就是朝着让模型真正成为最小程序，伊利亚理论也许没错。但在任何一个实际条件约束下（例如预算约束、方法论约束），这种纯粹靠 gradiant descent “凑出来”的模型/路径，很难说是最小 program，因为模型看上去就是个庞然大物，谈何“最小”。

千亿万亿参数的超大模型本来就是以大取胜，而不是以精简和规则见长的怪兽（gigantic monster），非要强调自己的压缩率厉害，无损压缩做得好，虽然有从理论上方便说明序列学习达成的通用性、泛化现象以及“涌现”能力，但实践中，在任意一个特定时间条件下的模型，都远远不是“最小程序”。

这是理论和实践躲不开的一种矛盾。在伊利亚那里，实际上他是以未来时间轴，用理论对实践做了对冲。我们的真实感觉并非如此，不敢这么说。就好比一个摔跤选手，都那么笨重了，还非要标榜自己性感、苗条？

直觉上，LLM 里面充满了死记硬背和信息冗余的，在现实条件下其实不可能做到极度/无损的压缩。

但另一方面，马教授也太奇了，他的稀疏化直觉上做得“过分”，QKV直接拉平，看上去有点简单粗暴，但居然也最终能训练出来。可见，transformer 的肚子里的操作空间还是很大的，你给它各种限制，动不动就剪枝（化零），也不用担心它走不出来。这种意义上，马教授追求的才是真正的“最短程序”，短到了连“豆腐脑”的人类都可以看懂路径（hence 可解释性）。

疑问还是这两个极端差距太大。一边庞然大物，一边无限精简，二者都能走通，也是震撼了。

谈到精简可解释，谈个掌故。老老年做 symbolic MT，一个著名的早期的实用系统（西门子的 METAL）做英语德语的翻译，整个系统只用了8个 symbolic features（例如人、动物等），规则简单而可解释，系统也一样上线实用了。可见极度精简和规则化，做到完全透明和人类可解释，在粗线条的应用场景（英语和德语距离较近，翻译难度低），有时候也是管用的。

我们后来把 8 个 features 扩展到千数量级，才擦了长尾的屁股。但也没擦干净。当时觉得，也许认真做可以对垒统计MT的品质（与董振东老师谈过，我们都觉得可以在翻译上最终用符号打败统计的，只是需要时间磨细活），但现在知道即便匹敌了统计MT，也远远不能与神经MT比高下。

那就把 features 往细做，成不？不是因为我们不想继续把 symbolic features （类似于 one hot encoding，但人为在 features 内部强加了类似于 HowNet 的 ontology/taxonomy 的结构性），从千这个量级进一步提升到万的量级。实际情况是，千几乎已经达到专家人脑的极限了，再扩大 features 的范围，我们就无法掌控和调试了。

可是，神经里面有多少 params 啊，其所能反映的 representation 的空间和细密度，与千量级的 symbolic features，尺度完全无法比拟。二者表征的尺度如此悬殊，对拉近二者距离的任何努力，我们天然会产生怀疑：这怎么可能做到呢。

所以一直就觉得大模型可解释性是一个可望不可及的目标。马教授告诉世人，他们做到了。

马毅教授的演讲，值得一听

发布者

立委

发表回复