【泥沙龙笔记：带标大数据这道坎迈不过去，不要侈谈AI革命】

李：前两天与NLP主流的权威人士聊人造智能的现状和前景。我问，人造智能这么牛，你给我找一个在自然语言方面没有标注大数据，靠非监督学习落地成功的案例。只要一例。

其实主流里面就是找不到一例（非主流有，但大家习惯性视而不见）。主流里面规模化成功的全部是监督学习，全部靠大数据。应了那句话，多少人工，多少智能。

毛：你这要求太苛刻了。咱们人小时候不也要靠爹妈教吗？@wei

李：不对，爹妈教的不是大数据。孩子跟父母学的是小数据，举一反三，不是举100返1。当然乔姆斯基认为那不是爹妈的功劳也不是学童的功劳，是上帝的功劳，固化遗传的。

白：人工用在语料上还是用在资源上，才是区分技术路线的关键。

李：同意。前者简单野蛮粗暴，容易推广，后者需要精心设计。

在带标大数据的这道坎迈不过去前，不要侈谈人造I的革命。

有些疑似不需要带标大数据的有效学习，可以一一讨论。看看到底是不是无监督学习突破了，知识瓶颈化解于无形了。

MT 不用说了，无穷无尽的带标大数据。人类翻译了多少年，而且还会一直翻译下去，或者利用MT然后修订编辑。活水源源不断。好处是免费，是人类正常翻译活动的副产品。

白：小数据带标、大数据聚类，小数据循聚类举一反三。实际就是协同推荐。

李：好，看看大数据聚类，clustering 的本性就是非监督，有成功案例吗？clustering 是个好东西但是独立规模化成功的，几乎不见。

白：加上小数据，不是纯聚类。

李：对。以前有一个路子，貌似有部分成功，就是先聚类，然后人工少量干预（给好的聚类起一个名字、把混进革命队伍的异己分子手工踢出去之类），然后利用所起的名字作为带标数据，把聚类（clustering）转换为可以落地有价值的分类（classifciation）。狸猫换太子，多少就克服了大数据短缺的知识瓶颈，聚类--》分类，曲线救国。

白：带标小数据更关键。

李：那也是一途叫 seeds，boot strapping，找个办法来 propagate，用得巧的话，也有部分成功的，算是弱监督学习。

白：聚类是纯几何行为，不知道对什么敏感。小数据告诉你该对什么敏感。两轮驱动，不可偏废。大数据聚类可以提供疑似窝点，小数据一举捣毁。不是所有疑似窝点都值得捣毁。聚类是等势线（超曲面）相互包围的拓扑。

毛：立委你这不是抬杠吗，也没人说AI已经等同于人类智能呀。

肖：用户分群很有用啊，例子很多很多。聚类方法找异常也有很多成功应用，比如反欺诈。

李：聚类的结果粗线条应用大概是有的，在宁可错杀一千的应用场合，或有当无的场合，聚类可松可紧，拿来就用，总之是有统计基础，作为参考，强过看不见。细线条就傻了。只要用眼睛和脑袋去检视过聚类结果的，大都有这个体会：这玩意儿说它不对，还长得蛮像，说它对吧，米锅里到处可见老鼠屎。经常的感觉是鸡肋食之无味弃之可惜，用又不敢用，对接吧可费劲了。词典习得（lexicon acquisition），聚类用得上，最后的难点还是在对接上，就是聚类以后的标注（起名字），并让标注与现有的知识体系对接上。

白：不需要，有内部编号即可。以xor为例。聚类可以聚出四个象限。不需要为每个象限取名。如果小数据指向一三象限，就把这两个聚类的内部名称贴一个外部标签。聚类按小数据的指引，当粗则粗，当细则细。不能只用一个尺度，小波的成功就是借鉴。记得工厂里钣金，师傅领锤，力道不大但是都在点儿上，徒弟力大但不能乱锤，必须跟着师傅走。小数据是师傅，大数据是徒弟。

李：这个形象。

最近的NLG（自然语言生成）方面的成功，是因为语言模型在深度学习的时候强大了。生成的句子比我们普通人还顺溜。我们受过这么多年教育还免不了文法错误语句不顺。机器生成的句子越来越“超越”人类了。怎么回事？

原来 NLG 比 MT 还邪性还牛叉，MT 还需要双语的翻译大数据，NLG 面对的是单一的语言，数据无穷无尽，文满为患，这是一个极端的 raw corpus 居然等价于 labeled corpus 的现场。我们每个人写文章都是潜在给 NLG 提供标注服务。自然语言语句与词汇随机发生器发出来的字符串的不同，全部体现在每一篇人类撰写的文章里面。它不出色才怪呢。NLG 可以预见将来有大发展，在应用文写作等方面。有孩子的可以放松他们的语文训练了，将来他们只要学会善用机器就没有写不出规范的文章的。

白：大家写文章全一个味儿，也是问题。应该以强风格的作家为吸引子，形成若干漩涡，你接近某个漩涡，就持续往里面吸。至少不能千人一面。

肖：（NLG）现在摘要还写不好。

李：孩子不必特地去修应用文写作课，反正后来会有电脑帮忙写文字的。这就跟我小时候钢笔字写得狗爬似的，一直难受羡慕小伙伴每天练字让人看得赏心悦目。（当年喜欢一个女孩子一半看脸蛋一半看她写的字。）结果我成年后除了签字就几乎没有写钢笔字的机会。

以前要成为（文科）大学者，最为人津津乐道和崇敬的是：

（1）记忆能力：过目不忘，检索起来可以闭着眼睛把典故的章节甚至页数指出来。社科院里面有很多这样广为传诵的奇闻逸事，尤其是关于钱锺书、吕叔湘这些老先生。

马：我认识一个理工科的教授，跟他聊天时，经常会说，那本期刊第几期第几页提到了这个问题。

李：（2）好书法。（3）诗词歌赋。这些到了机器，反而容易。

白：千万别提机器那个诗词歌赋，倒胃口。

李：感觉清华的《九歌》比不少郭沫若的诗词写得好。小时候看郭沫若带着西哈努克去山里面玩，诗性大发口占一首，那个诗可真是纯粹应景干瘪无味，就是平仄啥的应该整对了，论意境、诗味，啥都没有。

机器诗词倒胃口也比不上郭沫若的那次表演（忘了是什么纪录片了），印象极深刻不是好印象而是坏印象。当然艺术的鉴赏见仁见智不好说绝对。但往前看，机器做诗词还有很多提升空间。人要熟读唐诗300首就很不容易了，机器灌输它个全唐诗去模仿，是小菜。人在时间限制下需要应景作诗提升空间就不大了。七步诗这样的天才万里无一。

白：端到端、简单无结构标签、大数据是深度学习商业化的关键。但凡涉及到场景化、复杂结构和小数据，深度学习一定会不适应。是让应用迁就深度学习还是用技术改造深度学习，这不是个简单的选择。我主张：1、把标注的对象从“语料”迁移到“资源”；2、用带标小数据引领无标大数据；3、尊重领域专家、融合领域知识。

【相关】