《一日一析：“让机器学习思考的人”》

屏蔽已有 2626 次阅读 2019-3-1 23:34 |个人分类:立委科普|系统分类:科研笔记

白：“让机器学习思考的人”

wang：1.让机器学习（思考的人） 2.（让机器学习思考）的人 3. （让机器学习思考）的人

李：parse parse：

这个 therefore 可能是个 bug，语义模块做因果关系过头了，走火入魔了？深度解析其他该有的关系都在 though。

wait a minute，好像也对，说的是，因为 X 促成了 event，X 是因，event 是果。这就是语义模块本来的因果关系逻辑，落在这句就是，thanks to “人”，（therefore）ML thinks now。这符合 “有多少人工有多少智能，人是一切机器学习的原始发动机” 的因果本质。乍一看有点绕，是因为赶巧这一句不是一个 statement，而是一个定语从句修饰的NP。其结果，这个因果关系虽然不错，但实际上是隐含的因果（hidden causal links）。如果是一个NE，更加容易理解一些“”让机器学习思考的图灵大师“。因为图灵，所以机器思考。我思故我在，图灵在故机器思。

wang：顺便一提，@wei 我对你的海量规则对系统的comment，回复一下写得有点多，发微博上了。

李：很好，拷贝留存如下：

昨晚在一个群里就李老师说的内容提了一些问题，今天看到李老师详细回复，本想简单写写再发回群里，写完一看，这篇幅好像不适合放微信群里了，不如单发微博作为回复。李老师若觉不妥，告知我则立删。

@wei 中午看到李老师的后续回应，现在正好有空这里回复一下。

看了李老师的后续内容，很是详细，而且前前后后已经考虑到很多方面，说明早有备货。大体勾勒一下：虽规则总量数万条，但通过分层（分组），就可以每组千条左右，规则之间的博弈也就在一个组内范围，即便组内的内斗激烈也不会引发组外的群组混战，这的确是“局部战役隔离解决”的最经济策略。另外，既然已经见识了规则系统的越大越不好对付的教训，想必肯定是避开了这个陷阱。一个组内至少再采用了共性+个性的两种及以上分支处理，先个性（词典）规则先前拦截，然后再共性来兜底，这样以来，一个组内可能内斗的程度又减轻不少，从走向来看，基本上是走大词典+小语法的组合路线，词典虽大但有索引方式来保速。如此以来，就把庞大的规则库，通过条块分割，把规则有序执行限制在了一个狭小的隔离河内，维护者在这样一个窄河里“捉鱼”确实容易得多。当然还有若干辅助策略，通过控局堵漏来进行加固。当然也看到“我是县长派来的”和“我是县长蹲点来的”有了不同的解析。这肯定不是一个简单“V”解决的，想必一定是词典策略起了作用。这词当然有丰富的语义信息了，我认为采用合适的语义范畴比词会有更好的覆盖性，尽管采用词准确性更高。

下面说下感受，必须承认之前本人还停留在规则系统教训的层面，另外，就是顾虑要扯入的人工工作量大的问题。若是李老师通过这样的俯瞰语言，化繁为简，调整规则能达到信手拈来，那么在机器学习满天飞的当下，这存量稀少的规则派之花，自有它的春天。如今是个多元的世界，允许各路英雄竞技，只要有独到之处，更何况人工智能皇冠上明珠，尚无人触及，怎下定论都是早。也曾闻工业界很多可靠的规则系统在默默运行，而学术界则只为提高小小百分点而狂堆系统，专挑好的蛋糕数据大把喂上，哪管产业是否能现实中落地。当然对于人工规则系统 VS 机器学习系统，能有怎样的结局，我确实没有定论，要么一方好的东西自然会好的走下去，要么两方都走得不错而难分输赢，或者发现只有结伴相携更能走远，那谁还能拦着么！

百花齐放，百家争鸣，各自在自己的路上，走出自己的精彩就好！世界本身就不是一种颜色，也不是一直就一种颜色

李：很赞。工作量大是所有专家编码、程序员编程的短板，自不必说。在一个好的机制平台架构下，规则应该可以非常容易编写和调试。规则应该看上去简单、透明，而不是需要玩精巧。像集成电路一样，能力不是每个单元的精巧，而是大量单元的组织集成。其实，半个世纪的持续探索，这种类似人海战术的规则海量快速编码迭代的路子是有了端倪了。说到底是数据制导，可以半自动进行，这与机器学习的海量数据训练，理据是相同的。昨天说自然语言是猫矢，应该学猫咪目标导向，反复迭代，不在一时一地的得失，不怕冗余，也不怕零星的中间错误。说的就是要创造一个环境，把小作坊的专家编码，变成可以工业化的规则流水线。以规则量取胜，而不是靠专家的精雕细刻。这条半自动的海量规则路线还在探索之中，但是前景已经相当清晰。

最后，符号规则不必争雄，游兵散勇也无法与正规军打遭遇战，但差异化总是优势与短板并存。寸有所长就是这个意思。大家在同一条路上跑，遇到困境与天花板都是类似的。这时候有人在另一条路上，保不准在最痛的某个部分，突然会有突破。原因无他，因为这力气使得角度不同，世界观不同，设计哲学不同。据说，NLU是AI皇冠上的明珠，是珠穆朗玛峰。

老友周明一直在为NLP鼓与呼，认定今后10年是NLP的黄金10年。AI似乎每天都在翻新，每周都有新闻，每月都有突破，浪头一个赶一个，新的算法、突破的model层出不穷，很多人惊呼“奇点”就要来临。为什么周老师还要提10年，对于AI进步主义者，这听上去简直是宇宙尺度了。为什么？无他，皇冠自有皇冠的难处，登顶珠峰绝非儿儿戏。唯此，有什么招使什么招吧，武器库还嫌武器多吗？

【相关】