[转载]【ZT：王伟 - 李老师的观点整理】

屏蔽已有 1006 次阅读 2016-1-6 10:13 |个人分类:立委科普|系统分类:科研笔记| NLP |文章来源:转载

近期李老师的发言甚多，然因群的流沙量大而急，很多值得留住的沙金（或金沙）还没等抓在手里，就被后面的新沙冲掉。趁热把刚抓的一点，赶紧留在微博中（长微博）驻留片刻，也算帮李老师整理学术思想吧，描述中若有错则立改，此文若有其他版权纠葛，通知本人则删。

1.通过汉语系统和英语系统开发的实践，验证了语言间差距不是那么大。

2.自然语言的规则和不规则的比例，其实占据了一个恰到好处的比例。一方面规则化的，人类好掌握，趋向能被规则的越多越好，以减轻人类的记忆负担。另一方面，不规则的那些，不都是可以规则化，过于规则简化，那些已经规则化的规则也会出问题。规则与不规则是趋于在一个动态的平衡点上。词法繁则句法简，而词法简则句法繁。

3.对于知识源，使用人工整理的好，还是机器学习的好？本体体系和概念知识源，宜大师级人物整理，因为高涵盖，高稳定，独立于语言，付出虽多但整理精细。而对于领域本体，则量太大，人整理不起，机器整理则更胜。

4.自然语言中只有很少一个子集可以映射到形式逻辑的数学表达。

5.知识图谱需要parsing,parsing不需要知识图谱。

6.负责的说，语言中有99%可以结构化（语法学算法+语言知识库），那1%暂时不好剥离。所以语言学还是可把握的。

7.语言学长尾现象非常明显，其实只抓其前部的一定量，足够应对绝大多数情况。

8.NLP的应用，尽量别沾上语义，这语义是黑洞，很难抽身而出。

小评：

李老师不愧徜徉于NLP海洋数十载，感受颇深。

1.对于语言的规则化和非规则化，我们都知道是存在的，但常常搞不定是怎样的分布，常常担忧前途的路还有多远？是已经过了路的一大半了，还是辛苦这般过的路连一半都不到。李老师给了相对量上的回答，没有亲自地广度深耕，怎会有此言，在大多数人对自然语言多样性把握还是个迷蒙的时期，这相当于汪洋海上的灯塔。这也是促发我写此文的动机。

2.对于语言共性的学说，我们都知道，但是从实践者给出比一定量上的理论论证，要厚实更多。这一点同一语系差别不大，而不同语系差别要大。

3,对于知识源使用，采用互参的方式，既不放弃人类的卓越贡献，也不能视机器的好结果而不见。"人+机",将会在未来很长一段时间扮演着互为同学，互为老师的角色。我们不看出身成分几何，只看结果的优劣和发展的态势。

4.数学是人类科学对其他学科某个方面的浓缩（类似哲学也是浓缩），是个强有力的工具，但其他学科有些是不能被替代。对于语言的丰富性，至少现有的数学描述虽然在不断逼近，但是不周全。

5.知识图谱基于parsing，这是自然。其实也可反作用于parsing。只可惜提供的功力目前很有限，甚或过于零星。所以力微也言轻。

6.语言中99%可以结构化，这只有是工作做到量了，才可看到。对于复杂句子，需要的支撑知识绝不是小量级的可以盖的。李老师针对的社交媒体语句情况可能也有其自身特点吧。

7.语言现象的尾巴有多长，大多数人只能是神龙见首不见尾。对于我等而言，在前端的一定量上就够折腾了，即便有心就很难管尾了，何况尾也随便看到的，现在觉得的难或特例的那些，说不定都不是尾，只因功力不够才，无法分清头尾而已。

8.语义的黑洞掉进去多少英豪不知，多少壮年至而暮年未见归。董振东老师那也是30载的功力而成知网，且仍在完善中。难怪李老师也只是在边缘转转。话说语义，也有太多解读。毕竟前辈举各种力，各种资源，成就了少量基本的本体源，语义库。这确实是大幸，不然我们中的高人在这个时期才上手此事，那NLP的进展肯定还要晚几何。我认为，不管多难，语义是必须要碰的，但要因人、因能力、因需求、因资源上手。或许我们这等，就是在句法Parsing的后面而进入语义parsing（这里有歧义，请自行理解）的那些探路者。真正要逼近自然语言理解，怎能少了语义这道菜？李老师的parser，感觉上威力十足，剖析小句，如同庖丁对牛。但从应用的层面看，毕竟还是中间件，不是终端件。就像早期“光纤进万户，就差一公里”。如何才能把威力用起来，也许语义正是能帮助铺就用户的那“一公里”的利器。对此李老师若是力所能及更好，或者能鼓捣别人把语义的沙子扬起来，下游带动上游发展，这岂不也是一件美事？

from http://weibo.com/p/1001603927690506824474

【相关】

【围脖：做 parsing 还是要靠语言学家，机器学习不给力】

【新智元笔记：深度 parsing 的逻辑化】

【置顶：立委科学网博客NLP博文一览（定期更新版）】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-948432.html

上一篇：【围脖：做 parsing 还是要靠语言学家，机器学习不给力】
下一篇：【新智元笔记：深度结构分析的逻辑化】