[转载]【ZT: 王伟 - 李老师的观点整理】
屏蔽 ||| |
李老师的观点整理
2016年1月4日 22:30 阅读 1122
近期李老师的发言甚多,然因群的流沙量大而急,很多值得留住的沙金(或金沙)还没等抓在手里,就被后面的新沙冲掉。趁热把刚抓的一点,赶紧留在微博中(长微博)驻留片刻,也算帮李老师整理学术思想吧,描述中若有错则立改,此文若有其他版权纠葛,通知本人则删。
1.通过汉语系统和英语系统开发的实践,验证了语言间差距不是那么大。
2.自然语言的规则和不规则的比例,其实占据了一个恰到好处的比例。一方面规则化的,人类好掌握,趋向能被规则的越多越好,以减轻人类的记忆负担。另一方面,不规则的那些,不都是可以规则化,过于规则简化,那些已经规则化的规则也会出问题。规则与不规则是趋于在一个动态的平衡点上。词法繁则句法简,而词法简则句法繁。
3.对于知识源,使用人工整理的好,还是机器学习的好?本体体系和概念知识源,宜大师级人物整理,因为高涵盖,高稳定,独立于语言,付出虽多但整理精细。而对于领域本体,则量太大,人整理不起,机器整理则更胜。
4.自然语言中只有很少一个子集可以映射到形式逻辑的数学表达。
5.知识图谱需要parsing,parsing不需要知识图谱。
6.负责的说,语言中有99%可以结构化(语法学算法+语言知识库),那1%暂时不好剥离。所以语言学还是可把握的。
7.语言学长尾现象非常明显,其实只抓其前部的一定量,足够应对绝大多数情况。
8.NLP的应用,尽量别沾上语义,这语义是黑洞,很难抽身而出。
小评:
李老师不愧徜徉于NLP海洋数十载,感受颇深。
1.对于语言的规则化和非规则化,我们都知道是存在的,但常常搞不定是怎样的分布,常常担忧前途的路还有多远?是已经过了路的一大半了,还是辛苦这般过的路连一半都不到。李老师给了相对量上的回答,没有亲自地广度深耕,怎会有此言,在大多数人对自然语言多样性把握还是个迷蒙的时期,这相当于汪洋海上的灯塔。这也是促发我写此文的动机。
2.对于语言共性的学说,我们都知道,但是从实践者给出比一定量上的理论论证,要厚实更多。这一点同一语系差别不大,而不同语系差别要大。
3,对于知识源使用,采用互参的方式,既不放弃人类的卓越贡献,也不能视机器的好结果而不见。"人+机",将会在未来很长一段时间扮演着互为同学,互为老师的角色。我们不看出身成分几何,只看结果的优劣和发展的态势。
4.数学是人类科学对其他学科某个方面的浓缩(类似哲学也是浓缩),是个强有力的工具,但其他学科有些是不能被替代。对于语言的丰富性,至少现有的数学描述虽然在不断逼近,但是不周全。
5.知识图谱基于parsing,这是自然。其实也可反作用于parsing。只可惜提供的功力目前很有限,甚或过于零星。所以力微也言轻。
6.语言中99%可以结构化,这只有是工作做到量了,才可看到。对于复杂句子,需要的支撑知识绝不是小量级的可以盖的。李老师针对的社交媒体语句情况可能也有其自身特点吧。
7.语言现象的尾巴有多长,大多数人只能是神龙见首不见尾。对于我等而言,在前端的一定量上就够折腾了,即便有心就很难管尾了,何况尾也随便看到的,现在觉得的难或特例的那些,说不定都不是尾,只因功力不够才,无法分清头尾而已。
8.语义的黑洞掉进去多少英豪不知,多少壮年至而暮年未见归。董振东老师那也是30载的功力而成知网,且仍在完善中。难怪李老师也只是在边缘转转。话说语义,也有太多解读。毕竟前辈举各种力,各种资源,成就了少量基本的本体源,语义库。这确实是大幸,不然我们中的高人在这个时期才上手此事,那NLP的进展肯定还要晚几何。我认为,不管多难,语义是必须要碰的,但要因人、因能力、因需求、因资源上手。或许我们这等,就是在句法Parsing的后面而进入语义parsing(这里有歧义,请自行理解)的那些探路者。真正要逼近自然语言理解,怎能少了语义这道菜?李老师的parser,感觉上威力十足,剖析小句,如同庖丁对牛。但从应用的层面看,毕竟还是中间件,不是终端件。就像早期“光纤进万户,就差一公里”。如何才能把威力用起来,也许语义正是能帮助铺就用户的那“一公里”的利器。对此李老师若是力所能及更好,或者能鼓捣别人把语义的沙子扬起来,下游带动上游发展,这岂不也是一件美事?
from http://weibo.com/p/1001603927690506824474
【相关】
【围脖:做 parsing 还是要靠语言学家,机器学习不给力】