新智元笔记:对于 tractable tasks, 机器学习很难胜过专家》
屏蔽 |||
然后想到不妨测试了一下我们的 parser,果然,把 PP 连错了,说是 PP 修饰 enters,而不是 causing。除此而外,我的 parse 完全正确。这也许是一个可以原谅的错误。如果要改进,我可以让两种可能都保留。但是统计上看,也许不值得,因为一个 PP 面对前面的一个谓语动词和后面的一个非谓语动词,修饰前者的概率远远大于修饰后者。
这个汉语句子的 parsing,只有一个错误,“语言学”与 “程序猿” 之间掉链子了(说明 parsing 还有改进余地,汉语parsing开发晚一些,难度也大一些,当前的状况,掉链子的事儿还偶有发生)。但整体来看基本也算靠谱了。所以,即便是比英语句法更难的汉语,也仍然属于 tractable 人工可以搞定的任务。
语言学家搞不定的是那些千头万绪的任务,譬如语音识别(speech recognition),譬如文章分类 (document classification),譬如聚类习得 (clustering-based ontology acquisition) 。这些在很多个 features 中玩平衡的任务,人脑不够用,见木不见林。但是对于 deep parsing 和 信息抽取,解剖的是一颗颗树,条分缕析,这是语言学家的拿手好戏,都是 tractable 的任务,当然可以搞定。(甭管多大的数据,一句句分析抽取完了存入库里,到retrieve的时候还是需要“挖掘”一番,那时候为了不一叶障目,自然是需要用到统计的)。
在条分缕析的 tractable 任务上(譬如,deep parsing),我的基本看法是:有NLP经验的语言学家立于不败之地。而机器学习,包括深度学习(deep learning,当前呼声最高的机器学习神器),也许在将来的某一天,可以逼近专家水平。值得期待。最多是逼近语言学家,但是要超越人工,我不大相信。再牛的机器学习算法也不可能在所有任务上胜过专家的手工编码,这个观点本来应该是显然的,但是学界的多数人却天然地认为深度学习总是可以超越人工系统。
parser 的直接目标不是语义求解,而是提供一个靠谱的结构基础,这样后续的(语用层面的)语义理解、信息抽取、舆情分析、机器翻译、自动文摘、智能秘书或其他的NLP应用,就可以面对有限的 patterns,而不是无限的线性序列。从这个目标来看,我们的中文英文的 parsers 都已经达标了。
【相关】
【围脖:做 parsing 还是要靠语言学家,机器学习不给力】
【why hybrid? on machine learning vs. hand-coded rules in NLP】
Comparison of Pros and Cons of Two NLP Approaches
3 华春雷 徐令予 陈辉
发表评论评论 (4 个评论)
- 删除 |赞[2]hongyan123
- 这样的parser也不在少数,问题是怎么grouding,这是和语境有关的,和个体经验知识有关的。所以,一个parser只是一把剃刀,但并不证明它能正确发挥其作用。
-
回复 : 可以理解你提出的困扰、困难。但是:(1)“这样的 parser 不在少数”,是你看不出区别,不是这个 parser 太普通:这个 parser 是独一无二的,否则算我白吃了30年NLP的饭;(2)问题是 grounding,自然没错,那是在某类应用中 parser 落地所面临的挑战,但本文不是谈的这个话题,那个需要针对具体应用专论;(3)我没想证明这个parser一定能正确发挥作用:再牛的核武器遇到一个不懂使用的人,也炸不死敌人,反而可能自伤。其实,一般而言,parser 根本就不该用 offshelf 的,自己用才顺手,才能做成事儿。2015-12-29 01:241 楼(回复楼主)赞|