Comparison of Pros and Cons of Two NLP Approaches
【why hybrid? on machine learning vs. hand-coded rules in NLP】
钩沉:Early arguments for a hybrid model for NLP and IE
《泥沙龙笔记:铿锵众人行,parsing 可以颠覆关键词吗?》
【NLP主流的反思:Church - 钟摆摆得太远(1):历史回顾】
Notes on Building and Using Lexical Semantic Knowledge Bases
Domain portability myth in natural language processing (NLP)
《科普随笔:keep ambiguity untouched》
[转载]为什么谷歌搜索并不像广泛相信的那样主要采用机器学习?
【关于人工智能】
【立委NLP频道】
前几天脸书发布 Deep Text 新闻,在AI和自然语言理解领域引起热议,媒体上也闹出很大的动静。昨天笔者第一次亲身遭遇脸书的 deep text, 确认了其浅层无结构的本质,甭管它训练了多少层。
我跟女儿对话总是用脸书,她的圈子都用脸书,基本不用微信。她遇到一个烦扰有点着急,我就告诉她 take a deep breath, 没想到脸书立即跳出了 Uber 的链接:我只要一按钮 出租车就会来。
天哪 这就是所谓 deep?很可能不过是个基于 ngram 的分类系统,哪里有 deep nlp 和结构的影子?
大概训练集里有不少 Take a ride, Take a cab, 结果 take a deep breath 就也成了“出行”类事件了。这种信息抽取要是在 parsing 的结构基础上,哪里会出这样的笑话。
报道说什么deep text理解语言接近人的水平,牛皮吹没边了。比我们 parsing 支持的抽取能力和精准 相差何止以里计。
这其实不是意外的发现,因为机器学习界一直就是在浅层做NLP,没有深度,没有结构,没有理解,缺乏细线条的分析 (parsing) 能力,大多是粗线条的分类 (classification) 工作。
对于分类系统 只有输入text大 机器学习才有效。如果是短消息,基本就是瞎蒙,关键词密度在短消息中没有了优势,缺乏 data points 的证据。
事实上,迄今的几乎所有的nlp应用,基本局限于无结构,机器学习 deep 不 deep 没有改变这一点。这很可能是为什么深度学习(DL)在 text 方面似乎不给力的症结所在。
宋老师前两天说话,学习 deep 了 的好处是可以消化更多的训练数据,但是数据的增加永远是线性的,而 text 里面的结构性决定了语言的组合爆炸,因此深度学习不会因为增加数据而根本改观,稀疏数据依然是挑战。ngram 与 bow(bag of word) model 不变,再深的训练依然是在语言浅层挣扎,只能做粗线条的 nlp,却难以胜任细线条nlp的任务。ngram 只是语言结构的拙劣近似,缺乏结构是迄今的死穴。
parsing 基础上的事件抽取(event extraction)比ngram上的事件分类(event classification)高出岂止一头,一细一粗,一精一庸。
“西方人类比用得少,是因为西方的逻辑学产生的早。
什么叫狗屎运?我的定义就是:遇到一个找茬的顾客,看到他藏着陷阱的“自然语言”语句,心里有点没数,但测试自己的系统,一次通过了。
今天是个好日子,撞了一个狗屎运,不必 debug
当然,真是通不过,需要 debug 也没啥,所有的系统都不是一锤子买卖。只要这种 bug 是在你设计的框架内,有一个顺达的对症下药之路,而不是为了这个 bug,没完没了折腾系统。
严格说,也可以找到瑕疵:理想的 parse 最好是对 “西方人” 耍个流氓,label 成 Topic,而不是 S,但这个 Topic 的流氓不见得比现在这个 parsing 强,半斤八两吧。现在的parsing 是把 “西方人类比”当成主语从句了。(S 是主语,Subj 是主语从句。)
对于半斤八两的句法分析路径 怎么判断对错?
一个包容的系统,就认可两者,因为其间的区别已经很 sutble 了,连人很多时候也糊涂。所谓包容的系统,指的是,在语用层面做产品需要语义落地的时候,parser 对此类现象给出的两个不同的路径,应该不影响落地。这个对于句法和语用 integrated 的系统,是没有问题的。后者可以也容易实现这种鲁棒性。
对于汉语常见的 NP+XP+Pred 的现象,下列分析大都可以被包容:
(1) Topic + S + Pred
(2) [Mod + S] Pred
(3)[S + Pred] +Pred
when the second element XP can be Pred (V, A, or deverbal N)
包容的都是可以预见的,因为可以预见,因此可以应对,hence robustness
承蒙高博协助,立委牌NLP博客频道今天开张大吉,广告一下,尤其对后学:https://liweinlp.com/
其前身是【立委科学网博客】的NLP科普相关博文,所谓 NLP University: http://blog.sciencenet.cn/blog-362400-902391.html。我将逐渐把原NLP博客转移至此,新的博客会同步在此发布。非 NLP 博文仍然以科学网为基地。
本大学有网无墙,有教无类,对公众无条件全天候开放。学分以研读立委教授博文为单元,从下列清单任选100篇博文,计100分,急用先学,学有所得,学以致用,是为有效学分,学员自我判分,过60可毕业也。门槛说高不高,说低不低,师傅领进门,修行靠个人,能否诚实毕业,就看造化了。
不知道多少次电脑输入 NLP(自然语言处理),出来的都是“你老婆”。难怪 NLP 跟了我一辈子,or 我跟了 NLP 一辈子。不离不弃。
开篇词: 余致力自然语言处理凡30年,其目的在求交流之通畅,信息之自由,语言之归一,世界之大同。积30年之经验,深知欲达此目的,必须启蒙后进,普及科学,同心协力,共建通天之塔,因作文鼓而吹之。处理尚未成功,同志仍需努力。
分八章。
第一章:体系和方法论,关键是这一篇【NLP 联络图 】。除了体系和术语联络图,也谈方法论及其两条路线的斗争。
第二章 Parsing,包括 shallow parsing 和 deep parsing 的方方面面。要强调的一点是,deep parsing 是 NLP 的核武器。当自然语言的 unstructured text 被精准分析成 structures 以后,语言因为有了有限的 patterns 而变得有迹可循,NLP 应用的很多难题就迎刃而解了。
第三章 抽取,进入NLP语用。虽然学界绝大多数抽取都是不用parsing的,或者只用 stemming,最多是 shallow parsing,这里更注重的是在 deep parsing 基础上的抽取。可以看成是针对知识图谱的全自动最终解决方案。
第四章 挖掘。抽取和挖掘常常搞混,但一般的共识是它们处于不同的层次:抽取针对的是个体,一颗颗的树,而挖掘针对的是森林,是语料库或文本数据源。在大数据年代,文本挖掘被认为是开采金矿的核武器,可以领跑下个 decade,但是从 NLP 体系框架来看,它是处于 parsing 和抽取之后的,是抽取的统计化结果。真正的核武器是 deep parsing,因为有了它,抽取才能快速进入domain,以不变应万变,同时抽取的质量也能大幅度提升。这才为最终的大数据挖掘打牢了基础。
第五章 NLP 的其他应用,文本挖掘是 NLP 的主打应用,可以用在很多产品和domains,其他的应用则包括机器翻译(MT),问答系统 (QA),智能搜索,如 SVO search (超越关键词的结构搜索)。当然也包括语言生成(聊天机器人要用的),还有自动文摘等。这些方面目前还没有面面俱到,有些应用笔者迄今没有找到机会涉猎。
第六章 中文 NLP。作者读者都是中国人,写的是中文博客,加上中文处理有其特殊的挑战,所以单列。更重要的是,很多年来,中文 NLP 被认为远远落后于欧洲语言的 NLP。这里的材料深入研究了中文的特点和难点,展示中文 NLP 的新进展。结论是,中文处理的确有其挑战,但其处理水平并没有落后太多。与英语NLP或其他欧洲语言NLP一样,最先进的中文NLP系统也已经进入了大规模大数据应用的时代。
第七章 舆情挖掘实践。舆情挖掘也是挖掘,这里单列是因为这是笔者目前的研发重心,也是因为这是 NLP 中最 tricky 也很有价值的应用,展示其挖掘实例可以激发大数据挖掘的想象力。本章集中了舆情挖掘的中外实例,几年来的热点话题追踪,或者打趣,也有不少闹着玩的成分在,包括给男星女星排名,甚至挖掘他们的花边新闻。
舆情挖掘比事实挖掘难很多,虽然体系和方法论上二者有很大的相同点,但难度有天壤之别的感觉。这是因为主观性语言(subjective language)是人类语言中较难的一面。严格说 sentiment analysis 属于抽取,sentiment extraction 才是更准确的说法,不过大家都习惯了沿用 sentiment analysis,而 opinion mining 才属于挖掘 (or mining of public opinions and sentiments)。这个里面学界最多报道的工作实际是 sentiment classification,但classification只是sentiment analysis 的一个皮毛。舆情舆情,有舆有情。舆就是 public opinion,情才是 public sentiment,后来为了统一在大家习惯的 sentiment 的 umbrella 下面,我们把情限定于 emotion 的表达,但 emotion 的表达只是一种情绪的挖掘,可以与 classification 很好对应,不管是分两种情绪(褒贬),三种情绪(褒贬中),还是四种情绪(喜怒哀乐),或 n 种,总之是 classification 。但是 deep sentiment analysis 不能停留在情绪的 classification,必须找到背后的东西。这就是为什么我们强调要挖掘情绪背后的理由,因为人不能老是只有情绪(喜欢不喜欢)和结论(采纳不采纳),而不给出理由。前者仅仅是发泄,后者才是为了传达、说服或影响人的具体情报,是可以帮助决策的。挖掘的主要目的有二:一个是把这些情报统计出来,给出概貌,不管是制作成图表还是使用词云等可视化的表达。第二就是允许用户从这些情报开始做任意的 drill down 或顺藤摸瓜。很多时候我们只展示了前者,其实真正的价值在后面(系统demo可以展示其威力,博文很难表现其动态)。后者才真显系统的威力,前者不过是静态的报表而已。Deep sentiment analysis 是 NLP 应用中最难啃的果子。
第八章是最后一章,NLP 掌故。这里面说的都是故事,有亲身经历,也有耳闻目睹。
希望 这个 NLP University 提供一些 NLP 课堂和教科书中没有的内容和角度。前后积攒了几百篇了,不仅分了大类,也尽量在每一篇里面给出了相互之间的链接。
【相关】
科学网【NLP University 】