【关于NLP体系和设计哲学】

 

关于 NLP 以及杂谈

关于 parsing

【关于信息抽取】

关于人工智能

关于NLP方法论以及两条路线之争

 

《朝华午拾》总目录

【置顶:立委NLP博文一览(定期更新版)】

立委NLP频道

 

【关于NLP方法论以及两条路线之争】

【新智元笔记:工程语法和深度神经】

【新智元笔记:李白对话录 – RNN 与语言学算法】

《新智元笔记:再谈语言学手工编程与机器学习的自动编程》

《新智元笔记:对于 tractable tasks, 机器学习很难胜过专家》

《新智元笔记:【Google 年度顶级论文】有感》

《新智元笔记:NLP 系统的分层挑战》

《泥沙龙笔记:连续、离散,模块化和接口》

《泥沙龙笔记:parsing 的休眠反悔机制》

【立委科普:歧义parsing的休眠唤醒机制初探】

【泥沙龙笔记:NLP hard 的歧义突破】

【立委科普:结构歧义的休眠唤醒演义】

【新智元笔记:李白对话录 – 从“把手”谈起】

《新智元笔记:跨层次结构歧义的识别表达痛点》

立委科普:NLP 中的一袋子词是什么

一切声称用机器学习做社会媒体舆情挖掘的系统,都值得怀疑

立委科普:关键词革命

立委科普:关键词外传

《立委随笔:机器学习和自然语言处理》

【泥沙龙笔记:语法工程派与统计学习派的总结】

【科普小品:NLP 的锤子和斧头】

【新智元笔记:两条路线上的NLP数据制导】

《立委随笔:语言自动分析的两个路子》

Comparison of Pros and Cons of Two NLP Approaches

why hybrid? on machine learning vs. hand-coded rules in NLP

Why Hybrid?

钩沉:Early arguments for a hybrid model for NLP and IE

【李白对话录:你波你的波,我粒我的粒】

【泥沙龙笔记:学习乐观主义的极致,奇文共欣赏】

《泥沙龙笔记:铿锵众人行,parsing 可以颠覆关键词吗?》

泥沙龙笔记:铿锵三人行

《泥沙龙铿锵三人行:句法语义纠缠论》

【科普随笔:NLP主流的傲慢与偏见】

【科普随笔:NLP主流最大的偏见,规则系统的手工性】

再谈机器学习和手工系统:人和机器谁更聪明能干?

乔姆斯基批判

Chomsky’s Negative Impact

[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】

【语义计算沙龙:乔老爷的围墙,community 的盲区】

【新智元笔记:语法糖霜论不值得认真对待】

【科研笔记:NLP “毛毛虫” 笔记,从一维到二维】

【泥沙龙笔记:NLP 专门语言是规则系统的斧头】

【新智元:理论家的围墙和工程师的私货】

泥沙龙笔记:从乔姆斯基大战谷歌Norvig说起

【Church – 钟摆摆得太远(2):乔姆斯基论】

【NLP主流的反思:Church – 钟摆摆得太远(1):历史回顾】

【Church – 钟摆摆得太远(3):皮尔斯论】

【Church – 钟摆摆得太远(4):明斯基论】

【Church – 钟摆摆得太远(5):现状与结论】

《泥沙龙笔记:【钟摆摆得太远】高大上,但有偏颇》

自给自足是NLP王道

自然语言后学都应该看看白硕老师的“自然语言处理与人工智能”

语言创造简史

Notes on Building and Using Lexical Semantic Knowledge Bases

【NLP主流成见之二,所谓规则系统的移植性太差】

Domain portability myth in natural language processing (NLP)

【科普随笔:NLP的宗教战争?】

Church – 计算语言学课程的缺陷 (翻译节选)

【科普随笔:NLP主流之偏见重复一万遍成为反真理】

坚持四项基本原则,开发鲁棒性NLP系统

NLP 围脖:成语从来不是问题

NLP 是一个力气活:再论成语不是问题

立委围脖:对于用户来说,抓住老鼠就是好猫

《科普随笔:keep ambiguity untouched》

【科研笔记:NLP的词海战术】

在构筑一个模型时,枚举法是常用的必要的强盗分类

没有语言学的 CL 走不远

[转载]为什么谷歌搜索并不像广泛相信的那样主要采用机器学习?

手工规则系统的软肋在文章分类

老教授回函:理性主义回摆可能要再延迟10几年

每隔二十年振荡一次的钟摆要多长?

【系统不能太精巧,正如人不能太聪明】

《泥沙龙李白对话录:关于纯语义系统》

【泥沙龙笔记:语义可以绕过句法吗】

一袋子词的主流方法面对社交媒体捉襟见肘,结构分析是必由之路

《通用的机器人都是闹着玩的,有用的都是 domain 的》

 

关于 NLP 以及杂谈

关于 parsing

【关于信息抽取】

关于人工智能

关于NLP体系和设计哲学

 

《朝华午拾》总目录

【置顶:立委NLP博文一览(定期更新版)】

立委NLP频道

 

遭遇脸书的 Deep Text

前几天脸书发布 Deep Text 新闻,在AI和自然语言理解领域引起热议,媒体上也闹出很大的动静。昨天笔者第一次亲身遭遇脸书的 deep text, 确认了其浅层无结构的本质,甭管它训练了多少层。
我跟女儿对话总是用脸书,她的圈子都用脸书,基本不用微信。她遇到一个烦扰有点着急,我就告诉她 take a deep breath, 没想到脸书立即跳出了 Uber 的链接:我只要一按钮 出租车就会来。
天哪 这就是所谓 deep?很可能不过是个基于 ngram 的分类系统,哪里有 deep nlp 和结构的影子?
大概训练集里有不少 Take a ride, Take a cab,  结果 take a deep breath 就也成了“出行”类事件了。这种信息抽取要是在 parsing 的结构基础上,哪里会出这样的笑话。
报道说什么deep text理解语言接近人的水平,牛皮吹没边了。比我们 parsing 支持的抽取能力和精准 相差何止以里计。
这其实不是意外的发现,因为机器学习界一直就是在浅层做NLP,没有深度,没有结构,没有理解,缺乏细线条的分析 (parsing) 能力,大多是粗线条的分类 (classification) 工作。
对于分类系统 只有输入text大 机器学习才有效。如果是短消息,基本就是瞎蒙,关键词密度在短消息中没有了优势,缺乏 data points 的证据。
事实上,迄今的几乎所有的nlp应用,基本局限于无结构,机器学习 deep 不 deep 没有改变这一点。这很可能是为什么深度学习(DL)在 text 方面似乎不给力的症结所在。
宋老师前两天说话,学习 deep 了 的好处是可以消化更多的训练数据,但是数据的增加永远是线性的,而 text 里面的结构性决定了语言的组合爆炸,因此深度学习不会因为增加数据而根本改观,稀疏数据依然是挑战。ngram 与 bow(bag of word) model 不变,再深的训练依然是在语言浅层挣扎,只能做粗线条的 nlp,却难以胜任细线条nlp的任务。ngram 只是语言结构的拙劣近似,缺乏结构是迄今的死穴。
parsing 基础上的事件抽取(event extraction)比ngram上的事件分类(event classification)高出岂止一头,一细一粗,一精一庸。

Deep parsing:每日一析

“西方人类比用得少,是因为西方的逻辑学产生的早。
t0614a
什么叫狗屎运?我的定义就是:遇到一个找茬的顾客,看到他藏着陷阱的“自然语言”语句,心里有点没数,但测试自己的系统,一次通过了。
今天是个好日子,撞了一个狗屎运,不必 debug
当然,真是通不过,需要 debug 也没啥,所有的系统都不是一锤子买卖。只要这种 bug 是在你设计的框架内,有一个顺达的对症下药之路,而不是为了这个 bug,没完没了折腾系统。
严格说,也可以找到瑕疵:理想的 parse 最好是对 “西方人” 耍个流氓,label 成 Topic,而不是 S,但这个 Topic 的流氓不见得比现在这个 parsing 强,半斤八两吧。现在的parsing 是把 “西方人类比”当成主语从句了。(S 是主语,Subj 是主语从句。)
对于半斤八两的句法分析路径 怎么判断对错?
一个包容的系统,就认可两者,因为其间的区别已经很 sutble 了,连人很多时候也糊涂。所谓包容的系统,指的是,在语用层面做产品需要语义落地的时候,parser 对此类现象给出的两个不同的路径,应该不影响落地。这个对于句法和语用 integrated 的系统,是没有问题的。后者可以也容易实现这种鲁棒性。

对于汉语常见的 NP+XP+Pred 的现象,下列分析大都可以被包容:
(1) Topic + S + Pred
(2) [Mod + S] Pred
(3)[S + Pred] +Pred
when the second element XP can be Pred (V, A, or deverbal N)
包容的都是可以预见的,因为可以预见,因此可以应对,hence robustness

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

立委 NLP 频道 开张大吉

承蒙高博协助,立委牌NLP博客频道今天开张大吉,广告一下,尤其对后学:https://liweinlp.com/

其前身是【立委科学网博客】的NLP科普相关博文,所谓 NLP University: http://blog.sciencenet.cn/blog-362400-902391.html。我将逐渐把原NLP博客转移至此,新的博客会同步在此发布。非 NLP 博文仍然以科学网为基地。

本大学有网无墙,有教无类,对公众无条件全天候开放。学分以研读立委教授博文为单元,从下列清单任选100篇博文,计100分,急用先学,学有所得,学以致用,是为有效学分,学员自我判分,过60可毕业也。门槛说高不高,说低不低,师傅领进门,修行靠个人,能否诚实毕业,就看造化了。

不知道多少次电脑输入 NLP(自然语言处理),出来的都是“你老婆”。难怪 NLP 跟了我一辈子,or 我跟了 NLP 一辈子。不离不弃。

开篇词: 余致力自然语言处理凡30年,其目的在求交流之通畅,信息之自由,语言之归一,世界之大同。积30年之经验,深知欲达此目的,必须启蒙后进,普及科学,同心协力,共建通天之塔,因作文鼓而吹之。处理尚未成功,同志仍需努力。

分八章。

第一章:体系和方法论,关键是这一篇【NLP 联络图 】。除了体系和术语联络图,也谈方法论及其两条路线的斗争。

第二章 Parsing,包括 shallow parsing 和 deep parsing 的方方面面。要强调的一点是,deep parsing 是 NLP 的核武器。当自然语言的 unstructured text 被精准分析成 structures 以后,语言因为有了有限的 patterns 而变得有迹可循,NLP 应用的很多难题就迎刃而解了。

第三章 抽取,进入NLP语用。虽然学界绝大多数抽取都是不用parsing的,或者只用 stemming,最多是 shallow parsing,这里更注重的是在 deep parsing 基础上的抽取。可以看成是针对知识图谱的全自动最终解决方案。

第四章 挖掘。抽取和挖掘常常搞混,但一般的共识是它们处于不同的层次:抽取针对的是个体,一颗颗的树,而挖掘针对的是森林,是语料库或文本数据源。在大数据年代,文本挖掘被认为是开采金矿的核武器,可以领跑下个 decade,但是从 NLP 体系框架来看,它是处于 parsing 和抽取之后的,是抽取的统计化结果。真正的核武器是 deep parsing,因为有了它,抽取才能快速进入domain,以不变应万变,同时抽取的质量也能大幅度提升。这才为最终的大数据挖掘打牢了基础。

第五章 NLP 的其他应用,文本挖掘是 NLP 的主打应用,可以用在很多产品和domains,其他的应用则包括机器翻译(MT),问答系统 (QA),智能搜索,如 SVO search (超越关键词的结构搜索)。当然也包括语言生成(聊天机器人要用的),还有自动文摘等。这些方面目前还没有面面俱到,有些应用笔者迄今没有找到机会涉猎。

第六章 中文 NLP。作者读者都是中国人,写的是中文博客,加上中文处理有其特殊的挑战,所以单列。更重要的是,很多年来,中文 NLP 被认为远远落后于欧洲语言的 NLP。这里的材料深入研究了中文的特点和难点,展示中文 NLP 的新进展。结论是,中文处理的确有其挑战,但其处理水平并没有落后太多。与英语NLP或其他欧洲语言NLP一样,最先进的中文NLP系统也已经进入了大规模大数据应用的时代。

第七章 舆情挖掘实践。舆情挖掘也是挖掘,这里单列是因为这是笔者目前的研发重心,也是因为这是 NLP 中最 tricky 也很有价值的应用,展示其挖掘实例可以激发大数据挖掘的想象力。本章集中了舆情挖掘的中外实例,几年来的热点话题追踪,或者打趣,也有不少闹着玩的成分在,包括给男星女星排名,甚至挖掘他们的花边新闻。

舆情挖掘比事实挖掘难很多,虽然体系和方法论上二者有很大的相同点,但难度有天壤之别的感觉。这是因为主观性语言(subjective language)是人类语言中较难的一面。严格说 sentiment analysis 属于抽取,sentiment extraction 才是更准确的说法,不过大家都习惯了沿用 sentiment analysis,而 opinion mining 才属于挖掘 (or mining of public opinions and sentiments)。这个里面学界最多报道的工作实际是 sentiment classification,但classification只是sentiment analysis 的一个皮毛。舆情舆情,有舆有情。舆就是 public opinion,情才是 public sentiment,后来为了统一在大家习惯的 sentiment 的 umbrella 下面,我们把情限定于 emotion 的表达,但 emotion 的表达只是一种情绪的挖掘,可以与 classification 很好对应,不管是分两种情绪(褒贬),三种情绪(褒贬中),还是四种情绪(喜怒哀乐),或 n 种,总之是 classification 。但是 deep sentiment analysis 不能停留在情绪的 classification,必须找到背后的东西。这就是为什么我们强调要挖掘情绪背后的理由,因为人不能老是只有情绪(喜欢不喜欢)和结论(采纳不采纳),而不给出理由。前者仅仅是发泄,后者才是为了传达、说服或影响人的具体情报,是可以帮助决策的。挖掘的主要目的有二:一个是把这些情报统计出来,给出概貌,不管是制作成图表还是使用词云等可视化的表达。第二就是允许用户从这些情报开始做任意的 drill down 或顺藤摸瓜。很多时候我们只展示了前者,其实真正的价值在后面(系统demo可以展示其威力,博文很难表现其动态)。后者才真显系统的威力,前者不过是静态的报表而已。Deep sentiment analysis 是 NLP 应用中最难啃的果子。

第八章是最后一章,NLP 掌故。这里面说的都是故事,有亲身经历,也有耳闻目睹。

希望 这个 NLP University 提供一些 NLP 课堂和教科书中没有的内容和角度。前后积攒了几百篇了,不仅分了大类,也尽量在每一篇里面给出了相互之间的链接。

【相关】

科学网【NLP University