学习乐观主义的极致,奇文共欣赏】 屏蔽留存

泥沙龙笔记:学习乐观主义的极致,奇文共欣赏】

屏蔽已有 2821 次阅读 2016-5-20 05:58 |个人分类:立委科普|系统分类:教学心得| 深度学习, 程序猿, 规则系统

洪:

大数据上火车跑,

告别编程规则搞。

garbage in & garbage out,

烧脑码农被废掉。

AI不再需要“程序猿”,未来数据比代码重要-新智元-微头条(wtoutiao.com)

我: 最近心智元那篇深度学习要代替程序猿的译文很有看头,是学习(ML)乐观主义的极致,但又呈现了两条路线合流的某种迹象,有的可唠。白老师洪爷尼克一干人熟悉ai两条路线你死我活斗了半个多世纪的,跟我党10次路线斗争类似,看这篇的极端乐观主义,最终宣告斗争结束世界大同的架势,可以评评掐掐。抛几个玉看能不引来啥砖砸。

【1】 quote:编程将会变成一种“元技能(meta skill)”,一种为机器学习创造“脚手架”的手段。就像量子力学的发现并未让牛顿力学失效,编程依旧是探索世界的一种有力工具。但是要快速推进特定的功能,机器学习将接管大部分工作。

这个说法听上去怎么与白老师前一阵说的有类似或平行的味道?

洪:

这种鸡血文,可别仔细读,否则@wei 你就前功尽弃邯郸学步了

我:

它代表了这股“热”的一种极致。还是比ai取代或消灭人类,更加“理性”一些,调子是乐观主义的。

洪:

老@wei 你还是要待价而沽,找机会当老黄忠,杀一回nlp夏侯渊啥的,抖抖威风。赶紧做benchmark,你为刀斧手,syntaxnet啥的为鱼肉。

我:

杀一回nlp夏侯渊根本不是问题。

现在说的是取代程序猿,凭什么他们成为劳工中的贵族。

【2】 谷歌搜索真地从规则和 heuristics 调控正在过度到深度学习吗?这是里面爆料的新发展?

(benchmarking 我心里有数,稳操胜券:新闻媒体如果所报 94 为确,那么大家都已经登顶,基本不分伯仲,没多大余地了。一旦超越领域限制,哈哈)

我疑惑的是这个报料:quote 甚至,Google搜索引擎这座由人工规则建立起来的“大厦”也开始仰仗这些深度神经网络。2月份,Google用机器学习专家John Giannandrea替换掉了多年以来的搜索部门负责人,还开始启动一个针对工程师的“新技能”再培训项目。“通过培养学习机制,我们不一定非要去编写规则了。”Giannandrea告诉记者。

这个转移如果是真地,对于搜索这么大的一个产业,在根基上做这种转移,在这种热昏的大气候下,哈哈,是福不是祸,是祸躲不过,谷歌这座搜索大厦是不是面临倾覆的前兆?不过想来即便想在 existing 手工调控的搜索路线中夹带新货,management 也不会冒进,估计是逐渐渗透和试验,否则不是自杀?

关于这个,有一些背景,见我以前的博文:《再谈机器学习和手工系统:人和机器谁更聪明能干?

还有 [转载]为什么谷歌搜索并不像广泛相信的那样主要采用机器学习?

Nick:

我赶脚伟哥最近修改resume和google开源parser有关系。再不改嫁就真砸手里了。

说到两条路线斗争,最极端的符号派当属定理证明,我最近在写篇定理证明简史。你们想听啥,告我一声,我再加料。

白:

那篇不需要“程序猿”的文章,理论上是错的,懒得转也懒得评。

我:

谁能证实谷歌搜索要走深度学习取代规则调控的路线?

Nick 真以为 SyntaxNet 对我是威胁吗?是一个 alert,是实。

南:

Nick大师逗你玩呢

我:

威胁还太远。alert 是因为确实没想到这一路在新闻领域训练能这么快达到94的高度,因为这个高度在我四五年前达到的时候,我是以为登顶了,可以喘口气,不必再做了。从应用角度,确实也是 diminishing returns 了,没有再做的价值了。如果想争口气的话,有些已知的地方还可以再做圆,那还是等退休没事儿的时候玩儿比较合适。

问题不在那里,问题在这儿:

【3】 领域转移和语义落地

机器学习的系统天生地难以领域转移,SyntaxNet 恐非例外。你花费牛劲儿,把各种 features 设计好,优化了,加上真正海量的训练数据,在一个领域 譬如新闻媒体,达到了最优的 benchmark 譬如 94%,但是一旦转换领域,performance 直线下滑是常见的问题。除非 retrain,这个谈何容易,不论。

陈:

新闻能做到的话,在其他领域,无非就是积累数据

我: 你的说法是经典的。

quote 当然,还是要有人来训练这些系统。但是,至少在今天,这还是一种稀缺的技能。这种工作需要对数学有高层次的领悟,同时对于“有来有往”的教学技巧有一种直觉。“使这些系统达到最优效果的方法差不多是一门艺术”,Google  Deepmind团队负责人Demis Hassabis说。“世界上只有寥寥数百人能出色地完成这件事。”

(这么说来还不错,世界上还有几百号大牛可以玩转它。另一条路线断层了,能玩转的会有几十人吗?)

以前就不断听说,同一个算法,同一批数据,甚至基本相同的 feature design,不同人训练出来的结果大不相同。虽然科学上说这个现象不合理,科学的东西是可以完全重复的,但是如果参杂了艺术或某种 tricks,说不清道不明的经验因素啥的呢。不用说得那么玄,重新训练的确不是一个简单的过程重复。

Self-quote:

问题的另一方面是,机器学习是否真地移植性那么强,象吹嘘的那么神,系统无需变化,只要随着新数据重新训练一下就生成一个新领域的系统?其实,谈何容易。首先,新数据哪里来,这个知识瓶颈就不好过。再者,重新训练的过程也绝不是简单地按章办事即可大功告成。一个过得去的系统常常要经历一个不断调控优化的过程。

说到这里,想起一段亲历的真实故事。我以前拿过政府罗马实验室10多个小企业创新基金,率领研发组开发了一个以规则系统为主(机器学习为辅,主要是浅层专名标注那一块用的是机器学习)的信息抽取引擎。我们的政府资助人也同时资助另一家专事机器学习的信息抽取的团队(在美国也是做机器学习很牛的一家),其目的大概是鼓励竞争,不要吊死在一棵树上。不仅如此,罗马实验室还选助了一家系统集成商开发一套情报挖掘应用软件,提供给政府有关机构试用。这套应用的内核用的就是我们两家提供的信息抽取引擎作为技术支撑。在长达四年的合作中,我们与集成商有过多次接触,他们的技术主管告诉我,从移植性和质量改进方面看,我们的规则引擎比另一家的机器学习引擎好太多了。

我问,怎么会,他们有一流的机器学习专家,还常年配有一个手工标注的团队,引擎质量不会太差的。主管告诉我,也许在他们训练和测试的数据源上质量的确不错,可是集成商这边是用在另一套保密数据(classified data)上,移植过来用效果就差了。我说,那当然,训练的数据和使用现场的数据不同类型,机器学习怎么能指望出好结果呢,你们该重新训练(re-training)啊。你们用他们引擎五年来,重新训练过几次,效果如何?主管说:一次也没有重新训练成过。重新训练,谈何容易?我问:你们不可以组织人自己标注使用领域的数据,用他们的系统重新训练?主管说:理论上可行,实践上步步难行。首先,要想达到最优效果 ,当然是根据我们的数据重新标注一个与引擎出厂时候大体等量的训练文本集来。可那样大的数据标注,我们根本无力做成,标注过程的质量控制也没有经验。结果是我们只标注了部分数据。理论上讲,我们如果把这批自己的数据加到引擎提供者的训练数据中,重新训练可以把系统多少拉到我们的领域来,效果总会有 提高。但是我们不是信息抽取和机器学习专家,我们只擅长做系统集成。机器学习用新旧数据混合要想训练得好,要牵涉到一些技术细节(甚至tips和tricks) 和一些说明书和专业论文上不谈的微调和小秘密。尝试过,越训练效果反而越差。我问:那怎么办?遇到质量问题,怎样解决?他说:没什么好办法。你们不同,我们只要例示观察到的错误类型,你们下一次给我们 update 引擎时基本上就已经解决了。可我们把问题类型反馈给机器学习开发者就不能指望他们可以改正,因为他们见不到这边的数据。结果呢,我们只好自己在他们的引擎后面用简单模式匹配程序打补丁、擦屁股,可费劲了。

我当时的震惊可想而知。一个被NLP主流重复无数遍的重新训练、移植性好的神话,在使用现场竟然如此不堪。学习大牛做出来的引擎在用户手中四五年却连一次重新训练都实施不了。系统成为一个死物,完完全全的黑箱子。所有改进只能靠隔靴搔痒的补丁。
from 【科普随笔:NLP主流成见之二,所谓规则系统的移植性太差】 

即便是同一个大厨,做了一锅好饭菜以后,下一锅饭菜是不是同样好,也不是铁定的。

【4】 这一点最重要,白老师批评。如果你的“模型”就不对,你怎么增加数据,怎么完善算法,你都不可能超越。这里说的是自然语言的“样子”,即白老师说的“毛毛虫”(见 [转载]【白硕- 穿越乔家大院寻找“毛毛虫”】)。

整个自然语言的边界在哪里?不同语言的“样子”又有哪些需要不同调控的细节?

这些东西有很多体悟,并不是每一种都可以马上说清楚,但是它是的确存在的。无视它,或对它缺乏认识,最终要栽跟头的。

Nick:

那得看是什么餐馆,麦当劳每天味道都同样,路边馄饨摊每天各不相同。

我: exactly 麦当劳每天一样的代价是低品质,它要保持 consistency 就不可能同时保持高品质,只能永远在垃圾食品的标签下。

Nick:

我意思是你今能卖麦当劳的价钱,再不嫁,明就馄饨摊了。

我:

鼎泰丰来湾区了,小笼包子比他家贵出好几倍。前两天一尝,果然名不虚传。被宰认了,因为心甘情愿,谁叫它那么好吃呢。

我又饿不死,何苦卖麦当劳呢?怎么也得成为鼎泰丰吧。

最不抵,我开个咨询公司也有饭吃,没必要看贱自己。

现在就是,如何领域突破,如何语言突破?换一个语言,本质上也是换一个领域。因为只有这两项突破,才能真正NLP广泛落地为产品。94 很动听了,后两项还在未定之数。这种领域和语言的突破与毛毛虫什么关系 很值得思考。

洪爷说的“鸡血”文的最有意思的地方是,机器学习终于从过去遮遮掩掩的自动编程黑箱子,被鸡血到正式宣告和标榜为终极的自动编程。程序猿下岗,资料员上岗,在最上面的是几百号能玩转黑箱子魔术的超人。一切搞定,环球太平。一幅多么美妙的AI共产主义图景。

【相关】

AI不再需要“程序猿”,未来数据比代码重要-新智元-微头条(wtoutiao.com)

【新智元笔记:巨头谷歌昨天称句法分析极难,但他们最强】

再谈机器学习和手工系统:人和机器谁更聪明能干?

[转载]为什么谷歌搜索并不像广泛相信的那样主要采用机器学习?

【科普随笔:NLP主流成见之二,所谓规则系统的移植性太差】

[转载]【白硕- 穿越乔家大院寻找“毛毛虫”】

【科研笔记:NLP “毛毛虫” 笔记,从一维到二维】

Comparison of Pros and Cons of Two NLP Approaches 

《立委随笔:语言自动分析的两个路子》

why hybrid? on machine learning vs. hand-coded rules in NLP

【科普随笔:NLP主流成见之二,所谓规则系统的移植性太差】

 【科普随笔:NLP主流最大的偏见,规则系统的手工性】

 【科普随笔:NLP主流的傲慢与偏见】

【科研笔记:系统不能太精巧,正如人不能太聪明】

 【NLP主流的反思:Church - 钟摆摆得太远(1):历史回顾】

《立委随笔:机器学习和自然语言处理》

与老前辈谈 NLP 及其趋势

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-978466.html

上一篇:【新智元笔记:巨头谷歌昨天称句法分析极难,但他们最强】
下一篇:【李白对话录:你波你的波,我粒我的粒】

 

1  张骥

【让机器人解读洪爷的《人工智能忧思录》(2/n)】 屏蔽留存

【让机器人解读洪爷的《人工智能忧思录》(2/n)】

屏蔽已有 2108 次阅读 2016-3-2 10:55 |个人分类:立委科普|系统分类:科研笔记| 人工智能

数字识别模版认,机械臂动reinforcement。若说人也如此行,将信将疑难convinced。
如意算盘扒拉曾,赴美留学取真经。到时心灰更意冷,只因京城响枪声。
认知科学只好扔,找处回头练编程。OCR识字model train,邮编地址自动认。
得博辞校工作寻,微软AOL先后蹲。然后两度初创进,预测模型可掘金。
如此廿年IT混,人老珠黄白发生。电脑换代却没停,286到四核芯。
CPU能力大提升,GPU更快画图形。单机游戏动画真,联网计算笼罩云。
电脑处理速度增,视听数据图文声。Big Data&Machine Learning,用AI捕风捉影。
神经网络又复兴,Deep Learning此次称。Hidden Layers八九层,无监督先pre-train。

IT Tycoons嗅觉敏,就像鲨鱼闻血腥。各学王老虎抢亲,然后造车紧闭门。

【相关博文】

人工智能忧思录_zhazhaba_新浪博客

【让机器人解读洪爷的《人工智能忧思录》(4/n)】

【让机器人解读洪爷的《人工智能忧思录》(3/n)】

【让机器人解读洪爷的《人工智能忧思录》(2/n)】

【让机器人解读洪爷的《人工智能忧思录》(1/n)】

【泥沙龙笔记:机器 parsing 洪爷,无论打油或打趣】

 【NLP主流的反思:Church - 钟摆摆得太远(1):历史回顾】 

老革命遇到新问题,洪爷求饶打油翁

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-959923.html

上一篇:【让机器人解读洪爷的《人工智能忧思录》(1/n)】
下一篇:【让机器人解读洪爷的《人工智能忧思录》(3/n)】

对于 tractable tasks, 机器学习很难胜过专家》 屏蔽留存

新智元笔记:对于 tractable tasks, 机器学习很难胜过专家》

屏蔽已有 3503 次阅读 2015-12-26 19:50 |个人分类:立委科普|系统分类:科研笔记| parsing, 机器学习, 信息抽取, 规则系统

我们 “语义计算” 群在讨论这个句子的句法结构:The asbestos fiber, crocidolite, is unusually resilient once it enters the lungs, with even brief exposures to it causing symptoms that show up decades later, researchers said.
我说,it looks fine in its entirety. "once-clause" has a main clause before it, so it is perfectly grammatical.  The PP "with even brief exposures to it" is an adverbial of  "causing ...": usually PP modifies a preceding verb, but here it modifies the following ING-verb, which is ok.

然后想到不妨测试了一下我们的 parser,果然,把 PP 连错了,说是 PP 修饰 enters,而不是 causing。除此而外,我的 parse 完全正确。这也许是一个可以原谅的错误。如果要改进,我可以让两种可能都保留。但是统计上看,也许不值得,因为一个 PP 面对前面的一个谓语动词和后面的一个非谓语动词,修饰前者的概率远远大于修饰后者。

张老师问: 是否此句在你的训练集里?如是统计方法。否则太不容易了
我说,我这是语言学程序猿做的规则系统,不是统计方法。句子不在我的 dev corpus 里面。parsing 是一个 tractable task,下点功夫总是可以做出来,其水平可以达到接近人工(语言学家),超越普通人(非语言学家)。说的是自己实践的观察和体会。靠谱的 parsing,有经验的语言学程序猿可以搞定,无需指靠机器学习。为了说明这个观点,我测试了我的汉语 parser:

这个汉语句子的 parsing,只有一个错误,“语言学”与 “程序猿” 之间掉链子了(说明 parsing 还有改进余地,汉语parsing开发晚一些,难度也大一些,当前的状况,掉链子的事儿还偶有发生)。但整体来看基本也算靠谱了。所以,即便是比英语句法更难的汉语,也仍然属于 tractable 人工可以搞定的任务。

语言学家搞不定的是那些千头万绪的任务,譬如语音识别(speech recognition),譬如文章分类 (document classification),譬如聚类习得 (clustering-based ontology acquisition) 。这些在很多个 features 中玩平衡的任务,人脑不够用,见木不见林。但是对于 deep parsing 和 信息抽取,解剖的是一颗颗树,条分缕析,这是语言学家的拿手好戏,都是 tractable 的任务,当然可以搞定。(甭管多大的数据,一句句分析抽取完了存入库里,到retrieve的时候还是需要“挖掘”一番,那时候为了不一叶障目,自然是需要用到统计的)。

在条分缕析的 tractable 任务上(譬如,deep parsing),我的基本看法是:有NLP经验的语言学家立于不败之地。而机器学习,包括深度学习(deep learning,当前呼声最高的机器学习神器),也许在将来的某一天,可以逼近专家水平。值得期待。最多是逼近语言学家,但是要超越人工,我不大相信。再牛的机器学习算法也不可能在所有任务上胜过专家的手工编码,这个观点本来应该是显然的,但是学界的多数人却天然地认为深度学习总是可以超越人工系统。

parser 的直接目标不是语义求解,而是提供一个靠谱的结构基础,这样后续的(语用层面的)语义理解、信息抽取、舆情分析、机器翻译、自动文摘、智能秘书或其他的NLP应用,就可以面对有限的 patterns,而不是无限的线性序列。从这个目标来看,我们的中文英文的 parsers 都已经达标了。

【相关】

【围脖:做 parsing 还是要靠语言学家,机器学习不给力】

手工规则系统的软肋在文章分类

《立委随笔:语言自动分析的两个路子》

 再谈机器学习和手工系统:人和机器谁更聪明能干?

why hybrid? on machine learning vs. hand-coded rules in NLP

Comparison of Pros and Cons of Two NLP Approaches

 

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-946065.html

上一篇:《泥沙龙笔记:再谈 cyc》
下一篇:《新智元:有了deep parsing,信息抽取就是个玩儿》

 

3  华春雷 徐令予 陈辉

发表评论评论 (4 个评论)

删除 |赞[2]hongyan123   2015-12-28 15:47
这样的parser也不在少数,问题是怎么grouding,这是和语境有关的,和个体经验知识有关的。所以,一个parser只是一把剃刀,但并不证明它能正确发挥其作用。
 回复  : 可以理解你提出的困扰、困难。但是:(1)“这样的 parser 不在少数”,是你看不出区别,不是这个 parser 太普通:这个 parser 是独一无二的,否则算我白吃了30年NLP的饭;(2)问题是 grounding,自然没错,那是在某类应用中 parser 落地所面临的挑战,但本文不是谈的这个话题,那个需要针对具体应用专论;(3)我没想证明这个parser一定能正确发挥作用:再牛的核武器遇到一个不懂使用的人,也炸不死敌人,反而可能自伤。其实,一般而言,parser 根本就不该用 offshelf 的,自己用才顺手,才能做成事儿。

2015-12-29 01:241 楼(回复楼主)赞|

删除 |赞[1]华春雷   2015-12-26 20:49
信息技术只是在“形式”的计算和理论方面很成功;而在其“涵义”的理论研究方面非常失败。例如关于“语义”的研究实际上仍然是“形式”层面的研究性质。所以,单独地研究语义学,只能在信息的”形式“层面上研究来研究去,会走向虚空,或走火入魔的。
这个问题的解决,还在路上。我们后来采取的解决方法是,将对信息"涵义”的研究转向生态学的理论角度,这将有助于发现信息的“形式”背后的生成原因。也就是信息的”涵义“问题。

[1]华春雷  2015-12-25 02:25

 回复  : 不太懂您的理论及其意义。我的目的很简单,这里一切自动的形式分析都是为了完成某个自然语言的任务提供结构基础。这些任务包括数据挖掘、舆情分析、问答系统等。

2015-12-27 00:331 楼(回复楼主)

[转载]【ZT: 王伟 - 李老师的观点整理】 屏蔽留存

[转载]【ZT: 王伟 - 李老师的观点整理】

屏蔽已有 1006 次阅读 2016-1-6 10:13 |个人分类:立委科普|系统分类:科研笔记| NLP |文章来源:转载

李老师的观点整理

2016年1月4日 22:30 阅读 1122
    近期李老师的发言甚多,然因群的流沙量大而急,很多值得留住的沙金(或金沙)还没等抓在手里,就被后面的新沙冲掉。趁热把刚抓的一点,赶紧留在微博中(长微博)驻留片刻,也算帮李老师整理学术思想吧,描述中若有错则立改,此文若有其他版权纠葛,通知本人则删。
1.通过汉语系统和英语系统开发的实践,验证了语言间差距不是那么大。
2.自然语言的规则和不规则的比例,其实占据了一个恰到好处的比例。一方面规则化的,人类好掌握,趋向能被规则的越多越好,以减轻人类的记忆负担。另一方面,不规则的那些,不都是可以规则化,过于规则简化,那些已经规则化的规则也会出问题。规则与不规则是趋于在一个动态的平衡点上。词法繁则句法简,而词法简则句法繁。
3.对于知识源,使用人工整理的好,还是机器学习的好?本体体系和概念知识源,宜大师级人物整理,因为高涵盖,高稳定,独立于语言,付出虽多但整理精细。而对于领域本体,则量太大,人整理不起,机器整理则更胜。
4.自然语言中只有很少一个子集可以映射到形式逻辑的数学表达。
5.知识图谱需要parsing,parsing不需要知识图谱。
6.负责的说,语言中有99%可以结构化(语法学算法+语言知识库),那1%暂时不好剥离。所以语言学还是可把握的。
7.语言学长尾现象非常明显,其实只抓其前部的一定量,足够应对绝大多数情况。
8.NLP的应用,尽量别沾上语义,这语义是黑洞,很难抽身而出。
小评:
李老师不愧徜徉于NLP海洋数十载,感受颇深。
1.对于语言的规则化和非规则化,我们都知道是存在的,但常常搞不定是怎样的分布,常常担忧前途的路还有多远?是已经过了路的一大半了,还是辛苦这般过的路连一半都不到。李老师给了相对量上的回答,没有亲自地广度深耕,怎会有此言,在大多数人对自然语言多样性把握还是个迷蒙的时期,这相当于汪洋海上的灯塔。这也是促发我写此文的动机。
2.对于语言共性的学说,我们都知道,但是从实践者给出比一定量上的理论论证,要厚实更多。这一点同一语系差别不大,而不同语系差别要大。
3,对于知识源使用,采用互参的方式,既不放弃人类的卓越贡献,也不能视机器的好结果而不见。"人+机",将会在未来很长一段时间扮演着互为同学,互为老师的角色。我们不看出身成分几何,只看结果的优劣和发展的态势。
4.数学是人类科学对其他学科某个方面的浓缩(类似哲学也是浓缩),是个强有力的工具,但其他学科有些是不能被替代。对于语言的丰富性,至少现有的数学描述虽然在不断逼近,但是不周全。
5.知识图谱基于parsing,这是自然。其实也可反作用于parsing。只可惜提供的功力目前很有限,甚或过于零星。所以力微也言轻。
6.语言中99%可以结构化,这只有是工作做到量了,才可看到。对于复杂句子,需要的支撑知识绝不是小量级的可以盖的。李老师针对的社交媒体语句情况可能也有其自身特点吧。
7.语言现象的尾巴有多长,大多数人只能是神龙见首不见尾。对于我等而言,在前端的一定量上就够折腾了,即便有心就很难管尾了,何况尾也随便看到的,现在觉得的难或特例的那些,说不定都不是尾,只因功力不够才,无法分清头尾而已。
8.语义的黑洞掉进去多少英豪不知,多少壮年至而暮年未见归。董振东老师那也是30载的功力而成知网,且仍在完善中。难怪李老师也只是在边缘转转。话说语义,也有太多解读。毕竟前辈举各种力,各种资源,成就了少量基本的本体源,语义库。这确实是大幸,不然我们中的高人在这个时期才上手此事,那NLP的进展肯定还要晚几何。我认为,不管多难,语义是必须要碰的,但要因人、因能力、因需求、因资源上手。或许我们这等,就是在句法Parsing的后面而进入语义parsing(这里有歧义,请自行理解)的那些探路者。真正要逼近自然语言理解,怎能少了语义这道菜?李老师的parser,感觉上威力十足,剖析小句,如同庖丁对牛。但从应用的层面看,毕竟还是中间件,不是终端件。就像早期“光纤进万户,就差一公里”。如何才能把威力用起来,也许语义正是能帮助铺就用户的那“一公里”的利器。对此李老师若是力所能及更好,或者能鼓捣别人把语义的沙子扬起来,下游带动上游发展,这岂不也是一件美事?

from http://weibo.com/p/1001603927690506824474 

【相关】

【围脖:做 parsing 还是要靠语言学家,机器学习不给力】 

【新智元笔记:深度 parsing 的逻辑化 】 

【置顶:立委科学网博客NLP博文一览(定期更新版)】 

 

http://blog.sciencenet.cn/blog-362400-948432.html

上一篇:【围脖:做 parsing 还是要靠语言学家,机器学习不给力】
下一篇:【新智元笔记:深度结构分析的逻辑化 】

[转载]【白硕 - 穿越乔家大院寻找“毛毛虫”】 屏蔽留存

[转载]【白硕 - 穿越乔家大院寻找“毛毛虫”】

屏蔽已有 3417 次阅读 2016-1-14 21:47 |个人分类:立委科普|系统分类:科普集锦| 自动机, 形式语言, 乔姆斯基, 形式文法 |文章来源:转载

【立委按】

      白硕老师这篇文章值得所有自然语言学者研读和反思。击节叹服,拍案叫绝,是初读此文的真切感受。白老师对乔姆斯基形式语言理论用于自然语言所造成的误导,给出了迄今所见最有深度的犀利解析,而且写得深入浅出,形象生动,妙趣横生。这么多年,这么多学者,怎么就达不到这样的深度呢?一个乔姆斯基的递归陷阱不知道栽进去多少人,造成多少人在 “不是人话” 的现象上做无用功,绕了无数弯路。学界曾有多篇长篇大论,机械地套用乔氏层级体系,在自然语言是 context-free 还是 context-sensitive 的框框里争论不休,也有折衷的说法,诸如自然语言是 mildly sensitive,这些形而上的学究式争论,大多雾里看花,隔靴搔痒,不得要领,离语言事实甚远。白老师独创的 “毛毛虫” 论,形象地打破了这些条条框框。

     白老师自己的总结是:‘如果认同“一切以真实的自然语言为出发点和最终落脚点”的理念,那就应该承认:向外有限突破,向内大举压缩,应该是一枚硬币的两面。’ 此乃金玉良言,掷地有声。

 

看标题,您八成以为这篇文章讲的是山西的乔家大院的事儿了吧?不是。这是一篇烧脑的技术贴。如果您既不是NLP专业人士也不是NLP爱好者,就不用往下看了。

咱说的这乔家大院,是当代语言学祖师爷乔姆斯基老爷子画下来的形式语言类型谱系划分格局。最外边一圈围墙,是0型文法,又叫短语结构文法,其对应的分析处理机制和图灵机等价,亦即图灵可计算的;第二圈围墙,是1型文法,又叫上下文相关文法,其对应的分析处理机制,时间复杂度是NP完全的;第三圈围墙,是2型文法,又叫上下文无关文法,其对应的分析处理机制,时间复杂度是多项式的,最坏情况下的最好渐进阶在输入句子长度的平方和立方之间;最里边一层围墙,是3型文法,又叫正则文法,其对应的分析处理机制和确定性有限状态自动机等价,时间复杂度是线性的。这一圈套一圈的,归纳整理下来,如下图所示:

乔老爷子建的这座大院,影响了几代人。影响包括这样两个方面:

第一个方面,我们可以称之为“外向恐惧情结”。因为第二圈的判定处理机制,时间复杂度是NP完全的,于是在NP=P还没有证明出来之前,第二圈之外似乎是禁区,没等碰到已经被宣判了死刑。这样,对自然语言的描述压力,全都集中到了第三圈围墙里面,也就是上下文无关文法。大家心知肚明自然语言具有上下文相关性,想要红杏出墙,但是因为出了围墙计算上就hold不住,也只好打消此念。0院点灯……1院点灯……大红灯笼高高挂,红灯停,闲人免出。

第二个方面,我们可以称之为“内向求全情结”。2型文法大行其道,取得了局部成功,也带来了一个坏风气,就是递归的滥用。当递归层数稍微加大,人类对于某些句式的可接受性就快速衰减至几近为0。比如,“我是县长派来的”没问题,“我是县长派来的派来的”就有点别扭,“我是县长派来的派来的派来的”就不太像人话了。而影响分析判定效率的绝大多数资源投入,都花在了应对这类“不像人话”的递归滥用上了。自然语言处理要想取得实用效果,处理的“线速”是硬道理。反思一下,我们人类的语言理解过程,也肯定是在“线速”范围之内。递归的滥用,起源于“向内求全情结”,也就是一心想覆盖第三圈围墙里面最犄角旮旯的区域,哪怕那是一个由“不像人话”的实例堆积起来的垃圾堆。

可以说,在自然语言处理领域,统计方法之所以在很长时间内压倒规则方法,在一定程度上,就是向外恐惧情结与向内求全情结叠加造成的。NLP领域内也有很多的仁人志士为打破这两个情结做了各种各样的努力。

先说向外恐惧情结。早就有人指出,瑞士高地德语里面有不能用上下文无关文法描述的语言现象。其实,在涉及到“分别”的表述时,汉语也同样。比如:“张三、李四、王五的年龄分别是25岁、32岁、27岁,出生地分别是武汉、成都、苏州。”这里“张三、李四、王五”构成一个名词列表,对这类列表的一般性句法表述,肯定是不定长的,但后面的两个“分别”携带的列表,虽然也是不定长的,但却需要跟前面这个列表的长度相等。这个相等的条件,上下文无关文法不能表达,必须走出第三圈围墙。

再说向内求全情结。追求“线速”的努力,在NLP领域一直没有停止过。从允许预读机制的LR(k)文法,到有限自动机堆叠,再到基于大型树库训练出来的、最终转化为Ngram模型(N=5甚至更大)的概率上下文无关文法分析器,甚至可以算上统计阵营里孤军深入自然语言深层处理的RNN/LSTM等等,都试图从2型文法中划出一个既有足够的语言学意义、又能达到线速处理效率的子类。可以说,凡是在与统计方法的搏杀中还能活下来的分析器,无一不是在某种程度上摆脱了向内求全情结、在基本尊重语言学规律基础上尽可能追求线速的努力达到相对成功的结果。这个经过限制的子类,比起第三圈围墙来,是大大地“压扁”了的。

如果认同“一切以真实的自然语言为出发点和最终落脚点”的理念,那就应该承认:向外有限突破,向内大举压缩,应该是一枚硬币的两面。我们希望,能够有一种形式化机制同时兼顾这两面。也就是说,我们理想中的自然语言句法的形式化描述机制,应该像一条穿越乔家大院的“毛毛虫”,如下图所示:

据笔者妄加猜测,这样的“毛毛虫”,可能有人已经找到,过一段时间自然会见分晓。

 
 

from http://blog.sina.com.cn/s/blog_729574a00102wf63.html

【相关】

【新智元:parsing 在希望的田野上】

【新智元:理论家的围墙和工程师的私货】

 乔姆斯基批判

泥沙龙笔记:再聊乔老爷的递归陷阱

泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(2/2)

《自然语言是递归的么?》

 语言创造简史

【置顶:立委科学网博客NLP博文一览(定期更新版)】  

http://blog.sciencenet.cn/blog-362400-950422.html

上一篇:【新智元笔记:反伊莉莎效应,人工智能的新概念】
下一篇:【新智元笔记:理论家的围墙和工程师的私货】

 

0

发表评论评论 (2 个评论)

删除 |赞[1]徐令予   2016-1-15 08:37
图片显示有问题。
 回复  : 谢谢,问题解决了。

2016-1-15 10:121 楼(回复楼主)

【新智元笔记:WSD与分析器,兼谈知识图谱与分析器】 屏蔽留存

【新智元笔记:WSD与分析器,兼谈知识图谱与分析器】

屏蔽已有 3292 次阅读 2015-12-4 01:07 |个人分类:立委科普|系统分类:教学心得| 知识图谱, WSD, parser, 分析器

我: 热闹啊。一路扫过去:  印象是这里大概是搞NLP和语义的人最集中的地儿了,托白老师的福。大树底下好乘凉。二是现在讨论很杂,大概是大家伙儿热情太高。
wang: 白老师在,人正常说话能看出破绽,那机器就无抬头日啊
@wei 昨天挺不好意思,耽误老师太晚
我: 昨天泼冷水,是从我个人角度
不知道你已经钻进去了,没有退路了,:)
wang: 李老师,精力也是令人佩服!还好,基本出来了啊
白: 权当预处理了,第0层。也符合伟哥的分层思想。
我: 那是有熬出头的意思,因为成果在望?我以前枪毙过一个加拿大的 WSD 公司。
wang: 前面我已经提到,不用太好的WSD也可以支持不错的句法分析,--这是我的结论。因为我的3级语义码识别,可85%的精度,而这是纯多义词情况比例,而正常句子一般47%的多义词。
嗯,李老师文中提过
我: 哦 文中说过了。人老了,记不住自己都说过啥。反正喷得多了,就成了维吾尔族姑娘,也不怕白老师们抓小辫子了。
白: WSD不是一个解决方案,只是可以和分析器形成流水作业的一道工序。当解决方案用就大错特错了。如果目标在深层的话。
wang: 白老师,确实皆通,句句问到点子上,白老师总结的对,是而这流水协同作用。
我: 关键的要害是,吃力不讨好
wang: 这样,全句的词义消歧92左右,包括单义词,这个正确率,确实不影响太多的句法分析。若算一级语义分类正确率的话,还要再高些。
我: WSD 肯定可以帮到句法,但是费工太大。世界上的事体,没有不能补偿的。譬如眼瞎了,耳朵就灵敏了。不用WSD,别的资源就来补偿了,也可以走得很远。实在绕不过去, 就 keep ambiguity untouched,等到语用的时候再对付。语用的时候,语义问题一下子缩小到一个子集,一个domain,所以原来大海一样的 WSD,就变得 tractable 了,有时甚至自然而然就消失了,不再是问题了。
wang: 嗯,我也不总是一下有解,有些留到后层处理。结果良好,可以接受。
同意,确实有些看似问题,后来不用解决也自然解决
白: 伟哥的意思,解空间是人定的,你搞不清是a还是b,就在论域里增加一个ab好了,后面自有机会把论域再缩小的。不要为了一定要在信息不足的条件下强行分出a还是b,把系统搞重。
我: @白硕 对,白老师说话清楚多了。
第 0 层的想法也对。因为 WSD 这东西可以依靠 density,而 density 是可以在一篇文章的 discourse 下做的。这个有拉动全局帮助局部的好处。
白: 嗯,董振东老师举的“薄熙come”的例子犹如在耳。
我: 这个加 ab 的状况对于完美主义者 心里觉得别扭。但其实,模糊是自然常见的状态,而清晰才是少见的人力的结果,而且还保不定会被翻盘。既然是自然状态,那么就应到不得不清晰的时候去对付它。而不是先清晰了,再去等着不断翻盘。
白: 这个就是量子力学里的叠加态,保留到最后坍缩。
wang: 嗯,刚才也谈到翻盘的,有些压根前期就清晰不了。
我: 不过 话说回来,如果先做 WSD 多少把太不像话的枝枝蔓蔓减除一些。然后做句法 应该还是有益的,只要小心就好。
wang: 嗯,的确减不少。比如一个句子多义词,按平均5个义项算,句子长了各种组合也有很大的规模。
白: 这个,人有时不是这样的。在信息不足时强行坍缩,遇到trigger再翻盘的情况,在段子里一把一把的。我们都被耍弄得很开心。
我: WSD 是个不一定需要结构就可以做个大概的东西。因为全盘的 density 对于 WSD 的影响,比局部的结构对它影响,一般来说,更大一些。这样,discourse 的威力就可以发挥了。道理就在,WSD 虽然是针对个体的词,但是一个 discourse 里面的词的共现,是有很自然的语义相谐性。n 个多义词在同一个 discourse,互相作用,互相消歧。
白: 我就给它定位第0层
他窗口很小,哪里看得见density。
wang: 我接受白老师定义的0层。
是这样的,况且更多是单义词。连续几个多义词在一起也有,处理也还可以,就是连续未登陆词,会出问题
白: 伟哥知道薄熙come的典故吗?
我: 不知道这个典故,但是似乎可以想见董老师的机智和幽默。跟董老师太熟了。
薄熙来了。
薄熙来走了
薄熙come了。
薄熙come走了。
类似这样的?
白: 说的是某汉语文章译成英语,文中出现了5次薄熙来,译成英语后,四次翻译成“Bo Xilai”,一次翻译成“Bo Xi Come”。
wang: 这样啊,
我: 那个系统还是蛮了不起的。
敢于对抗 one sense per discourse 的大原则。我们一般是不敢的。
wang: 从篇章提取关键核心词进行制导,会有改善,但也有改错的时候
我: 你反正是做粗线条,而且是 n-best。目标不是真地消歧,而是减负,譬如从原来的5个,减到3个(3-best)。
wang: 把句法分析结果进行分层,组成篇章理解框架,这样的高级层处理也许,比单句作战要好,---现阶段,只是想想,不敢干。
说的对。
白: 某年我在百度和谷歌翻译上测试周恩来、薄熙来、朱云来,效果依次递减。
wang: @白硕 专有名词词典,能及时跟进,可能就好很多
白: 分析器的lookahead,也是减负,一个道理。
wang: 我目前是选3个,有些很明显分数很大,基本取Top1
白: 但他只看cat不看subcat,典型的活人叫那啥憋死。
wang: 白老师说我?
白: 不是,说分析器,LR(k),包括我自己提出的角色反演算法,都是这个毛病。
wang: main cat 确实误导很多,
我: 哪家分析器只看 cat 不看 subcat?cat 算个球啊,太大太空太少。
白: 不是工程用的。@wei 
wang: 同意李老师,subcat 太细也不是好事,但是解说容易懂,
我: 想做分析器,基本靠 cat,那是 CL 教科书玩具系统留下的后遗症。
最大的后遗症来自:
S --》NP VP
NP --》 DT JJ* NN+
VP --》 V
VP --》 V NP
被这么灌输了一阵子,看自然语言就当儿戏了。所以才会有共识:lexicalist ,这可能是 NLP 领域这么多年最大的共识了。没有人不认为 不需要词典化。词典化的方案各个不同而已。
白: 这话分两截说,一是那么定义的问题要用那种系统去做,二是那么定义问题是不对的所以不该那么做。
wang: 我觉得CFG,自由太过了,加上cat 太粗 ,因此这个处理,很难跳出。加上词汇化,又太稀疏。词汇化n元开大了,稀疏问题相当严重。
白: cat是可自定义的,没有谁一定说非得NP,VP。关键是自定义work的,都要到词例化层级。
我: POS 的地位是阴错阳差弄出来的。
结果是大家误以为,必须做 POS,而且 assume POS 是个 solved problem,然后 在 POS 上做分析器,擦不完的屁股。
白: @wang 你这个n=5也是醉了。
wang: 我是语义码,同义词词林义项1400个,比几万,十万词构成规模,还是轻量级。
跳过POS我认为是个进步,但是后面的还是有很多问题要解决。
刘: 在SMT里面ngram的n=5甚至更多都不少见,现在的neural language model已经超过ngram了,rnn、lstm可以更好的利用远距离依赖。
wang: 刘老师晚上好!
刘: 你好!好久不见了
wang: 是啊,好久不见。白老师来大连,我不凑巧没见着,李老师太远 ,呵呵
白: 如果想要处理段子,还是激进一点好,太保守会消灭笑点的。
我: 觉得白老师有时也走火入魔,一天到晚想着段子,这个对做 real life NLP 是 “过度思维”。
白: @wei real life NLP并不是只有一种
我: 段子的事儿,可以启迪思维,但做的时候,就该放在一边。
白: 看应用场景
@刘群 处理WSD的RNN可以和处理句法的RNN流水。
我刚想说5-gram真是巧合,记得多年前你的学生和骆卫华同一天答辩那次,就是用的5-gram。
洪:
李维擂鼓佟佟佟,
分明书生老黄忠。
转战各群显神勇,
定军山找不轻松。
我: 最后一句湿不懂 @洪涛Tao
雷: @wei 老当益壮的意思
我: 哦 四大名著唯一没看下去的是《三国》,不知道定军山与黄忠的实体关系,这个需要 IE 一下就好了,看 “三国图谱” 一目了然。
洪: @wei 你需要找你的定军山,具体地说,找你的夏侯渊。
我: 特佩服读破万卷书的人,譬如洪涛这样的简直就是神人,或人神。
我从小读书就慢,所以读书少,要是在西方的教育体系下,早就淘汰了。
看我女儿上课,那教科书参考书都比砖头还厚,都是一目十行的人才能对付。

我看一个句子,要读三遍,咀嚼五遍,然后进一步退三步地反刍。

洪: 老李今天的作业,看在一个陌生领域,如何迅速建图谱

我: 图谱的问题已经解决,就是工作量了。这是说的真心话,不是胡吹。
图谱的抽取挖掘,比起舆情真地不是一个量级的难度。
舆情都做的,回头做图谱,没有做不成的,不管啥 domain,你给钱,我就做。
白: 可以和郝总PK了
wang: 各位老师,我先下了,各位多聊,温馨提示:白老师也要注意休息!各位聊好 88!
洪: @wei 要不说你老黄忠。可能比老黄忠还老黄忠,因为都不用诸葛亮使激将法。
我: 陌生领域做图谱,关键是要有一个好的分析器。只有这样,domain 的 porting 才可以做得很薄很快。而 分析器 基本是不变的,现成的,那剩下还有啥难的?
你 parsing 做浅了,IE 图谱就必须做深,反之亦然,parsing deep 了,IE 就是薄薄的一层。
反正不管到那个领域,语言还是那个语言,文法还是那个文法,只有词汇(术语,ontologyy)才有最大的差异。
洪: 国内大家都晚安。我也赶紧跑,否则十有八九成为老李刀下的夏侯渊
我: 晚安晚安。

【相关】

词义消歧(WSD)

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-940905.html

上一篇:衙门文化(后续)
下一篇:【新智元笔记:词类消歧没那么漂亮,也没那么重要】

 

3  谢平 黄永义 shenlu

发表评论评论 (1 个评论)

删除 |赞[1]黄永义   2015-12-4 17:57
讲得很形象!

有感于人工智能的火热 屏蔽留存

有感于人工智能的火热

屏蔽已有 3336 次阅读 2015-11-3 05:22 |个人分类:立委科普|系统分类:科研笔记| 人工智能, NLP

独: 从最近几天的文章来看,人工智能已经不仅仅是被炒作了,已经成了玄学,宗教,甚至邪教了。信之得永生,不信被淘汰,还让不让我们愉快的瞻仰了?

这是很有意思的社会现象。人工智能(AI)曾经那么神秘和流行,记得我刚入行的80年代,有同行开始把机器翻译做到电子词典里去,广告上非要加上人工智能的字样去吸引人。后来呢,机器学习热潮起来以后,人工智能作为老一代的玩具技术开始式微,名声越来越坏。

如今,机器学习"被"借尸还魂,趁着深度学习的热潮,合二为一,AI 一下子又成了香饽饽。所有关于AI的媒体宣传,全部似曾相识。AI 的历史上,总是这样大起大落。

机器学习当年躲 AI 唯恐不远,楚河汉界,泾渭分明。

可是从大众媒体来看,还是AI对于宣传好使。它刺激人的想象空间,与各种科幻紧密相连。最有意思的是,人类的忘性真大,再"被"臭的东西也可以重新芬芳起来。

如今,旧的 AI 已死,没有躲避的必要了。现在是可以利用它,但要忌讳的是过度消费。

如今,AI = DL,这是大多数人的潜意识,至少。

很多人以为规则类的 NLP 等同于旧的 AI,或者至少是其中的一个分支,所以 规则派 NLP 会随着旧 AI 寿终正寝。可是,恰恰在这一点,我有严格区分,因为事实不是这样子的。

旧AI就是60年代70年代的那些玩具系统,极端的domain specific,也只能做玩具实验。唯一不 domain specific 的旧 AI 是 cyc,这是旧 AI 的最大亮点,但如今也是 stuck there,原因不仅仅是常识的包罗万象使得知识形式化太过繁难(愚公移山总还有希望),更因为常识本身就是人类知识的缺省机制,无法单靠它打天下,更难以做推理。最后还有一个巨大的 overhead 的拖累。不排除很远的将来 cyc 这路有复兴的可能。

总之,旧AI面对的是世界知识,或者是专项知识(玩具世界所需要的),或者是常识(cyc),因此难以 scale up。NLP 则不同,NLP 面对的是语言学知识,而作为核心的句法是 tractable 的,因此可以 scale up。这种区别决定了其命运的不同。

做一个能 scale up,达到(甚至超过)一般人分析水平的 deep parser,已经不是梦想,而是现实了。

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-932959.html

上一篇:《立委科普:机器可以揭开双关语神秘的面纱》
下一篇:贴身小蜜的面纱和人工智能的奥秘

 

4  李竞 许培扬 刘洋 陆泽橼

发表评论评论 (2 个评论)

删除 回复 |赞[2]pksc   2015-11-4 19:25
人工智能热或许与这篇论文有关,虽然表面上不想承认http://www.ccf.org.cn/sites/ccf/hycjneirong.jsp?contentId=2608217341188

删除 回复 |赞[1]童勤业   2015-11-3 11:02
人工智能最大的特点是没有智能,人工智能如何会超过人呢?真是这样还需要研究大脑吗?

泥沙龙笔记:再聊世界语及其文化 屏蔽留存

泥沙龙笔记:再聊世界语及其文化

屏蔽已有 2006 次阅读 2015-10-4 04:01 |个人分类:立委科普|系统分类:人文社科| 文化, 语言学, 世界语

谈世界语和老柴老乔以及老马老恩: http://blog.sciencenet.cn/blog-362400-925052.html

南: 没注意到,你们居然谈esperanto……  这个群几乎是啥都有人在行,无语

白: 爱死不难读。

不是,白老师,是爱斯(才)不难读的: 《立委随笔:Esperanto: 爱斯不难读》 ,所以我几天就学会,两个月就拿它写论文了。这个事迹,我师姐写过,《师弟轶事:疯狂世界语

白: 哈哈, 爱得死去活来,自然不难读了

南: 爱死佩兰拖

Nick: @wei 你得编段世界语鼓词十八摸,让鹏爷场,否则他不会买账的。

不过,白老师说世界语是垃圾,我还是很诧异。一般搞语言的人,或者无视它,或者喜欢它,厌恶它则有点蹊跷。

南: 我初中时赶时髦学过一阵子,但是觉得没啥意思最终没有坚持下来。但奇怪的是我同时期就开始喜欢编程语言。

毛: 爱死不来读

我女儿学了,跟我说,有啥用啊。她会西班牙语,学起来容易。我说,没啥用,就是因为没用,学起来才没压力,没功利,纯粹是 fun 和对语言的新奇。现在我们父女对话,倒是不怕别人看到,反正一般人不懂。

南: 编程语言在解决问题过程中能体会到思维的美丽。世界语,我感觉不到语言表达的美丽。纯个人感觉,没有啥理由。

表达的美丽在我这里是表达的自由。我学语言学,对于世界语的表达丰富性体会特别深。同样的意思,爱怎么表达都可以。这个语言学特点我正经写过文章发表的,作为一个 chapter, 用世界语发表在 Li, Uej (Wei) 1991.
Lingvistikaj trajtoj de la lingvo internacia Esperanto. In Serta gratulatoria in honorem Juan Rgulo, Vol. IV. pp707-723. La Laguna: Universidad de La Laguna

不仅仅是语序的自由,而且其他的语言形式也是比“纯自然语言”来得丰富。因为纯自然语言常常是倚重一种形式,或者是倚重语缀,或者是倚重小词。二者同时倚重的很少,总是大体有个不同的比例,因此语言才分成不同的类型。但世界语是人造的,柴大师为了表达的丰富性,有意吸取尽可能多的不同语言形式,这样来自不同类型语言背景的人可以找到自己倚重的形式来表达。其结果是,同一个意思,表达的方式多于纯自然语言。语序的自由加上同一个意思既可以用小词来表达,也可以用语缀来表达,是世界语的一个特别有意思的语言学特点。

南: 可能是我还没有学到可以自由运用的地步,无法体会。

对于普通人,可能不会涉及那么多形式,可对于我,这种丰富性和表达的自由,让我觉得空前的语言学满足。

洪: 记得巴金一直提倡世界语

是 巴金是国内最老的世界语之友了,年轻时学过。同情和支持世界语的还有蔡元培 冰心 鲁迅 胡愈之 陈毅, 高尔基 托尔斯泰 罗曼罗兰。还有爱因斯坦 铁托。毛泽东也被忽悠了一阵子。见《中外名人论世界语》 。社会语言学家和出版家 陈原 可以流利用世界语演说 我听过 生动的很 也幽默。我的导师刘涌泉也是世界语之友。

一不小心,我后来也被编入《中国世界语名人录》里了,有本书收了我《我的世界语国》系列。

北: 我愿意做一个坚定地反对世界语的人

你和白老师的反对都没听到坚实的理由。不过是说因为人造的,显得单调,丑陋。这个理由是仁者见仁智者见智。

北: 对啊 人造的语言就是反人类的事

我觉得美是我真地感受到美,而且我有这个条件去领略其表达丰富性,我不仅能写,也能说。你觉得丑也是你的感受。

比起语音上类似的意大利语和法语,世界语听起来也的确单调多了。加上很多人说起来生硬,磕磕巴巴。因为老柴是在简洁和单调中玩平衡,所以会牺牲一些听觉的美感。

北: 没错 所以您宣传 我反对 两不妨碍。

但是好的世界语朗诵也真地很好听,国内有几位优秀的世界语电台的播音员。听他们说世界语是一种听觉上的享受。

毛: 世上本没有路,走的人多了,就成了路。

北: 那也只是您觉得好听 我相信觉得好听的人很少很少。实际上 我觉得法语也很难听。

不是每个人说都好听,毕竟大多数世界语者都是拿他做辅助工具。不过电台播音员和一些出身在世界语者家庭一生下来就说世界语的人,他们的世界语与其他语言从听觉上和语音上,基本处于同一个水平,绝对没有生硬和难听的感受。

北: 即使您说好听的播音员 我相信觉得好听的人仍然很少。我说的丑陋不是语音上的 是文化上和内涵上的单调。这种丑陋与人工设计出来的某某主义制度如出一辙。对于我来说 这都是突破底线的 完全无法接受的丑陋。或者说 与主义制度一样 是反人类的。

文化上没有民族的根基,这一点是有道理的。以前有说,民族的才是世界的。没有根基就显得贫乏。这个批评我同意有点道理。为了弥补这一点,世界语运动中,以及柴门霍夫本人,为世界语逐渐创造了另一种文化的基础。就是那种普世的、大同的、理想主义的文化。

北: 这种文化与某某运动一样 已经为世界人民所抛弃了。

本来语言是语言,文化是文化,可以勉强分开来。

毛: 好好,小孩子别吵了,再吵城管叔叔可就要过来了。

就是拿它纯粹当工具。有些理呆喜欢世界语,就讨厌其类似国际共产主义的文化背景。但是真正的世界语者却一直在强调理想主义的一面,有意识把这种文化基因,发扬光大。也正因为此,世界语也招来了一些非议。因为作为工具,顶多是好用不好用的争论,没人会带有那么大情绪去厌恶或热爱。但是一旦融入了文化因素,好恶就开始作怪。

我个人一方面是语言学家,拿它当做工具去领略其美妙。另一方面又是文傻和骨子里的大同主义者,或社会主义者。所以对其特有的世界大同文化背景心里是认同并为之兴奋的。柴门霍夫本人创造世界语就是有崇高的大同动机,这一点他多方面阐述过。

Philip: 是不是 Java 才是普世码农的共同语言?

北: 语言的文化属性远远强于其工具属性

所以从一开始,世界语就不单纯是工具,而是作为一种主义和运动的形式在发酵。

北: @Philip php才是最好的编程语言!

我要说的是,世界语文化上有先天缺陷,因为没有民族根基。但是它比起其他纯工具的方案,还是更多一些特别的文化基因,更具有人文主义情怀,世界语圈子里也弥漫这种人文格调和自我优越感,曾一度深深吸引我。这种文化就是世界大同的理想。

白: 站在印欧语视角的世界大同,就是世界印欧语化。

白老师,那也是没办法的事儿。世界语几乎做到了极限。技术上,很难找到一个方案,非印欧化,但又不能排斥印欧。毕竟,印欧语言在世界语言的比重和影响是无法超越的。

北: 所以我反对世界语就在这里 打着工具主义的旗号 行文化同化之实 大奸大恶不过如此。没有人需要这样一个普世方案。

白: 所以当我们面对看书、看电影、看演出的时候,世界语并不会给我们同一个看。并不照顾汉语母语者哪怕半分。

“照顾”了也,客观上看。譬如 数字系统与汉语是几乎完美一致的。不像法语,也不像英语(11到20不规范),世界语的数字系统与汉语几乎一一对应。另外,汉语的句子如果词对词翻译成世界语,比起翻译成任何其他印欧语言,其结果是更加顺达。因为世界语的表达力在小词和语缀间是兼容的。而大多数印欧语言是一种繁复的语缀形式。倚重的是语缀的繁复,结果就离汉语更加遥远。

RW: 所以,汉语更接近世界语?

白: @RW 不可能有这样的结论

世界语的语缀可以极其简单,很多时候可以用类似汉语的小词(主要是介词)来表达各种语义。比起印欧纯自然语言,汉语更接近世界语。这个结论没错。虽然世界语的来源是印欧语言的公约数,但是它与汉语的距离,比起任何单个的印欧自然语言的确更近。这个我可以做语言学的证明。

北: 有个有趣的问题 我国官方队世界语什么态度呢?

RW: 我想表达的是,汉语有汉语的优势

中国政府和党一直是支持世界语 把它作为一个御用的部门。中国老世界语者独立性很差,一直有点媚上的味道,也是生存之道,无可厚非。

RW: @wei 能否比较粗犷地说,世界语是拉丁语的简化版?

北: 奥 不过这些年知道世界语的人很少了

有人说,世界语是简化的拉丁语,这么说主要是从拉丁语在历史上是事实上的欧洲世界的书面共同语的角度,觉得世界语也抹平了印欧语言可以做共同语言。

严格地说,不是拉丁语的简化,因为拉丁语只是印欧语系三大旁系之一。而世界语的确是吸收了三大旁系(拉丁、日耳曼和斯拉夫)的所有的长处,并加以简化的。

白: 官方态度那是因为世界语很弱。如果像天主教或者绿色和平组织那样成为跨国大NGO,你试试。

柴门霍夫的天才怎么赞誉也不过分。

RW: 然后就和汉语神似? 可见汉语不差嘛

真地与汉语相对接近。

RW: 柴老精通中文吗?

但是那不是因为设计时候考量了汉藏的因素,柴大师不懂汉语的。

北: 这就是关键的差别之一 @wei 老师,我就认为语言只有特点,无所谓长处短处。

但是因为人类语言是有很多共性的,而柴门霍夫是追求共性的大师。追求语言形式的多样化, 在这种追求过程中,自然而然地,与汉语接近了。

RW: @wei 我绝对可以想象世界语的简洁和中文神似

@RW 你的想象没错,我可以验证。

RW: 我想说的是中文有它的先进性

根据我的语感和经验,的确有神似的方面。我以前的世界语语言学特点的论文中也举例过(举的还是文言的例子呢),好像也阐述过这个类似的意思。

RW: 我女儿可以说很好的拉丁语,非常优美。

中文的 “先进性”,简洁是一。印欧语言不简洁,是因为叠床架屋。这种叠床架屋的繁复语缀,有它严谨的一面,也有它不简洁的缺点。不简洁的结果是,冗余信息多,这个对交流和通讯工具是有好处的,可以抗干扰,消歧义。但是却失去了简洁的 “美”。

RW: 但中文也有其无法比拟的优美感!

这么说吧,在 90% 的情况下,冗余是不必要的,是多余的,但是作为语言的文法规定,你还是必须要冗余。但是在 10% 的时候,你会发现这些繁复带来的冗余是非常有利的。它消除了歧义。语言因此严谨。而中文倒是简洁,既没有语缀,而且小词也是能省就省,甚至语序也是有相当自由度的。这样一来,中文的表达显得特别简洁和自由,最大程度地不依赖显性的语言形式(语序,语缀,小词),而是靠上下文去”意合“。这对于人 通常不是问题,而且成就了简洁和自由的美,但是却丧失了严谨性。同时 在 10% 的情形下 造成了理解上的困扰。

RW: 但缺点也显而易见,中文的系统性越来越少。英语实际上是个很不错的平衡。语言不能太累赘,梵文有十几个变格,是很精确,但不能传下来。

同意,英语是个不错的平衡,就那么三四个语缀,词尾 -ed -ing -s,但是这三四个语缀可是顶了大用的。

世界语的词尾也不多,格也只有一个(宾格),比起拉丁语是简化太多了。

~~~~~~~~~~~~~~~

白: 目前看,五线谱成为音乐世界语,地位比爱死不难读牢固多了。

查: 直接对应钢琴的键 简单直接

笑得最后笑得最好,现在断言爱斯不难读的结局还为时过早。

大数据的信息化时代,不定哪一天人类突然聪明了,超越了国家政治和民族差异,要建立一个松散的全球共同体。那个时候要选一个有根基有实践有底蕴的中立语言作为 official 工作语言的话,除了 Esperanto,也没多少选项了。

白: 那时候机器翻译早就过关了吧,我对机器翻译过关的信心都比这个大。

你看如今 TPP,还有好多这个P那个P的经济共同体,弄得人眼花缭乱,本质上就是世界大同前的种种迹象。

机器翻译与世界语可以并行,二者互补,为世界大同服务。关键的一条是,选择任何自然语言都是明显偏向某些民族的,也是政治不正确的。Esperanto 的中立性,奠定了自己独一无二的有利地位。当然,历史上出现过200多种人造语方案,基本都是中立的,但是有这么多实践的人造自然语,唯此一家。

查: 世界语是yy吧 有正常人用吗?

我心中的理想社会与柴门霍夫完全相同:从此一个人一辈子只需要学两门语言。

一个是跟父母和社区自然而然学出来的母语,一个是面对世界需要学的国际辅助语言。

把现在学第二外语(英语、西班牙语等)的宝贵时间解放出来以后,人类的科技进步和生产力会大大解放。

反复的 benchmarks 结果表明,世界语的学习一般只需要我们现在学第二外语的五分之一的时间。

查: 世界语还是洗洗睡了吧 谁用啊 浪费那时间还不如学黎曼几何 虽然也没用

如果人的一辈子在最美好的青少年时代,平均为学英语等第二外语花费了一万小时的话,我们说的是每个人就会节约 8000 小时的青春。

查: 呵呵 你这是理科生思维@wei 

八小时算一天,那就是节省生命1000天,而且节省的是生命最美好的年华。

查: 学习英文也是一种享受。

对于愿意学其他外语作为享受的是另外一回事。这里说的是,为了生活和工作,不得不学的外语。

查: 假设你说流利的世界语 哪个学术会议你听得懂?

查理,乱弹琴,我说的是理想社会,你跟我说现实,不是捣乱么。

白: 机器翻译也是理想,到时候学一种语言就够了。

理想社会是需要n代人的过度最后确立的。

查: 理想社会那就用edi吧 还要语言干吗?

现实的不合理,是显然的。我为什么花那么多时间学英语?

白: 这不过是个技术问题。语言之间的大同,放到机器里去吧

就是一个工具而已,好用就行,花费的时间应该越少越好。

查:以后所有的交流都采用edifact 就不需要语言了@wei 

白: 不花时间岂不更好?

当然,机器翻译也是一个路。

也许真地就只要学一门语言就管一辈子了。比世界语的大同更好。

白: 大鼓可能还是翻译不了,不过大鼓也翻译不成世界语。

查: 联合国标准 不需要翻译@wei 

那都不是事儿。

以后的世界学一门以上的语言的人,都是专家。是真正爱好语言的,而不是被迫学习外语的人。这些人可以用来对付机器翻译难以胜任的任务。

查: 现在孩子会三门语言很普通。你对未来的预测是错的@wei 

也许吧。目前来看,机器翻译的大同胜过世界语大同的概率,更大一些。不过这两个预测都是建立在批判目前的强制性外语教学的基础之上,浪费了太多的青春。

有人天生喜欢学语言,就跟有人喜欢学多门乐器一样,另当别论,不能与被迫学外语以求生存相提并论。

最最可悲的是,很多人学外语劳而无功。赔了夫人折了兵,外语还是学不会,学不好。毛泽东就是一位,找再好的老师也没用,他老人家就不是学语言的材料。直到老,据说就是学会了几个孤单的不成句的哲学术语, 什么辩证法之类。

【相关博文】

泥沙龙笔记:聊一聊世界语及老柴老乔以及老马老恩 2015-10-03
泥沙龙笔记:三论世界语 2015-10-06

科学网—灵感有如神授,巧夺岂止天工

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-925135.html

上一篇:泥沙龙笔记:漫谈语言形式
下一篇:泥沙龙笔记:汉语就是一种 “裸奔” 的语言

 

2  刘全慧 icgwang

发表评论评论 (1 个评论)

删除 回复 |赞[1]icgwang   2015-10-11 11:05
“ 理想社会那就用edi吧 还要语言干吗?”,对,理想的就是用体外粉碎机咀嚼后直接倒肚里的快餐文化!甚至都不用吃,直接插上电源就灵感和能源都有了,要食物咀嚼和营养酵解干吗? 

《泥沙龙笔记:铿锵众人行,parsing 可以颠覆关键词吗?》 屏蔽留存

《泥沙龙笔记:铿锵众人行,parsing 可以颠覆关键词吗?》

屏蔽已有 3661 次阅读 2015-10-10 08:52 |个人分类:立委科普|系统分类:科研笔记| NLP, parsing, 关键词, 结构, 自然语言

我: 汉语的躶体准成语:你不理财,财不理你。穿上小词的衣服就是:你如果不理财,财就不理你。(如果 ... 就 ...)。也可以穿戴更多一点:如果你不理财的话,那么财就不会理你。(如果 ... 的话 / 如果 ... 那么 ... 等。)穿得越多,越没有歧义,越容易理解,当然也越容易电脑处理。可是国人觉得那样不简约,不能显示我语之性感。

现代汉语的框式结构是非常漂亮的小词结构,漂亮在它不仅给了左括号,也没忘记右括号,这样一来,边界歧义的问题就消弭了。这个框式手段,是比西方语言更高明的显性形式,应予大力推广,以彰显我语严谨的一面。框式结构更多的例子:因为 ... 所以;虽然 ... 但是;在 ... 中/上/下/间。

顾: 英语也有省略小词: no pain, no gain.
我: 语言是线性表达,因此常常有边界不清晰的问题存在。数学语言(譬如公式)也是线性的,想到的办法就是括号。汉语不知道哪个年代发明的这个框式手段,基本就是括号的意思。这个很高明。
顾: 而且似乎某些高能人群倾向于省略小词。例如华尔街投行和硅谷人士的某些交流中,如果小词太多反而被鄙视,被认为不简洁不性感,这大概是人性,不是中国独有。举一例,出自Liar's Poker, 某trader跳槽,老板以忠诚挽留,他回答,“You want loyalty, hire a cocker spaniel”
我: 有了框式结构,语言不仅清晰了,而且灵活了。灵活是因为左右括号如此明晰,以致于可以放宽括号内成分的句法条件。

Nick: 可以处理括号的都是什么自动机?我理论忘光了。

我:多层括号需要的是中心递归,就是乔姆斯基的 CFG,有限状态不能对付n层括号。上面的汉语案例大多只使用单层括号,没有用到括号的嵌套("如果...的话" 与 “如果......那么”可以算有一层嵌套,左括号共用一个小词“如果”,右括号不同,可以放在两个模块层去做),不需要栈结构,不需要递归和回溯。

白: 有限状态加计数器,是毛毛虫,可以对付括号,保证线速。
顾: 注意这里主从句之间是逗号,不是问号。我刚才特定去书里查对了没错。
RW: long time no see 是华尔街英语的典范!
我: 成语不怕,成语都是可枚举的、有限的,就是个存贮记忆问题。成语的极致就是编码,包括密电码,acronyms 如 IBM,ABC 就是密码式成语。成语是NLP中不用讨论的话题。可以讨论的是,产生式“类成语”,譬如“一X就Y”(如 一抓就灵,一放就乱), "不X不Y"(如,不见不散,不服不行)。这个有点讨厌,因为词典对付不了,可是又不符合一般的句法,通常用小的规则来对付。(小规则是大规则的例外。)
顾: 但某些高能人群,尤其是科学家和教授,尤其是在思辨场合下,小词就少有省略。而汉语在写数学教材时,也多用小词。因此是否用小词跟语言用途也有关,愚以为不能否认汉语追求简洁优美是弱点,也不能认为汉语不善加小词或准确表达概念和逻辑。
我: 还是有个程度吧,汉语小词常可省略,总体上就是一个爱躶奔的东方美女。
顾: 偶爱裸体美女。
我: 偶也爱躶体美女,东方的尤甚,因为亲切,可是 ...... 欧化句式侵入后,白话文运动以来,可以看到一种加小词的趋向,小词在汉语发展道路上开始产生影响了。是吃了伊甸园的智慧树的果子知羞了?

顾: long time no see据认为是汉语入侵英语之后产生的,只是大家觉得自然,英美人也用了。这个语句困扰我很久,在网上查了据说是如此,但未必是严肃考证。

我: long time no see 是最直接的展示我东方躶体美女的一个案例。西人突然悟过来,原来语言可以如此简洁,这样地不遮不掩啊。他们觉得可以接受,是因为赶巧这对应了一个常用的语用(pragmatic)场景,朋友见面时候的套话之一,不分中外。在有语用的帮助下,句法可以马虎一些,这也是这类新成语(熟语)形成的背后理由。
RW: 我只在老外和中国人打招呼时听他们说过,没见过他们互相之间用过。因此,我觉得他们没有接受这是一个常规用法。
顾: 另外,我觉得如果要分析理解语言,也不能拘泥于句子结构。句子之间的含义同样重要,如果过于依赖小词,可能难以将句中和句间的关联统一理解。而如果看句子之间的联系理解,英文在句间小词也很少用。

我: 用语义(隐性形式)当然好,但是不容易写一个形式化的系统去 parse 啊。用小词(显性形式)的话,那就好办多了。

白: 伟哥还是说说“我是县长”是怎么hold住的吧。问题的实质是,有限状态自动机没有lookahead 能力,如果语义跟着同步走,有很多构造(合一)会是明显浪费的。

Nick: @wei 白老师问:"我是县长派来的"

我: “的字结构”很讨厌。大体上就是英语的 what-clause 对应的句法形式。但比 what-clause 还难缠,因为该死 “的” 字太 overloaded 了。
雷: 中心嵌套也可以是线性的?

白: 某些可以是,全集不是。比如,a^nb^n,可以线性parse。

我: 当然可以线性,除非嵌套是无限层。如果是无限层,栈也要溢出的,无论memory多大。中心嵌套本质上不是 ”人话“,这个我和白老师有共识。乔姆斯基之谬,以此为最。

雷: 问题是有些text有冷不丁的多层。有些国内的新闻稿有。
我: 举例,看是人话还是数学?
雷: 当然我们可以排除这些极少数。有些翻译有。
我: 用递归回溯对付嵌套,不过是理论上的漂亮,没有多少实践的意义。
白: 记得everybody likes somebody转换成否定式很难搞。基本归到不是人话一类。
我: 不是人话,就不理睬它!语言中要抓的现象那么多,什么时候能轮到中心嵌套?
白: “我是县长派来的”,是人话,还没揭锅呢
我: I am the one who was sent by the county mayor,这大体是对应的英语吧。英语的 what-clause 只能用于物,不能用于人。“苹果是县长送来的”,the apple is what the county mayor sent
白: 我的问题不是翻译,是有限状态木有lookahead能力,局部生成“我是县长”的问题咋避免。
我: 避免不难。不过就是加大规则的长度而已。有限状态的规则可以任意加长后条件(post-condition)。至于前条件(precondition)比较麻烦,因为前条件改变了 matching 的起点,容易乱套。
白: 短的规则还在啊。根据哪一条,长的压制短的?
我: 对,叫 longest principle,这是所有matching的基本原则,无论是词典查询还是模式匹配。有两个方法用后条件(1)加长后条件,以确保 pattern 本身是要抓取的对象,譬如第一近似就是 check 县长后面不是动词。(2)加长后条件来排除例外:这样的规则是没有结论的规则,就是为了排除例外的。这样一来,下一条短规则就可以成功,而且没有误抓的困恼了
白: 除非你那已经不是纯FSA了。纯FSA只看当前吃进字符做决策。往后check就相当于LR(k)了。
我: 我的 FSA 从来不是纯的,是 FSA++。这个昨天就说过的,我随时要求我的工程师去对这个 formalism 做很多的扩展,直到他们抱怨影响了线性速度为止。
白: 那就不奇怪了。
我: 在做 NLP 平台过程中,会有很多的各式扩展才好应对自然语言parsing的需要。很多人以为一个标准的 formalism 拿来用就好了,那哪行?也因此,编译器只能是内部自己实现(built in house),而不能使用 off-shelf 的,因为后者你根本无法扩充,也难以优化速度。
雷: LR或RR都是线性的。
白: 对。我还以为发生奇迹了呢。
我: 不是奇迹么?抓到老鼠就是奇迹。
白:套用一句潮话:这不科学呀。
我: 如果标准的 formalism 不能碰的话,那么有经验的设计师与一个新毕业生比,就没有任何优势了。我们说生姜老的辣,就是因为老生姜可以很容易把经验的需要转化成软件的 specs,而新手搞不清如何去定义。白老师,”这不科学啊“ 的批评声音我常听到。一个是来自我太太,在日常生活中,她一个本科生经常对我这个首席(科学家)呵斥,你一点不讲科学!另一个是来自我一个短暂时期的老板,这个老板是学界主流,她看我写的 proposal,说这里面缺乏 science。
我心里说,邓小平也没有 science,他不是把一个大国也治理了。烹小鲜而已。
白: 白猫黑猫拿到耗子都是科学的,狗拿到耗子就略微那个了点,所以澄清不是狗拿的还是很有必要的。
雷: @wei 白老师追求的是形式美。你的是工程美。两者一直你拖我拉的往前走。
我: 狗啊猫啊,是主观定位,无所谓呀,FSA,还是 FSA++,标签而已。我看自然语言是俯视的,成了习惯。太阳底下没有新鲜事儿,因为见到的语言现象太多了。
白: 总是要交流的呀
我: 当然,也不能乱来,前提是任何"不科学"的扩展,不能最后引致灾难:一个是速度的灾难。一个是不可维护、不可持续发展的灾难。如果这两点可以掌控,就问题不大了。对速度我很敏感,愿意为此自我束缚手脚,只要证明某个扩展影响了线性速度的本性,我就投降,然后选择折衷方案。
雷: 抛弃中心嵌套,cfg就是线性的。
我: cfg 的痛点还不是中心嵌套导致的速度问题,根本缺陷在单层,眉毛鼻子一把抓,不分共性与个性,这才是致命的。
白: 我天天玩工程,不过我们的工程师如果突然说他使用了某个形式化机制但其实不纯粹,我还是会跟他较真的。狗肉好吃,不能成为挂羊头的理由。
Nick: 赞同白老师。spagetti对大工程不行。
我: 你们是主流,站着说话不腰疼。不挂羊头, 语言学家早死绝了。我17个政府项目全部是挂羊头得到的。
Nick: 伟哥可能有绝活,不愿说。
我: 绝活有,细节不谈,谈原则。原则就是,你要做精算师或工程师的老板,而不是相反。绝大多数语言学家没这个底气,只能打下手,做资料员。
雷: nlp的难点或苦活不在parsing,而是知识工程方面的整合
白: 上下通气
雷: 呵呵,形象
白: 米国股市里有知识工程概念股么?

顾: 这是大数据啊!Data Thinker可以。。。(此处省略一千字)

Nick: 中国有?

白: 木有。讯飞在往这方面发展,但眼下不是。

我: 挂羊头卖狗肉的故事在这里:《在美国写基金申请的酸甜苦辣》。Quote:

说到含金量,其实很多课题,特别是面向应用的课题,并不是什么高精尖的火箭技术(not rocket science),不可能要求一个申请预示某种突破。撰写申请的人是游说方,有责任 highlight 自己的提议里面的亮点,谈方案远景的时候少不了这个突破那个革命的说辞,多少迎合了政府主管部门好大喜功的心态,但实际上很少有多少研究项目会包含那么多闪光的思想和科学研究的革命性转变。(纯科学的研究,突破也不多吧,更何况应用型研究。)应用领域“奇迹”的发生往往植根于细节的积累(所谓 the Devil is in the details),而不是原理上的突破。而对于问题领域的细节,我是有把握的。这是我的长处,也是我提出科研方案比较让人信服的原因。有的时候,不得不有迎合“时尚”的考量,譬如领域里正流行 bootstrapping 等机器自学习的算法,虽然很不成熟,难以解决实际问题,但是基金报告列上它对申请的批准是有益的。不用担心所提议的听上去时尚的方案最后不工作,由于科研的探索性质,最终的解决方案完全可以是另一种路子。说直白了就是,挂羊头卖狗肉不是诚实的科研态度,但是羊头狗头都挂上以后再卖狗肉就没有问题。绝不可以一棵树上吊死。

我: 不挂羊头,必死无疑,生存之道决定的。同意雷司令 parsing 问题解决后,真正的关键在挖掘(知识工程)以及最终建立预测模型。

白:NLP应用场景是很考验想象力的。

我: 非结构数据突然结构化了。面对结构的海洋,传统的数据挖掘需要拓展才好应对。挖掘目前做得很浅,就是 retrieval 里面的一个小东西,凑合事儿。parsing 是见树,mining 才见林。以前没有条件见林子 mining 没有实验基地,限制了它的发展和深入。
昨天与xiaoyun还谈到这个,我们都觉得,哪怕只利用 parsing 的一个部分,譬如只做SVO(主谓宾),理论上也是对所有现存关键词技术驱动的应用的一个颠覆,因为突然多了一个维度。以前所做的不过是 baseline 而已,如今只要有大数据、大计算、大存储,再加上mining,那么凡是关键词技术生存的地方都可以革命,包括搜索、分类、聚合为基础的等等的应用。这个总体趋向是明晰的,条件也基本成熟,现在是考验想象力的时候,然后就是脚踏实地一个应用一个应用的去做
白: 还是要想新的商业模式,革关键词的命,从商业角度未必成立。关键词是拿来卖的,你把人命革了,卖什么?总要有个替代品吧,总不会卖FSA吧。
我: 革命不是杀头,parsing 对关键词,就是爱因斯坦对牛顿。到了语义语用层,关键词,或者叫驱动词(driving words),也是不可或缺的。
Nick: 卖regex到也不见得不可能
我: 抽取挖掘搜索,往往需要两条腿,一条是关键词,另一条就是结构。
如果 regex 可以卖了,离开直接卖 parse 就不远了。
其实我们的 power users 已经开始要求直接用简化的 parse 去满足他的信息需求了。
用户是可以训练出来的。我们整整一代人都被关键词训练过、洗脑过了。以致于当自然语言接口技术刚刚尝试的时候,不少用户抱怨说:关键词多简单,跟机器说话,要自然语言干嘛?
Power users 在简单的关键词之上用 boolean query 的很多,有些 query 看上去又臭又长又难看,不也忍受了。也见到过创业者,就是用 domain ontology 加上 boolean 作为技术基础,也满足了一个 niche market 的需求而生存的。
Nick: 这是说的哪家公司?
我: 两年前在北京调研时候遇到的,名字忘记了。他们一点也不保守,把 query 直接给我们看,我心想这是一目了然啊,很容易复制的。可贵的是,他们先一步找到了那个市场需求,定义了那个 niche market,也找到了客户,后去就是那些 queries 的库不断更新维护而已。

我: @Nick 说,spagetti对大工程不行。Google 搜索是大工程吧,看一下里面的 spagetti: http://blog.sciencenet.cn/blog-362400-804469.html

【相关博文】

      朝华午拾:在美国写基金申请的酸甜苦辣

《泥沙龙笔记:铿锵三人行》 2015-10-08

泥沙龙笔记:从 sparse data 再论parsing乃是NLP应用的核武器

泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索

 泥沙龙笔记:汉语就是一种 “裸奔” 的语言

 泥沙龙笔记:漫谈语言形式

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-927003.html

上一篇:社媒大数据的困境:微信的风行导致舆情的碎片化
下一篇:【置顶:《泥沙龙笔记》汇总一览】

 

8  谢平 黄永义 赵凤光 shenlu bridgeneer xiyouxiyou biofans icgwang

发表评论评论 (4 个评论)

删除 回复 |赞[4]icgwang   2015-10-11 10:06
——哪怕是(名)词的层面也要加冠词“定冠”,比较讲究服饰! 

删除 回复 |赞[3]icgwang   2015-10-11 10:03
与其说汉语裸奔,不如说西语尸化,是一种尸化后并且入殓了的语言,小词就是入殓的饰品。

删除 回复 |赞[2]icgwang   2015-10-11 09:59
no pain no gain ,类的裸式,恰好是语调,重音类在发挥作用的情形.汉字有调性,西语词没有.重音也只在单词层面起作用,没法想汉语句子那样在句子里的单词间游弋循环.

删除 回复 |赞[1]xiyouxiyou   2015-10-10 17:01
no pain no gain 还是no pay no gain?我只知道no zuo no die 

泥沙龙笔记:《Ruminations on NLP and Communism》 屏蔽留存

泥沙龙笔记:《Ruminations on NLP and Communism》

屏蔽已有 1831 次阅读 2015-7-4 00:36 |个人分类:立委科普|系统分类:人文社科| 科普

我的科学网博客,各种专栏,五花八门。但有两个专栏与nlp有关,一个叫【立委科普】,一个叫【社媒挖掘】。一个偏理论,一个偏实践。两个加在一起有200多篇博客了,欢迎各位有闲光临指教。除了nlp,我的专栏【朝华午拾】可以推荐一下,那里多是人生小故事,放在历史的框架下,有传奇味道。

:[强]常去读的

Nick:@wei 毛老是用微信写书,你是用微信写博客。洪爷是微信写史诗

刚整理的笔记在:泥沙龙笔记:再聊乔老爷的递归陷阱

毛: 你把这些博客梳理贯通一下,就是挺好一本关于应用语言学的随笔,比方说 《Ruminations on NLP》。

已经试图用超链把博文都连接成图谱了。有些差不多成了车轱辘话。跟洪爷的诗看齐,洪爷这么写下去,但凡是大千世界的话题,没有不入他诗的,你说啥,他的诗库里都能找着n个描述。

洪爷博学,无所不诗。我是砖家,只论NLP(Natural Language Processing),这么写下去,只要是NLP的话题,我的库里也都有n个论述,从不同角度反复论,不怕redundancy,因为人的记性很差,只有在冗余的条件下,庶几可以传达。

其实,乔姆斯基和马克思都有这个毛病,车轱辘话反复论。当年看砖头一般厚重的《资本论》大部头,才体会到,同一个论点,原来可以如此反复唠叨。苦口婆心啊。否则如何成事的呢?

马克思的唠叨导致了20世纪的共产革命,席卷了大半个地球,影响了人类的三分之二,持续半个多世纪,牺牲了无数人,也唤醒了无数人。

毛: [偷笑] 你梳理一下,把它们union在一起,不就得了?

早就梳理过了。

梳理在这里:【立委NLP相关博文汇总一览】: 1. 关于NLP方法论; 2. 关于NLP分析;  3. 关于NLP抽取; 4.关于NLP挖掘;  5. 关于NLP应用; 6. 关于 Chinese NLP; 7. 关于NLP的社会媒体大数据舆情挖掘; 8. 关于NLP的掌故趣闻。

够勤勉了吧,这两天去更新一下这个图谱。

余致力NLP凡n多年,其目的在求交流之通畅,信息之自由,语言之归一,世界之大同。积n年之经验,深知欲达到此目的,必须启蒙后进,科学普及,同心协力,共建通天之塔,因作文鼓而吹之。处理尚未成功,同志仍需努力。

丁: @wei 没有共产主义,就没有今天的福利社会,欧美不会像今天那样好

说的是。就是牺牲太大了。
应该可以有一个牺牲较少,也达到资本(商品社会)与福利(社会主义)平衡的社会的途径吧。当然,历史无法假设。

马恩列斯毛,马恩是理论家,理论家永远免罪,思维无禁区。后三位可能就不是那么容易可以免责了,这点与希特勒类似。希特勒也促进了人类进步,第三次大战一直没来,与希特勒给 人类的教训有关。共产风和纳粹都是如此。

毛: 牺牲的多少且不论,不公平的是:牺牲的和享受的不是同一群人。天下事最不公平者莫过于杀鸡儆猴。你杀猴儆猴也可,打猴儆猴也罢,干吗要把无助的鸡给牺牲了,而且还一杀就是一大片。

 
R: 第三次世界大战没来,很大程度上是因为核武器的出现

毛: 核武器的使用倒真是杀猴儆猴,日本人发动战争,就用在日本人头上。

洪: 边听歌剧Doctor Atomic边打油

《尼克松访华》总听,// Nixon in China— John Adams的现代歌剧
爱屋及乌新作寻。
《原子弹博士》也订,// Doctor Atomic
刚刚收到就放映。

奥本海默科学人,
UCBerkeley书生。
二战主持曼哈顿,
一帆风顺核弹成。

婴儿出世不由人,
fatman and little boy两孪生。
奥氏只管造其成,
难管之后其命运。

飞机载孩两次行,
广岛长崎分别扔。
两城变成蘑菇云,
魔力惊骇天外神。

人类暴力级别升,
全然毁灭居民城。
世界大战戛然停,
日本投降签协定。

此后世界无安宁,
笼罩核武恐惧症。
奥氏郁郁志难申,
六十二岁即走人。

奥氏曾告杜鲁门:
科学竟也沾血腥!
反战反核投热诚,
晚年活动为和平。

看一小时天色昏,
全家吃饭要出门。
我就关机按暂停,
另找时间再聆听。

English version at:

"Ruminations on NLP and Communism" 2015-07-04

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-902697.html

上一篇:人机接口是机器人的面子
下一篇:"Ruminations on NLP and Communism"

泥沙龙笔记:真伪结构歧义的对策(2/2) 屏蔽留存

屏蔽已有 3054 次阅读 2015-9-21 21:21 |个人分类:立委科普|系统分类:科普集锦| NLP, parsing, ambiguity, 结构歧义, 伪歧义

泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(2/2)

【立委按】读者的反应是,这次笔记是《立委科普》专栏中最深奥的。看得稀里糊涂,不明觉厉。的确,没有专业背景不行,这两篇不算严格意义的科普,当然也不是科唬,而是严肃的探讨,希望对后学和同仁更有价值。

好了,咱们接着聊,第二章:为什么多层系统,尤其是 多层 FSAs ,不受伪歧义的困扰?

白: 只要证明毛毛虫以外不是人话,就只管放心玩毛毛虫好了。

头头绪绪,怎么讲好呢?

白: 伪歧义跟规则的递归形式无关,跟规则的词例化水平和压制机制有关。但是,要hold住十万百万量级的规则,CFG一开始就必须被排除在外。

对。

说到底是规则的个性与共性关系的处理,这是关键。这个不是我的发现,我的导师刘倬先生早年就一再强调这个。刘老师的系统命名为 专家词典(expert lexicon )系统,就是因为我们把个性的词典规则与共性的句法规则分开了,并且在个性与共性之间建立了一种有机的转换机制。

白老师说得对,单层的 CFG 基本是死路。眉毛胡子一把抓,甚至所谓词典主义的 CFG 流派,譬如 HPSG 也不能幸免,不出伪歧义才怪呢。如果规则量小,做一个玩具,问题不严重。如果面对真实自然语言,要应对不同抽象度的种种语言现象,单层的一锅炒的parsing,没有办法避免这种困扰。

白: HPSG 之类可以依托树做语义信息整合,但是在树本身的选择数目都在爆炸时,这种整合是不能指望的。

可以说得具体一点来阐释其中道理。分两个小节来谈,第一节谈多层系统中,单层内部的伪歧义问题。第二节谈多层之间的伪歧义问题。

白: 但是仍然困惑的是某种结构化的压制,比如“美国和中国的经济”’。“张三和李四的媳妇”

如果这两种伪歧义都有自然的应对方式,那么伪歧义不是困扰就理所当然了。待会儿就讲解白老师的例子。我这人啰嗦,学文科的,生存下来不容易,各位包涵了。说到现在,从白老师的眼中,都是偏离主题核心了的。

白: 抽象的并列,天然优越于抽象的长短不齐。似乎并不关乎词例,词例化的、次范畴化的规则,都好理解。抽象的结构化压制,处于什么地位呢?

但是难得大家围坐在一起,忍不住借题发挥一下,顺带进一步阐释了上次“上海会面”上的论点:我对乔老爷既爱且恨,爱他批判单层统计派的一针见血;恨他一竿子打翻一船人,敌我不分,重理论轻事实。

白: 是因爱成恨好吧

我们实际上半条身子在统计派的船上,大家都是有限状态;半条身子在语言派船上,毕竟我们不是单层的有限状态。统计派的有限状态的典型表现 ngram 实际上是 n-word,而我们的有限状态是真正的 ngram,这个”gram“ 就是刘老师当年一再强调的 “句素”,是一个动态的句法单位,可以是词、短语或者小句,随 parsing 的阶段而定。这样的 ngram 是统计派难以企及的,因为它反映的是真正的语言学,统计学家天然不懂。

白: 世界上只有深层派和浅层派,这是复旦美女教授教导的。我认为只要touch深层,无论什么派都会殊途同归。

先说单层内部的伪歧义。这个白老师心里应该没有疑问了,不过为了完整还是先讲它。

单层的有限状态说到底就是一个 regex (正则表达式),只不过面对的单位根据语言层次的不同而不同而已。如果是 POS tagging 这种浅层,面对的单位就是 words (or tokens)。如果是句法关系的解析层,面对的单位就是短语(可以看作是头词,它代表了整个短语,“吃掉”了前后修饰语)。

对于单层,有两种结构歧义,一种是伪歧义,占多数;一种是真歧义,占少数,但存在。单层系统里面的每一条规则都是一个 pattern,一个缩小版的局部 parser (mini-parsing),试图模式匹配句子中的一个字符子串(sub-string)。歧义的发生就是 n 个 patterns 对相同的输入文句的字符子串都成功了。

白: 然后?

这是难免的:因为描述语言现象的规则条件总是依据不同的侧面来描述,每条规则涵盖的集合可能与其他规则涵盖的集合相交。规则越多,相交面越大。每条规则的真正价值在于其与其他规则不相交的那个部分,是那个部分使得 parsing 越来越强大,涵盖的现象越来越多。至于相交的部分,结论一致的规则表现为伪歧义,这是多数情形。结论不一致的规则如果相交则是真歧义。这时候,需要一种规则的优先机制,让语言学家来定,哪条规则优于其他规则:规则成为一个有不同优先度的层级体系(hierarchy)。

白: 在线?

FSA Compiler 事先编译好,是 FSA Runner 在线做选择。

白: 那要隐含规则的优先关系,不能初一十五不一样。

个性的现象优先度最高。共性的现象是默认,优先度最低。这个很自然。一般来说,语言学家大多有这个起码的悟性,什么是个性现象,什么是共性。

白: ”张三的女儿和李四的儿子的婚事“

如果优先语感不够,那么在调试规则过程中,语言数据和bugs会提请语言工作者的注意,使得他们对规则做有意义的优先区分,所谓数据制导 (data-driven) 的开发。

白: specificity决定priotity,这是个铁律。在非单调推理中也是如此。

这个优先权机制是所有实用系统的题中应有之意。

优先级别太多太繁,人也受不了。实际情形是,根本不用太多的优先级别区分,只要三五个级别、最多八九个优先级别的区分就足够了。

白: 我还是觉得优先级初一十五不一样的时候一定会发生,而且统计会在这里派上用处。

一切是数据制导,开发和调试的过程自然做到了这种区分。而更多的是不做优先区分的歧义,恰好就落在了原来的伪歧义的区间里面。这时候,虽然有n条规则都产生了 local parses,他们之间没有优先,那就随机选取好了,因为他们之间没有 semantic 的区别价值。

换句话说,真歧义,归优先级别控制,是数据制导的、intuitive 的。伪歧义则随机选取。这一切是那么自然,以至于从业者根本就没有真正意识到这种事情可能成为理论上的困扰。

关于初一15的问题,以及白老师的具体实例,等到我们简单阐释第二节多层之间的伪歧义的应对以后,可以演示。

第二章第二节,多层之间可能的真伪歧义之区分应对。

对多层之间的真歧义,不外是围追堵截,这样的应对策略在开发过程中也是自然的、intuitive 的,数据制导,顺风顺水。围追堵截从多层上讲,可以在前,也可以在后。在前的是,先扫掉例外,再用通则。在后的是先做默认,然后再做修补(改正,patching)。道理都是一样的,就是处理好个性和共性的关系。如果系统再考究一点,还可以在个性中调用共性,这个发明曾经是刘老师 Expert Lexicon 设计中最得意的创新之一。个性里面可以包括专业知识,甚至常识(根据应用需要),共性里面就是句法模型之间的变式。

好,理论上的阐释就到此了,接下去可以看实例,接点地气。白老师,你要从哪个实例说起?我要求实例,加问题的解释。

白硕: “中国和美国的经济”。这就是我说的初一十五不一样。

这是真的结构歧义,Conjoin (联合结构)歧义 。在语言外知识没带入前,就好比西方语言中的 PP attachement 歧义。结构歧义是NLP的主要难题之一。Conjoin 歧义是典型的结构歧义,其他的还有 “的”字结构的歧义。这些歧义在句法层无解,纯粹的句法应该是允许二者的共存(输出 non-deterministic parses),理论上如此。句法的目标只是区分出这是(真)歧义(而这一点在不受伪歧义困扰的多层系统中不难),然后由语义模块来消歧。理论上,句法和语义/知识 是这么分家的。但是实践中,我们是把零散的语义和知识暗度陈仓地代入句法,以便在 parsing 中一举消歧。

白: 一个不杀当然省事。但是应该有个缺省优先的。

缺省优先由”大数据“定,原则上。统计可以提供启发(heuristics)。

白: 有次范畴就能做出缺省优先。不需要数据。

当然。次范畴就是小规则,小规则优先于大规则。语言规则中,大类的规则(POS-based rules)最粗线条,是默认规则,不涉及具体的次范畴(广义的subcat)。subcat based 的其次。sub-subcat 再其次。一路下推,可以到利用直接量(词驱动)的规则,那是最优先最具体的,包括成语和固定搭配。

白: 次范畴对齐的优先于不对齐的,就联合结构而言。但是,about 次范畴,理论上有太多的层。

那是,联合结构消歧中的次范畴不是很好用,因为这涉及词的语义类的层级体系。不管是 WordNet 还是董老师的 HowNet,里面的 taxonomy 可以很深,统统用来作为次范畴,不太现实。但理论上是这样使用的。

白: 再一个,“张三的女儿和李四的儿子的婚事”。这个也是真歧义吗?

上例的问题和难点,白老师请说明。"的"字结构的 scope歧义加上联合结构的歧义的叠加现象?

白: 上例是处理深度的问题,各自理解即可。歧义叠加,只有更加歧义了。可是实际相反,叠加限制了歧义。

在分层处理中,我们是这样做的:

(1)Basic NP, 最基本NP层的结果是:NP【张三】 的 NP【女儿】 和 NP【李四】 的NP【儿子】 的 NP【婚事】

(2)Basic XandY, 最基本的联合结构层:在这个层次,如果条件宽,就可能发生联合错误,错把 【女儿 和 李四】 联合起来。这个条件可以是 HUMAN,二者都符合。而且在 95% 的现象中,这个条件是合适的。如果条件严的话,譬如用 RELATIVES 这个语义次范畴(HUMAN的下位概念),而不是 HUMAN 来限定的话,这个句子在这一层的错误就避免了。

那么具体开发中到底如何掌握呢,这实际上决定于设定的目标,没有一定之规。做细总是可以做到更好质量,大不了多加几层 NP 和 XandY 的模块(FSAs),但还是增加了开发和维护的负担。如果做粗一点,只要所造成的 parsing 质量上的后果能控制在应用可接受的范围,那也未尝不可,因为说到底,世界上没有完美的系统。上帝允许人类的不完美。

雷: 联合类的问题一直是nlp的难点。

白: 把这个换成“AB的中点与AC的中点的连线”?同样的结构。

另一个思路,就是多层协调中的修补。对于上述两个例子,修补的办法似乎更好。与其分多层,代入各种繁琐的语义条件来消歧,不如任他出错,然后根据pattern的平行因素加以修正。在多层系统中,这个常常是有效的策略,也符合开发的总体规划。先把系统大体弄得work了,可以对付多数现象,然后有时间和余力了,后面可以 patching。前提是,错误是 consistent 和 predictable 的。对于多层管式系统(pipeline system),错误并不可怕,只要这种错误 consistent 有迹可循,后面总可以把它们修正。

多层管式系统常常被批评存在一个 error propagation(错误放大)的难题。其实,多层系统也可以做到负负得正(矫枉过正是也)。一个好的系统设计,是后者,通过 data-driven,可以做到把错误放大控制到最低限度,并发扬负负得正来得到最终正确的结果。

白: 伟哥的诀窍其实是把握一个适中的词例化-次范畴化水平问题。太粗则伪歧义盛行,太细则边际效益大减。

上例中 “中点与AC” 可以联合,不过是一个暂时的内部错误而已,后面可以修正。总之,这些都不是根本的 challenge,想做就可以做,实际操作上,也可以选择不做。问题大了,就做;用户发飙了,就做;否则就无视。很少有歧义是做不出来的,功夫和细节而已。最终决定于值得不值得花这份力气,有没有这样的开发时间和资源。

白: 做与不做,有可能影响架构选择。补丁有好处也有后遗症。

NLP 可以做一辈子,在基本机制(优先机制,修正机制,范畴、次范畴机制,专家词典等)由平台实现提供以后,慢慢磨到最后就是 diminishing return,与爬山类似,这决定了我们何时罢手。如果85%的精度作为parsing的目标,那么系统会选择不做一些稀有的现象。有了这个 85%,已经可以满足很多应用的要求了。

有了 85% 做底, 还可以让机器变得智能起来,自动地自我提高,所谓 self-learning,这是研究课题了,但是是可以实现的。实际上在我指导的实习生实验中已经实现,不过就是不大实用而已。

白: 再看“馒头吃光了”?

这个例子更容易讲清楚,。在系统的某一层,可以有个规则 把某种 “V+光" parse 成为动补结构,这个V的限制可以调试出合适的子范畴来。

白: “光”词例化肯定是可以的。

好,这就解决了95%以上这类以“光”收尾的现象。如果遇到了反例,譬如,”黑洞吃光了“, 那么或者修正它,或者作为个体知识的规则前置。围追堵截是也。总是可以把零碎的专业知识做成规则,如果需要的话。至于这么做值得不值得,那是应用层面的决定。很多时候是不必要的。错了就错了,不过是显得系统缺乏专家的知识,so what?

即便是人,也决定于他的知识面,小学生和文盲一般不能正确 parse 理解 ”黑洞吃光“  的动宾语义来。动宾的语义是需要语言外知识在语言内非优先的潜在结构上作用才能得出。而动补结构则不需要,那是语言内的句法知识(最多说是句法子范畴或小规则,但不涉及专业知识),是所有国人的默认理解。

白: 这一点非常重要。一个开放,一个封闭。一个外部,一个内部。

外部的事儿,就算没有专业知识,也可以大数据招呼。

今天似乎可以结束了,说到底,就是

一,平台需要提供一些基本机制来处理共性与个性的关系,从而应对歧义,这些在 FSA formalism 的教科书定义中可能不存在,或被忽略,但却是实用系统不可或缺的。

二,NLP 的确是个力气活,有无限的可能深入。当然,我们可以选择不深入,可以选择何时罢手。

至于大数据招呼,那个在前述的自学习上也必须用到。

雷: 人在语言理解中也会发生许多歧义。如果机器发生的理解歧义同人的歧义,这个反而正常了。

我们教授机器做到 85%,大数据基础的自学习可以让它自行提高到 90%,这个是部分证实了的,可惜还没有发表出来,以前说过,懒得成文。都骨灰级老革命了,谁在乎那个。

雷: 大数据太笼统了。言语理解有太多层了。比如,比喻或隐喻。

白: 他就是要抹平这些层 @雷

我说的大数据是指与大语料库对应的 grammar trees 自动形成的 forest,比 PennTree 大好几个量级。

啰里啰嗦,把大家都吓跑了,只剩咱哥仨了?

雷: 这些抹平是暂时的还是永久的?

白: 实用主义的

雷: 同意,实用主义

对。实用主义,就是小平的猫路线。

这次神侃算不算基本回答了疑惑,可以得出 ”伪歧义在多层系统中不是困扰“ 这个结论?

白: @wei 是,非常感谢

不过,我们一方面实用制导,一方面没有忘记基本面和大局。与纯粹的实用主义,头痛医头,脚痛医脚,还是不同。

雷: @wei 这些可以发表在你的博客吗?@wei 许多东西在博客里更好更有指导意义

既然讲了,就博客吧。这种积一辈子挖煤的经验之谈,正式论文中罕见,也算一件功德。

难得的是白老师还有雷司令身为主流精英,居然能一开始就高于主流,不排斥异端或少数派。

所以上次上海聚会,我就说,火药味的架掐不起来的, 因为相互的理解和欣赏多于分歧。

白: 可以再关心一下NLP的商业模式,怎么能讲一个好故事。我们说fsa也好分层也好,资本都是不感冒的。

雷: 是,商业模式, 如李长官以前说的,怎么2c,而不是仅仅2b

白: 只要聚焦于深层,一定会殊途同归。

但我知道也有很多统计死硬派,甚至大牛,是不尿这壶的。

白: RNN记在统计账上,但已经是深层了。

滑稽的是发现有些死硬派做了n年NLP,却真地不懂语言学,有个别大牛连常识都不懂,让人跌破眼镜。当然这个只能内部说说,不能博客的。所以往往是互相地不尿对方那一壶,与宗教之战类似。

RNN 我还需要学习,才敢发言, 不过从白老师零星的介绍来看, 很可能殊途同归。不过 FSA 这套 deep parsing 是已经稳定成熟的技术。RNN 的工业成熟度如何,我不知道。

可能都是核弹, 不过是原子弹氢弹区别而已。

白: Ngram说不定变出个什么花样来,也殊途同归。

其实 多层 FSAs 本质上就是 ngram 的花样,不过 gram 不再仅仅是词了,而是等于或大于词的句素。能以动态句素作为 ngram 的对象,是因为多层的原因,跟剥笋子一样,层层扒皮,gram 当然就是动态的了。这一点很关键,是乔姆斯基都没想到的 power。

白: 对,边扫描边归约,边抛出句素。

黄: ngram是简单的统计,这几年也有许多进展,representation learning 算是深度学习在自然语言处理的热点。

这里面最 tricky 的不是机制而是细节。魔鬼在细节,就是指的这个。FSA 是”古老“简单的机制了,细节就是玩平衡,玩模块之间的协调。玩得好的就好比中餐的大厨,可以做出满汉全席来,玩不好的还不如麦当劳、keywords。到这一步,经验因素开始起作用。没碰过n次壁,甚至几万小时的炼狱,这个火候掌握不好。

白: 句素的个头大,影响范围就大,相当于抛得就远。可以进入远距离的滑动窗口,伟哥说的Ngram的缺点就不存在了。

黄: 很多新的模型都试图去capture long distance, sentence, paragraph的依赖关系,这里头可做的事情很多。

这类系统很难做得表面上漂亮光洁,总是在混沌中前行,要忍受不完美。这方面的忍受,数学家不如语言学家。他们天生追求简洁完美,不愿意将就。

白: dirty是必然的

ngram 的缺点是主流的缺点,不是语言多层派的缺点。恰好相反, ngram 多层以后,很容易比任何 CFG 做得细致深入,以至于,想怎么深入就怎么深入, 如果持续开发的话。

黄: 我感觉统计模型的优点之一是在某种程度上加上了semantic,比pure syntactic有很多好处

CFG 那套单层范式,无论统计模型还是传统文法加以实现,真地深入不下去,是框框决定的。两边都玩过,这种对比太强烈了。我对我的博导说过, HPSG 真地不好用,那边费那么大劲的事儿,在我这儿是小菜。说拿的是牛刀,可对象不是牛,而是鸡。不如我剪刀和匕首好宰鸡。

白: 我一个学生搞蛋白质折叠的分析。蛋白质大分子折叠的点恰好是若干局部的代表(相当于语言的head中心词)之间发生全局相互作用的地方。真是神了。

为世界和平和人类福祉计,统计模型和规则系统一定是要融合和弥补的,in some form。

这个忽视统计的教训我们也有过。如果没有统计的概念,没有大数据的制导,往往拍着脑袋而过度开发,最终是系统的臃肿不堪,甚至报废。我们语言学家是一种可能走火入魔的动物。必须要用数据制导和工程操作规范来制约我们,不能由着我们任性胡闹。

白:飞机要起飞了。关机。到北京再继续。

今天到此,特别谢谢白老师的互动和精彩的及时点评。

黄: 大胆假设,小心求证。复杂模型的威力如果有了海量带标数据没准能发挥。这几年好些统计模型都是老树开花。

黄老师还沉浸在主流的傲慢与光荣中,呵呵。

黄: 不好意思。

 

当然,任何奇迹都可能发生,就如在图像和语音中发生的奇迹一样。也许 deep learning 在 parsing 方面会有突破。可以想见,很多 DL 研究者正在朝着这个目标奔跑,似乎谁跑得快,谁就可以摘除NLP皇冠上的明珠。

不过这边厢有半个多世纪的传承和几十年的积累,奇迹已经发生了。

我最乐观的预测是,统计的奇迹一旦发生,从功能上也就是多层规则派奇迹的再现。从今后扩展上,也许更具优势?

拭目以待-ing。

【相关博文】

泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(1/2) 2015-09-21

 乔姆斯基批判

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-922450.html

上一篇:泥沙龙笔记:真伪结构歧义的对策(1/2)
下一篇:【旧文翻新:温哥华,我的梦之乡】

 

1  陈辉

发表评论评论 (4 个评论)

删除 回复 |赞[2]李维   2015-9-24 15:35
一不小心,把我以前的关于有限状态不是确定性状态的回复覆盖了,懒得重写了。总之,有限状态是一个 formalism,用来描写输入串如何模式匹配,而确定性和非确定性(deterministic、nondeterministic)是指的输出结果的形式。

删除 回复 |赞[1]srrc   2015-9-21 23:09
这种方法总觉得离人对语言的理解有偏差,人阅读会有回溯。但很多情况下,读如花园小径句子并不需要重读,可见人脑中本身就有多种后选,这与确定性状态有悖。
 回复  : 有限状态(finite state)不是确定性状态。有限状态只是一个formalism,一个捕捉语言句型和现象的工具,并非不允许不确定的状态。更加接近这个概念的是 deterministic,有限状态的方法并不是天然地输出 deterministic results,虽然实际上还是 deterministic 的过程实用。Non-deterministic 的结果,如果真地需要和有益的话,也还有其他的方法和技巧在系统中体现。

2015-9-21 23:491 楼(回复楼主)赞|回复
 回复  : 微博的一些评论转抄如下:

王伟DL
文章透露着落地的经验(经历)的光泽,不同的人对此文吸收和反射的谱线也会不同。我贪婪地一连看完,很多地方只觉得在理,的确是是是,有些地方也想表己见,却欲辨已忘言。“...指与大语料库对应的 grammar trees 自动形成的 forest,比 PennTree 大好几个量级。",好羡慕这个大块头!大块头有大智慧!

@算文解字:这篇顶级高手对话,充满思想,可以当武林秘籍参悟的文章,竟然没人转。。。强烈推荐啊!

算文解字
依存关系的确更好用//@立委_米拉: (1) 分层是正道。最起码要两层,基本短语层和句法关系层。(2)顺便一提,作为生成结果,短语结构的表达远不如依存关系的表达。短语结构叠床架屋,不好用,也不够逻辑和普世(不适合词序自由的语言)。当然,这后一点是另外的话题了,不仅仅是 CFG vs FSG 之争了。

算文解字
也对,镜老师批评的是用同一层次的规则处理不同层次的现象的"原教旨"CFG生成方法,提出的对策为FST分层处理。而在CFG下用coarse2fine的(分层)策略,也算是殊途同归了。//@沈李斌AI: 没必要排斥CFG。CFG树是生成结果,不是生成步骤。设计好coarse to fine的生成策略,控制每一步的perplexity和recall

2015-9-24 15:242 楼(回复楼主)

《泥沙龙笔记:铿锵众人行,parsing 可以颠覆关键词吗?》 屏蔽留存

《泥沙龙笔记:铿锵众人行,parsing 可以颠覆关键词吗?》

屏蔽已有 3661 次阅读 2015-10-10 08:52 |个人分类:立委科普|系统分类:科研笔记| NLP, parsing, 关键词, 结构, 自然语言

我: 汉语的躶体准成语:你不理财,财不理你。穿上小词的衣服就是:你如果不理财,财就不理你。(如果 ... 就 ...)。也可以穿戴更多一点:如果你不理财的话,那么财就不会理你。(如果 ... 的话 / 如果 ... 那么 ... 等。)穿得越多,越没有歧义,越容易理解,当然也越容易电脑处理。可是国人觉得那样不简约,不能显示我语之性感。

现代汉语的框式结构是非常漂亮的小词结构,漂亮在它不仅给了左括号,也没忘记右括号,这样一来,边界歧义的问题就消弭了。这个框式手段,是比西方语言更高明的显性形式,应予大力推广,以彰显我语严谨的一面。框式结构更多的例子:因为 ... 所以;虽然 ... 但是;在 ... 中/上/下/间。

顾: 英语也有省略小词: no pain, no gain.
我: 语言是线性表达,因此常常有边界不清晰的问题存在。数学语言(譬如公式)也是线性的,想到的办法就是括号。汉语不知道哪个年代发明的这个框式手段,基本就是括号的意思。这个很高明。
顾: 而且似乎某些高能人群倾向于省略小词。例如华尔街投行和硅谷人士的某些交流中,如果小词太多反而被鄙视,被认为不简洁不性感,这大概是人性,不是中国独有。举一例,出自Liar's Poker, 某trader跳槽,老板以忠诚挽留,他回答,“You want loyalty, hire a cocker spaniel”
我: 有了框式结构,语言不仅清晰了,而且灵活了。灵活是因为左右括号如此明晰,以致于可以放宽括号内成分的句法条件。

Nick: 可以处理括号的都是什么自动机?我理论忘光了。

我:多层括号需要的是中心递归,就是乔姆斯基的 CFG,有限状态不能对付n层括号。上面的汉语案例大多只使用单层括号,没有用到括号的嵌套("如果...的话" 与 “如果......那么”可以算有一层嵌套,左括号共用一个小词“如果”,右括号不同,可以放在两个模块层去做),不需要栈结构,不需要递归和回溯。

白: 有限状态加计数器,是毛毛虫,可以对付括号,保证线速。
顾: 注意这里主从句之间是逗号,不是问号。我刚才特定去书里查对了没错。
RW: long time no see 是华尔街英语的典范!
我: 成语不怕,成语都是可枚举的、有限的,就是个存贮记忆问题。成语的极致就是编码,包括密电码,acronyms 如 IBM,ABC 就是密码式成语。成语是NLP中不用讨论的话题。可以讨论的是,产生式“类成语”,譬如“一X就Y”(如 一抓就灵,一放就乱), "不X不Y"(如,不见不散,不服不行)。这个有点讨厌,因为词典对付不了,可是又不符合一般的句法,通常用小的规则来对付。(小规则是大规则的例外。)
顾: 但某些高能人群,尤其是科学家和教授,尤其是在思辨场合下,小词就少有省略。而汉语在写数学教材时,也多用小词。因此是否用小词跟语言用途也有关,愚以为不能否认汉语追求简洁优美是弱点,也不能认为汉语不善加小词或准确表达概念和逻辑。
我: 还是有个程度吧,汉语小词常可省略,总体上就是一个爱躶奔的东方美女。
顾: 偶爱裸体美女。
我: 偶也爱躶体美女,东方的尤甚,因为亲切,可是 ...... 欧化句式侵入后,白话文运动以来,可以看到一种加小词的趋向,小词在汉语发展道路上开始产生影响了。是吃了伊甸园的智慧树的果子知羞了?

顾: long time no see据认为是汉语入侵英语之后产生的,只是大家觉得自然,英美人也用了。这个语句困扰我很久,在网上查了据说是如此,但未必是严肃考证。

我: long time no see 是最直接的展示我东方躶体美女的一个案例。西人突然悟过来,原来语言可以如此简洁,这样地不遮不掩啊。他们觉得可以接受,是因为赶巧这对应了一个常用的语用(pragmatic)场景,朋友见面时候的套话之一,不分中外。在有语用的帮助下,句法可以马虎一些,这也是这类新成语(熟语)形成的背后理由。
RW: 我只在老外和中国人打招呼时听他们说过,没见过他们互相之间用过。因此,我觉得他们没有接受这是一个常规用法。
顾: 另外,我觉得如果要分析理解语言,也不能拘泥于句子结构。句子之间的含义同样重要,如果过于依赖小词,可能难以将句中和句间的关联统一理解。而如果看句子之间的联系理解,英文在句间小词也很少用。

我: 用语义(隐性形式)当然好,但是不容易写一个形式化的系统去 parse 啊。用小词(显性形式)的话,那就好办多了。

白: 伟哥还是说说“我是县长”是怎么hold住的吧。问题的实质是,有限状态自动机没有lookahead 能力,如果语义跟着同步走,有很多构造(合一)会是明显浪费的。

Nick: @wei 白老师问:"我是县长派来的"

我: “的字结构”很讨厌。大体上就是英语的 what-clause 对应的句法形式。但比 what-clause 还难缠,因为该死 “的” 字太 overloaded 了。
雷: 中心嵌套也可以是线性的?

白: 某些可以是,全集不是。比如,a^nb^n,可以线性parse。

我: 当然可以线性,除非嵌套是无限层。如果是无限层,栈也要溢出的,无论memory多大。中心嵌套本质上不是 ”人话“,这个我和白老师有共识。乔姆斯基之谬,以此为最。

雷: 问题是有些text有冷不丁的多层。有些国内的新闻稿有。
我: 举例,看是人话还是数学?
雷: 当然我们可以排除这些极少数。有些翻译有。
我: 用递归回溯对付嵌套,不过是理论上的漂亮,没有多少实践的意义。
白: 记得everybody likes somebody转换成否定式很难搞。基本归到不是人话一类。
我: 不是人话,就不理睬它!语言中要抓的现象那么多,什么时候能轮到中心嵌套?
白: “我是县长派来的”,是人话,还没揭锅呢
我: I am the one who was sent by the county mayor,这大体是对应的英语吧。英语的 what-clause 只能用于物,不能用于人。“苹果是县长送来的”,the apple is what the county mayor sent
白: 我的问题不是翻译,是有限状态木有lookahead能力,局部生成“我是县长”的问题咋避免。
我: 避免不难。不过就是加大规则的长度而已。有限状态的规则可以任意加长后条件(post-condition)。至于前条件(precondition)比较麻烦,因为前条件改变了 matching 的起点,容易乱套。
白: 短的规则还在啊。根据哪一条,长的压制短的?
我: 对,叫 longest principle,这是所有matching的基本原则,无论是词典查询还是模式匹配。有两个方法用后条件(1)加长后条件,以确保 pattern 本身是要抓取的对象,譬如第一近似就是 check 县长后面不是动词。(2)加长后条件来排除例外:这样的规则是没有结论的规则,就是为了排除例外的。这样一来,下一条短规则就可以成功,而且没有误抓的困恼了
白: 除非你那已经不是纯FSA了。纯FSA只看当前吃进字符做决策。往后check就相当于LR(k)了。
我: 我的 FSA 从来不是纯的,是 FSA++。这个昨天就说过的,我随时要求我的工程师去对这个 formalism 做很多的扩展,直到他们抱怨影响了线性速度为止。
白: 那就不奇怪了。
我: 在做 NLP 平台过程中,会有很多的各式扩展才好应对自然语言parsing的需要。很多人以为一个标准的 formalism 拿来用就好了,那哪行?也因此,编译器只能是内部自己实现(built in house),而不能使用 off-shelf 的,因为后者你根本无法扩充,也难以优化速度。
雷: LR或RR都是线性的。
白: 对。我还以为发生奇迹了呢。
我: 不是奇迹么?抓到老鼠就是奇迹。
白:套用一句潮话:这不科学呀。
我: 如果标准的 formalism 不能碰的话,那么有经验的设计师与一个新毕业生比,就没有任何优势了。我们说生姜老的辣,就是因为老生姜可以很容易把经验的需要转化成软件的 specs,而新手搞不清如何去定义。白老师,”这不科学啊“ 的批评声音我常听到。一个是来自我太太,在日常生活中,她一个本科生经常对我这个首席(科学家)呵斥,你一点不讲科学!另一个是来自我一个短暂时期的老板,这个老板是学界主流,她看我写的 proposal,说这里面缺乏 science。
我心里说,邓小平也没有 science,他不是把一个大国也治理了。烹小鲜而已。
白: 白猫黑猫拿到耗子都是科学的,狗拿到耗子就略微那个了点,所以澄清不是狗拿的还是很有必要的。
雷: @wei 白老师追求的是形式美。你的是工程美。两者一直你拖我拉的往前走。
我: 狗啊猫啊,是主观定位,无所谓呀,FSA,还是 FSA++,标签而已。我看自然语言是俯视的,成了习惯。太阳底下没有新鲜事儿,因为见到的语言现象太多了。
白: 总是要交流的呀
我: 当然,也不能乱来,前提是任何"不科学"的扩展,不能最后引致灾难:一个是速度的灾难。一个是不可维护、不可持续发展的灾难。如果这两点可以掌控,就问题不大了。对速度我很敏感,愿意为此自我束缚手脚,只要证明某个扩展影响了线性速度的本性,我就投降,然后选择折衷方案。
雷: 抛弃中心嵌套,cfg就是线性的。
我: cfg 的痛点还不是中心嵌套导致的速度问题,根本缺陷在单层,眉毛鼻子一把抓,不分共性与个性,这才是致命的。
白: 我天天玩工程,不过我们的工程师如果突然说他使用了某个形式化机制但其实不纯粹,我还是会跟他较真的。狗肉好吃,不能成为挂羊头的理由。
Nick: 赞同白老师。spagetti对大工程不行。
我: 你们是主流,站着说话不腰疼。不挂羊头, 语言学家早死绝了。我17个政府项目全部是挂羊头得到的。
Nick: 伟哥可能有绝活,不愿说。
我: 绝活有,细节不谈,谈原则。原则就是,你要做精算师或工程师的老板,而不是相反。绝大多数语言学家没这个底气,只能打下手,做资料员。
雷: nlp的难点或苦活不在parsing,而是知识工程方面的整合
白: 上下通气
雷: 呵呵,形象
白: 米国股市里有知识工程概念股么?

顾: 这是大数据啊!Data Thinker可以。。。(此处省略一千字)

Nick: 中国有?

白: 木有。讯飞在往这方面发展,但眼下不是。

我: 挂羊头卖狗肉的故事在这里:《在美国写基金申请的酸甜苦辣》。Quote:

说到含金量,其实很多课题,特别是面向应用的课题,并不是什么高精尖的火箭技术(not rocket science),不可能要求一个申请预示某种突破。撰写申请的人是游说方,有责任 highlight 自己的提议里面的亮点,谈方案远景的时候少不了这个突破那个革命的说辞,多少迎合了政府主管部门好大喜功的心态,但实际上很少有多少研究项目会包含那么多闪光的思想和科学研究的革命性转变。(纯科学的研究,突破也不多吧,更何况应用型研究。)应用领域“奇迹”的发生往往植根于细节的积累(所谓 the Devil is in the details),而不是原理上的突破。而对于问题领域的细节,我是有把握的。这是我的长处,也是我提出科研方案比较让人信服的原因。有的时候,不得不有迎合“时尚”的考量,譬如领域里正流行 bootstrapping 等机器自学习的算法,虽然很不成熟,难以解决实际问题,但是基金报告列上它对申请的批准是有益的。不用担心所提议的听上去时尚的方案最后不工作,由于科研的探索性质,最终的解决方案完全可以是另一种路子。说直白了就是,挂羊头卖狗肉不是诚实的科研态度,但是羊头狗头都挂上以后再卖狗肉就没有问题。绝不可以一棵树上吊死。

我: 不挂羊头,必死无疑,生存之道决定的。同意雷司令 parsing 问题解决后,真正的关键在挖掘(知识工程)以及最终建立预测模型。

白:NLP应用场景是很考验想象力的。

我: 非结构数据突然结构化了。面对结构的海洋,传统的数据挖掘需要拓展才好应对。挖掘目前做得很浅,就是 retrieval 里面的一个小东西,凑合事儿。parsing 是见树,mining 才见林。以前没有条件见林子 mining 没有实验基地,限制了它的发展和深入。
昨天与xiaoyun还谈到这个,我们都觉得,哪怕只利用 parsing 的一个部分,譬如只做SVO(主谓宾),理论上也是对所有现存关键词技术驱动的应用的一个颠覆,因为突然多了一个维度。以前所做的不过是 baseline 而已,如今只要有大数据、大计算、大存储,再加上mining,那么凡是关键词技术生存的地方都可以革命,包括搜索、分类、聚合为基础的等等的应用。这个总体趋向是明晰的,条件也基本成熟,现在是考验想象力的时候,然后就是脚踏实地一个应用一个应用的去做
白: 还是要想新的商业模式,革关键词的命,从商业角度未必成立。关键词是拿来卖的,你把人命革了,卖什么?总要有个替代品吧,总不会卖FSA吧。
我: 革命不是杀头,parsing 对关键词,就是爱因斯坦对牛顿。到了语义语用层,关键词,或者叫驱动词(driving words),也是不可或缺的。
Nick: 卖regex到也不见得不可能
我: 抽取挖掘搜索,往往需要两条腿,一条是关键词,另一条就是结构。
如果 regex 可以卖了,离开直接卖 parse 就不远了。
其实我们的 power users 已经开始要求直接用简化的 parse 去满足他的信息需求了。
用户是可以训练出来的。我们整整一代人都被关键词训练过、洗脑过了。以致于当自然语言接口技术刚刚尝试的时候,不少用户抱怨说:关键词多简单,跟机器说话,要自然语言干嘛?
Power users 在简单的关键词之上用 boolean query 的很多,有些 query 看上去又臭又长又难看,不也忍受了。也见到过创业者,就是用 domain ontology 加上 boolean 作为技术基础,也满足了一个 niche market 的需求而生存的。
Nick: 这是说的哪家公司?
我: 两年前在北京调研时候遇到的,名字忘记了。他们一点也不保守,把 query 直接给我们看,我心想这是一目了然啊,很容易复制的。可贵的是,他们先一步找到了那个市场需求,定义了那个 niche market,也找到了客户,后去就是那些 queries 的库不断更新维护而已。

我: @Nick 说,spagetti对大工程不行。Google 搜索是大工程吧,看一下里面的 spagetti: http://blog.sciencenet.cn/blog-362400-804469.html

【相关博文】

      朝华午拾:在美国写基金申请的酸甜苦辣

《泥沙龙笔记:铿锵三人行》 2015-10-08

泥沙龙笔记:从 sparse data 再论parsing乃是NLP应用的核武器

泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索

 泥沙龙笔记:汉语就是一种 “裸奔” 的语言

 泥沙龙笔记:漫谈语言形式

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-927003.html

上一篇:社媒大数据的困境:微信的风行导致舆情的碎片化
下一篇:【置顶:《泥沙龙笔记》汇总一览】

 

8  谢平 黄永义 赵凤光 shenlu bridgeneer xiyouxiyou biofans icgwang

发表评论评论 (4 个评论)

删除 回复 |赞[4]icgwang   2015-10-11 10:06
——哪怕是(名)词的层面也要加冠词“定冠”,比较讲究服饰! 

删除 回复 |赞[3]icgwang   2015-10-11 10:03
与其说汉语裸奔,不如说西语尸化,是一种尸化后并且入殓了的语言,小词就是入殓的饰品。

删除 回复 |赞[2]icgwang   2015-10-11 09:59
no pain no gain ,类的裸式,恰好是语调,重音类在发挥作用的情形.汉字有调性,西语词没有.重音也只在单词层面起作用,没法想汉语句子那样在句子里的单词间游弋循环.

删除 回复 |赞[1]xiyouxiyou   2015-10-10 17:01
no pain no gain 还是no pay no gain?我只知道no zuo no die 

泥沙龙笔记:《Ruminations on NLP and Communism》 屏蔽留存

泥沙龙笔记:《Ruminations on NLP and Communism》

屏蔽已有 1831 次阅读 2015-7-4 00:36 |个人分类:立委科普|系统分类:人文社科| 科普

我的科学网博客,各种专栏,五花八门。但有两个专栏与nlp有关,一个叫【立委科普】,一个叫【社媒挖掘】。一个偏理论,一个偏实践。两个加在一起有200多篇博客了,欢迎各位有闲光临指教。除了nlp,我的专栏【朝华午拾】可以推荐一下,那里多是人生小故事,放在历史的框架下,有传奇味道。

:[强]常去读的

Nick:@wei 毛老是用微信写书,你是用微信写博客。洪爷是微信写史诗

刚整理的笔记在:泥沙龙笔记:再聊乔老爷的递归陷阱

毛: 你把这些博客梳理贯通一下,就是挺好一本关于应用语言学的随笔,比方说 《Ruminations on NLP》。

已经试图用超链把博文都连接成图谱了。有些差不多成了车轱辘话。跟洪爷的诗看齐,洪爷这么写下去,但凡是大千世界的话题,没有不入他诗的,你说啥,他的诗库里都能找着n个描述。

洪爷博学,无所不诗。我是砖家,只论NLP(Natural Language Processing),这么写下去,只要是NLP的话题,我的库里也都有n个论述,从不同角度反复论,不怕redundancy,因为人的记性很差,只有在冗余的条件下,庶几可以传达。

其实,乔姆斯基和马克思都有这个毛病,车轱辘话反复论。当年看砖头一般厚重的《资本论》大部头,才体会到,同一个论点,原来可以如此反复唠叨。苦口婆心啊。否则如何成事的呢?

马克思的唠叨导致了20世纪的共产革命,席卷了大半个地球,影响了人类的三分之二,持续半个多世纪,牺牲了无数人,也唤醒了无数人。

毛: [偷笑] 你梳理一下,把它们union在一起,不就得了?

早就梳理过了。

梳理在这里:【立委NLP相关博文汇总一览】: 1. 关于NLP方法论; 2. 关于NLP分析;  3. 关于NLP抽取; 4.关于NLP挖掘;  5. 关于NLP应用; 6. 关于 Chinese NLP; 7. 关于NLP的社会媒体大数据舆情挖掘; 8. 关于NLP的掌故趣闻。

够勤勉了吧,这两天去更新一下这个图谱。

余致力NLP凡n多年,其目的在求交流之通畅,信息之自由,语言之归一,世界之大同。积n年之经验,深知欲达到此目的,必须启蒙后进,科学普及,同心协力,共建通天之塔,因作文鼓而吹之。处理尚未成功,同志仍需努力。

丁: @wei 没有共产主义,就没有今天的福利社会,欧美不会像今天那样好

说的是。就是牺牲太大了。
应该可以有一个牺牲较少,也达到资本(商品社会)与福利(社会主义)平衡的社会的途径吧。当然,历史无法假设。

马恩列斯毛,马恩是理论家,理论家永远免罪,思维无禁区。后三位可能就不是那么容易可以免责了,这点与希特勒类似。希特勒也促进了人类进步,第三次大战一直没来,与希特勒给 人类的教训有关。共产风和纳粹都是如此。

毛: 牺牲的多少且不论,不公平的是:牺牲的和享受的不是同一群人。天下事最不公平者莫过于杀鸡儆猴。你杀猴儆猴也可,打猴儆猴也罢,干吗要把无助的鸡给牺牲了,而且还一杀就是一大片。

 
R: 第三次世界大战没来,很大程度上是因为核武器的出现

毛: 核武器的使用倒真是杀猴儆猴,日本人发动战争,就用在日本人头上。

洪: 边听歌剧Doctor Atomic边打油

《尼克松访华》总听,// Nixon in China— John Adams的现代歌剧
爱屋及乌新作寻。
《原子弹博士》也订,// Doctor Atomic
刚刚收到就放映。

奥本海默科学人,
UCBerkeley书生。
二战主持曼哈顿,
一帆风顺核弹成。

婴儿出世不由人,
fatman and little boy两孪生。
奥氏只管造其成,
难管之后其命运。

飞机载孩两次行,
广岛长崎分别扔。
两城变成蘑菇云,
魔力惊骇天外神。

人类暴力级别升,
全然毁灭居民城。
世界大战戛然停,
日本投降签协定。

此后世界无安宁,
笼罩核武恐惧症。
奥氏郁郁志难申,
六十二岁即走人。

奥氏曾告杜鲁门:
科学竟也沾血腥!
反战反核投热诚,
晚年活动为和平。

看一小时天色昏,
全家吃饭要出门。
我就关机按暂停,
另找时间再聆听。

English version at:

"Ruminations on NLP and Communism" 2015-07-04

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-902697.html

上一篇:人机接口是机器人的面子
下一篇:"Ruminations on NLP and Communism"

[转载]所谓乔姆斯基大战谷歌Norvig 屏蔽留存

[转载]所谓乔姆斯基大战谷歌Norvig

屏蔽已有 1973 次阅读 2015-6-20 21:51 |个人分类:立委科普|系统分类:观点评述| NLP, 乔姆斯基, chomsky, Novig |文章来源:转载

关于乔姆斯基和统计学习的两种文化(编译) (2013-09-25 08:21:18)

关于乔姆斯基和统计学习的两种文化

原文:http://norvig.com/chomsky.html 

作者:Peter Norvig(Google公司研究主管,人工智能专家)

 

一 背景

 

2011年是麻省理工学院(MIT)建校150周年。2011.5.3-5日,MIT举办了“大脑、心智与机器(Brians,Minds and Machines)”专题研讨会(属校庆系列活动之一)。网址:http://mit150.mit.edu/symposia/brains-minds-machines

研讨会期间有一场主题讨论会(Keynote Panel),题为:黄金时代——人工智能、认知科学与神经科学的发端巡礼

讨论会全程视频:http://techtv.mit.edu/videos/13200-keynote-panel-the-golden-age-a-look-at-the-original-roots-of-artificial-intelligence-cognitive-science-and-neuroscience-

讨论会主持人是哈佛大学心理系教授 Steven Pinker。

参加讨论的人有:

Sydney Brenner, 索尔克生物研究所高级研究员(2002年诺贝尔奖得主,在基因编码领域有突出贡献)
Marvin Minsky, 麻省理工学院媒体艺术与科学教授
Noam Chomsky, 麻省理工学院语言与哲学系教授
Emilio Bizzi, 麻省理工学院脑科学研究所教授
Barbara H. Partee 麻省大学语言与哲学系教授
Patrick H. Winston 麻省理工学院人工智能与计算机科学教授

在讨论会最后,Pinker向Chomsky发问,如何看待概率模型近年来在认知科学领域到处开花的趋势。概率方法在人工智能、认知科学的黄金时代(上世界70-80年代)并不是科学舞台上的主角。
http://languagelog.ldc.upenn.edu/myl/PinkerChomskyMIT.html

Chomsky的回应:
(1)确实有许多研究工作在尝试用统计模型来解决各种各样的语言学问题。其中有一些取得了成功。但是大多数是失败的。

(2)那些取得成功的应用,是因为把统计方法跟语言的基本属性(比如普遍语法的属性)结合起来使然。比如在连续语篇中如何识别单词的边界。

(3)如果不考虑语言的实际结构就应用统计方法,那么所谓的成功不是正常意义下的成功。就科学研究的历史经验来说,这种意义上的成功并非主流。这就好像研究蜜蜂行为的科学家只是对着蜜蜂录像,通过记录蜜蜂的历史行为,加以统计分析,来预测蜜蜂未来的行为。也可能统计方法可以预测得很好,但这算不上科学意义上的成功。研究蜜蜂的科学家并不关心这种预测。

 

二  Peter Norvig对Chomsky的上述看法发表评论

 

Norvig的文章探讨了以下5个问题:
1) Chomsky的主要观点是什么? 他是正确的吗?
2) 什么是统计模型?
3) 统计语言模型取得的成绩到底怎么样?
4) 在科学研究的历史中,有类似这样的成功吗?
5) Chomsky不喜欢统计模型的到底是什么?

Norvig逐一回答了这些问题。主要内容如下:

 

(1)

Chomsky的主要观点:
A. Chomsky认为统计语言模型取得过工程意义上的成功,但不关科学的事。
B. 为语言事实建模就像收集蝴蝶标本。科学(尤其是语言学)想要的是基本原则。
C. 统计模型无法理解,并不是关于研究对象的洞见。
D. 统计模型或许可以对一些现象做出精确的模拟,但这是迷途。人们并不根据前面出现的两个单词去预测后面一个单词。人们生成句子(词语序列)的方式是从内在的语义到树结构,再到表层的线性词语序列。
E. 统计模型已经被证实无法用于学习语言。因此语言必然是天生的。用语言模型去解释语言是浪费时间。

Norvig的主要回应:
A. 工程上的成功确实不是科学目标。不过科学和工程是比翼齐飞的。工程上的成功可以作为科学上成功模型的证据。
B. 科学是事实和理论的混合体。理论过分凌驾于事实之上并不可取。在科学史上,不断积累事实是科研正途,并非异类。关于语言的科学也不应例外。
C. 包含几十亿个参数的统计模型确实难以直观理解。个人确实无法核查每个个体参数的意义所在。但是,人们可以通过了解整个模型的特性而获得对于统计模型合理与否的认知:即一个统计模型是怎样有效的,或者为什么无效,它是如何从数据中学到模型函数的,等等。
D. 基于词概率的Markov(马尔科夫模型)确实无法对所有的语言现象建模。这就像没有概率的简单树结构模型无法对所有的语言现象建模一样。我们需要的语言模型是可以覆盖词、树结构、语义、上下文、语篇等等不同层次语言现象的更复杂的概率模型。Chomsky不能因为旧的统计模型的缺点就一概否定所有的统计语言模型。研究如何解释语言(比如语音识别)的人当中,绝大多数人都认同,解释是一个概率问题。当一个语音流到了我耳朵里,要把这串语音流恢复为说话者的意义,是一个概率问题。爱因斯坦说过,让事情变得简单,直到不能再简单为止。许多科学现象都有随机性。最简单的模型就是概率模型。语言也是这样一种现象。因此概率模型是表达语言事实的最好工具。
E. 1967年,Gold定理指出了形式化的数学语言在逻辑推导上的理论限制。但是,这跟自然语言学习者面临的问题毫无关系。无论如何,在1969年,我们就知道了,概率推理不受这一限制的约束(Horning证明学习概率上下文无关文法PCFG是可能的)。我同意Chomsky所说的,人类具有学习语言的天赋。但是我们对如何获得概率化的语言表示,对统计学习,都还缺乏足够的知识。我认为很可能人类学习语言涉及到概率和统计推理,但是我们并不清楚细节。

 

(2)

统计模型是一种数学模型,通过给定的数据,训练得到。统计模型通常是概率模型,但并不一定如此。二者的区别很重要。

数学模型:一个数学模型是对变量关系的定义。可以用函数形式定义,即从输入到输出的函数。例如:y = mx + b。也可以用关系的形式定义。例如:(x,y) 满足某种关系。

概率模型:描述随机变量的可能取值的概率分布。例如 P(x,y)。概率分布不再是严格的确定的函数关系。比如:y = f(x) 是确定性的函数关系。

训练模型:通过统计推断,在收集的数据基础上,选取最好的模型,通常也就是选取模型的参数。比如上面例子中y = mx + b 这一函数中的参数m和b。通过选取参数的方式来确定模型。

在Chomsky之前,Claude Shannon提出了通信的概率模型,其基础正是单词的Markov链。如果你有一个10万词的词表,考虑一个二阶Markov模型(该模型刻画了一个单词出现的概率如何依赖其前面的两个单词),那么要确定这个模型的参数,你需要10^15这么多的数据(即10万*10万*10万的三维矩阵的数据量)。要学习获得这个模型,就必须收集数据,同时得想办法处理那些不存在数据的位置(即三维矩阵中值为0的那些位置)。大多数(但并非全部)概率模型都是通过参数训练获得的模型。许多训练模型(也并非全部)是概率性质的。

再看一个例子,牛顿的重力引力模型:两个物体之间的吸引力跟它们的质量和距离的关系为:
F = G * m1 * m2 / r^2

这里G是万有引力常量。这是一个训练模型的例子,因为G是由随机试验测定的结果决定的。同时,这又是一个非概率模型(确定性模型),因为它描述了一个明确的函数关系。Chomsky大概不会反对这种意义上的“统计模型”。Chomsky对统计模型的批评主要是针对Shannon那样的需要天文数字那么多的参数的统计模型,而不是只有一两个参数的模型。

万有引力模型还有一个显著特点。该模型是连续的和定量描述的。而语言学中的传统模型往往是离散的、范畴化的、定性描述的。一个词要么是动词,要么不是,并没有关于它的“动词性”(verbiness)的量化程度描述。

还一个相关的概率统计模型是“理想气体定律”(ideal gas law)。这个定律描述了气压 P 跟气体分子数 N ,温度 T ,以及Boltzmann(玻尔兹曼)常量 K 之间的函数关系:

P = N * K * T / V

这个公式是从统计力学的基本原理导出的。它是不确定的、不准确的模型。一个完全准确的模型应该是描述每一个个体的气体分子的运动。但这个模型忽视了单个气体分子的位置的不确定性。尽管它是一个统计概率模型,尽管它不能描述全然的真实情况,但是它对气体的整体状况提供了良好的预测 —— 这种关于气体的深刻洞察是无法通过了解单个气体分子的真实运动状况而获得的。

现在,让我们来考虑单词拼写的非统计模型。有一条著名的英语拼写规则:I应在E之前,除非I在C之后
(I before E except C,参见:http://en.wikipedia.org/wiki/I_before_E_except_after_C

描述这个现象的概率、训练的统计模型则是:

P(IE) = 0.0177   P(CIE) = 0.0014    P(*IE) = 0.163
P(EI) = 0.0046   P(CEI) = 0.0005    P(*EI) = 0.0041

这个模型是从英语万亿词级语料库(corpus of trillion words)中获取的统计数据(http://norvig.com/ngrams/)。
P(IE) 表示该语料库中的一个单词含有"IE"的概率。
P(CIE) 表示该语料库中一个单词含有"CIE"的概率。
P(*IE) 表示该语料库中一个单词含有"IE"但"IE"不在"C"之后的概率。
P(EI), P(CEI), P(*EI)含义仿此类推。

统计数据表明:"IE" 确实比 "EI" 常见(0.0177 : 0.0014),
"IE" 在 "C" 之后出现的情况确实相对少见,但是 P(CIE) > P(CEI)。
这是跟传统规则相反的。即便在"C"之后,"IE" 仍然比 "EI" 更常见 (0.0014 > 0.0005)。
包含"CIE" 的单词例子如:science,society, ancient,species等等。

上述拼写规则的不足是它的精度(Accuracy)不够高。

Accuracy("I before E") = 0.0177 / (0.0177+0.0046) = 0.793
Accuracy("I before E except after C") = (0.0005+0.0163) / (0.0005+0.0163+0.0014+0.0041) = 0.753

更复杂的统计模型可以在拼写检查这样的应用中使精度达到现在的十倍。(http://norvig.com/spell-correct.html

再看最后一个例子,这个不是统计模型,但是是富于洞察力的一个模型。

高等法院法官握手理论(Theory of Supreme Court Justice Hand-Shaking):

高院开庭时,所有法官都会和其他法官握手。法官参加人数为n,取值范围0-9。在给定n的情况下,总的握手次数 h 是多少?下面是三个可能的答案:

A. h = n * (n-1) / 2
B. h =  Σi = 1 .. n (i - 1)
C. (n, h) 有如下对应表
  (0,0) (1,0) (2,1) (3,3) (4,6) (5,10) (6,15) (7,21) (8,28) (9,36)

公式A背后的原理是:每个人跟其他人握手次数为 n*(n-1) ,但这样把“张三-李四”和“李四-张三”握手分别记了两次,所以总握手次数应除以2

公式B背后的原理是:为避免重复记次,先对法官按年龄排序。只记岁数大的人跟岁数小的人的握手次数。

公式C背后的原理是,逐一遍历n从0到9的所有情况,把所有握手次数记录下来,构建n和h的对应表。

有的人可能喜欢A模型,有的人可能喜欢B模型,还有些不喜欢乘法和加法的人则可能钟意C模型。但其实这三个模型说的都是一回事 —— 其实是同一个理论 —— 都是从 n 到 h 的函数,可以覆盖n的所有可能取值。可能A 跟 B模型比C模型更有用。因为前两个模型更一般化,可以应付n值增大的情况。

 

(3)

统计语言模型取得的成功到底怎么样?

成功在这里定义为:对世界做出准确的预测。

· 搜索引擎:100%的训练和概率模型
· 语音识别:100%的训练和概率模型
· 机器翻译:NIST中排名靠前的系统100%的使用统计方法。一些商用系统使用统计和规则混合的方法。在机器翻译系统可以处理的4000种语言对中,统计方法的系统都表现更出色,除了日语-英语之间的翻译。对于日-英机译系统,最好的统计机器翻译系统跟混合系统的表现相当。
· 问答系统:研究尚不成熟。多数统计和概率方法的系统使用搜索引擎来实现问答。IBM的Watson系统完全是概率和训练模型。Boris Katz的START系统是混合系统。所有的系统都至少使用了一些统计技术。

再看一些计算语言学家感兴趣,但不是用在终端用户的技术:

· 词义消歧: SemEval-2比赛中排名靠前的系统100%使用统计技术。多数是概率模型,一些使用概率模型加知识库(例如Wordnet)规则的混合模型。
· 指代消解: 主要的系统都是统计方法。 Haghighi and Klein的系统是混合系统,其中规则方法比训练模型更重要。该系统的性能跟统计方法的系统相当。
· 词性标注: 主要的系统格是统计方法。Brill标准器是混合系统。它从统计数据中学习确定性的规则。
· 句法分析: 大多数成功的句法分析系统是统计方法的,主要是概率模型。

显然,说统计模型在语言处理方面所取得的成功有限,是不准确的。事实是,统计模型在语言处理的各项任务中,已经取得了压倒性的优势。

另一个视角是看研究人员的态度。在计算语言学家中,统计方法已经成为被接受的主流方法。(Norvig自己在经历了14年的规则方法后转向概率方法)

上述理由可能会被视为是“工程视角”,那么,接下来,就来看“科学视角”吧。

 

(4)

在科学史上,统计模型有过成功的先例吗?

Chomsky认为,科学史上罕有统计模型的成功例子。
Chomsky的意思是,“精确的模型化这个世界”在科学研究中是罕见的。科学史上的成功标准是,提供对世界的解释 —— 事物为何是它现在这个样子,而不是描述它怎样成为这个样子。也就是说,科学关心的是why的问题,而不是how的问题。

科学的词典释义是“通过观察和试验,对物理和自然界的结构和行为的系统研究”。就这个定义而言,科学对why和how的问题是并重的。看一看《科学》(Science),亦可以达到以管窥豹的效果。Norvig随机地从《科学》中选取了一篇文章的标题:

Chlorinated Indium Tin Oxide Electrodes with High Work Function for Organic Device Compatibility (具有高功函数的氯化铟锡氧化电极的有机元件兼容性)

(科学杂志文章地址:http://www.sciencemag.org/content/332/6032/944.abstract

这篇文章关注“精确地模型化世界”胜过“提供对事物的解释”。

Norvig翻检了一期《科学》杂志的全部标题和摘要,另外也看了一期《细胞》杂志。还有2010年诺贝尔物理学奖、化学奖、生理和医学奖的工作。

结论是,这些研究工作100%的重视“精确地模型化这个世界”胜过“提供对这个世界的解释”。Norvig同时也承认,分辨这二者并不容易,这是一个没有清晰定义的问题。
Norvig甚至还考虑把这个问题抛给土耳其机器人(Mechanical Turk)来回答。不过有朋友告诉他这实在是太难为机器人了。

 

(5)

Chomsky不喜欢什么样的统计模型?

统计模型跟概率模型常常难分彼此。Chomsky反对的是概率模型。

Chomsky(1969)写道:必须认识到,“一个句子的概率”是完全没有用的概念,不管在什么意义上,这都是一个没用的概念。”

Chomsky(1957)写道:
我认为……概率模型没有对句法结构的基本问题给出有意义的解释。

Chomsky的依据可以用下面的例子来说明:

1) I never, ever, ever, ever, ... fiddle around in any way with electrical equipment.
2) She never, ever, ever, ever, ... fiddles around in any way with electrical equipment.
3)  * I never, ever, ever, ever, ... fiddles around in any way with electrical equipment.
4)  * She never, ever, ever, ever, ... fiddle around in any way with electrical equipment.

无论句子中的ever重复多少次,都不影响1、2是合语法的,而3、4是不合语法的。因此,一个n元马尔科夫概率模型在碰到句子中的ever个数超出n值的时候,就分不清1跟3或者2跟4的区别了。概率马尔科夫模型对英语的描写因而是有限的。

这个批评没错。但这只是对马尔科夫概率模型的批评,并不意味着所有的概率模型都因此而要遭到同样的批评。从1957年到现在,已经发展出许多概率模型。上面这4个例子,可以用有限状态模型来描述。此外PCFG(概率上下文无关文法)可以有更强的能力。PCFG比单纯基于范畴的上下文无关文法更容易学习得到。每一个概率模型实际上都是一个确定性模型的超集(superset)。后者只不过是将概率值严格地限定为0、1二值而已。对概率模型的合理的批评必然是因为它们表达能力过强,而不是因为它们的表达能力不够。

 

在《句法结构》一书中,Chomsky提出了一个著名的例子,同时也是对有限状态概率模型的一个批评:

(a)colorless green ideas sleep furiously (无色的绿色思想狂怒地睡觉)
(b)furiously sleep ideas green colorless (狂怒地睡觉思想绿色无色的)

尽管a、b的任何部分都是未见于历史上的任何英文文献的,但a是合语法的,b是不合语法的。

就整个句子而言,Chomsky显然是正确的。但说到句子中的“部分”,则并不尽然。下面是一些部分出现的例子:

 

· "It is neutral green, colorless green, like the glaucous water lying in a cellar." The Paris we remember, Elisabeth Finley Thomas (1942).
· "To specify those green ideas is hardly necessary, but you may observe Mr. [D. H.] Lawrence in the role of the satiated aesthete." The New Republic: Volume 29 p. 184, William White (1922).
· "Ideas sleep in books." Current Opinion: Volume 52, (1912).

 

撇开关于“部分”的争议不说,实际上,基于统计训练的有限状态模型可以区分上面a、b两例。Pereira(2001)就提出了一个这样的模型,在增加了词类信息后,对新闻语料进行期望最大化的参数训练,计算结果是例a的概率是b的概率的20万倍。为了说明这不是因为这两个句子在新闻语料训练得到模型中有如此区别,Norvig用Google图书语料库(1800-1954)的训练模型重复做了计算,结果是例a的概率为例b的10万倍。如果可以在树结构的基础上计算,则对句子“合语法性程度”的估计效果会更好。而不是像Chomsky提出的基于范畴的语法那样,仅仅只是区分“合语法/不合语法”。

Chomsky对统计模型的另一个异议是,儿童在只有10^8秒的时间里,如何学习10^9那么多的参数(实际上,现在的统计模型的参数已经远远多于1960年代的10^9这个数量级了)。

确实,没有人会提议,儿童学习这些参数是一个一个学的。正确的假设是,那些接近0的参数是批量学习的(就像割韭菜一样,一刀下去一茬尽在手中),而那些高概率值的参数则随着观察数据的不断增加而持续更新。没有人认为马尔科夫模型是对自然语言的一个严肃的模型。但是,概率化的训练模型可以比范畴化的无训练模型更好地表达自然语言。

一个自然语言的科学理论必须正视这样的事实,母语者对很多短语和句子的合语法性,也有拿不准的时候。因此,概率模型可以比范畴化的形式语法模型做的更好。比如:

1) The earth quaked.
2) ? It quaked her bowels.

quake这个动词一般在词典中都标记为不及物动词(intransitivie)。因此,根据基于范畴的形式语法模型,上面例1是合语法的,例2是不合语法的。

但是,例2这样的句子又确实有这样的用法。于是基于范畴的形式语法模型就陷入了两难的困境。接受例2和排斥例2都有问题。像这样的问题,在概率语法模型中,就不存在困难。只需要说quake的不及物用法是概率很高的用法,及物用法的概率很低就可以了。

Steve Abney还指出过,概率模型用于对语言变化建模,也更有优势。

Norvig指出,看起来,合语法性并不是范畴化的、确定性的判断,而是概率性的。花时间观察真实语料中的例句是值得的,与此同时,通过内省自己的语言直觉来研究合语法性,也无不妥。观察和直觉在科学研究的历史中并不相悖。只不过,从来都是观察,而不是直觉,在科学研究中占据主流地位。

Chomsky对统计模型的异议主要来自“精确描写”和“科学解释”之间的对立。达尔文对生物学的研究以富于深刻的洞察而著名。但他更强调“精确描写”的重要性。达尔文说“错误的事实对科学研究的进程是有伤害的,而且会有长期影响。但有少量证据支持的错误的观点对科学研究的伤害要小得多。”物理学家费曼也说“物理学可以不需要证明而进步,但没有事实则不可能进步。”

 

三 两种文化

 

2001年统计学家Leo Breiman发表了一篇文章《统计建模:两种文化》(Statistical Modeling:The Two Cultures)。(Leo Breiman是加州大学伯克利分校统计学教授http://www.stat.berkeley.edu/~breiman/

一种是数据建模文化(data modeling culture)。
一种是算法建模文化(algorithmic modeling culture)。

前一种文化的要点是:自然界可以被看作是一个黑盒子,有相当简单的模型把输入数据跟输出数据对应起来(在这个过程中,可能有随机的噪音掺入)。统计学家的任务是选择一个基本的模型,可以反映自然界的这种真实的数据对应关系。

后一种文化的要点是:自然界的黑盒子不一定能靠简单的模型来描写。复杂的算法(比如支持向量机SVM、决策树、深度信念网)可以估算出从输入数据到输出数据的函数,但是,我们不能期望这样的函数形式可以反映自然界的真实本质。

大约98%的统计学家是前一种文化的拥趸,2%的统计学家和许多其他领域的研究者(特别是研究复杂现象的学者)支持后一种文化。

Chomsky着力反对的是后一种统计文化。不是仅仅因为这样的模型是基于统计的(或基于概率的)。而是因为这样的模型宣称是对现实的精确刻画,但却不易被人解读。同时这样的模型没有对自然的生成过程做出解释。换言之,算法建模只是描述了发生了什么,但没有回答为什么会这样的问题。

Breiman在文章中解释了他为何反对第一种文化(数据建模)。基本上,基于数据建模得到的那些结论都是关于数据的,而不是关于自然本身的(Norvig在2000年听火星登陆计划负责人James Martin说过,他作为太空工程师的工作不是登陆到火星上,而登陆到由地质学家提供的“火星模型”上)。问题是,如果模型对自然的刻画不够好,那么由这些模型得到的结论就可能是错的。比如,线性回归(linear regression)是统计学家的百宝囊中最强大的工具之一。因此,许多分析都从“假设数据是由线性模型产生得到的……”开始。如果数据实际上不是由这样的线性模型产生,那么对实际模型应该长什么样就会缺乏足够的分析。此外,对于复杂的问题,往往有许多不同的好的模型可供选择,它们对数据的适应性相差无几。统计学家如何做出选择呢?Breiman想说服我们放弃这样的信念:我们可以得到关于自然的模型的唯一形式。如果我们能得到一个模型,该模型可以对观测数据做出很好的解释,并且能对未出现的数据做出不错的预测,我们就应该感到很满意了。Chomsky则走上相反的一条路:他更喜欢简单的优美的模型,因此而放弃能很好地刻画数据的模型(这样的模型在数学上可能是很复杂的)。Chomsky认为数据(他称之为语言表现 language performance)是不能作为语言学的研究对象的,语言学真正面对的对象是语言能力(language competence)。

2011年1月份,电视名嘴Bill O'Reilly 因“潮起潮落,你如何解释”而掀起争议。他是信上帝的。反对者嘲笑他不知道潮汐现象可以用太阳、地球、月亮的引力作用来解释。这个解释最早是1776年由Laplace提出的。当拿破仑问Laplace为何在他的解释中造物主没有一席之地,Laplace说,“我不需要这个假设。”O'Reilly似乎也不知道Deimos和Phobos等等其他关于太阳系的天文知识。不过,O'Reilly却不以为然,批评者认为他在天文学方面的无知并没有什么了不起,因为他的支持者们认为他直接触及到了更本质的问题——为什么(Why)?他不关心潮汐怎样(How)工作。他要问的是,它们为什么工作。为何月亮在恰当的距离来制造美妙的潮汐。为什么引力这样工作?等等等等。O'Reilly是对的。这些问题只能靠编造故事、宗教或哲学来回答,科学回答不了这样的问题。

Chomsky的哲学理念是:我们应该关注深层的“为什么(why)”,只是解释表层的现实是不够的。在这个意义上,Chomsky其实跟O'Reilly是同路人。Chomsky相信语言理论应该简单且可理解,就像线性回归模型那么简单,我们需要做的,只是估计斜率和截距。

举个例子,考虑著名的 pro-drop(代词脱落)语言(这个概念来自Chomsky 1981)。 英语中,可以说 “I'm hungry” 但是在西班牙语中,同样的意思要说“Tengo hambre”(字面上相当于:have hunger),代词(主语)Yo 脱落了。Chomsky的理论是,语言系统有一个 pro-drop参数。该参数的取值,在西班牙语是“ture”(真),在英语是“false”(假)。如果我们可以找到描述所有语言的为数不多的参数,并且确定每个参数的具体取值,我们就真的理解了语言。

问题是,语言的现实比这个理论要杂乱得多。下面是英语中pro-drop的例子:

 

· "Not gonna do it. Wouldn't be prudent." (Dana Carvey, impersonating George H. W. Bush)
· "Thinks he can outsmart us, does he?" (Evelyn Waugh, The Loved One)
· "Likes to fight, does he?" (S.M. Stirling, The Sunrise Lands)
· "Thinks he's all that." (Kate Brian, Lucky T)
· "Go for a walk?" (countless dog owners)
· "Gotcha!" "Found it!" "Looks good to me!" (common expressions)

 

语言学家可以为如何解释上面这些现象争个没完没了。但语言的多样性似乎远比用布尔值(true or false)来描述pro-drop参数值要复杂。一个理论框架不应该把简单性置于反映现实的准确性之上。

从一开始,Chomsky就把注意力放在了语言的生成性上。从这个方面来说,非概率性的理论是合理的。如果Chomsky把注意力放在语言的另一面“理解(解释)”上,如同Claude Shannon所关注的那样,Chomsky或许会改变他的说法。在“理解”这一面,听话人需要对收到的信号进行消歧,决定哪种可能的解释概率最高。这很自然地会被看作是一个概率问题。语音识别的研究者如此看待对语音的解释。其他领域的研究解释的科学家也是如此。天文学家Laplace在1819年的时候就说过:“概率理论只不过是让人们的常识能够计算。”

Chomsky不喜欢统计模型,还有一个原因。因为统计模型会让语言学成为一门经验学科,而不是数学。而Chomsky更喜欢把语言学看作是数学。Chomsky(1965):“语言学理论是心理的,关心的是比实际行为更基础的心理现实。观察语言的实际应用或许可以提供一些证据,但是并不能构成语言学的主题。”

无法想象Laplace会说,观察行星的运动不能构成轨道力学的主题。

物理学家会研究理想的、从实际世界中抽象出来的力学(比如忽略摩擦力),但是这并不意味着摩擦力不能成为物理学的研究主题。

语言是复杂的、随机的、不确定的生理过程,受到进化和文化变迁的影响。构成语言的不是一个外在的理想实体(由少量的参数设定),而是复杂处理过程的不确定的结果。因其不确定性,用概率模型来分析语言就是必然选择。

转载自: Yankee_Tootle的博客
中文原文:http://blog.sina.com.cn/s/blog_591858120101bhpi.html
英文原文:http://norvig.com/chomsky.html

 

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-899452.html

上一篇:泥沙龙笔记:从乔姆斯基大战谷歌Norvig说起
下一篇:Parsing nonsense with a sense of humor

 

0

发表评论评论 (1 个评论)

删除 回复 |赞[1]陈辉   2015-6-21 09:14
黑字+暗背景 有利于阅读  

泥沙龙笔记:聊聊 NLP 工业研发的掌故 屏蔽留存

泥沙龙笔记:聊聊 NLP 工业研发的掌故

屏蔽已有 7109 次阅读 2015-6-27 22:17 |个人分类:立委科普|系统分类:科研笔记| NLP, parsing, 自然语言

泥沙龙笔记:把酒话桑麻,聊聊 NLP 工业研发的掌故

尼克介绍的那个讯飞语音输入,简直是神器,向我们的语音同行,脱帽致敬。相信语音是统计的天下。Nuance作为源头的爱疯Siri和讯飞的语音,都快登峰造极了,叹服。

两年前 Nuance 语音以上,要往 text NLP (Natural Language Processing) 发展,找过我多次,作为他们新实验室头儿的候选人。互动了很久。这要是进去,可不是就进入了统计学家和精算师们的海洋,虎口啊(笑)。精算师们的头脑里压根儿就想不到统计外还有其他。

后来他们把老革命家Ron Kaplan 从微软 Powerset 挖去,做了他们这个部门的头儿。Ron 是 PARC实验室的老将。早期 FSA 算法研究的推手(之一)。他们当时的电脑硬件的限制,对线性和效率要求极为苛刻。他津津乐道的就是当年怎么在最苛刻的硬件条件下,做出名堂来。后来他想让我做他的副手,毕竟他老人家比我还老,希望找一个能带队伍打仗的。我们相谈甚欢,有很多共同语言,因为他也是规则派,线性派,也做过 deep parsing,有很多共同的感受。

这里面涉及NLP的一些掌故,就索性在这里说说。大家都知道的是,施乐的PARC实验室是世界上最著名的IT发明创造的发源地。他们有本事招揽天下最优秀的科学家和天才发明家,但没本事开发产品,都是为他人做嫁衣裳。于是成就了乔布斯,乔布斯又成就了微软,如此等等,才有我们今天的电脑和IT大业。

这件事儿对施乐很刺激。于是十五六年前,PARC 决定尝试肥水不外流。自己 spin-off 一些 start ups, 对 PARC 的成果做技术转移和产品孵化。其中搞NLP这块的,就spin off了一家叫做 Inxight 的公司,大家应该听说过,那是工业界的NLP leader。PARC 名声大啊,除了自己投资外,吸收其他投资也不难,前后圈了10+轮风投。他们在 PARC FSA(有限状态自动机)研究的基础上,推出一个 LinguistX 的平台,从浅层开始做起,Stemming, POS,NE,多语言。FSA 特别擅长 stemming (主要是削尾)和 morphology(词法分析),就是对词的各种分析。

这样唠叨下去,太慢,还是要长话短说。

总之是,一开始还不错,因为搜索引擎市场里面,做多语言的都要stemming,他们也就有了一些客户。可是世界上有多少家做搜索引擎?以前百家齐放还好,后来天下归一就难了。

如果可能,希望短话长说

总之是,NLP 做平台的,做 component technology 的,很难在市场生存发展。Inxight 在融资10+轮后,终于撑不住了。那些当年雄心勃勃要在工业界掀起NLP革命的Inxight的创始人们(四个创始人,我认识三位),也都跟我差不多,随着这个行业一同老去,还是看不到希望。(我个人算幸运的,先是赶上了世纪末的大跃进(互联网泡沫),如今又赶上了大数据,似乎见到了NLP真正的工业曙光)。

RW:@wei component technology 很难生存,这句话到位

他们也真能,圈了那么多钱,终于无疾而终。白菜价卖给了 SAP。

高科技的事情大多如此,一旦被巨头买下,科技创新就死,然后就是不了了之。

:不奇怪

见过很多这样的。这 Inxight 进了 SAP 就是如此。这里面的故事非常 telling,因为若干年后 SAP 与我现在的公司达成战略伙伴,要用我们的social这块。开始接触的时候,我说,你们的 Inxight 呢,不是听说后来也做了 sentiment 吗,而且是 NLP leader 出身啊。进一步接触才明白,那叫一个天壤之别。将别三日,江河日下啊,廉颇老矣不能饭,不足道也。

回头再说这 PARC,Inxight 虽然不成,这个“上世纪的技术” FSA 并没死,前仆后继者还有。Component technology 很难活,但是从这个源头,还是引出了另外两家步 Inxight 后尘的。一个就是 Ron 创立的 Powerset,Ron 是拿它做 parsing,向深度进军。另一家是BASIS,现在还活着,在旧金山,只做 stemming,多语言,那是向广度进军。

Powerset 其实很值得赞佩,因为他做的parser工业最靠谱(除了在下的外,呵呵)。但是钱要烧完了. 总得有个产品啥,它没有。只做出了一个技术 demo,证明 parsing 对搜索有用,比关键词高一筹。概念上证明了,关键词做不到的搜索,NLP parsing 是有用的。

RW:那怎么活?@wei

Nick:@wei powerset我还较熟悉。powerset现在还在吗?

还在,但跟死了一样,头儿和主要技术人都走了,技术本身基本也没融入微软产品。

Parsing 对搜索的好处是精准,因为语法结构的匹配代替了没有结构的关键词查询。譬如要搜索微软都并购过哪些公司,关键词就很难找到好的结果。可是Powerset 在 parsing 基础上的搜索或答问,就可以整出非常漂亮的结果。行内叫做 SVO search(主谓宾支持的结构化搜索)。结果一定是漂亮的,因为把句法结构加入了,微软必须是主语,并购必须是谓语,那么出来的结果就不会不干净。SVO 就是parse的主干,主谓宾,语言学叫 argument structure,是 parsing 的核心结构。

当时,Powerset 钱快烧完的时候,还想不出来做什么产品,Ron 的团队着急了。嚷嚷着超越Google,可是只有个高效的parser,没法说服人啊。于是想到,找一个什么不大不小的对象开刀合适呢,因为 parsing 是有成本的。他们口口声声,是要做下一代Google,取代关键词搜索。Google 最多是牛顿,Powerset 要做爱因斯坦。

这些宏观上的忽悠,完全没有问题,因为原理没错,parsing 是 keywords 的爱因斯坦,可是工程上有成本的考量啊。结果他们想了一招,拿 wiki 开刀。wiki 当时的那个量,还比较合适做demo,Ron 于是在互联网的大海找到了这么一滴水。

Nick:@wei 这是何时的事?

六七年前吧。他们于是把wiki parse 了一遍,做了一个 demo 给大家看,蛮impressive,于是,微软就买了。他们也算善终了,至少投资人没亏,小赚一笔。微软的心态,是不管三七二十一,只要宣称能取代Google 的技术,先拿下再说,管他消化得了消化不了。因此 Powerset 比 Inxight 的风投结果好,至少没有贱价出售。如果 Powerset 错过了微软这个冤大头,那就比Inxight 还惨。

RW:是不是最终又给微软毁了?

微软当然毁了它,比SAP 还不如。

Nick:貌似powerset还做search整合,把好几个搜索结果拿来从他们这过一下

前几年我做多语言deep parsing项目,招人的时候,去 Powerset 挖到一位,很能干的。本来高高兴兴做 parsing,是从 PARC 被 Ron 带出来的,后来微软吃掉后,被分配去做 query 的分析。query 在搜索是啥,不就是两三个词的组合么,一个做语言语法分析的人,现在必须抠那几个词,为了一些细琐的需要(应用上自然很重要),简直郁闷极了。这位其实懂很多欧洲语言,也有电脑素养,我挖他过来做大数据的语言分析,他自然很开心。Ron 不乐意了,曾明着跟我说过。可他也没法,他自己勉强在微软帮助支撑了两三年,最后还是去了 Nuance,祝他在 Nuance 可以开一个新局面。

Nick:parsing完再搜索vs搜索完parsing,哪个效果好?

这都扯到哪里了。这些掌故说起来一大车,包括当年的 Whizbang!那可是名校计算机主任亲自出来领头做的NLP 公司啊,特别擅长网页layout的机器学习,从中做信息抽取,最后比我的前一个公司 Cymfony 结局还惨。世纪之交高科技泡沫破灭,我们挺住了,开发了产品,他们的3000多万的投资人却中途撤资了,最后各种技术贱卖,100万即可买到所有的源码和技术说明,先找到我们,说是最适合的买主,我们当时没精力消化这些,后来是Inxight买了。

说起来话长,故事好听

再往前的掌故还有Answerlogic问答系统,也是在上一轮 bubble 时候闹腾得特欢的NLP 公司。钱烧完了,就完了。

RW:这句话经典![微笑]

所以说,这 NLP 要做成,不容易。不是技术不到位,技术参差不齐,但是优秀的引擎(精准、鲁棒、高效)是已存的现实。我敢打包票。

RW:是不是有ahead of the market 之嫌?@wei

技术不是问题(笨蛋不算,你要是找到一个只会忽悠的笨蛋,那是 due diligence 太差,怨不得人)。

Nick: 嗨,老套路,骂别人是为了夸自个。

可不,卖瓜王爷。不过,那也是客观事实,内举不避己,不能因为自己能就偏要说不能,最后还是要系统说话。

当然,这玩意儿要做好(精准达到接近人的分析能力,鲁棒达到可以对付社会媒体这样的monster,高效达到线性实现,real time 应用),确实不是一蹴而就能成的。这里有个n万小时定律。大体是,NLP入门需要一万小时(大约五年工龄),找到感觉需要两万小时,栽几个有意义的跟头需要三万小时,得心应手需要四万小时,等你做到五万小时(入行25年)还没被淘汰的话,就可以成精了。那是一种有如神助、如入无人之境的感觉,体会的人不多。打住。

高精的NLP技术虽然很难,但技术的确不是问题,问题在于产品。从 NLP引擎 mapping 到产品或产品的 features,这里面有千百种组合,哪种组合能在市场上站住,到目前为止基本是盲人摸象的过程。

RW: 否则不叫风投

为了减少盲目性,产品经理和制定产品策略的老总至关重要。

高技术公司的产品老总在宏观上了解NLP的潜力,同时深谙市场的卖点,了解客户的需求和痛点,可以具体制定产品和产品features的specs给 NLP developers,只有这样合作才能成事。

回尼克的问题, parsing 和搜索的关系。parsing 完再搜一定是效果好的,因为搜不到就backoff 到关键词。你可以肯定高于搜索,问题是成本。搜索完再根据情况调用parsing,也是可行的。

Nick:我就是这个意思。我印象当年powerset给我看的demo是先搜后parsing。

但是这个问题,更准确的表述应该是,一个query来了,有个 routing 的process,这个 routing 可以包括局部搜索探路,也可以包括其他的策略,总之是,应该可以找到一类 query,这类 query 最适合用 parsing 来回应。最好是那些关键词最难回应,而结构最拿手的。如果这个子集能大体确定,那么 parsing 在互联网搜索上是大有可为的。其实,目前的搜索巨头,在利用 parsing 的路上走得太慢。原因我不清楚,但是明显是利用不够。话说回来,如果巨头都能那么灵活,也就没有小公司的活路了。

Jing:用户量大了后用户的历史行为就间接人肉parsing了。

历史行为那是另一个侧面和角度,可以满足信息需求的一个部分。历史行为确实也等于间接利用了人工的parsing的结果,因为人在选择点击阅读某个网页的时候是扫描理解(parse)了链接上的标题的。但那不能涵盖 parsing 所能起的全部作用。

Jing:query understanding包括这个步骤。你前面提到的那个分去做query的哥们完全可以做这个呀

query understanding 是非常重要的一个环节,可是做的人痛苦啊,两三个词玩不出语言学的名堂来,没意思。做 text 的人面对的是整个互联网。query 是语言中的一个分子,那种感觉是不一样的。

【相关博文】

泥沙龙笔记:从乔姆斯基大战谷歌Norvig说起 2015-06-20

乔姆斯基批判 2015-06-15

把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发

【置顶:立委科学网博客NLP博文一览(定期更新版)】


http://blog.sciencenet.cn/blog-362400-901032.html

上一篇:“运动”损伤与体重有很大的关系
下一篇:权利?义务?说说“父亲们休产假”的事儿

 

10  戴德昌 李伟钢 陈辉 黄永义 徐耀 麻庭光 武夷山 赵凤光 yunmu bridgeneer

发表评论评论 (3 个评论)

删除 回复 |赞[3]赵凤光   2015-6-29 10:49
胜者为王,剩

删除 回复 |赞[2]麻庭光   2015-6-28 08:09
有意思的5万小时定律,那可是一代人的时间,需要入门精准运气而又不被淘汰,这是可望而不可求的机遇。

删除 回复 |赞[1]黄永义   2015-6-28 06:01
闲话不闲,解释关键。

置顶:立委NLP博文一览(定期更新版)】 屏蔽留存

置顶:立委NLP博文一览(定期更新版)】

屏蔽已有 11232 次阅读 2015-7-3 00:30 |个人分类:立委科普|系统分类:科研笔记| NLP, 科普, 自然语言

NLP University

【立委NLP相关博文汇总一览】

NLP University 开张大吉

《朝华午拾》总目录

余致力自然语言处理(NLP,Natural Language Processing)凡30年,其目的在求交流之通畅,信息之自由,语言之归一,世界之大同。积30年之经验,深知欲达此目的,必须启蒙后进,普及科学,同心协力,共建通天之塔,因作文鼓而吹之。处理尚未成功,同志仍需努力。
 
1. 关于NLP体系及方法论
 
 
 

【立委科普:自然语言parsers是揭示语言奥秘的LIGO式探测仪】

泥沙龙笔记:漫谈语言形式

《泥沙龙笔记:沾深度神经的光,谈parsing的深度与多层》

【立委科普:语言学算法是 deep NLP 绕不过去的坎儿】

《OVERVIEW OF NATURAL LANGUAGE PROCESSING》

《NLP White Paper: Overview of Our NLP Core Engine》

White Paper of NLP Engine

【新智元笔记:工程语法和深度神经】

【新智元笔记:李白对话录 – RNN 与语言学算法】

《新智元笔记:再谈语言学手工编程与机器学习的自动编程》

《新智元笔记:对于 tractable tasks, 机器学习很难胜过专家》

《新智元笔记:【Google 年度顶级论文】有感》

《新智元笔记:NLP 系统的分层挑战》

《泥沙龙笔记:连续、离散,模块化和接口》

《泥沙龙笔记:parsing 的休眠反悔机制》

【立委科普:歧义parsing的休眠唤醒机制初探】

【泥沙龙笔记:NLP hard 的歧义突破】

【立委科普:结构歧义的休眠唤醒演义】

【新智元笔记:李白对话录 – 从“把手”谈起】

《新智元笔记:跨层次结构歧义的识别表达痛点》

立委科普:NLP 中的一袋子词是什么

一切声称用机器学习做社会媒体舆情挖掘的系统,都值得怀疑

立委科普:关键词革命

立委科普:关键词外传

《立委随笔:机器学习和自然语言处理》

【泥沙龙笔记:语法工程派与统计学习派的总结】

【科普小品:NLP 的锤子和斧头】

【新智元笔记:两条路线上的NLP数据制导】

《立委随笔:语言自动分析的两个路子》

Comparison of Pros and Cons of Two NLP Approaches

why hybrid? on machine learning vs. hand-coded rules in NLP

Why Hybrid?

钩沉:Early arguments for a hybrid model for NLP and IE

【李白对话录:你波你的波,我粒我的粒】

【泥沙龙笔记:学习乐观主义的极致,奇文共欣赏】

《泥沙龙笔记:铿锵众人行,parsing 可以颠覆关键词吗?》

泥沙龙笔记:铿锵三人行

《泥沙龙铿锵三人行:句法语义纠缠论》

【科普随笔:NLP主流的傲慢与偏见】

【科普随笔:NLP主流最大的偏见,规则系统的手工性】

再谈机器学习和手工系统:人和机器谁更聪明能干?

乔姆斯基批判

Chomsky’s Negative Impact

[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】

【新智元笔记:语法糖霜论不值得认真对待】

【科研笔记:NLP “毛毛虫” 笔记,从一维到二维】

【泥沙龙笔记:NLP 专门语言是规则系统的斧头】

【新智元:理论家的围墙和工程师的私货】

泥沙龙笔记:从乔姆斯基大战谷歌Norvig说起

【Church – 钟摆摆得太远(2):乔姆斯基论】

【NLP主流的反思:Church – 钟摆摆得太远(1):历史回顾】

【Church – 钟摆摆得太远(3):皮尔斯论】

【Church – 钟摆摆得太远(4):明斯基论】

【Church – 钟摆摆得太远(5):现状与结论】

《泥沙龙笔记:【钟摆摆得太远】高大上,但有偏颇》

自给自足是NLP王道

自然语言后学都应该看看白硕老师的“自然语言处理与人工智能”

语言创造简史

Notes on Building and Using Lexical Semantic Knowledge Bases

【NLP主流成见之二,所谓规则系统的移植性太差】

Domain portability myth in natural language processing (NLP)

【科普随笔:NLP的宗教战争?】

Church – 计算语言学课程的缺陷 (翻译节选)

【科普随笔:NLP主流之偏见重复一万遍成为反真理】

坚持四项基本原则,开发鲁棒性NLP系统

NLP 围脖:成语从来不是问题

NLP 是一个力气活:再论成语不是问题

立委围脖:对于用户来说,抓住老鼠就是好猫

《科普随笔:keep ambiguity untouched》

【科研笔记:NLP的词海战术】

在构筑一个模型时,枚举法是常用的必要的强盗分类

没有语言学的 CL 走不远

[转载]为什么谷歌搜索并不像广泛相信的那样主要采用机器学习?

手工规则系统的软肋在文章分类

老教授回函:理性主义回摆可能要再延迟10几年

每隔二十年振荡一次的钟摆要多长?

【系统不能太精巧,正如人不能太聪明】

《泥沙龙李白对话录:关于纯语义系统》

【泥沙龙笔记:语义可以绕过句法吗】

一袋子词的主流方法面对社交媒体捉襟见肘,结构分析是必由之路

《新智元:通用的机器人都是闹着玩的,有用的都是 domain 的》

SBIR Grants

2. 关于NLP分析(parsing)

【语言学小品:送老婆后面的语言学】

【一日一parsing:NLP应用可以对parsing有所包容】

泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(1/2)

泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(2/2)

【语义计算沙龙:巨头谷歌昨天称句法分析极难,但他们最强】

语义计算沙龙:parsing 的鲁棒比精准更重要】

语义计算沙龙:基本短语是浅层和深层parsing的重要接口》

【做 parsing 还是要靠语言学家,机器学习不给力】

《泥沙龙笔记:狗血的语言学》

语义计算沙龙:关于汉语介词的兼语句型,兼论POS】

泥沙龙笔记:在知识处理中,很多时候,人不如机

《立委科普:机器可以揭开双关语神秘的面纱》

《泥沙龙笔记:漫谈自动句法分析和树形图表达》

泥沙龙笔记:语言处理没有文法就不好玩了

泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索

泥沙龙笔记:从 sparse data 再论parsing乃是NLP应用的核武器

【立委科普:NLP核武器的奥秘】

【立委科普:语法结构树之美】

【立委科普:语法结构树之美(之二)】

【立委科普:自然语言理解当然是文法为主,常识为辅】

语义计算沙龙:从《知网》抽取逻辑动宾的关系】

【立委科普:教机器识英文】

【立委科普:及物、不及物 与 动词 subcat 及句型】

泥沙龙笔记:再聊乔老爷的递归陷阱

【泥沙龙笔记:人脑就是豆腐,别扯什么递归了】

泥沙龙笔记:儿童语言没有文法的问题

《自然语言是递归的么?》

Parsing nonsense with a sense of humor

【科普小品:文法里的父子原则】

Parent-child Principle in Dependency Grammar

乔氏 X 杠杠理论 以及各式树形图表达法

【泥沙龙笔记:依存语言学的怪圈】

【没有语言结构可以解析语义么?浅论 LSA】

【没有语言结构可以解析语义么?(之二)】

自然语言中,约定俗成大于文法教条和逻辑

泥沙龙笔记:三论世界语

泥沙龙笔记:再聊世界语及其文化

泥沙龙笔记:聊一聊世界语及老柴老乔以及老马老恩

《泥沙龙笔记:NLP component technology 的市场问题》

【泥沙龙笔记:没有结构树,万古如长夜】

Deep parsing:每日一析

Deep parsing 每日一析:内情曝光 vs 假货曝光

Deep parsing 每日一析 半垃圾进 半垃圾出

【一日一parsing: 屈居世界第零】

【研发随笔:植树为林自成景(10/n)】

【deep parsing:植树为林自成景(20/n)】

【deep parsing:植树为林自成景(30/n)】

语义计算沙龙:植树为林自成景(40/n)】

【deep parsing 吃文化:植树为林自成景(60/n)】

【deep parsing (70/n):离合词与定语从句的纠缠】

【deep parsing (80/n):植树成林自成景】

【deep parsing (90/n):“雨是好雨,但风不正经”】

【deep parsing (100/n):其实 NLP 也没那么容易气死】

3. 关于NLP抽取

【语义计算沙龙:知识图谱无需动用太多知识 负重而行】

【立委科普:信息抽取】

《朝华午拾:信息抽取笔记》

泥沙龙笔记:搜索和知识图谱的话题

《知识图谱的先行:从Julian Hill 说起》

《有了deep parsing,信息抽取就是个玩儿》

【立委科普:实体关系到知识图谱,从“同学”谈起】

泥沙龙笔记: parsing vs. classification and IE

前知识图谱钩沉: 信息抽取引擎的架构

前知识图谱钩沉: 信息体理论

前知识图谱钩沉,信息抽取任务由浅至深的定义

前知识图谱钩沉,关于事件的抽取

钩沉:SVO as General Events

Pre-Knowledge-Graph Profile Extraction Research via SBIR (1)

Pre-Knowledge-Graph Profile Extraction Research via SBIR (2)

Coarse-grained vs. fine-grained sentiment extraction

【立委科普:基于关键词的舆情分类系统面临挑战】

【“剩女”的去向和出路】

SBIR Grants

4.关于NLP大数据挖掘

“大数据与认识论”研讨会的书面发言(草稿)

【立委科普:自动民调】

Automated survey based on social media

《立委科普:机器八卦》

言多必露,文本挖掘可以揭示背景信息

社媒是个大染缸,大数据挖掘有啥价值?

大数据挖掘问答2:会哭的孩子有奶吃

大数据挖掘问答1:所谓数据完整性

为什么做大数据的吹鼓手?

大数据NLP论

On Big Data NLP

作为公开课的大数据演讲

【立委科普:舆情挖掘的背后】

【立委科普:所谓大数据(BIG DATA)】

【科研笔记:big data NLP, how big is big?】

文本挖掘需要让用户既能见林又能见木

【社媒挖掘:《品牌舆情图》的设计问题】

研究发现,国人爱说反话:夸奖的背后藏着嘲讽

立委统计发现,人是几乎无可救药的情绪性动物

2011 信息产业的两大关键词:社交媒体和云计算

《扫了 sentiment,NLP 一览众山小:从“良性肿瘤”说起》

5. 关于NLP应用

【河东河西,谁敢说SMT最终一定打得过规则MT?】

【立委科普:NLP应用的平台之叹】

【Bots 的愿景】

《新智元笔记:知识图谱和问答系统:how-question QA(2)》

《新智元笔记:知识图谱和问答系统:开题(1)》

【泥沙龙笔记:NLP 市场落地,主餐还是副食?】

《泥沙龙笔记:怎样满足用户的信息需求》

立委科普:问答系统的前生今世

《新智元笔记:微软小冰,人工智能聊天伙伴(1)》

《新智元笔记:微软小冰,可能的商业模式(2)》

《新智元笔记:微软小冰,两分钟定律(3)》

新智元笔记:微软小冰,QA 和AI,历史与展望(4)

泥沙龙笔记:把酒话桑麻,聊聊 NLP 工业研发的掌故

泥沙龙笔记:创新,失败,再创新,再失败,直至看上去没失败

泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索

立委科普:从产业角度说说NLP这个行当

【立委科普:机器翻译】

立委硕士论文【附录一:EChA 试验结果】

社会媒体(围脖啦)火了,信息泛滥成灾,技术跟上了么?

2011 信息产业的两大关键词:社交媒体和云计算

再说苹果爱疯的贴身小蜜 死日(Siri)

从新版iPhone发布,看苹果和微软技术转化能力的天壤之别

非常折服苹果的技术转化能力,但就自然语言技术本身来说 ...

科研笔记:big data NLP, how big is big?

与机器人对话

《机器翻译词义辨识对策》

【立委随笔:机器翻译万岁】

6. 关于中文NLP

【新智元:parsing 在希望的田野上】

语义计算沙龙:其实 NLP 也没那么容易气死

【deep parsing (70/n):离合词与定语从句的纠缠】

【立委科普:deep parsing 小讲座】

【新智元笔记:词的幽灵在NLP徘徊】

《新智元笔记:机器的馅饼专砸用心者的头》

【新智元笔记:机器的馅饼(续篇)】

【新智元笔记:parsing 汉语涉及重叠的鸡零狗碎及其他】

【新智元笔记:中文自动分析杂谈】

【deep parsing:“对医闹和对大夫使用暴力者,应该依法严惩" 】

【让机器人解读洪爷的《人工智能忧思录》(4/n)】

【让机器人解读洪爷的《人工智能忧思录》(3/n)】

【让机器人解读洪爷的《人工智能忧思录》(2/n)】

【让机器人解读洪爷的《人工智能忧思录》(1/n)】

《新智元笔记:找茬拷问立氏parser》

【新智元笔记:汉语分离词的自动分析】

《新智元笔记:与汉语离合词有关的结构关系》

《新智元笔记:汉语使动结构与定中结构的纠缠》

《新智元笔记:汉语parsing的合成词痛点》

《新智元:填空“的子结构”、“所字结构”和“者字结构“》

【沙龙笔记:汉语构词和句法都要用到reduplication机制】

钩沉:博士阶段的汉语HPSG研究 2015-11-02

泥沙龙小品:小词搭配是上帝给汉语文法的恩赐

泥沙龙笔记:汉语牛逼,国人任性!句法语义,粗细不同

泥沙龙笔记:汉语就是一种“裸奔” 的语言

【NLP笔记:人工智能神话的背后是汗水】

【立委随笔:中文之心,如在吾庐】

汉语依从文法 (维文钩沉)

《立委科普:现代汉语语法随笔》

“自由”的语言学至少有三种理论

应该立法禁止切词研究 :=)

再谈应该立法禁止切词研究

中文处理的迷思之一:切词特有论

中文处理的迷思之二:词类标注是句法分析的前提

中文NLP迷思之三:中文处理的长足进步有待于汉语语法的理论突破

专业老友痛批立委《迷思》系列搅乱NLP秩序,立委固执己见

后生可畏,专业新人对《迷思》争论表面和稀泥,其实门儿清

突然有一种紧迫感:再不上中文NLP,可能就错过时代机遇了

社会媒体舆情自动分析:马英九 vs 陈水扁

舆情自动分析表明,谷歌的社会评价度高出百度一倍

方寒大战高频情绪性词的词频分析

方韩大战的舆情自动分析:小方的评价比韩少差太多了

研究发现,国人爱说反话:夸奖的背后藏着嘲讽

立委统计发现,人是几乎无可救药的情绪性动物

研发笔记:粤语文句的情报挖掘

《立委随笔: 语言学家是怎样炼成的》

《立委科普:汉语只有完成体,没有过去时》

《科研笔记:中文图灵试题?》

立委统计发现,汉语既适合吹嘘拍马亦长于恶意构陷

比起英语,汉语感情更外露还是更炽烈?

科研笔记:究竟好还是不好

《科普随笔:汉字和语素》

《科普随笔:汉语自动断词 “一次性交500元”》

《科普随笔:“他走得风一样地快” 的详细语法结构分析》

【立委科普:自动分析 《偉大的中文》】

《立委随笔:汉语并不简单》

语言学小品:结婚的远近距离搭配

中文处理的模块化纠结

【立委科普:《非诚勿扰》中是谁心动谁动心?】

曙光在眼前,轻松过个年

挺反自便,但不要欺负语言学!

当面对很烦很难很挑战的时候

创造着是美丽的

汉语依从文法 (维文钩沉)

《新智元:挖掘你的诗人气质,祝你新年快乐》

7. 关于NLP社会媒体舆情挖掘的实践

【语义计算沙龙:sentiment 中的讽刺和正话反说】

【喋喋不休论大数据(立委博文汇总)】

【新智元笔记:再谈舆情】

舆情挖掘系统独立验证的意义

【社煤挖掘:雷同学之死】

《利用大数据高科技,实时监测美国总统大选舆情变化》

世人皆错nlp不错,民调错大数据也不会错

社媒大数据的困境:微信的风行导致舆情的碎片化

从微信的用户体验谈大数据挖掘的客户情报

社媒挖掘:社会媒体疯传柴静调查,毁誉参半,争议趋于情绪化

奥巴马赢了昨晚辩论吗?舆情自动检测告诉你

全球社交媒体热议阿里巴巴上市

到底社媒曲线与股市曲线有没有、有多少相关度?

再谈舆情与股市的相关性

【『科学』预测:A-股 看好】

舆情挖掘用于股市房市预测靠谱么?

大数据帮助决策实例:《走进“大数据”——洗衣机寻购记》

【社媒挖掘:外来快餐店风光不再】

【社媒挖掘:中国手机市场仍处于战国争雄的阶段】

世界杯是全世界的热点,纵不懂也有义务挖掘一哈

【大数据挖掘:方崔大战一年回顾】(更正版)

【大数据挖掘:转基因一年回顾】

【大数据挖掘:“苦逼”小崔2013年5-7月为什么跌入谷底?】

【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】

【大数据挖掘:转基因英文网络的自动民调和分析】

只认数据不认人:IRT 的鼓噪左右美国民情了么?

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么

关于转基因及其社会媒体大数据挖掘的种种问题

【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】

【社媒挖掘:必胜客是七夕节情侣聚餐的首选之地?】

【社媒挖掘:大数据时代的危机管理】

测试粤语舆情挖掘:拿娱乐界名人阿娇和陈冠希开刀

【社媒挖掘:不朽邓丽君】

【社媒挖掘:社会媒体眼中的李开复老师】

【社媒挖掘:糟糕透顶的方韩社会形象】

社媒挖掘:关于狗肉的争议

社媒挖掘:央视的老毕

社媒挖掘:老毕私下辱毛事件再挖掘

大数据淹没下的冰美人(之一)

大数据淹没下的冰美人(之二)

大数据淹没下的冰美人(之三): 喜欢的理由

大数据淹没下的冰美人(之四): 流言蜚语篇(慎入)

大数据淹没下的冰美人(之五): 星光灿烂谁为最?

【社媒挖掘:成都暴打事件中的男司机和女司机】

【社媒挖掘:社会媒体眼中的陳水扁】

【社媒挖掘:社会媒体眼中的李登輝】

【社媒挖掘:馬英九施政一年來輿情晴雨表】

【社媒挖掘:臺灣政壇輿情圖】

【社媒挖掘:社会媒体眼中的臺灣綠營大佬】

舆情挖掘:九合一國民黨慘敗 馬英九時代行將結束?

社会媒体舆情自动分析:马英九 vs 陈水扁

社媒挖掘:争议人物方博士被逐,提升了其网路形象

方韩大战高频情绪性词的词频分析

方韩大战的舆情自动分析:小方的评价比韩少差太多了

社媒挖掘:苹果CEO库克公开承认同志身份,媒体反应相当正面

苹果智能手表会是可穿戴设备的革命么?

全球社交媒体热议苹果推出 iPhone 6

互联网盛世英雄马云的媒体形象

革命革到自身头上,给咱“科学网”也挖掘一下形象

两年来中国红十字会的社会媒体形象调查

自动民调Walmart,挖掘发现跨国公司在中国的日子不好过

【社媒挖掘:“剩女”问题】

【舆情挖掘:2013央视春晚播后】

【舆情挖掘:年三十挖一挖央视春晚】

新浪微博下周要大跌?舆情指数不看好,负面评价太多(疑似虚惊)

【大数据挖掘:微信(WeChat)】

【大数据解读:方崔大战对转基因形象的影响】

【微博自动民调:薄熙来、薛蛮子和李天一】

【社媒挖掘:第一夫人光彩夺目赞誉有加】

Chinese First Lady in Social Media

Social media mining on credit industry in China

Sina Weibo IPO and its automatic real time monitoring

Social media mining: Teens and Issues

立委元宵节大数据科技访谈土豆视频上网

【大数据挖掘:中国红十字会的社会媒体形象】

【社媒挖掘:社会媒体眼中的财政悬崖】

【社媒挖掘:美国的枪支管制任重道远】

【舆情挖掘:房市总体看好】

【社媒挖掘:社会媒体眼中的米拉先生】

【社会媒体:现代婚姻推背图】

【社会媒体:现代爱情推背图】

【科学技术之云】

新鲜出炉:2012 热点话题五大盘点之五【小方vs韩2】

【凡事不决问 social:切糕是神马?】

Social media mining: 2013 vs. 2012

社会媒体测试知名品牌百度,有惊人发现

尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲?

舆情自动分析表明,谷歌的社会评价度高出百度一倍

圣诞社媒印象: 简体世界狂欢,繁體世界分享

WordClouds: Season's sentiments, pros & cons of Xmas

新鲜出炉:2012 热点话题五大盘点之一【吊丝】

新鲜出炉:2012 热点的社会媒体五大盘点之二【林书豪】

新鲜出炉:2012 热点话题五大盘点之三【舌尖上的中国】

新鲜出炉:2012 热点话题五大盘点之四【三星vs苹果】

社会媒体比烂,但国骂隐含舆情

肮脏语言研究:英语篇

肮脏语言研究:汉语篇(18岁以下勿入)

新年新打算:【社媒挖掘】专栏开张大吉

8. 关于NLP的掌故趣闻

《朝华午拾:创业之路》

《朝华午拾 - 水牛风云》

《朝华午拾:用人之道》

《朝华午拾:欧洲之行》

《朝华午拾:“数小鸡”的日子》

《朝华午拾:一夜成为万元户》

《朝华午拾:世界语之恋》

《朝华午拾:我的考研经历》

80年代在国内,社科院的硕士训练使我受益最多

科研笔记:开天辟地的感觉真好

《朝华午拾:今天是个好日子》

【朝华午拾:那天是个好日子】

10 周年入职纪念日有感

《立委随笔: 语言学家是怎样炼成的》

说说科研立项中的大跃进

围脖:一个人对抗一个世界,理性主义大师 Lenat 教授

《泥沙龙笔记:再谈 cyc》

围脖:格语法创始人菲尔墨(Charles J. Fillmore)教授千古!

百度大脑从谷歌大脑挖来深度学习掌门人 Andrew Ng

冯志伟老师以及机器翻译历史的一些事儿

《立委随笔:微软收购PowerSet》

NLP 历史上最大的媒体误导:成语难倒了电脑

立委推荐:乔姆斯基

巧遇语言学上帝乔姆斯基

[转载]欧阳锋:巧遇语言学新锐 - 乔姆斯基

【科普小品:伟哥的关键词故事】

不是那根萝卜,不做那个葱

【随记:湾区的年度 NLP BBQ 】

女怕嫁错郎,男怕入错行,专业怕选错方向

据说,神奇的NLP可以增强性吸引力,增加你的信心和幽会成功率

【立委科普:美梦成真的通俗版解说】

【征文参赛:美梦成真】

【创业故事:技术的力量和技术公司的命运】

把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发

MT 杀手皮尔斯 (翻译节选)

ALPAC 黑皮书 1/9:前言

《眼睛一眨,来了王子,走了白马》

职业随想曲:语言学万岁

立委随笔:Chomsky meets Gates

钩沉:《中国报道》上与导师用世界语发表的第一篇论文

钩沉:《中国报道》上用世界语发表的第二篇论文

贴身小蜜的面纱和人工智能的奥秘

有感于人工智能的火热

泥沙龙笔记微博议摘要

【泥沙龙笔记:没有结构树,万古如长夜】

【泥沙龙笔记:机器 parsing 洪爷,无论打油或打趣】

老革命遇到新问题,洪爷求饶打油翁

我要是退休了,就机器 parse 《离骚》玩儿

《朝华午拾》总目录

【置顶:立委NLP博文一览(定期更新版)】

立委NLP频道

http://blog.sciencenet.cn/blog-362400-902391.html

上一篇:泥沙龙笔记:再聊乔老爷的递归陷阱
下一篇:人机接口是机器人的面子

 

6  陆泽橼 李雄 陈辉 朱新亮 bridgeneer decipherer

发表评论评论 (3 个评论)

删除 回复 |赞[2]赵明   2016-6-3 22:32
李老师 
 回复  : thanks

2016-6-26 14:381 楼(回复楼主)赞|回复

删除 回复 |赞[1]李斌   2016-1-31 20:29
college挺好啦。

肮脏语言研究:英语篇 屏蔽留存

肮脏语言研究:英语篇

屏蔽已有 12678 次阅读 2014-9-13 15:07 |个人分类:立委科普|系统分类:科研笔记| 骂人, 脏字, profanity

肮脏也是人类生活的一部分,总得有人研究。肮脏语言的研究可以提醒人们注意语言文明,防止语言暴力,支持垃圾清扫或过滤等。有了互联网的匿名性,人类更加肆无忌惮,不雅用语横行,但人类不幸文人幸,互联网也为语言学家对不雅语词的研究提供了极大的方便。

最近在做英语和汉语这方面的调查研究,发现其实不同文化和语言也差不多,都有庞大的肮脏语词词汇。其中主要类别不外乎是:

(1)性:性器官、性行为、性取向

性行为是人类繁衍的根本,人人做,人人骂,古今中外,概莫能外,这里收集了约30多个骂法:

// F-word and the like

fuck, fucken, clitfuck, cunnilingus, dicksucking, dickslap, fellatio, feltch, assfuck, handjob, humping, blowjob, fuckin, fucking, fucks, munging, pussylicking, rimjob, skullfuck, titfuck, tittyfuck, wank, wankjob, dick-sneeze, fucketh, fark, feck, fook, frick, blow job, jerk off, fuckest, motherfucking, mothafucking, mothafuckin, mothafuckin', mothafucka, grandmafucka, motherfucker,dildo, fuckbutter, fucker

很长时间,人类把同性恋看成是性行为中最为肮脏的苟且之事。英语骂同性恋的单词据不完全收集有近 70 个之多:

//homosexual

cocksucker, assfuck, ass-jabber, ass-pirate, assbandit, assbanger, assfucker, assgoblin, asshopper, assjacker, asspirate, bitchtits, brotherfucker, bumblefuck, butt-pirate, buttfucka, buttfucker, cockjockey, cockknoker, cockmaster, cockmongler, cockmongruel, cockmuncher, cocksmith, cocksmoke, cocksmoker, cocksniffer, cumguzzler, cumjockey, cuntlicker, dickfucker, dickmonger, dicksucker, dicktickler, carpetmuncher, dike, douchewaffle, dyke, fag, faggot, fagbag, fagfucker, faggit, faggot, faggotcock, flamer, fudgepacker, gaybob, gaydo, gayfuck, gayfuckist, gaylord, gaytard, gaywad, homo, lesbo, lezzie, mcfagget, muffdiver, penisbanger, penisfucker, penispuffer, polesmoker, queer, queerbait, queerhole, twatwaffle, unclefucker, fagtard

女性器官类有30个骂词,男性器官类有 20 个:

// vagina

cunt, axwound, coochie, coochy, cooter, cunnie, cunthole, minge, kooch, kootch, gooch, panooch, pissflaps, poon, poonani, poontang, punanny, pussy, poonany, clit, kunt, muff, snatch, twat, twats, va-j-j, vag, vajayjay, vjayjay, camel toe, pussies, queef

// penis

penis, bollocks, bollox, choad, dickhole, fuckstick, nutsack, pecker, prick, chode, schlong, scrote, testicle, nut sack, dick, cock, dickhead, hard on, boner, renob, cum, dickjuice, dickmilk , jizz, skeet, dickbeaters, butt plug

侮辱女性为女巫和婊子的也不少,连带有对女性第二性征的辱骂:

bitch, whore, hoe, punta, skank, slut, slutbag, cumdumpster, cumslut, bitchy

tits, chesticle

屁股离性器官较近,又是排泄污物的器官,自然也成为骂人的利器,收集到 15 个单词:

// butt

anus, arse, arsehole, ass, assclown, asscracker, assface, asshat, assmuncher, assshole, asswad, asswipe, fuckbutt, fuckhead, gayass, shitspitter

(2)弱智傻逼等:

英语有 80+ 个不堪入耳指着鼻子骂人的话语,这还仅仅是单词层,不包括扩展性和创造性的短语类骂法:

// idiot

ass-hat, assbag, assbite, asscock, asshead, asshole, asslick, assmonkey, assmunch, assshit, asssucker, bampot, bitchass, clitface, cockbite, cockburger, cockass, cockface, cockfucker, cockhead, cockmonkey, cocknose, cocknugget, cockshit, cockwaffle, cumbubble, cumtart, cuntass, cuntface, cuntrag, cuntslut, dickbag, dickface, dickfuck, dickwad, dickweasel, dickweed, dickwod, dipshit, doochbag, douche-fag, dumass, dumbass, dumbfuck, dumbshit, dumshit, fuckass, fuckbag, fuckboy, fuckbrain, fuckersucker, fuckface, fucknut, fucknutt, fuckhole, fucktard, fucktart, fuckup, fuckwad, fuckwit, fuckwitt, homodumbshit, jackass, jagoff, jerkass, peckerhead, shitass, shitbag, shitbagger, shitbrains, shitcunt, shitdick, shithead, shithole, puto, suckass, thundercunt, twatlips, whorebag, whoreface, tard, lameass, bastard, douche, douchebag, jerk, dickhead, assshole, dumb ass, shitface

(3)种族

非我族类,都是鬼子,于是有各种鬼子的骂法:

beaner|wetback|spic|spick (老墨巴子)
chinc|gook (老中巴子)
chink (东亚病夫)
cracker|spook|honkey (白鬼)
dago|deggo|guido|wop (意大利鬼子)
gringo (老外)
heeb|kike|kyke (犹太鬼子)
jap (日本鬼子)
kraut (德国鬼子)
pollock (波兰鬼子)
paki (巴基斯坦巴子)
mick (爱尔兰鬼子)
ruski (俄国老毛子)
sand nigger (中东巴子)

coon|negro|nigaboo|nigga|nigger|jigaboo|junglebunny|porchmonkey|niglet|jungle bunny|porch monkey (黑鬼)

可见骂的最多的还是苦难深重的黑人兄弟。不怪他们的平权运动和反歧视示威经久不衰。

(4)最后的杂类不外是屎(shit)尿(piss)等脏物,但远不如上述类别的丰富多样:

// SHIT

shit, bullshit, dookie, shitstain, shitting, shiz, shiznit, smeg,  shitty

// PISS

piss, bugger off

最后还有 damn (诅咒) 和 hell (地狱)两个常用的诅咒见鬼的恶毒语词。

【Related】

科学网—社会媒体比烂,但国骂隐含舆情- 李维的博文

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-827442.html

上一篇:解释不清楚“动量”并不是因为语言文字的问题
下一篇:职业随想曲:语言学万岁

 

7  武夷山 刁空非 曹聪 魏东平 尤明庆 汤欢娜 LongLeeLu

乔姆斯基批判 屏蔽留存

乔姆斯基批判

屏蔽已有 7986 次阅读 2015-6-15 00:01 |个人分类:立委科普|系统分类:观点评述| NLP, 语言学, 乔姆斯基

【立委按:微信泥沙龙,谈笑鸿儒,高朋满座,信马由缰,言无所忌,摘之与同仁分享。】

【泥沙龙对话录】

今儿个咱要吐槽乔老爷,不吐不快。

开题:乔姆斯基,对领域的误导,或负面影响,与他对语言学的革命性贡献,一 样大。

他的hierarchy,是天才绝顶的理论,是不可泄露的天机,从而奠定了形式语言的基础,用来创造、解释,或编译计算机语言,是完美的指导。

可是,完美往上走一步,就可能成谬误。乔姆斯基拿这套理论,硬往自然语言套,导致整个领域,在所谓自然语言是free,还是sensitive,还是 mildly sensitive等不靠谱的争论中,陷入泥潭。

太多的人被引入歧途,理所当然地认定,因为自然语言复杂,因此需要 powerful的文法。这个 powerful,是世界上用的最误导的词。

工程师发现,有限状态好用,但经不起理论家的批判:你那玩意儿太低级,不够 powerful,只能拿来凑合事儿。

实际上,做过大工程的人都明白,对象的复杂,并不是使用复杂机制的理由,有本事使用简单机制对付复杂的对象,才是高手。

乔姆斯基最大的误导就是,用所谓自然语言的center递归性,一杆子打死有限状态,他所举的center递归的英语实例,牵强和罕见到了几乎可笑的地步,绝非自然语言的本性。结果一代人还是信服他了,彻底地被洗脑,理所当然以为必须超越有限状态才可以做自然语言深度分析。

为了所谓语言的递归性,人脑,或电脑,必须有个堆栈的结构才好,这离语言事实太远,也违背了人脑短期记忆的限制。世界上哪里有人说话,只管开门而不关门,只加左括号不加右括号,一直悬着吊着的?最多三重门吧,一般人就受不了了。就算你是超人,你受得了,你的受众也受不了,无法 parse 啊。说话不是为了交流,难道是故意难为人,为了人不懂你而说话?不 make sense 嘛。

既然如此,为什么要把不超过三层的center循环,硬要归结成似乎是无限层的递归?

(毛老:递归成了他的宗教。)

不错。乔老爷的递归误导语言学,坑了NLP太久。我对他的语言学不感冒,对他对NLP的误导,更感觉痛心。一个如此聪明强大的人,他一旦误导就可以耽误一代人。被耽误的这一代是我的前辈一代(上个世纪70年代80年代),他们在自然语言理解上的工作几乎一律为玩具系统,在实际应用上无所作为,从而直接导致了下一代人的反叛。老一代被打得稀里哗啦,逐渐退出主流舞台。

在过去30年中,统计NLP的所有成就,都是对乔姆斯基的实际批判,因为几乎所有这些模型,都是建立在ngram的有限状态模式的基础之上。

(洪爷:从乔姆斯基的所作所为,就能分出构造机器智能和解构人类智能难度上的差异。他五十年代略施小计就把形式语言夯成了计算机的Cornerstone,可是穷毕生精力,总是在重构其语言学理论。
毛老:如果没有乔老的那些理论,人们能做出计算机语言编译吗?)
洪爷:语法mapping到语义,总是要做的,不必须用形式语言,就像现在做nlp的人也不必须懂语言学。还是 David Marr,David Rumelhart 等立意高远,总想找到人机等不同智能实现上的共通计算机制。
刘老师:Marr 也是人神级别的
毛老:跟上面问题类似的是:如果没有图灵和冯诺依曼的理论,人们会造出计算机么?
洪爷:Babbage的分析机可行,Ada的程序/算法也早可行。其实,问题不在于出冯诺依曼还是马诺依曼,问题在于,不管他们的理论表面上如何不同,可能都受同样的约束,能力上可都能都等价。而Chomsky 研究的是这些约束能力。
毛老:那图灵不是更加么?
洪爷:Turing 从机器一侧,Chomsky从人一侧。)

洪爷说的是事实,过去三十年不懂语言学做NLP的占压倒多数。但那不是健康状态。不过,语言学里面也很混杂,进来的人很容易迷糊。但是,语言学里面确实有一些指导性的东西,了解与不了解大不一样。比如索绪尔,就值得琢磨。索绪尔说的大多是原则性的,有哲学的意味,是传统的非科学性的语言学,特别具有宏观指导意义,可以提醒自己不至于陷入细节的纠缠,而忘记了方向。他谈的是共性与个性的关系,语言和言语,规则与习惯,共时与现时,都很洞察、到位。

(白老师:我觉得线速、柔性很关键,多层次递归和远距离相关必须搞定。方法不限,八仙过海。)

那些已经搞定了,伪歧义也不是问题,都搞定了。有一种叫做cascaded FSA的方法,与软件工程的做法极其类似,就能搞定这些。前提是指挥者架构者不能失去全局,要胸怀索绪尔,而不是乔姆斯基。架构和interfaces设计好,下面就是模块的开发,匠人的干活,可以做到很深,接近逻辑表达,比chomsky的文法深。传统规则系统受乔姆斯基CFG影响太大,很不好用,而且也无线性算法,所陷入的困境与神经网络以及一切单层的统计系统类似。正如多层的深度学习被认为是AI的突破一样,有限状态一多层,一 cascade,以前天大的困难,递归啊远距离啊伪歧义啊,就消解于无形。

(白老师:数学上的函数复合。)

就这么一个简单的道理,结果至今批判规则系统的人,还在打稻草人,以为规则系统都是CFG那么愚蠢和单层。

乔姆斯基对nlp的误导,还在于它的短语结构的表达法。那个phrase structure破树,叠床架屋,为了追求所谓语言共性,太多的assumptions,既不经济也不好用,却长期成为 community standards,误导了不知多少人。起码误导了 PennTree,通过它误导了整个领域。,

(白老师:某种意义上,nlp是应用驱动的。与应用匹配,Ngram也不算误导。与应用不匹配,HPSG也算误导。抽象的误导不误导,让语言学家掐去吧。一个topic问题,扯了这么多年。)

语言学家打烂仗的事儿多了,说起来这与乔老爷也有很大关系。有个 self,相关的所谓 Binding Theory也是论文无数,大多垃圾,这与老乔的负面影响直接相关。为追求 universal grammar,和脱离语义的generalizations,走火入魔,大多是无谓的口水战争,既不能推进科学,也不能推进应用,唯一的好处是帮助了很多语言学博士的选题,培养出一茬接一茬的语言学博士。可是,毕业了还是找不到工作。老乔由于其超凡的智力和名气,帮助提升了语言学的地位,但他没有能力影响市场,结果是全世界语言学家过剩,懂得茴字五种写法的落魄腐儒,如过江之鲫,谁能给他们就业机会?

这里面的要害在,所有的语言分析,不可能为分析而分析,都是为了求解语义的某种需要,可老乔强调的语法纯粹性,要脱离语义才好研究终极的机制,这个argument有历史的革命意义,有某种学术价值,但非常容易形而上学和片面化,结果是语言学家脱离了目的,脱离了需要,在争论一种分析,或一个模型与另一种的优劣。其实这些相争的方案,只要系统内部相谐,都大同小异,根本就没什么本质区别,而且没有客观的可量度的评判标准,那还不打成一锅粥。

(刘老师:摆脱语义,直接进入语用?)

哪里,乔老爷是要直接进入共产主义,要世界大同。他对语义不感兴趣,更甭提语用。语义在他属于逻辑,不属于严格意义的语言学。句法语义是分割开来的两个范畴,句法必须自制。

(白老师:句法自制是错误的。)

对传统语言学完全不分家的那种分析,老乔有革命意义,也确实推进了结构研究,但凡事都是过犹不及。句法自制推向极端,就是本末倒置,失去方向。

我做博士的时候,在一个小组会上,举一些汉语的例子,作为证据反对一刀切的句法自制,说老乔有偏差,看到的语言事实不够,结果被我导师劈头盖脸批了一通,言下之意,不知天高地厚。我当然口服心不服。

问题是,我一辈子只思考一个问题,只要醒着,头脑里除了语言,就是文法,除了词汇,就是结构,突然有一天觉得自己通达了,看穿了语言学上帝,乔姆斯基。

原来,智商高,不见得离真理近,智者乔老爷,也不例外。

(洪爷:老乔不是上帝,他只是让咱看到来自造物主的理性之光。)

形式语言理论,非人力可为,绝对属于天机,单凭这,乔就是人神。

吐槽乔老爷,一次抱怨完,明儿依旧是偶像。

【后记】

到了我们的年代,俄语退居其后了,所以我本科的二外选的是法语,到研究生才选了俄语做三外,不过全还给老师了。虽然语言是还给老师,体悟到的语言学却长存,所以也不冤。到 30 年后的今天主持 multilingual program,带着参考书,我还一样可以指导法语和俄语的 NLP 研发,语言的不同,换汤不换药也。

不管我怎么批判乔姆斯基,我还是服他到不行:他老人家的威望可以把 Universal Grammar 这种乍听很荒唐的观念,转化成一个让人仰视的语言哲学理念。UG 的真理之光由此不被遮蔽。当然最厉害的还是他的 hierarchy 形式语言理论,那几乎不可能是人的理论,那是上帝之光,尽管乔老爷在描述的时候,不免机械主义,hence 造成了极大的误导。

 

【相关博客】

巧遇语言学上帝乔姆斯基

泥沙龙笔记:从乔姆斯基大战谷歌Norvig说起 

Chomsky’s Negative Impact

泥沙龙笔记:再聊乔老爷的递归陷阱

【置顶:立委科学网博客NLP博文一览(定期更新版)】

 

http://blog.sciencenet.cn/blog-362400-898036.html

上一篇:Automated survey based on social media
下一篇:米拉围脖:质疑?还是质询?

 

22  陈楷翰 曹聪 余国志 陈辉 武夷山 黄永义 李泳 张骥 蔣勁松 刘洋 翟自洋 王桂颖 李宇斌 李伟钢 鲍博 赵凤光 icgwang shenlu yzqts bridgeneer straponHawking tuqiang

发表评论评论 (10 个评论)

删除 回复 |赞[9]李斌   2016-11-22 22:03
将欲破之,必先找到一把好刀,不为破而破,破乃为用。

删除 回复 |赞[8]crossludo   2015-6-16 07:57
X87        2015CB759500        大脑皮层微尺度信息传入活动图的绘制        中国人民解放军第三军医大学        谌小维        前两年        222.00
X2        2015CB057300        大功率屏蔽式核主泵自主化形性协同制造原理        大连理工大学        雷明凯        前两年        1581.00

删除 回复 |赞[7]yao101yao   2015-6-16 07:49
王宁讲的是 理论行的通 工程上不认可

删除 回复 |赞[6]张能立   2015-6-16 06:04
算术 思维 与 农民 治国 http://blog.sciencenet.cn/blog-39840-898154.html

删除 回复 |赞[5]张能立   2015-6-16 05:36
人的 目标 始终 面临 两个 方向 问题:1.  自己 喜欢 成为 什么? 2. 自己 应该 成为 什么?不过,不论 哪种 选择,要是 不能 发展 人的 intelligence,最终 还是 要 被 Truth 所 淘汰的。立委 一直 是 站在 第1个 立场 看待 自然语言 问题的,而 乔老爷 是 站在 第2个 立场 看待 自然语言 问题的。正所谓 道不同,不相谋,立委 对 乔老爷的 理论 不感冒 就是 自然的。

删除 回复 |赞[4]tuqiang   2015-6-15 22:56
乔姆斯基那一套可以做计算机里面数学式子的分析,离开自然语言差了十万八千里。
 回复  : 话说回来,没有自然语言的数学化研究和启示,他老人家也提不出形式语言理论来。至少从形式上,他能把人类语言和电脑语言统一起来,达到一种人力难以企及的高度。如果没有乔姆斯基,电脑理呆们打死也不会对词法分析,句法分析,语义求解,parsing 等感兴趣,并如数家珍地谈论这些语言学的概念。这是其一。

其二,正因文乔老爷自己也知道他的形式语言理论的抽象过头了,难以回到自然语言的地面,才有他穷其一生在自然语言的语言学方面的继续革命,革自己的命,花样翻新,试图找到一个终极的普遍文法的自然语言解构。这次他就没有那么幸运了,虽然在学界依然所向披靡,无人能敌,但却与电脑科学渐行渐远,被连接语言学和电脑应用的计算语言学领域所抛弃。也许不该说抛弃,但是自然语言领域大多把他当菩萨供起来,敬神鬼而远之,没多少人愿意跟他走。

2015-6-16 03:541 楼(回复楼主)赞|回复

删除 回复 |赞[3]黄永义   2015-6-15 12:33
话题精!

删除 回复 |赞[2]庄朝晖   2015-6-15 11:27
维特根斯坦:“我们已经走上了一个光滑的冰面,冰面是理想的、没有摩擦力的。但是,没有摩擦力 就不能往前行走。要前进,还是回到粗糙的地面上来吧。 ”

删除 回复 |赞[1]陈楷翰   2015-6-15 00:17
深思之。。。。。。。。。。我学术上也出问题了。

[转载] Is Google ranking based on machine learning? 屏蔽留存

[转载] Is Google ranking based on machine learning?

屏蔽已有 3747 次阅读 2014-6-18 17:21 |个人分类:立委科普|系统分类:科研笔记| google, machine, Search, Learning |文章来源:转载

Quora has a question with discussions on "Why is machine learning used heavily for Google's ad ranking and less for their search ranking?" A lot of people I've talked to at Google have told me that the ad ranking system is largely machine learning based, while search ranking is rooted in functions that are written by humans using their intuition (with some components using machine learning). 

Surprise? Contrary to what many people have believed, Google search consists of hand-crafted functions using heuristics. Why?

479

 

 

One very popular reply there is from Edmond LauEx-Google Search Quality Engineer who said something which we have been experiencing and have indicated over and over in my past blogs on Machine Learning vs. Rule System, i.e. it is very difficult to debug an ML system for specific observed quality bugs while the rule system, if designed modularly, is easy to control for fine-tuning:

From what I gathered while I was there, Amit Singhal, who heads Google's core ranking team, has a philosophical bias against using machine learning in search ranking.  My understanding for the two main reasons behind this philosophy is:

  1. In a machine learning system, it's hard to explain and ascertain why a particular search result ranks more highly than another result for a given query.  The explainability of a certain decision can be fairly elusive; most machine learning algorithms tend to be black boxes that at best expose weights and models that can only paint a coarse picture of why a certain decision was made.

  2. Even in situations where someone succeeds in identifying the signals that factored into why one result was ranked more highly than other, it's difficult to directly tweak a machine learning-based system to boost the importance of certain signals over others in isolated contexts.  The signals and features that feed into a machine learning system tend to only indirectly affect the output through layers of weights, and this lack of direct control means that even if a human can explain why one web page is better than another for a given query, it can be difficult to embed that human intuition into a system based on machine learning.

Rule-based scoring metrics, while still complex, provide a greater opportunity for engineers to directly tweak weights in specific situations.  From Google's dominance in web search, it's fairly clear that the decision to optimize for explainability and control over search result rankings has been successful at allowing the team to iterate and improve rapidly on search ranking quality.  The team launched 450 improvements in 2008 [1], and the number is likely only growing with time.

Ads ranking, on the other hand, tends to be much more of an optimization problem where the quality of two ads are much harder to compare and intuit than two web page results.  Whereas web pages are fairly distinctive and can be compared and rated by human evaluators on their relevance and quality for a given query [2], the short three- or four-line ads that appear in web search all look fairly similar to humans.  It might be easy for a human to identify an obviously terrible ad, but it's difficult to compare two reasonable ones:

Branding differences, subtle textual cues, and behavioral traits of the user, which are hard for humans to intuit but easy for machines to identify, become much more important.  Moreover, different advertisers have different budgets and different bids, making ad ranking more of a revenue optimization problem than merely a quality optimization problem.  Because humans are less able to understand the decision behind an ads ranking decision that may work well empirically, explainability and control -- both of which are important for search ranking -- become comparatively less useful in ads ranking, and machine learning becomes a much more viable option.

Jackie BavaroGoogle PM for 3 years Suggest Bio

Votes by Piaw Na (Worked at Google)Marc BodnickAlex ClemmerTudor Achim, and 92 more.
 
Edmond Lau's answer is great, but I wanted to add one more important piece of information.

When I was on the search team at Google (2008-2010), many of the groups in search were moving away from machine learning systems to the rules-based systems.  That is to say that Google Search used to use more machine learning, and then went the other direction because the team realized they could make faster improvements to search quality with a rules based system. It's not just a bias, it's something that many sub-teams of search tried out and preferred.

I was the PM for Images, Video, and Local Universal - 3 teams that focus on including the best results when they are images, videos, or places.  For each of those teams I could easily understand and remember how the rules worked.  I would frequently look at random searches and their results and think "Did we include the right Images for this search?  If not, how could we have done better?". And when we asked that question, we were usually able to think of signals that would have helped - try it yourself.  The reasons why *you* think we should have shown a certain image are usually things that Google can actually figure out.

 
 
 
 
 
Upvote • Comment •  • Thank • Report • Written 10 Apr, 2013
Anonymous

Votes by Edmond Lau (Ex-Google Search Quality Engineer)Bin Lu (Software Engineer at Google)Keith RaboisVu Ha, and 34 more.
 
Part of the answer is legacy, but a bigger part of the answer is the difference in objectives, scope and customers of the two systems.

The customer for the ad-system is the advertiser (and by proxy, Google's sales dept).  If the machine-learning system does a poor job, the advertisers are unhappy and Google makes less money. Relatively speaking, this is tolerable to Google. The system has an objective function ($) and machine learning systems can be used when they can work with an objective function to optimize. The total search-space (# of ads) is also much much smaller.

The search ranking system has a very subjective goal - user happiness. CTR, query volume etc. are very inexact metrics for this goal, especially on the fringes (i.e. query terms that are low-volume/volatile). While much of the decisioning can be automated, there are still lots of decisions that need human intuition.

To tell whether site A better than site B for topic X with limited behavioural data is still a very hard problem. It degenerates into lots of little messy rules and exceptions that tries to impose a fragile structure onto human knowledge, that necessarily needs tweaking.

An interesting question is - is the Google search index (and associated semantic structures)  catching up (in size and robustness) to the subset of the corpus of human knowledge that people are interested in and  searching for ?

My guess is that right now, the gap is probably growing - i.e. interesting/search-worthy human knowledge is growing faster than Google's index.. Amit Singhal's job is probably getting harder every year. By  extension, there are opportunities for new  search providers to step into the increasing gap with unique offerings.

p.s: I used to manage an engineering team for a large search provider (many years ago).

 

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-804469.html

上一篇:回答一些行星绕太阳运行轨道的话题
下一篇:再谈机器学习和手工系统:人和机器谁更聪明能干?

[转载]为什么谷歌搜索并不像广泛相信的那样主要采用机器学习? 屏蔽留存

[转载]为什么谷歌搜索并不像广泛相信的那样主要采用机器学习?

屏蔽已有 3314 次阅读 2014-6-18 17:28 |个人分类:立委科普|系统分类:科研笔记| 规则, 机器学习, 搜索排序, 经验系统 |文章来源:转载

《为什么机器学习广泛的用在谷歌的广告系统中,而很少用在搜索排序中?》 其中涉及到机器学习的优劣与局限性,分析了检索排序系统与广告系统的种种不同,希望对大家有所参照。地址:|为什么机器学习广泛的用在谷歌的广告系统中,而很少用在搜索排序中? 原文地址:http://t.cn/RvpAmsl

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-804472.html

上一篇:回答一些行星绕太阳运行轨道的话题
下一篇:再谈机器学习和手工系统:人和机器谁更聪明能干?

 

2  陈辉 bridgeneer

[转载]转载留存 Google 搜索涉及ML的相关文字 屏蔽留存

[转载]转载留存 Google 搜索涉及ML的相关文字

屏蔽已有 8488 次阅读 2014-6-19 12:35 |个人分类:立委科普|系统分类:海外观察| 机器学习, 谷歌搜索 |文章来源:转载

DatawockyOn Teasing Patterns from Data, with Applications to Search, Social Media, and Advertising

【立委按】讨论中提到,即便机器学习已经达到手工系统的水平,谷歌搜索的研发人员也不愿意转用机器学习。说担心机器学出来的模型在训练集未见的现象上铸成大错。而他们相信,手工系统对付未见现象不至于走偏太大。这个论点,不好置评。不过,我觉得,更主要的原因不在这里,而在遇到具体质量问题时,机器学习系统是一锅粥,很难 debug(除非不怕麻烦,重新训练去再煮一锅粥,但也常常是隔靴搔痒,很难保证这锅新粥对要解决的具体问题会奏效)。而手工系统只要设计合理(比如模块化设计,减少牵一发动全身的后果),具体问题具体对待,可直接针对性调控,debug 就容易多了。因此,即便质量相近的系统,机器学习也不占优势,因为不好维护调控以逐步提高质量(incremental enhancement)。

TRACKBACK

TrackBack URL for this entry:
http://www.typepad.com/services/trackback/6a00d83471bc3153ef00e5527c00a38833

Listed below are links to weblogs that reference Are Machine-Learned Models Prone to Catastrophic Errors?:

 
COMMENTS

Feed You can follow this conversation by subscribing to the comment feed for this post.

from http://anand.typepad.com/datawocky/2008/05/are-human-experts-less-prone-to-catastrophic-errors-than-machine-learned-models.html 

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-804688.html

上一篇:回答一些行星绕太阳运行轨道的话题
下一篇:再谈机器学习和手工系统:人和机器谁更聪明能干?

大数据挖掘问答1:所谓数据完整性 屏蔽留存

大数据挖掘问答1:所谓数据完整性

屏蔽已有 3472 次阅读 2013-12-27 11:12 |个人分类:立委科普|系统分类:科研笔记| 大数据

到了一定尺度以后,你也不用迷信什么数据完整性,好像少了一块数据,就怎样怎样了
作者: 立委 (*)
日期: 12/26/2013 18:54:07
关键是,不管何种原因数据不完整了,只要原则上保证这种数据损失不是针对特定话题即可(一视同仁)。而在大数据条件下,针对话题的损失 事故几乎就不出现,因为话题不是预定的,想有意针对它都不成。阴谋(家)没有出场的可能。

以前我写博文论过这个完整性迷思/迷信。有100种可能损失部分“理想状态”的完整数据:server down,发围脖的人改主意了决定不发了,或者发了以后又撤了删了,数据库的bug,处理器的bug,为成本考量有意随机取样一个子集,等等。总之,不完整是常态,完整是奇迹,不能指望的。

都大数据了,少一些就少一些呗。其实,损失数据通常不会影响分析挖掘的质量和结论。

我们做过评估,一年的社会媒体和随机取其中10%的内容做index,挖掘结果没有统计意义的差别,可成本节省很多。

就更不用说垃圾数据,或者疑似垃圾数据(门槛可以高一点)。那只会提高数据质量和结论。

顺便说一下一人一票的民主制度。几亿人去投票唱票算大数据尺度吧。其实随机剥夺一半,甚至90%,公民的投票权,其选举结果是不变的。注意,我说的是随机,譬如所有姓名以S开头的人都不允许投票。被剥夺投票的人也不用担心,作为人民一分子,大海一滴水,你的那份权利已经被恰当地代表了,结果反正也不会因为你不参与而改变。从结果看,经济上应该这么做,当然没有任何民主政府这么做,因为里面牵涉到公民权利和意识等,不仅仅是结果的问题。

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-753349.html

上一篇:大数据帮助决策实例:《走进“大数据”——洗衣机寻购记》
下一篇:大数据挖掘问答2:会哭的孩子有奶吃

 

4  许培扬 刘钢 薛宇 邱嘉文

发表评论评论 (4 个评论)

删除 回复 |赞[3]邱嘉文   2013-12-29 09:41
谁能告诉我这个“尺度”要大到什么程度,可量化吗?才符合“最大似然原理”?

删除 回复 |赞[2]闵应骅   2013-12-27 16:02
从信息安全的角度讲,数据完整性是个大问题。

删除 回复 |赞[1]许培扬   2013-12-27 11:19
小数据解决不了的问题,大数据也一样。发现问题,不一定解决问题,奥巴马是个典型。
 回复  : 我觉得,大数据挖掘看全貌(森林),小数据分析看细节(树木),这是很多应用场合都需要的互补的步骤。

2013-12-27 22:051 楼(回复楼主)

“大数据与认识论”研讨会的书面发言(草稿) 屏蔽留存

“大数据与认识论”研讨会的书面发言(草稿)

屏蔽已有 7417 次阅读 2014-2-10 12:55 |个人分类:立委科普|系统分类:科普集锦| 大数据, 自然语言, 挖掘, 社会媒体

【立委按】刘钢老师来函,邀请我从我的大数据博文系列选辑一篇书面发言,参加社科院哲学所题为“大数据与认识论”的研讨会。盛情难却,更不用说社科院是我老家了。那就把散在科学网博客【社媒挖掘】和【立委科普】专栏的博文中的立委论大数据拼接汇总一下吧。无论国内国外,学界业界,“大数据”都是滚烫的热词。上次愚人节应中文信息学会邀请在软件所做了一个题为【大数据时代中文社会媒体的舆情挖掘】的演讲,科学网编辑还特地录了像,高挂在【科学网公开课】里,与那些世界级大师的讲座并列,与有荣焉,不胜惶恐(倒不是要自我矮化,说自己的大数据工作不在世界水平之列,但科学大讲堂这座庙里请的都是何等人物?面对的是科学殿堂让人高山仰止的大牌科学家和诺贝尔奖得主,在下乃区区一介匠人而已,何德何能,登堂入室)。无独有偶,去年流行大数据,硅谷科学家和工程师举行一系列关于大数据的讨论会,被邀请作为 panelist 参加了两个大数据研讨会,现场问答热烈,气氛很活跃。旅美华人科学家协会最近征集出版了一期大数据专刊,也发表了几篇论文。硅谷的【丁丁电视】也很早就邀请立委在其《创新频道》做一个大数据的科技访谈,一直抽不开身准备,推迟到三月左右。一来二去,俨然是大数据专家了。其实,立委所长不过是大数据之一部,即自然语言的文本挖掘这块儿。而对于大数据的非文本形式(譬如语音、图片、录像、交易数字记录等),对于大数据的云处理手段及其工程架构等,所知十分有限。因此,本文仅仅就自然语言文本挖掘,特别是对近年火热的社会媒体的挖掘,谈一点一己之见,抛砖引玉,供各位参考。

(1) 大数据热的背景

我们现在正处在一个历史契机,近几年发生了一连串值得注意的相关事件。其热门关键词是社会媒体(social media) 、云计算(cloud computing),移动互联网(mobile web)和大数据(big data)情报挖掘。针对社会媒体内容利用云计算作为支撑的高新技术产业成为潮流。

社会媒体尤其是微博持续升温,无论是用户还是其产生的内容,都以爆炸性速度增长,一场悄悄的社会媒体革命正在发生,它从根本上改变着社会大众以及企业对信息的接受和传播方式。传统的由媒体巨头主导经由电视、广播和报纸的自上而下的新闻和宣传的传播方式,正在逐渐让步于基于网络与网民的社交媒体的蛛网方式。最新的新闻(无论是天灾人祸、名人掐架还是品牌褒贬)常常发端于处在现场的网民或当事人的微博,然后瞬间辐射到整个互联网,传统传媒往往紧随其后。在这样的形势下,企业软件巨头纷纷把目光聚焦在对于社会媒体舆论和民意的跟踪上,视其为品牌和客户情报的重要来源。

2011年初,美国做市场情报的巨头之一 Salesforce以三亿多美元 (326million)的价钱并购了社会媒体客户情报检测系统Radian6,说明社会媒体中客户对产品的评价情报对于企业的重要性不容忽视。Oracle对从事云计算和社会媒体追踪的公司RightNow的并购更是高达15亿(1.5 billion).  HP在逐渐放弃低利润的PC和平板等硬件产业的同时,开始加强企业软件的投资力度,以120亿天价购并了从事文本情报的英国公司Autonomy(12billion)。最后,接近2011年末的时候,全球企业软件的另一家巨头SAP以34亿收购了云计算公司SuccessFactors(3.4 billion),并决定与专事社会媒体深度分析的公司 Netbase 建立战略伙伴关系,分销并整合其社会媒体情报作为企业情报解决方案的重要一环。加上IBM自己的 Coremetrics Social 和 Adobe的 SocialAnalytics,可以看到所有企业软件巨头不约而同看好社会媒体的情报价值。

在这个领域的投资和竞争日趋激烈。越来越多的华尔街主流投资公司开始加大对社交媒体 (social media) 分析系统公司的投资力度。如 Jive Software,连续得到 Sequoia Capital 两轮投资 (2007 和2010)。Sequoia Capital 是“重中之重”的 投资大鳄,曾是如下名牌企业的最早投资商,战略眼光犀利: Apple, Google, Cisco, Oracle.

对于中文社交媒体大规模处理的应用型软件,目前才刚起步。然而中文网络信息的增长速度却是扶摇直上,最值得重视的是爆炸性增长的腾讯微信对个人网络及其社交方式的革命性影响,以及新浪微博在社会公共生活中的巨大影响。社交媒体所产生的巨量内容有如深埋的富矿,亟待开采。

有问,这一波热潮会不会是类似2000年的又一个巨大的泡沫?我的观察是,也是,也不是。的确,在大数据的市场还不成熟,发展和盈利模式还很不清晰的时候,大家一窝蜂拥上来创业、投资和冒险,其过热的行为模式确实让人联想到世纪之交的互联网 dot com 的泡沫。然而,这次热潮不是泡沫那么简单,里面蕴含了实实在在的内容和价值潜力,我们下面会具体谈到。当然这些潜在价值与市场的消化能力是否匹配,仍是一个巨大的问题。可以预见三五年之后的情景,涅磐的凤凰和死在沙滩上的前浪共同谱写了大数据交响乐的第一乐章。

回顾一下互联网技术公司的里程碑吧:

20多年前雅虎以门户网站(Yahoo portal)先领风骚,谷歌以搜索 (Google search) 后来居上,脸书推出的社交网络(Facebook social)与推特(Twitter)的微博现已深入我们每个人的生活。国内社交媒体是新浪微博和腾讯微信领头。下一个里程碑是什么?
Big data intelligence (大数据情报挖掘)

很多人这样预测。 Google 首席科学家也列此为未来十年的高新技术第一块牌子。所不清晰的是谁家会胜出。看样子是有志之士摩拳擦掌弄潮儿的时机了。

(2)什么是大数据

顾名思义就是强调数据的量,但其实这个概念并不是那样简单。如果单纯论量,大数据不是今天才有的,而且数据的量也是一个积累渐变(当然可能是加速度增长)的过程。

所谓大数据,更多的是社会媒体火热以后的专指,是已经与施事背景相关联的数据,而不是搜索引擎从开放互联网搜罗来的混杂集合。没有社会媒体及其用户社会网络作为背景,纯粹从量上看,“大数据”早就存在了,它催生了搜索产业。对于搜索引擎,big data 早已不是新的概念,面对互联网的汪洋大海,搜索巨头利用关键词索引(keyword indexing)为亿万用户提供搜索服务已经很多年了。我们每一个网民都是受益者,很难想象一个没有搜索的互联网世界。但那不是如今的 buzz word,如今的大数据与社会媒体密不可分。当然,数据挖掘领域把用户信息和消费习惯的数据结合起来,已经有很多成果和应用。自然语言的大数据可以看作是那个应用的继续,从术语上说就是,文本挖掘(text mining,from social media big data)是数据挖掘(data mining) 的自然延伸。对于语言技术,NLP 系统需要对语言做结构分析,理解其语义,这样的智能型工作比给关键词建立索引要复杂百倍,也因此 big data scale up 一直是自然语言技术的一个瓶颈。

大数据也包括声音、 图片和录像等媒体。本文只谈文本大数据。

随着社会媒体的深入人心以及移动互联网的普及,人手一机,普罗百姓都在随时随地发送消息,发自民间的信息正在微博、微信和各种论坛上遍地开花。对于信息受体(人、企业、政府等),信息过载(information overload)问题日益严重,利用 NLP 等高新技术来帮助处理抽取信息,势在必行。

 

除了与社会媒体以及施事背景密切相关以外,大数据此时的当红也得力于技术手段的成熟。大数据的存贮架构以及云计算的海量处理能力,为大数据时代的到来提供了技术支撑平台。在此基础上,大数据的深度挖掘才有可能跳出实验室,在具体应用和服务中发挥作用。

大数据时代只认数据不认人。Of course, In God We Trust. But in everything else we need data. 道理很简单,在信息爆炸的时代,任何个人的精力、能力和阅历都是有限的,所看到听到的都是冰山一角。大V也是如此,大家都在盲人摸象。唯有大数据挖掘才有资格为纵览全貌提供导引。

当然,这不是说,大数据挖掘就是完美的解决方案。但是,正如一人一票的民主选举也不是人类社会完美的体制,而只是最少犯错误的机制一样,大数据挖掘比任何其他个人或利益集团的分析,较少受到主观偏见的干扰。这是由大数据本性决定的。

大数据是忽悠么?吆喝多了,烂了,就跟转基因似的,本来是正经的研究,也要被人怀疑是忽悠,甚至骗局。要说忽悠,大数据有没有忽悠?当然有,应该说很多。所有的泡沫都是吹起来的,但特别大的泡沫其所以能被吹起来并且持续,就不仅仅是吹功可为。正如我演讲中说过的,大数据不仅仅是忽悠,一场革命也许在酝酿着。

(3)大数据挖掘技术及其挑战

  社会媒体火了,信息爆炸式增长,也有了大数据支撑平台,挖掘技术跟上了么?

  面对呈指数增长的海量信息,人类越来越面对信息获取的困境。唯一的出路是依靠电脑挖掘。对付文本大数据的核心技术是自然语言处理(NLP),没有鲁棒高效的 NLP,电脑挖掘得不到什么有指导价值的情报。就说社会媒体对产品和服务的评价吧,每时每刻,无数用户的抱怨和推荐不断出现在网上,这些客户对产品的评价情报对于企业加强产品功能和研发新产品,具有很高的应用价值。可是怎么获取这些淹没在语言海洋中的情报呢?出路就是:1 自动分析; 2. 自动抽取;3 挖掘整合。这就是我们正在做而且已经取得显著效果的工作。

  社会媒体的特点是什么?概括来说,就是:1. 不断翻新的海量信息源;2. 满是不规范的字词和表达法。这就要求研发的系统,首先必须具有大数据处理能力( scalability),实验室的玩具系统无论其数据分析多么精准深入也是不行的;同等重要的还有分析系统的鲁棒性(robustness)。在这两者的基础上,如果再能做到有深度(depth),则更佳。深度分析的优势在于能够支持应用层面的以不变应万变。因为应用层面的变数大,不同的客户、不同的产品对于信息的关注点不同,所以抽取信息应该越灵活越好,最好能做到象目前运用搜索引擎或数据库查询那样方便。但数据的语言表达是千变万化的,要做到信息的灵活抽取,而不是根据事先预定的信息模板来抽取,那就需要相当的语言分析深度来支持一个逻辑化的语义表达。要一个系统既有 scalability,robustness,还要有 depth,不是一件容易的事儿。

  在处理海量数据的问题解决以后,查准率和查全率变得相对不重要了。换句话说,即便不是最优秀的系统,只有平平的查准率(譬如70%,抓100个,只有70个抓对了),平平的查全率(譬如30%,三个只能抓到一个),只要可以用于大数据,一样可以做出优秀的实用系统来。其根本原因在于两个因素:一是大数据时代的信息冗余度;二是人类信息消化的有限度。查全率的不足可以用增加所处理的数据量来弥补,这一点比较好理解。既然有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。从信息消费者的角度,一个信息被抓住一千次,与被抓住900次,是没有本质区别的,信息还是那个信息,只要准确就成。疑问在一个查准率不理想的系统怎么可以取信于用户呢?如果是70%的系统,100条抓到的信息就有30条是错的,这岂不是鱼龙混杂,让人无法辨别,这样的系统还有什么价值?沿着这个思路,别说70%,就是高达90%的系统也还是错误随处可见,不堪应用。这样的视点忽略了实际的挖掘系统中的信息筛选(sampling)与整合(fusion)的环节,因此夸大了系统的个案错误对最终结果的负面影响。实际上,典型的情景是,面对海量信息源,信息搜索者的几乎任何请求,都会有数不清的潜在答案。由于信息消费者是人,不是神,即便有一个完美无误的理想系统能够把所有结果,不分巨细都提供给他,他也无福消受(所谓 information overload)。因此,一个实用系统必须要做筛选整合,把统计上最有意义的结果呈现出来。这个筛选整合的过程是挖掘的一部分,可以保证最终结果的质量远远高于系统的个案质量。总之,size matters,多了就不一样了。大数据改变了技术应用的条件和生态,大数据更能将就不完美的引擎。

(4)客户评价和民意舆论的抽取挖掘

舆情(舆论情绪/舆论情势)是什么?人民(或网民)的声音。

人民是由个体组成的,网民是由网虫组成的。网民的声音来自一个个网虫的帖子。网民声音的载体就是社会媒体大数据。在大数据的尺度下,个体声音的过细分类没有太大意义,因为只要数据足够大,其最终舆情结果(结论)是不变的。举例来说,10万个正面呼声,100万个负面呼声,其综合舆情结果并不会因为这10万中有 1万crazy,1万love,8万like,负面中有10万fuck,10万hate,80万dislike 等等而有大的改变。无论如何计算,结论依然是天怒人怨。

大数据系统情报挖掘的真正价值何在呢?就是揭示冗余度支持的有统计意义的情报及其关联。在大数据的尺度下,个体情报的引擎查全率的不足不是问题,因为在大数据整体挖掘的背景下,样本空间的问题消失了。个体的不足或遗漏,不过是等价于样本空间缩小了那么一点点儿,对于统计情报的完备、性质和价值不具有负面影响。考虑到很多年来,统计情报都是手工 survey 而来,其样本空间由于预算以及时效的制约,大多是几千个数据点(data points)而已,统计人员一直在预算、时效和 error margin 之间挣扎。如今的大数据挖掘,随便一个调查都有百万甚至千万的数据点支持,与手工调查完全不可同日而语,样本空间的些微变化因此不能对情报价值造成伤害。总之,与其追求引擎的查全率,不如把精力放在查准率上,然后着力于应对数据量的挑战(scale up)。

采样大就可以弥补个体颗粒度的粗疏,这在机器学习领域被一再证明,也是很多统计学家不屑于语言学家精雕细刻雕虫小技的缘由之一。这么说,语言学可以退出舞台了?

并非如此。主要原因有二。

第一是大数据并非总存在。冷门品牌或者新出的品牌的数据量就往往不够,另外很多分析要求对数据进行切割,比如从时间维度的切割可以反映舆情的消长(trends),是制定决策时非常重要的情报,可是大数据一切隔往往就成了小数据,没有语言学上比较细致的分析来弥补,舆情分析就不靠谱,没有足够的置信度。

第二是褒贬分析只提供舆情的一个概览,它本身并不是 actionable insights.  知道很多人喜欢或者不喜欢一个品牌,so what?企业还是不知道怎么办,最多是在广告宣传投资量的决策上有些参考价值,对于改进品牌产品,适应用户需求,褒贬舆情太过抽象,不能提供有价值的情报。这就要求舆情分析冲破两分、三分、五分的分类法,去发掘这些情绪的背后的动因(reasons/motivation),回答为什么网民喜欢(不喜欢)一个品牌的问题。譬如挖掘发现,原来喜欢麦当劳的主要原因是它发放优惠券,而不喜欢它的原因主要是嫌它热量太大,不利减肥。这样的舆情才是企业在了解自己品牌基本形象以后,最渴望得到的 actionable 情报,因为他们可以据此调整产品方向(如增加绿色品种和花样,水果、色拉等),改变广告策略(如强调其绿色的部分)。

大数据给决策人(政府、企业或者犹豫如何选择的消费者)提供了一个前所未有的方便工具,去纵览有统计意义的舆情。这在以前只能通过小规模误差很大的人工问卷调查来做。如今自动化了,而且样本量高出好几个量级,拜科学技术所赐。

(5)自动民调: 社媒大数据挖掘的重要应用

社媒大数据挖掘最重要的应用之一是自动民调,可以补充、加强并最终 取代手工问卷调查。可以用来测量一场运动、战役、广告的效果,总统选情的检测,等等。

自动民调(Automatic Survey)指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论,其技术领域即所谓舆情挖掘(sentiment mining),通常需要自然语言(NLP)和机器学习(Machine Learning)等技术作为支持。自动民调是对传统的问卷调查一个补充或替代。在社会媒体日益普及的今天,民间情绪和舆论通过微博、博客或论坛等社会媒体管道铺天盖地而来,为了检测、采集和吸收这些舆论,自动民调势在必行,因为手工挖掘面对大数据(big data)已经完全不堪负荷。

民意调查(poll)可以为政府、企业以及民众的决策提供量化情报,应用范围极其广泛。总统大选是一个突出的例子,对于总统候选人本人及其竞选团队,对于选民,民调的结果可以帮助他们调整策略或作出选择。产品发布是企业的例子,譬如 iPhone 5 发布以后,民调的反馈可以帮助苹果及时发现问题。对于有意愿的消费者,民调的结果也有助于他们在购买、等待还是转向别家的决策时,不至于陷入盲目。

相对于传统的以问卷(questionnaire)调查为基础的民调,自动民调有以下几个突出特点。

及时性。传统民调需要经过一系列过程,设计问卷、派发问卷(通过电话采访、街头采访、有奖刺激等手段)、回收问卷,直到整合归纳,所有程序都须手工进行,因此难以做到及时响应。一个认真的客户产品调查常常需要几天甚至几周时间方可完成。自动民调可以做到立等可取。对于任意话题,使用自动民调系统就像利用搜索引擎一样方便,因为背后的处理机在不分昼夜地自动分析和索引有关的语言资料(通常来自社会媒体)。

高性价。传统民调的手工性质使得只有舍得不菲的花费,才可以做一项有足够规模的民调(样本小误差就大,难以达到民调的目的)。自动民调是由系统自动完成,同一个系统可以服务不同客户不同话题的各种民调,因此可以做到非常廉价,花费只需传统民调的零头。样本数可以高出手工调查回收数量的n个量级,是传统民调无法企及的。至于话费,通常的商业模式有两种,客户可以订阅(license)这样的系统的使用权,然后可以随时随地对任意多话题做任意多民调。零散客户也可以要求记件使用,每个话题民调一次缴纳多少钱。

客观性。传统民调需要设计问卷,这就可能有意无意引入主观因素,因此不能完全排除模糊歧义乃至误导的可能。自动民调是自底而上的自动数据分析,用的是归纳整合的方法,因此更加具有客观性。为了达成调查,调查者有时不得不施行物质刺激,这也产生了部分客户纯粹为了奖励而应付调查、返回低质问卷的弊端。自动民调的对象是民意的自然流露(水军和恶意操纵另论),基数大,也有利于降噪,这就保障了情报的客观性。

对比性。这一点特别重要,因为几乎任何话题的民调,都需要竞争对手或行业的背景。正面反面的舆论,问题的严重性等等,只有通过对比才能适当体现。譬如民调奥巴马的总统竞选效益,离不开对比其对手罗梅尼。客户调查 AT&T 手机网络的服务,离不开比较其竞争者 Verizon,等。很多品牌实际上需要与一系列同类品牌做对比,才好确定其在市场的地位(如上图所示,对社会媒体的自动民调清楚显示出美国几家主要零售店在消费者心目中的相对位置)。这种对比民调,虽然在理论上也可以手工进行,但是由于手工民调耗时耗力耗钱,很多时候调查者不得不减少或者牺牲对于竞争对手的调查,利用有限的资源只做对本企业的品牌调查。可自动调查就不同了,多话题的调查和对比是这类产品设计的题中应有之义,可以轻易完成。

自动民调也有挑战,主要挑战在于人为噪音:面对混乱的社会媒体现实,五毛、水军以及恶意舆论的泛滥,一个有效的舆情系统必须不断与垃圾作战。好在这方面,搜索引擎领域已经积攒了丰富的经验可以借鉴。另一个挑战是需要对网络世界做两类媒体的分类(所谓push/pull的媒体分野)。民意调查切忌混入“长官意志”,客户情报一定要与商家宣传分开:同是好话,商家是王婆卖瓜,客户才是上帝下旨。这种媒体分类可以结合来源(sources)、语气(宣传类材料常常是新闻官方语气,而客户评价则多用口语和网络语)来决定,是有迹可寻的。

总之,在互联网的时代,随着社会媒体的深入民间,民间情绪和舆论的表达越来越多地诉诸于社会媒体。因此,民调自动化势必成为未来民调的方向和主流。其支持技术也基本成熟,大规模多语言的应用指日可待。

奥巴马赢了昨晚辩论吗?舆情自动检测告诉你。

Obama won the debate, see our evidence

民调自动化,技术带领你自动检测舆情: 社会媒体twitter的自动检测表明,奥巴马显然赢了昨晚的第二次辩论。人气曲线表明他几乎在所有议题上领先罗梅尼。
      对奥巴马真正具有挑战性的议题有二:一是他在第一任总统期间的经济表现(6:55pm);二是批判他对中国不够强硬 (7:30pm)。人气曲线反映了由我们自然语言技术支持的实时舆情挖掘。

(6)实时监测: 大数据时代的危机管理

大数据挖掘第二个重要应用就是为公关危机提供实时监测和预警的工具。

话说这危机管理(risk management)在进入社交媒体大数据时代,确实成为一个大问题。老话说,好话不出门,坏话传千里。在微博微信的时代,岂止千里,有时候一件事被疯狂推转,能传遍全世界。如果没有危机管理的意识以及迅速发现和应对的技术手段和公关技巧,损失的就是企业的信誉,外加金钱。这一点大名鼎鼎的跨国公司西门子最清楚,由于公关处理失当,发现和应对的不及时不诚恳不懂心理学,惹恼了一位叫做罗永浩的胖大哥。老罗是大 V,嗓子亮,因此一个简单的产品质量问题(好像是西门子冰箱的门不太容易关严实)演变成一场社交媒体的戏剧性的消费者维权事件。老罗愤而砸西门子冰箱的行为艺术和形象,成为家喻户晓的消费者维权的特征符号。西门子为此损失了多少银子,百万还是千万,只有他们自己可以算清楚,打落牙齿自己吞,这是傲慢的西门子的血的教训。

企业大数据运用的主要运用场景(use scenarios),其中危机管理(risk management)最容易打动企业客户,他们也最愿意花大钱帮助实时监控。一个可能的公关灾难从火种到无法收拾,里面可以调控的时间并不长,他们希望电脑大数据监控能在第一时间发出预警,然后他们可以及时应对。

曾经测试中文系统一个月的微博数据(新浪微博和腾讯微博),想看看系统对于类似危机的监测效果如何,结果发现了一个当时闹得沸沸扬扬的必胜客虾球广告事件,涉嫌侮辱视力残障人士。下面的 挖掘抓取令人印象深刻,显然这次事件严重影响了企业的社会形象,是一个不折不扣的公关危机。

 

好在必胜客管理层公关应对迅速,及时道歉,逐渐平息了事态。

(7)大数据及其挖掘的局限性

说说它的不宜和禁忌。

这种挖掘不宜做预测,更适合做回顾。当然,历史是未来的镜子,回顾过去也未尝不能透出一点趋向的预测。

这种挖掘一般不提供问题的答案,特别是科学问题,答案在专家或上帝手中,不在网民的口水里。

大数据不是决策的唯一依据,只是依据之一。正确的决策必须综合各种信息来源。大事不提,看看笔者购买洗衣机是怎样使用大数据、朋友口碑、实地考察以及种种其他考量的吧。以为有了大数据,就万事大吉,是不切实际的。值得注意的是,即便被认为是真实反映的同一组数据结果也完全可能有不同的解读(interpretations),人们就是在这种解读的争辩中逼近真相。一个好的大数据系统,必须创造条件,便于用户 drill down 去验证或否定一种解读,便于用户通过不同的条件限制及其比较来探究真相。

社媒是个大染缸,顽主比烂,僵尸横行,水军泛滥,这样的大数据,其挖掘又有什么意义?无论是怎样大的染缸,它实际上成为最具规模、最便捷、有时甚至是唯一的普罗网民的舆情宣泄口。水军僵尸总会有对付的办法。社媒的混沌和杂乱不是不作为的理由。从情报角度,它可能不是富矿,但肯定是金矿,就看你有没有本事挖掘它。

有网友怕大数据挖掘误导读者。的确,大数据的操作和挖掘可能有 bug。但大数据提供的舆情全貌鸟瞰是其他手段代替不了的,而我们每个个体在日常接触中只能看到舆情信息海洋的一滴水。事实上,无视大数据更容易被自己的局限所误导。害怕大数据,就好比蒙上眼睛,世界就不见了一样可笑。

应该指出的是,挖掘本身虽然可能有 bug ,数据本身也有不少噪音,但它们对所有搜索的话题是一视同仁的,是独立于话题的。这些数据及其挖掘的不完善只要放在比较的框架中就不是严重问题。虽然具体语言中褒贬比例和分布可能不同,但是如果一个对象的褒贬指数放在其他对象的褒贬指数的背景(reference frame) 下来阐释,其解读就比较真实。比如,在过往的许多调查中,我们知道褒贬度降到零下20以后就很不妙,说明媒体形象差,老百姓很多怨气。有了这样一个历史积累,新的品牌或话题如果达到类似的指标,解读就不大会离谱了。

特别是,我们做一个行业的多品牌调查和比较的时候更是如此。品牌A与品牌B的在舆情中的相对位置非常说明问题。系统的误差,质量的不完美,语言数据的不完整,以及语言现象的分布不匀,所有这些统统不再成为问题,除非这些差异是针对特定品牌的(这种现象基本不出现)。

这一点毛委员早就说过:有比较才有鉴别。

(8)大数据创业的苦和乐

高新技术的好处在于做前人没做过的创新。创新的真义在于在技术手段面对应用现场的无数应用可能的组合方案中,在与用户的交互与市场的培育下,你找到了那一个很小子集中的一员。这个子集里的产品定义因应时代的召唤,生逢其时,不早也不晚,而且有技术门槛(entry barrier)。

高新技术创业的痛苦不仅仅在技术研发以及实用化过程中的辛劳,更让人困惑的是来自新兴市场的挑战。尚未成熟的新兴市场好比性感女郎,时髦而善变,适应这样的市场需要的不仅仅是技术,而是善于在技术与市场之间牵线搭桥的红娘。具体说来,这决定于企业老总的眼光、产品经理的敏锐以及技术创新者随机应变的能力。技术人改变世界的宏图大志如果单纯靠自己一亩三分地的耕耘,无论你多先进和辛勤,也只能是美梦一场。

然而,如果你有幸找到了市场切入点,你会发现,你的客户不乏热情先行者(early adopters),他们不吝啬溢美之辞,为了 现实需求中疑难的解决。也有客户大喜过望,把他们不理解的语言技术,视为未来世界奇迹的提前来临。他们的欣喜会感染开发者。当这种感染不再是个案,而是时常发生的时候(所谓 tipping point),你不可能无动于衷,也不可能不加入客户成为大数据及其创新的吹鼓手。

【相关篇什】:

【喋喋不休论大数据(立委博文汇总)】

Social Media Big Date, anther bubble? 

【置顶:立委科学网博客NLP博文一览(定期更新版)】

 

http://blog.sciencenet.cn/blog-362400-766229.html

上一篇:为什么叫“上”厕所,“下”厨房?
下一篇:从分辨率与精度的话题,到单位和认识论

 

23  许培扬 马磊 刘淼 曹聪 强涛 陈楷翰 雷蕴奇 陈辉 武夷山 彭真明 刘钢 麻庭光 刘全慧 李大斌 陆泽橼 章成志 曹君君 唐常杰 王云龙 seeker99 tuner rosejump bridgeneer

发表评论评论 (8 个评论)

删除 回复 |赞[6]mirrorliwei   2014-2-12 09:25
按2楼武老师的意见,题目改成《大数据与舆论分析》就顺了。

删除 回复 |赞[5]吕乃基   2014-2-11 11:12
李老师好文!
大数据主要说的是“量”,有没有“质”,譬如大数据中的“二八定律”?

删除 回复 |赞[4]李冬   2014-2-11 09:48
对大数据以前只是听说,恰巧年前读了《大数据时代》一书,总算有了点认识。如今看到博文,进一步学习了。谢谢李老师。

删除 回复 |赞[3]刘伟   2014-2-11 09:04
认识论部分的撰写建议参考哈耶克的自由秩序之原理 ,会很有味道

删除 回复 |赞[2]武夷山   2014-2-10 17:25
李老师这个发言很好,但是没有谈大数据与认识论的关系。
 回复  : 对不起了,武老师,炒的是冷饭。没时间做热饭。

2014-2-10 23:081 楼(回复楼主)赞|回复

删除 回复 |赞[1]itellin   2014-2-10 16:50
转贴一个对大数据吐槽的文章。

吐糟为什么说Hadoop是个渣。

最近大数据概念流行,有个笑话曾经戏虐流行的也可能是感冒。除了那几个V被涛哥吐糟:原文是“大数据的4个V”,只是不痛不痒生搬硬套的无病呻吟”http://blog.sciencenet.cn/blog-3075-603325.html 。按下不表。

在国内有个现象“一窝蜂”上,好在我们人口基数多,指数现象明显,提及大数据,处理平台就须是Hadoop。好吧,就先说下Hadoop集群,国内用得起千台以上规模主机的大概也就只有BATS(百度 阿里 腾讯 新浪),某易某狐某搜都别捉急,也欢迎其他够资格的加入。Hadoop 中三个基本构成要件 HDFS BigTable MapReduce,涉及某goo的篇论文。算了,抄别人概念这事儿就不接着吐了。

逐个来,先说HDFS,为了提高数据可靠性,所谓就近计算,将数据复制三份。即将整体数据存储的空间加三倍存。在运维时,如果主机存储空间利用率超过80%,一般都要开始考虑扩容了,如果是三倍的冗余,其实这里就有近四倍的物理空间需求。

考虑某宝实际运营中硬盘的损坏率10%/年,(还有网络损坏、内存损坏、和极少的CPU损坏),合并出来运营的成本是很惊人的。增加设备同时也增加了网络接口,就算每个网络接口100元,蚊子也是肉啊。

机房空间,42U机柜,理论上能装到21台2U的主机,除去网络设备、电源控制所占空间,方便按20台主机算。如果1000台规模,需要50个机柜。但是其中2/3都是多出来的。本来需要一整个机房的空间,其实只用一排机柜。

电力消耗,平均5台机架式服务器,24x7运行1年,就需要1台机架式服务器的电费,(工业用电那叫一个贵)。1000机器开一年就需要消耗200台机器的购置费,大概也就是才多出来超过千万点点/年吧。当然,还有财务上的设备购置费或者设备折旧费用比这个数额只多不少。

解决方法:
1.压缩。提及压缩,性能指标需要看压缩时间、解压时间、压缩比,还有不是很容易注意到的内存消耗和CPU消耗。
具体的技术比较细节猛击 http://compressionratings.com/sort.cgi?rating_sum.brief+6n
最快的LZ4解缩时间,比Copy 仅多20%多一点,平均压缩率是0.5倍原始空间大小。压缩不仅意味着存储空间需求的降低,还意味着磁盘IO时间的节省,网络传输时间的节省。看似费时费力,总体应该还是节省。且如果是列式的数据,压缩效率那是惊人的。我有用 LZ4 完成超过 10:1压缩的经验。

2.HDFS的效率,为了提高所谓整柜离线的可靠性保障,就随意地将数据放了三份,某虎,你这是极不负责任地,也是动辄几千万的随意。
古代,在单机多硬盘环境下,通常使用RAID提高数据可靠性,但是在分布环境下,一样也有分布式RAID,十几年前就有的分布式RAID论文:http://www.docin.com/p-70821444.html 都没有人看到过吗?

3.如果嫌弃2太学术,实现起来比较远,glusterfs听说过了没有?从3.3开始就能支持Hadoop直接挂接了,分布式RAID,不用三份数据的。不负责任脚注:如果用glusterfs 碰到全局共享锁的问题,别怪我没有提醒。其实实现一个远程分布式RAID对那些动辄就上千万人工费的开发队伍真的就很难么?

4.BigTable, 暂时还没什么好吐的,先冷着。

5.Map-Reduce,开发中使用MR有个方便之处,写一个模块,部署到各个节点,然后其并发运行。这个看似很不起眼的功能,其实后面隐含存在着模块分发、任务调度、数据的分布和计算系列的功能。数据分布计算不说,用C写一个模块分发、并能动态调度的过程就几十行代码的事啊。用的着大费周折地用则么不高效的实现么?

6.吐糟重点来了:国内的IT行业,已经从古老的习惯敏捷开发、到互联网的习惯快速迭代,已经没有意愿进行基础平台开发了,要么快,快到干脆用Rails,其实Java当初也是打着快速应对开发的旗帜而来的;要么死,裁撤。这是一个浮躁的时代,也就注定没有耐心的基础开发。一切也如毒瘤,尾大不掉。

 回复  : 这是批评大数据的处理手段及其工程架构是否合理有效,纯粹技术层面,不涉及大数据情报挖掘的内核。

2014-2-25 19:001 楼(回复楼主)

嫖还是没嫖,这不是语言学的问题 屏蔽留存

嫖还是没嫖,这不是语言学的问题

屏蔽已有 2994 次阅读 2013-8-31 03:07 |个人分类:立委科普|系统分类:科研笔记| 社交媒体, 语言学, 嫖娼, 挖掘, 薛蛮子

【置顶:立委科学网博客NLP博文一览(定期更新版)】

薛蛮子的嫖娼事件,由于其社交媒体的高知名度以及主流媒体包括央视的渲染,在网络上传得沸沸扬扬。堂吉诃德曰,鸟大了,什么林子都有,网络世界见怪不怪。甚至有卫护者抱怨薛蛮子空有千万粉丝,居然没有女粉给他送温存,以致老顽童不得不寻花问柳,养成“特殊癖好”。

这些都不当紧,当紧的是我们做媒体自动挖掘的,对热点话题不能放过。热点话题是技术人小试牛刀(或吹破牛皮)的机会。

于是,用自家研发的系统一挖,傻了,难道真是成也嫖娼,败也嫖娼?

See,老顽童的短处(cons,左图)是嫖娼,老顽童的长处(pros,右图)居然是(不)嫖娼(那个小圈圈是远距离否定的一个图示)。另一个长处是“(不)是官吏”,似乎是说,既然不是官吏,也就无需私德无暇,也是常见的替他辩护的一种说法。

到底嫖还是没嫖,这不仅仅是哈姆雷特的天问,这更是语言学的拷问。难道地球人都知道的嫖娼事件,还有广泛流传的他本人供认不讳的视频等,系统居然挖掘出否认事件的情报?吹破大天的语言技术就这么颠倒黑白,歪曲事实?

作为系统设计者,本能的第一反应是,这一定是一个 bug,技术层面的 bug。不管怎么说,挖掘出的反面情报前15中的第一位就是嫖娼,多达 4861 条,占 95.6% 呢,比起否认嫖娼的仅有 44 条的情报,即便44条全抓错(反)了,精确度也远超 90%,还有什么好说的,咱的中文系统就是牛!

虽然这么说,心里还是一个疙瘩。灰色地带的挖掘,不准确也就罢了,这黑白分明铁板钉钉的铁案,如果抓错,是可忍,语言学不能忍。一定要查个究竟,到底是在社交媒体说话的人信口胡说,还是代码化了的中文语言学出了问题?Drill down,看看原句都是怎么样的(见【附录】)。

原来、原来是酱紫的:V大了,什么粉丝都有,一些确实是他的粉丝真滴在矢口否认(“早知道薛蛮子不是嫖娼被抓”,“说薛蛮子嫖娼会有人信吗”,“我认为薛蛮子没有嫖娼”),另一些是以否定或疑问的口气在反讽(“薛蛮子不是嫖娼好吧! 是去为性工作者谋取利益”,“谁说薛蛮子就一定是去嫖娼的? 楼主不要造谣哦, 也许人薛老汉是去买淫呢”:这不是坑我嘛,机器再聪明再语言学,也难琢磨你的言外之意呀),再有就是句子太绕,把如此冰雪聪明的系统也给绕进去了("薛蛮子就不会嫖娼吗? 薛蛮子嫖娼你怀疑个屁, 除非你能证明他没嫖娼或者他性无能")。

总而言之,言而总之,检查结果是事出有因。中文系统虽然不完美,却也非常不赖:晚上可以睡个安稳觉了,天下太平。中文是复杂的;语言学是工作的;而工作着是美丽的。

【附录】否认情报的挖掘来源样本(随机):

这个帖子是不是没有薛蛮子嫖娼案子性质恶劣? (原因)各大媒体没有报道!

 

weibo.com  2013-08-26 09:24:54

 

早知道薛蛮子不是嫖娼被抓, 而是此鸟人殷建光所说:"薛蛮子被抓获, 实际上就是对网络文化中虚伪丑陋的的严厉打击; 同时, 对于我们广大网民也是一个提醒, 读其微博, 观其言行, 思其自己, 千万不要盲冲, 盲目, 被情绪化控制.."

 2013-08-26 19:51:48

 
  • 福耀大中华小号

我认为薛蛮子没有嫖娼, 这样的栽赃陷害太弱智了吧。 怎么 这么巧, 接到群众举报?

2013-08-25 15:01:36

 
  • 大师梦话

薛蛮子不是嫖娼好吧! 是去为性工作者谋取利益, 为一个22岁的无知少女当人生的校长导师, 为一个在中国受到歧视的弱小群体维权!

 

1 similar    2013-08-25 23:06:30

 
  • 佳悦banana

薛蛮子是宣传宪政被抓的? 这么说薛蛮子没有嫖娼? [哈哈] //@唐巴马_tangbama:[嘻嘻] //@良心于-20://@玳簋三世://@钟鼎文无声: [偷笑]再宣传宪政, 你也快了

 

2013-08-25 17:27:24

 
  • 过来人近山看海

薛蛮子就不会嫖娼吗? 薛蛮子嫖娼你怀疑个屁, 除非你能证明他没嫖娼或者他性无能、或者他根本就是个女的。

    2013-08-25 13:03:51

 
  • 坏坏野男人

你怎么就知道梦鸽的儿子就一定是强奸而不是嫖娼? 凭什么薛蛮子就不是嫖娼? 有立场没原则啊。

 

2013-08-25 06:29:3

 
  • 不露哥Blue

薛蛮子不是嫖娼被抓了吗? 呵呵, 你李庄敢说你没嫖过?

 

2013-08-27 09:54:51

 
  • 边塞诗与随想曲

谁说薛蛮子就一定是去嫖娼的? 楼主不要造谣哦, 也许人薛老汉是去买淫呢。

 

2013-08-25 05:19:51

 
  • 心情很悲伤的毛毛虫

回复@迈步twitter: 对呀, 薛蛮子不也是嫖娼。 别只拿美国说事, 美国有美国的法律, 中国有中国的法律。

 

http://blog.sciencenet.cn/blog-362400-721104.html

上一篇:小学生“减负”成了一个话题
下一篇:北京富人的郊外生活

 

7  曹聪 武夷山 刘洋 陈辉 李宇斌 bridgeneer qqlisten

【科普随笔:NLP主流的傲慢与偏见】 屏蔽留存

【科普随笔:NLP主流的傲慢与偏见】

屏蔽已有 5613 次阅读 2013-5-9 17:33 |个人分类:立委科普|系统分类:科普集锦| NLP, 偏见, 机器学习, 傲慢, 规则系统

上篇博文【科普随笔:NLP的宗教战争?兼论深度学习】匆匆写就发出以后,没想到在新浪微博上一夜间有好几万点击,而平时我在新浪转发的博文最多也不到几千点击。想来一是题目比较花哨(宗教,深层学习,都是容易引起热议的 buzz words),难逃标题党嫌疑;二来内容也容易引起这个领域的争论、不屑或共鸣。

需要说明一句,那篇里面关于深度学习的notes,是信口发挥,各位不要认真,因为对于这样崭新的东西我是老外,是想当然地瞎议论,难免牵强。万一从某个角度让人看出了“道理”,那也纯粹是瞎猫撞死耗子,不足采信。

不过关于NLP过去20年两条路线的宗教式斗争,我和很多同时代人都是亲历者,这方面的每一句话都是有根据、负责任,经过深思熟虑的,有过惨痛的经历或胜利的喜悦。

虽然统计学界有很多对传统规则系统根深蒂固的偏见和经不起推敲但非常流行的蛮横结论(以后慢慢论,血泪账一笔一笔诉 :),但是机器学习的巨大成果和效益是有目共睹无所不在的:机器翻译,语音识别/合成,搜索排序,垃圾过滤,文档分类,自动文摘,知识习得,you name it

摘自【科普随笔:NLP的宗教战争?兼论深度学习】

近来浏览几篇 NLP (Natural Language Processing) 领域代表人物的综述,见其中不乏主流的傲慢与偏见,令人惊诧。细想之下,统计学界的确有很多对传统规则系统根深蒂固的成见和经不起推敲但非常流行的蛮横结论。这些一览众山小的大牛聪明绝顶,居然如此偏见蛮横,可见宗教式思维定势的危害之深,深入骨髓,对青年学子个更是贻害无穷。(主流掌门人中也有有识之士,以后再论。)可怕的不是成见,成见无处不在。真正可怕的是成见的流行无阻。而在NLP这个领域,成见的流行到了让人瞠目结舌的程度。不假思索而认同接受这些成见成为常态。因此想到立此存照一下,以后再一条一条细论。下列成见随处可见,流传甚广,为免纷扰,就不列出处了,明白人自然知道这绝不是杜撰和虚立的靶子。这些成见似是而非,经不起推敲,却被很多人视为理所当然的真理。为每一条成见找一个相应的 crappy 规则系统的案例并不难,但是从一些特定系统的缺陷推广到对整个规则系统的方法学上的批判,乃是其要害所在。

  • 【成见一】规则系统的手工编制(hand-crafted)是其知识瓶颈,而机器学习是自动训练的(言下之意:没有知识瓶颈)。

  • 【成见二】规则系统的手工编制导致其移植性差,转换领域必须重启炉灶,而机器学习因为算法和系统保持不变,转换领域只要改变训练数据即可(言下之意:移植性强)。

  • 【成见三】规则系统很脆弱,遇到没有预测的语言现象系统就会 break(什么叫 break,死机?瘫痪?失效?),开发不了鲁棒(robust)产品。

  • 【成见四】规则系统的结果没有置信度,鱼龙混杂。

  • 【成见五】规则系统的编制越来越庞杂,最终无法改进,只能报废。

  • 【成见六】规则系统的手工编制注定其无法实用,不能scale up,只能是实验室里的玩具。

  • 【成见七】规则系统只能在极狭窄的领域成事,无法实现跨领域的系统。

  • 【成见八】规则系统只能处理规范的语言(譬如说明书、天气预报、新闻等),无法应对 degraded text,如社会媒体、口语、方言、黑话、OCR 文档。

  • 【成见九】规则系统是上个世纪的技术,早已淘汰(逻辑的结论似乎是:因此不可能做出优质系统)。

  • 【成见十】从结果上看,机器学习总是胜过规则系统。

   所列“成见”有两类:一类是“偏”见,如【成见一】至【成见五】。这类偏见主要源于不完全归纳,他们也许看到过或者尝试过规则系统某一个类型,浅尝辄止,然后遽下结论(jump to conclusions)。盗亦有道,情有可原,虽然还是应该对其一一纠“正”。成见的另一类是谬见,可以事实证明其荒谬。令人惊诧的是,谬见也可以如此流行。【成见五】以降均属不攻自破的谬见。譬如【成见八】说规则系统只能分析规范性语言。事实胜于雄辩,我们开发的以规则体系为主的舆情挖掘系统处理的就是非规范的社交媒体。这个系统的大规模运行和使用也驳斥了【成见六】。

上述每一条都可以写一大篇或一个系列来详细论证其荒谬蛮横,描述学界主流中存在的傲慢与热昏。可是不用着急,血泪账今后一笔一笔诉 :)

【系列姐妹篇】

【科普随笔:NLP主流最大的偏见,规则系统的手工性】

【科普随笔:NLP主流偏见之二,所谓规则系统的移植性太差】

【科普随笔:NLP主流之偏见重复一万遍成为反真理】

【其他相关篇什】

【科普随笔:NLP的宗教战争?兼论深度学习】

坚持四项基本原则,开发鲁棒性NLP系统

why hybrid? on machine learning vs. hand-coded rules in NLP

《立委随笔:语言自动分析的两个路子》

《朝华午拾:在美国写基金申请的酸甜苦辣》

《立委随笔:机器学习和自然语言处理》

【立委科普:从产业角度说说NLP这个行当】

不得不承认,看完这些偏见之后,我有点乱了。我同意“每一条都可以写一大篇”都可以引起大的讨论,对于是否偏,一时还难明。有些我已经不知何时“采纳”了,有些也不接受。---究竟是正是偏,也是引领方向的大问题。一方面应深入讨论,示明于众,纠偏于正时。另一方面,应采实践检验的标准以实证。
米拉宝鉴:确实应该展开讨论,不着急,慢慢来。所罗列的“偏见”有两类:一类是谬见,可以证明其荒谬,譬如说规则系统不能处理社会媒体,只能分析规范性语言。另一类就是“偏”见,盗亦有道,情有可原,虽然还是应该对其纠“正”。这类偏见主要源于不完全归纳,他们也许看到过或者尝试过规则系统某一个类型。 浅尝辄止,然后 jump to conclusion

【置顶:立委科学网博客NLP博文一览(定期更新版)】

原载 《W. Li & T. Tang: 主流的傲慢与偏见:规则系统与机器学习》
【计算机学会通讯】2013年第8期(总第90期)

http://blog.sciencenet.cn/blog-362400-688230.html

上一篇:后发优势的新学科——失败学
下一篇:米拉围脖:不能把底稿给人看

 

2  李伟钢 李宇斌

发表评论评论 (4 个评论)

删除 回复 |赞[2]胡上峰   2013-7-31 20:48
从应用的角度,当然可以手工设定规则,但是从解决自然语言根本性问题的角度,手工编写的规则还是越少越好。基于手工规则的系统也只能是过渡性方案。
 回复  : 为什么“只能是过渡性方案”?

这个说法基本等价于说:

从应用角度来看,有病当然可以找专家大夫看病,但找大夫看病只能是过渡性方案,最终还是要找机器看病(不是完全没有理由啊:机器可以学习的累积病例的数量比人可怜的头脑和时间所能经验到的,不是一个量级)。

2017-2-26 03:161 楼(回复楼主)赞|回复

删除 回复 |赞[1]srrc   2013-5-9 22:09
有些论点确是研究者的体会,比如规则方法的跷跷板现象。此时正好碰上统计的新思路,加上不错的结果,很自然就改弦易辙了。
 回复  : 改弦易辙没有问题。从一个 school 转学到一个新 school 很自然,我要是年轻20岁,也一定加入 converting 的潮流。本文揭示的是偏见为什么如此流行,被很多高智商学者视为理所当然,乃至于不得不怀疑宗教疑似的世界观在作祟。至于翘翘板现象,又称按下葫芦起了瓢的问题,以后单论,其实是有有效对策的。当然,也必须承认统计路线的性质决定了它们比较善于在多种因素中玩平衡。

2013-5-10 14:521 楼(回复楼主)

作为公开课的大数据演讲 屏蔽留存

作为公开课的大数据演讲

屏蔽已有 11195 次阅读 2013-5-23 18:34 |个人分类:立委科普|系统分类:科普集锦| 大数据, NLP, 北京, 演讲, 立委

【立委按】鬼子的进村,打枪的不要:立委的北京演讲在【科学网公开课】论坛悄悄地露脸。感谢编辑MM录像、剪辑和整理上网 ,这里面的辛苦只有伊人自己知道。MM来函,要先让讲员过目。说句大实话,除非你是演员出身,或者是久经沙场的 marketer,譬如饶教授、诺奖得主那类超级大牛,像立委这样的的8级码工,看自己的录像纯粹是一场精神折磨。主要是,人长得丑,从小就不爱照镜子,积重难返。后来有了镜子也自己不用,从来都是拿 mirror 照别人。如今看录像就是逼一个怕镜子的人照镜子,那种对自己的不满,恨石不成器,不说也罢。就事论事,首先是太长,近两个小时,成裹脚布了。口音也重(一辈子也没改成)。语速太快,含混不清,还夹杂了太多的发音很不堪的 English。虽然意思基本都传达出来了,但是想来作为听众大概是跟自己一样很受罪的,不熟南方口音的估计不太搞清楚这个委员在说什么。再有就是台风不正,老揉鼻子、扶眼镜,身体晃动太厉害。没治了。不过,透过这些表层,应该可以看到磨难、坎坷、血汗和鸿运,还有一些NLP和大数据的鸟瞰式介绍 -- 如果您有足够耐心的话。感谢热心听众忍受我的口音做出来的 transcript,并允许我校正后在自己博客发表。

 

立委大数据演讲公开课】链接:

http://video.sciencenet.cn/20130521/

首先谢谢各位今天光临。愚人节好!(笑)

今天的题目是《大数据时代中文社会媒体的舆情挖掘》。这个工作我一直在做,现在已经做出了一个 Alpha product,可以使用了,下面可以介绍更详细的东西。

首先做一点自我介绍。实际上我的一生就是一个流浪。几个 milestones是,1976年高中毕业,插队。1977年文革结束,77级,第一次跳龙门。83年跳第二次龙门到社科院,读硕士。我真正入行,如果从 83 年开始,学 machine translation,师从刘倬老师和刘涌泉老师,这两位都是我们中国NLP界的开山鼻祖。他们从1958年、1957 年开始做机器翻译,从俄国那边引过来。我同事傅爱平老师也在这儿。当时我和傅爱平跟着刘倬老师在一起做。从 1983 年到现在整整 30 年。所以我说有30年的NLP经验。

1986年硕士毕业,留在语言所继续做机器翻译方面的工作。当时跟中文信息学会都有很多交流。然后就在中关村搞合作,算是半下海。一起做了一个机器翻译系统。在高立公司,做了四五年。1991年的时候,我身边的同学都出国了。大家都走了,就觉得有点不舒服,应该走。就洋插队到了 UK,英国当时处于最不好的时期。失业率百分之十几。我在短短一年在英国时期,两次被抢,大白天被抢,你看我的博客(《朝华午拾:警察抓小偷的故事》),一些 stories 非常有意思:他大白天抢你,他要钱,"摸你,摸你"(Money Money),我说,你摸我也摸不出钱来,我是穷学生,没钱。然后他说,O,I am sorry,一溜烟就跑走了。所以,他们是比较礼貌的这种强盗。(笑)不管怎么礼貌,危邦不居。我觉得不行,赶快跑。那是1993年。

93年闯关东一样地到了加拿大。加拿大是非常漂亮的国家,鲜花和牛奶。所以在那里就觉得有点意识,这是一个可以移民的地方,就开始生孩子、读博士、办移民。可是,再鲜花再牛奶,它的机会不多。整个加拿大的工作机会也比不上美国一个加州。它是博大,但并没有多少工作机会。所以,1997 年南下。南下到美国。那时候赶得很好,正好是美国大跃进的时候,网络泡沫最盛的时候。别说你有 technology,你就没有 technology,你只是有个 idea,哎呀,我现在看到好多人都养宠物,那么我就开个网上商店,专门为那些宠物提供食品,然后列举我有多少有利条件,投资人就会给你投钱。这不错,这个 idea 很新颖。我当时是带着 NLP 的idea,NLP是在中国磨了四五年,跟着刘倬教授跟傅爱平一起做的,我是有背景的。然后就很容易地到华尔街拿了一千万。当时做的最热的叫做 question answering,问答系统。

问答系统很热。因为那时候 Google 搞 keyword search,它一统天下,该尝试的已经都尝试了。投资人在想,技术方面还有什么新的突破。当时有一家公司叫 Ask Jeeves(【 IT风云掌故:金点子起家的 AskJeeves 】),正在最发红的时候,因为当时它自称自己是搞 NLP 的,有一个 Natural Lanuguage Interface,它有个自然语言接口,说你问问题,我可以给你回答。你 Google 呢,你 search 是一个 term,给一个关键词,你拿出来的东西也不是答案,它只是给你相关的文件,说你要的那些关键词这个最相关,它并不回答你的问题,它不满足我们大众的信息需求。你有信息需求,你一定是有一个疑问在心里,你想问出来,希望机器给一个回答。Ask Jeeves 在这样一个思维的背景下,它有一个 million-dollar idea,非常妙的 idea,它实际上本身的技术含量并不高,它的 idea 非常好。结果一下子就得宠了。它的 idea 实际上很简单。Question answering 实际上是有两部分。一部分是你要去answer他,answer 那边你要面对互联网的大海。那么多网页啊,语句啊,隐含的可能的对问题的答案。它不做那一块。它那个所谓NLP,什么都不做,面对大海的不做。它雇了两百多语言学家、词典学家和 domain specialists,总而言之,语言学学完了也找不到工作,把那些人招来,很高兴。两百人干什么呢?就是天天在那里研究老百姓都有什么疑问。如果有了疑问,比如你喜欢问诺贝奖金获得者、喜欢问风景地、喜欢问好莱坞电影明星的故事啊,它就了解大众的心理。FAQ,frequently asked question,它就把你了解出来以后,然后就想,如果问题是这样的话,那么互联网哪个网页最相关,最可能存在答案。然后就把这个信息用人工的方法存到一个数据库里去。如果遇到这样的问题,你就调这个 URL,遇到那样的问题,你就调那个 URL,一调一个准,因为它事前研究过嘛。它以不变应万变。它怎么以不变应万变呢?他另一头做了点NLP:他说你们都是query么,我现在不讲 query,我说 question,natural language,你只要问一个问题,我就可以给你找到答案。实际上它的 NLP 很 shallow,根本就没有可能真地去理解问题。问题对于整个语言,只是一个子集。语言中还有很多其他现象。一个问题,一般不会太长,问题也有一定的格式,who,what,when,它都有一定的格式。实际上,问题对 NLP 来说,门槛不是特别高。尽管如此,在当时的条件下,它其实做得更加浅陋。大体上做了一个很模糊、浅层的NLP,然后他以不变应万变的 million-dollar idea 是,他把你的问题做了粗浅的分析以后,他把你的问题 rephrase back to you,他把你重新解释一遍,然后给你十个所谓问题模板。这 question templates,他拿你的那些词去填空,它针对你的这些词的痕迹,做一点粗浅的语法结构,他估计你问的问题不会出八个到十个 templates 的范围之外。然后他说,你是不是问的这个问题?你是不是问的那个问题?一个反馈以后,你可能觉得这个机器很聪明啊,它似乎了解我要问的问题,举手之劳,按一下,问题就解决了。实际上机器没有任何理解,他不需要理解,因为他的问题已经得到了 user 的 confirm,一 confirm 以后,往数据库一调动,问题答案就出来了。就这样,你问什么常见的问题,他都能回答。说,you have questions,I have answers,非常地牛啊,牛得不得了。万一你那十个、八个模板,正好一个屏幕,是吧,结果并没有针对他的问题,有可能啊,譬如 5% 到 10% 可能性,你的问题超出了它模板能概括的范围,那机器在那一点就露馅了。但最初大家都很吃惊,认为这是 next generation,下一代的系统,能够取代 Google,这就使得 Ask Jeeves 当时一下子得到华尔街的青睐。是 NLP 第一次牛气。整个华尔街到处都在谈 NLP,NLP 不得了。

它这样一个成功故事,在 Bubble 破灭以后,Ask Jeeves 当然是一落千丈,但是它被华尔街已经捧那么高了,有那么多资金,确实也做了一些事。到现在还存在,你还可以看 ask.com (今天的Ask.com), 当然是一直处于不死不活不景气的状态。Anyway,它给我们创造了一个条件,给我们学 NLP 的人。就是说,以前,在 Ask Jeeves 之前,NLP 只在很窄很窄的领域、很小的范围运用。当然,(NLP中)machine translation 是个例外,因为它做得年头比较多嘛,当时有一家公司叫 Systran,它可以把它商品化,还卖了很多机器翻译系统。但总体上来说,NLP 是象牙塔里学者的玩具。大家做玩具系统,没有人真想到这东西哪天能够卖钱,能够得到工业界、投资者的青睐,觉得不可能。但是,等到 Ask Jeeves 把这条路给闯出来了以后,我们再到华尔街,说,啊呀,我们要做一个问答系统,比 Ask Jeeves 高明多了。很容易有这个卖点。怎么比他们强呢?当然比他们强啊。当时我领导的组,做了一个系统参加 question answering 一个组,信息检索这个领域,有个 TREC,Text Retrieval Conference, 这个 TREC 是很大的规模,因为搜索在工业界影响很大,所以每年大家在一起做一次切磋。其中呢,他们就在 1999 年还是 1998 年,他们做了第一次的 Question Answering 的 track,单单做了这么个 Track,说,我们想看下一代的人机交互是个什么样子的。因为这一代大家都知道,key word,你 type,然后你得到一些东西。说老实话,我们都用 Google,确实在 80% 的时候,我们的问题得到了答案。我们有什么想寻求的东西,差不多都能得到。如果得不到,我再换一种方式,你要是聪明的话,一般可以得到。也有 20% 的时候,你觉得很困惑。你说,呀,这个问题,不管我怎么做 query,总是找不到答案,实际上是这种情况。但不管怎么说,系统要往前走。所以业界就开始提出这么个概念,说,query 和 relevant documents 不是我们真正的解决方案。人机必须自然,这是第一条。必须回答问题的那个点。如果问你 who,你就要把人名找出来。你如果问的是 when,我就要把时间给找出来。要的是答案,你不能说给一个 paragraph,一个 document,然后说,你自己去看去吧,那不是真正的下一代系统。在这么一个概念下就有了 question answering competition,去鼓励大家朝这个方向发展。当时,我们这个组正好有 NLP,我去的时候是 1997 年开始做的,我们当时也是随着潮流做了 Named Entity,Named Entity 是信息抽取的一个基石,是一个 foundation,你首先要把名字搞清楚嘛。我们有了这两条以后,做 question answering,就比较好办。因为当时第一届 question answering 设计得比较简单,比较黑白分明,问的问题都是一个点一个点的问题,都是问那个 when,where,who,这些比较容易回答的问题。然后我们就得了第一名,怎么说,你不用找投资人,是投资人追着你。所以很容易地一千万美金拿到手。当时就糊涂了,一千万怎么用,用不了啊。每两周与投资人开一次董事会,他们说你要大跃进啊,给钱,你要想办法招到人。当时最害怕不能扩招的话,没法给一个交待,钱一定要花出去。Anyway,那是我们的 golden time,until 1990,还是 1991 年的时候【谢谢网友更正:应该是2001年】,那个 bubble 破灭,Nasdaq 垮了,整个美国至少股价是跌了一半,很多公司都关闭了。还好,我们公司没有关闭,还继续做下去,也做出了产品。这是那一段故事,我在我的博客里面你可以看,叫《朝华午拾:创业之路》,做了八年,直到我们公司后来被卖掉了。当然了,under water,并没有赚钱卖出,不过总是有一个善终,系统、产品还在用。

然后,我就觉得是一个转机了,就要进一步南下。我第一次是到 Buffalo,是在美国的的东北部,冰天雪地。当时创业,也没感觉到。后来,大家都向往的地方就是硅谷,就到硅谷去了,在现在的公司,做了七年。现在做的是这个舆情分析。

Anyway,我的生涯与 NLP 在工业界 penetrate 的这种节奏是基本上一致的。整个一个主题就是,流浪,流浪,还在流浪。

OK,我们回到正题,品牌,社会舆论和大数据。

【待续】

【相关篇什】

 北京演讲幻灯片上网(1/3)

北京演讲幻灯片上网(2/3)

北京演讲幻灯片上网(3/3)

愚人节大数据演讲 无片无真 移山愚人

【朝华午拾集锦:立委流浪图】

愚人节听立委报告

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-692826.html

上一篇:半导体的单晶硅
下一篇:照镜子的“效果”

 

37  肖重发 魏东平 蔣勁松 刘立 许培扬 李伟钢 庄世宇 陈安 武夷山 高建国 廖晓琳 杨华磊 陈筝 黄富强 袁贤讯 张文增 李宇斌 李本先 苏德辰 张能立 孔梅 闵应骅 徐大彬 李汝资 陈冬生 曹建军 章成志 何承林 张利华 刘淼 刘全慧 刘艳红 crossludo yangwencao EroControl bridgeneer tuner

发表评论评论 (26 个评论)

删除 回复 |赞[17]EroControl   2013-5-25 21:37
确实呢,有钱的话去加拿大开公司,人力资源应该比较充沛 

删除 回复 |赞[16]刘艳红   2013-5-25 18:52
不知道我的理解对不对: 美国人造原子弹,造航天飞机,我们也可以做出自己的原子弹,造自己的航天飞机,但美国人做出来个google, 我们不可能做自己的google.

删除 回复 |赞[15]tuner   2013-5-25 07:39
“Anyway,那是我们的 golden time,until 1990,还是 1991 年的时候,那个 bubble 破灭,Nasdaq 垮了”——似乎应该是2001年。
 回复  : 谢谢更正,泡沫破灭确实是 2001。也引起了一波海归潮。

2013-5-25 18:101 楼(回复楼主)赞|回复

删除 回复 |赞[14]吴全丰   2013-5-25 01:18
非常不错。但是信息太多, 能给一个总结?
 回复  : 本来就是30年生涯、至少也是3年舆情研发的总结,还总结啥呢。看多少算多少吧。

2013-5-25 18:131 楼(回复楼主)赞|回复
 回复  : 真要总结,就八个字:大数据不全是忽悠。

2013-5-25 20:592 楼(回复楼主)赞|回复

删除 回复 |赞[13]肖陆江   2013-5-24 22:24
学习了,下面要讲Watson 吗?
 回复  : 不,下面专讲大数据自然语言挖掘。至于 Watson, 以前提过一点儿, 【立委科普:问答系统的前生今世】http://blog.sciencenet.cn/blog-362400-436555.html,它是把 factoid QA scale up 推向极致。

2013-5-25 18:191 楼(回复楼主)赞|回复

删除 回复 |赞[12]EroControl   2013-5-24 21:12
反馈一下,视频播放比较卡,看其它网络都没问题的。
ps:加拿大是好地方,是个适合“思考人生”的所在。
 回复  : 加拿大的美丽与大气是无与伦比的,是世界上最友好的移民天堂。正因为此,全世界移民蜂拥而入,造成了很多技术移民和投资移民的堆积,它消化不了。很多高端人才找不到合适的工作,很多投资移民做亏本生意,有的只好苦熬日子,坐移民监,然后南下美国或杀回东土再寻发展。对于囊中羞涩又找不到工作的新移民,心理压力和生活压力使得他无法、无心、无福欣赏加拿大的美丽,是不可承受之美。

2013-5-25 18:301 楼(回复楼主)赞|回复

删除 回复 |赞[11]EroControl   2013-5-24 21:01
视频的布景方面 明显吃亏了吧 ?感觉没有饶博主的书房明媚呢。 

删除 回复 |赞[10]陈冬生   2013-5-24 16:49
谢谢

删除 回复 |赞[9]吕喆   2013-5-24 16:46
》》Anyway,
~~~~~~~
俺内喂? 

删除 回复 |赞[8]闵应骅   2013-5-24 15:44
讲得比较实在,没有夸夸其谈。比较可信!

删除 回复 |赞[7]喻平   2013-5-24 14:42
声音太小,不知在讲什么。。。

删除 回复 |赞[6]宋昌   2013-5-24 13:58
我们每个人都想分析自己,现在缺少一种个人数据分析工具,不知道李老师有什么好的想法?

删除 回复 |赞[5]向贤   2013-5-24 12:22
声音有点小。。。  ,也许是我的电脑有问题
 回复  : 声音不小,就是太含混。快语加清晰还可能是长处,可我这样快语+含混+口音 就让人糊涂了。不过老毛老邓甚至老华(国锋)也都好不了太多,红色中国有传统的。

2013-5-24 14:381 楼(回复楼主)赞|回复

删除 回复 |赞[4]陈筝   2013-5-24 11:36
故事讲的很好:)
 回复  : 生活比故事往往更奇特。直叙就可了。

2013-5-24 14:401 楼(回复楼主)赞|回复

删除 回复 |赞[3]廖晓琳   2013-5-24 11:34
老师的[按]读出了点新东方俞敏洪的味道。看老师的录像,说“1991年的时候,我身边的同学都出国了。大家都走了,就觉得有点不舒服,应该走。”更有点俞式感觉了。外行的觉得:带口音的讲座很有魅力,老师的笑容也很迷人。呵呵~
 回复  : thanks,俞老师的东西没看过。 只知道他是英语教育产业化的教父。

2013-5-24 14:251 楼(回复楼主)赞|回复

删除 回复 |赞[2]陈安   2013-5-24 10:32
现场录的效果往往不是特别好,除非象CCTV百家讲坛那样,观众是挑选好的,摄像机是多个机位的。
 回复  : 不错啦。再好的话,消受不起呢。
保留了陈博士听到的几个 anyway,虽然很多余。

2013-5-24 14:301 楼(回复楼主)赞|回复

删除 回复 |赞[1]mirrorliwei   2013-5-24 06:45
要录像的话,照明、化妆和音响是必须要做的。应该是个好事情。试想想,花两个小时把博主二十年的东西都“听”懂了的话,岂不是“赚”大发了?

大数据NLP论 屏蔽留存

大数据NLP论

屏蔽已有 10922 次阅读 2013-7-27 20:50 |个人分类:立委科普|系统分类:科普集锦| 大数据, processing, 自然语言处理, language, natural

由于自然语言的歧义性和复杂性以及社交媒体的随意性和不规范,要想编制一套查准率(precision)和查全率(recall)两项指标综合水平(所谓 F-score)都很高的NLP(Natural Language Processing)系统非常不容易。但是,研发实践发现,自然语言系统能否实用,很多时候并不是决定于上述两个指标。还有一个更重要的指标决定着一个系统在现实世界的成败,这个指标就是系统对于大数据的处理能力,可以不可以真正地 scale-up 到大数据上。由于电脑业的飞速发展,云计算技术的成熟,大数据处理在现实中的瓶颈往往是经济上的羁绊,而不是技术意义上的难关。其结果是革命性的。

在处理海量数据的问题解决以后,查准率和查全率变得相对不重要了。换句话说,即便不是最优秀的系统,只有平平的查准率(譬如70%,抓100个,只有70个抓对了),平平的查全率(譬如30%,三个只能抓到一个),只要可以用于大数据,一样可以做出优秀的实用系统来。其根本原因在于两个因素:一是大数据时代的信息冗余度;二是人类信息消化的有限度。查全率的不足可以用增加所处理的数据量来弥补,这一点比较好理解。既然有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。从信息消费者的角度,一个信息被抓住一千次,与被抓住900次,是没有本质区别的,信息还是那个信息,只要准确就成。疑问在一个查准率不理想的系统怎么可以取信于用户呢?如果是70%的系统,100条抓到的信息就有30条是错的,这岂不是鱼龙混杂,让人无法辨别,这样的系统还有什么价值?沿着这个思路,别说70%,就是高达90%的系统也还是错误随处可见,不堪应用。这样的视点忽略了实际的挖掘系统中的信息筛选(sampling)与整合(fusion)的环节,因此夸大了系统的个案错误对最终结果的负面影响。实际上,典型的情景是,面对海量信息源,信息搜索者的几乎任何请求,都会有数不清的潜在答案。由于信息消费者是人,不是神,即便有一个完美无误的理想系统能够把所有结果,不分巨细都提供给他,他也无福消受(所谓 information overload)。因此,一个实用系统必须要做筛选整合,把统计上最有意义的结果呈现出来。这个筛选整合的过程是挖掘的一部分,可以保证最终结果的质量远远高于系统的个案质量。总之,size matters,多了就不一样了。大数据改变了技术应用的条件和生态,大数据 更能将就不完美的引擎。

对于大数据,缺失部分数据也不是大问题,只要这种缺失对于要挖掘的话题或品牌没有针对性。缺失数据的原因很多,譬如,服务器或数据库故障,由于成本考量只取一定比例的样本,还有垃圾过滤系统的误删,当然也有系统本身查全率的不理想,等。总之缺失是常态,而求全则是不现实也是不必要的。大数据追求的是有影响力的信息和舆情动态,而这些原则上都不会因为数据的部分缺失而改变,因为动态和影响力的根基就在信息的高冗余度,而不是大海捞针。重要的是,冗余本身也是情报的题中应有之义。这与同一个情愿诉求为什么要征集成千上万的签名道理一样,至于最终是10万签名还是9万五千人签名了,完全不影响诉求的内容及其整体效应。

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-711780.html

上一篇:On Big Data NLP
下一篇:为什么做大数据的吹鼓手?

 

15  李伟钢 曹建军 曹聪 许培扬 陈福强 陈辉 刘洪 李培光 徐晓 李宇斌 白图格吉扎布 翟自洋 bridgeneer lilojoan rosejump

发表评论评论 (8 个评论)

删除 回复 |赞[6]白图格吉扎布   2013-7-28 22:58
有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。
 回复  : 不是说“孤本”就没有价值,大海里面的那颗特定的针也许真地价值连城。但是,不能指靠自然语言系统能够捞到那针,事实上,不能指靠任何系统有这种能力,原因在文章中也提到了:对于孤本的无能,不仅仅是技术难关,不仅仅是引擎查全率的缺陷,一个“孤本”完全可能由于系统以外的众多原因而够不着它:server down,database problem,经济羁绊而未进入index,等等等等。因此,所谓不能遗漏情报,遗漏了系统就不可靠,就不能使用,完全是不切实际的。必须接受大海捞针多半捞不着的现实,捞着了是运气,捞不着是常态。那么大数据系统情报挖掘的真正价值何在呢?那就是揭示冗余度支持的有统计意义的情报及其关联。

2013-7-29 00:351 楼(回复楼主)赞|回复

删除 回复 |赞[5]白图格吉扎布   2013-7-28 22:56
这个指标就是系统对于大数据的处理能力,...。由于电脑业的飞速发展,云计算技术的成熟,大数据处理在现实中的瓶颈往往是经济上的羁绊,而不是技术意义上的难关。

删除 回复 |赞[4]李红雨   2013-7-28 22:44
大数据离自然语言的理解还远,但是的确走在一条非常可行的路上,下一步应该是基于大数据的知识重构问题,那样会成为理解自然语言的突破。当前的IT技术及算法只是在逻辑的圈子里打转,还不能真正理解知识的本质

删除 回复 |赞[3]郑新奇   2013-7-28 16:41
维克托•迈尔•舍恩伯格(Viktor Mayer-Schönberger)认为:大数据时代更关注相关关系、全样本分析、模糊分析。

删除 回复 |赞[2]闵应骅   2013-7-28 08:52
根本没有论及自然语言理解。
 回复  : 呵呵,那就把题目改为《大数据NLP结缘论》、《大数据NLP应用论》、《大数据NLP条件论》,实在不行就《大数据NLP应用条件论》吧

2013-7-28 11:501 楼(回复楼主)赞|回复

删除 回复 |赞[1]郭文姣   2013-7-27 22:30
大数据的两个典型特征:要全不要精、要关联不要因果!

北京演讲幻灯片上网(3/3) 屏蔽留存

北京演讲幻灯片上网(3/3)

屏蔽已有 3389 次阅读 2013-4-5 05:36 |个人分类:立委科普|系统分类:教学心得| 北京, 幻灯片

民调自动化:实时监测

Obama won the debate, see our evidence

奥巴马赢了昨晚辩论吗?舆情自动检测告诉你。

技术改变世界,甚至总统

对奥巴马真正具有挑战性的议题有二:一是他在第一任总统期间的经济表现(6:55pm);二是批判他对中国不够强硬 (7:30pm)。
人气曲线反映了由我们自然语言技术支持的实时舆情挖掘。

 

《大数据时代的购物策略:洗衣机寻购记(1)》

 

《大数据时代的购物策略:洗衣机寻购记(2)》

《大数据时代的购物策略:洗衣机寻购记(3)完结篇》

行业品牌自动民调:国际快餐品牌舆情图

 【社媒挖掘:外来快餐店风光不再】

行业品牌自动民调:手机市场品牌对比图

【社媒挖掘:中国手机市场仍处于战国争雄的阶段】

总体统计数据如下:
 

【社媒挖掘:臺灣政壇輿情圖】

【立委名言:民主總統不好玩,當家五年狗都嫌】

【社媒挖掘:臺灣政壇輿情圖】

这是近一周的媒体评价。

【社媒挖掘:第一夫人光彩夺目赞誉有加】

更多的热点话题,见立委科网博客

立委科学网博客有【社媒挖掘】专栏

寻立委博客,请搜索:立委  liwei999

更多立委“创业”故事,见:

立委科普】【朝华午拾】专栏

【立委名言:傻子过年看隔壁,凡事不决问社媒】

谢谢大家!再祝各位愚人节愉快!

下面是Q&A

 北京演讲幻灯片上网(1/3)

北京演讲幻灯片上网(2/3)

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-677015.html

上一篇:北京演讲幻灯片上网(2/3)
下一篇:长安街白兰花开,夜色如水

 

4  罗春元 鲍得海 李竞 bridgeneer

【科普随笔:NLP的宗教战争?兼论深度学习】 屏蔽留存

【科普随笔:NLP的宗教战争?兼论深度学习】

屏蔽已有 12222 次阅读 2013-5-7 23:18 |个人分类:立委科普|系统分类:科研笔记| 机器学习, 自然语言处理, 深度学习, 规则系统, 深度分析

有回顾NLP(Natural Language Processing)历史的大牛介绍统计模型(通过所谓机器学习 machine learning)取代传统知识系统(又称规则系统 rule-based system)成为学界主流的掌故,说20多年前好像经历了一场惊心动魄的宗教战争。其实我倒觉得更像49年解放军打过长江去,传统NLP的知识系统就跟国民党一样兵败如山倒,大好江山拱手相让。文傻秀才遭遇理呆兵,有理无理都说不清,缴械投降是必然结果。唯一遗憾的也许是,统计理呆仗打得太过顺利,太没有抵抗,倒是可能觉得有些不过瘾,免不了有些胜之不武的失落。苍白文弱的语言学家也 太不经打了。

自从 20 年前统计学家势不可挡地登堂入室一统天下以后,我这样语言学家出身的在学界立马成为二等公民,一直就是敲边鼓,如履薄冰地跟着潮流走。走得烦了,就做一回阿桂。

NLP 这个领域,统计学家完胜,是有其历史必然性的,不服不行。虽然统计学界有很多对传统规则系统根深蒂固的偏见和经不起推敲但非常流行的蛮横结论(以后慢慢论,血泪账一笔一笔诉 :),但是机器学习的巨大成果和效益是有目共睹无所不在的:机器翻译,语音识别/合成,搜索排序,垃圾过滤,文档分类,自动文摘,知识习得,you name it

甚至可以极端一点这么说,规则系统的成功看上去总好像是个案,是经验,是巧合,是老中医,是造化和运气。而机器学习的成功,虽然有时也有 tricks,但总体而论是科学的正道,是可以重复和批量复制的。

不容易复制的成功就跟中国餐一样,同样的材料和recipe,不同的大厨可以做出完全不同的味道来。这就注定了中华料理虽然遍及全球,可以征服食不厌精的美食家和赢得海内外无数中餐粉丝,但中餐馆还是滥竽充数者居多,因此绝对形成不了麦当劳这样的巨无霸来。而统计NLP和机器学习就是麦当劳这样的巨无霸:味道比较单调,甚至垃圾,但绝对是饿的时候能顶事儿, fulfilling,最主要的是 no drama,不会大起大落。不管在世界哪个角落,都是一条流水线上的产品,其味道和质量如出一辙。

做不好主流,那就做个大厨吧。做个一级大厨感觉也蛮好。最终还是系统说了算。邓小平真是聪明,有个白猫黑猫论,否则我们这些前朝遗老不如撞墙去。

就说过去10多年吧,我一直坚持做多层次的 deep parsing,来支持NLP的各种应用。当时看到统计学家们追求单纯,追求浅层的海量数据处理,心里想,难怪有些任务,你们虽然出结果快,而且也鲁棒,可质量总是卡在一个口上就过不去。从“人工智能”的概念高度看,浅层学习(shallow learning)与深层分析(deep parsing)根本就不在一个档次上,你再“科学”也没用。可这个感觉和道理要是跟统计学家说,当时是没人理睬的,是有理说不清的,因为他们从本质上就鄙视或忽视语言学家 ,根本就没有那个平等对话的氛围(chemistry)。最后人家到底自己悟出来了,因此近来天上掉下个多层 deep learning,视为神迹,仿佛一夜间主导了整个机器学习领域,趋之者若鹜。啧啧称奇的人很多,洋洋自得的也多,argue 说,一层一层往深了学习是革命性的突破,质量自然是大幅度提升。我心里想,这个大道理我十几年前就洞若观火,殊途不还是同归了嘛。想起在深度学习风靡世界之前,曾有心有灵犀的老友这样评论过:

To me, Dr. Li is essentially the only one who actualy builds true industrial NLP systems with deep parsing. While the whole world is praised with heavy statistics on shallow linguistics, Dr. Li proved with excellent system performances such a simple truth: deep parsing is useful and doable in large scale real world applications.

我的预见,大概还要20年吧(不是说风水轮流转20年河东河西么),主流里面的偏见会部分得到纠正,那时也不会是规则和知识的春天重返,而是统计和规则比较地和谐合作。宗教式的交恶和贬抑会逐渐淡去。

阿弥陀佛!

【相关篇什】

【立委随笔:文傻和理呆的世纪悲剧(romance tragedy)】

[转载]ZT: 2013突破性科学技术之“深度学习”

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-687627.html

上一篇:解读“独立之精神、自由之思想”
下一篇:【科普笔记:没有语言结构可以解析语义么?(之二)】

 

26  蔣勁松 陈安 廖晓琳 赵星 张婷婷 彭思龙 李兵 徐晓 孙平 陈楷翰 李明富 崔小云 宋健敏 武夷山 王涛 李天成 岳金星 刘锋 何应林 邱嘉文 孙学军 李伟钢 何祥 李宇斌 bridgeneer yunmu

发表评论评论 (8 个评论)

删除 回复 |赞[8]胡上峰   2013-7-31 21:22
我可能算比较乐观的,个人认为对自然语言语义的深度理解,基于语义理解的机器学习,3-5年应该可以看到突破。5-10年可以体现在应用上。

删除 回复 |赞[7]胡上峰   2013-7-31 21:18
深度分析和统计方法其实不矛盾。最后解决问题需要靠把这两者良好地整合起来。

删除 回复 |赞[6]苏晓路   2013-5-9 03:13
解决了目的性和组合机制,统计学习就和规则接上了,或者换个说法,规则就是人脑以目的性为指导,自动组合统计学习模型形成的。说起来简单,我看没有十年搞不定。我还是比李老师乐观了 

删除 回复 |赞[5]袁贤讯   2013-5-8 19:46
这个也是没办法。rule-based有时也叫heuristic,但heuristic与eureka同根。好是好,就是让投资家觉得有点不太靠谱。所以,真正的专家也只好委屈一段时间了——尽管一段可能是20年,50年。

删除 回复 |赞[4]何伟   2013-5-8 11:31
哪个走到最深处是否会殊途同归?
统计要深入走,恐怕还是要多考虑四参数曲线法则,多多超越能级,而不是死循环浪费能量。

删除 回复 |赞[3]郭辉   2013-5-8 09:44
NLP是不是莱布尼茨提出的那个办法?学工科的不太懂,只是觉得莱布尼茨的方法虽匪夷所思,但总算没有明显的漏洞

删除 回复 |赞[2]李兵   2013-5-8 09:11
现在热门的大数据,貌似也是统计为王。

删除 回复 |赞[1]章成志   2013-5-7 23:52
貌似过于悲观,几年前国内NLP界关于规则和统计学习共生,基本上达成共识。不过说归说,目前在工业界和学术界,能出活的东西基本上貌似还是以统计为主。

【立委科普:基于关键词的舆情分类系统面临挑战】 屏蔽留存

【立委科普:基于关键词的舆情分类系统面临挑战】

屏蔽已有 5414 次阅读 2013-2-15 22:47 |个人分类:立委科普|系统分类:科普集锦| NLP, 挖掘, sentiment, 语言技术, 舆情抽取

    [Abstract] Five challenges to keyword-based sentiment classification: (1)  domain portability; (2)  micro-blogs: sentence/twit classification is a lot tougher than document classification; (3) when big data become small: big data load when sliced and diced based on the users' needs quickly becomes mall, and  a precision-challenged classifier is bound to have trouble; (4) association of sentiments with object:  e.g. comparative expressions like "Google is a lot better than Yahoo"; (5) too coarse-grained: no actionable insights, this is fatal.
 
                                  
 
做自动舆情挖掘(sentiment mining)已经好几年了,做之前思考这个课题又有好多年(当年我给这个方向的项目起了个名字,叫 Value Tagging,代码 VTag,大约2002年吧,做了一些可行性研究,把研发的 proposal 提交给老板,当时因为管理层的意见不一和工程及产品经理的合作不佳,使得我的研发组对这个关键项目没能上马,保守地说,由此而来的技术损失伤害了公司的起飞),该是做一个简单的科普式小结的时候了。本片科普随笔谈机器分类系统在舆情抽取中的应用,算是这个系列中的一篇。
 
首先对大数据的舆情挖掘是建立在对具体语言单位的舆情抽取(sentiment extraction)的基础之上。只有当语言海洋中千千万万的舆情表达被抽取存贮到某个数据库以后,我们才有条件针对具体的舆情问题(如某特定品牌的网络形象或某话题的舆情走势),搜索有代表性的舆情资料,并将搜索结果整合提炼,然后以某种方式(譬如《品牌舆情图》或《话题晴雨表》)表达给情报使用者。
 
舆情抽取的主流是利用机器学习基于关键词的分类(sentiment classification),通常的做法非常粗线条,就是把要处理的语言单位(通常是文章 document,或帖子 post)分类为正面(positive)和负面(negative),叫做 thumbs up and down classification。后来加入了中性(neutral),还有在中性之外加入一类 mixed (正反兼有)。这种做法非常流行快捷,在某个特定领域(譬如影评论坛),分类质量可以很高。我们以前的一位实习生做过这样的暑假项目,用的是简单的贝叶斯算法,在影评数据上精度也达到90%以上。这是因为在一个狭窄的领域里面,评论用语相当固定有限,正面负面的评价用词及其分布密度不同,界限清晰,识别自然不难。而且现在很多领域都不愁 labeled data,越来越多的用户评价系统在网络上运转,如 Amazon,Yelp,积累了大量的已经分类好的数据,给机器分类的广泛应用提供了条件。
 
但是,上述分类遇到了以下挑战。
 
首先,领域移植性不好,影评数据训练出来的分类器换到电子器件的客户评价分类上就不管用。要对多个领域训练出多个分类器,很耗时,效果也不能得到保证。于是有人开始研究独立于领域(domain-independent)的舆情分类,其假设前提是舆情表达各个领域之间既有领域独有的表述方式,也有共通的表达(比如,好/good 在任何领域都是正面的形容词,坏/bad 在任何领域都是负面的),而且二者有相当的信息冗余度。这个假设在语言单位较大(譬如长的帖子或文本)时,是成立的。因此,这个挑战不算是致命的。但是很多应用领域,语言单位不大,譬如社会媒体中风行的微博/tweets,就很短,这一点构成第二个挑战。
 
第二个挑战就是,语言单位的缩小使得分类所需要的词汇证据减少,分类难为无米之炊,精度自然大受影响。从文件到帖子到段落再到短句,语言单位每一步变小,舆情分类就日益艰难。这就是为什么多数分类支持的舆情系统在微博(tweets)主导的社会媒体应用时文本抽取质量低下的根本原因(一般精度不过50%-60%)。当然,文本抽取精度不好并不表明不可用,它可以用大数据来弥补(由于大数据信息天生的大冗余度,利用sampling、整合等方法,一个大数据源的整体精度可以远远高于具体文本抽取的精度),使得最终挖掘出来的舆情概貌还是靠谱的。然而,大数据即便在大数据时代也不是总是存在的,因为一个真实世界的应用系统需要提供各种数据切割(slicing n dicing)的功能,这就使得很多应用场景大数据变成了小数据,这是下面要谈的第三个问题。
 
第三是大数据切割的挑战。本来我们利用机器来应对大数据时代的信息挑战,起因就是信息时代的数据量之大。如果数据量小,蛮可以利用传统方式雇佣分析员,用人的分析来提供所要的情报,很多年以来的客户调查就是如此。可是现在大数据了,别说社会媒体整体的爆炸性增长,就是一个大品牌的粉丝网页(fan pages)或一个企业的官方网页,每时每刻所产生的数据也相当惊人,总之无法依靠人工去捕捉、监测情报的变化,以便随时调整与客户的互动策略。这是机器挖掘(无论分类还是更细致的舆情分析)不可不行的时代召唤和现实基础。但是,观察具体应用和情报需求的现场就会发现,用户不会满足于一个静态的、概览似的情报结果,他们所需要的是这样一个工具,它可以随时对原始数据和抽取情报进行各种各样的动态切割(slice/dice 原是烹饪术语,用在情报现场,就是,"to break a body of information down into smaller parts or to examine it from different viewpoints so that you can understand it better", 摘自 http://whatis.techtarget.com/definition/slice-and-dice)。舆情切割有种种不同依据的需求,譬如根据舆情的类别,根据男女的性别,根据数据源,根据时间或地理位置,根据数据的点击率等。有的时候还有多次切割的需求,譬如要看看美国加州(地理)的妇女(性别)对于某个品牌在去年夏季(时间)的舆论反映。最典型的切割应用是以时间为维度的《动态晴雨表》,可以反映一个研究对象的情报走势(trends)。譬如把一年的总数据,根据每月、每周、每日,甚至每小时予以切割,然后观察其分布走势,这对于监测和追踪新话题的舆情消长,对于新产品的发布,新广告的效用评估(譬如美式足球赛上的巨额品牌广告的客户效应)等,都有着至关重要的情报作用。总之,大数据很可能在具体应用时要被切割成小数据,一个分类精度不高(precision-challenged)的系统就会捉襟见肘,被大数据遮盖的缺陷凸显,被自然过滤净化的结果在小数据时会变得不再可信。
 
第四个挑战是找舆情对象的问题。在几乎所有的舆情分析应用中,舆情与舆情的对象必须联系起来,而这一基本要求常常成为舆情分类系统的软肋。当然,在特定数据源和场景中,可能不存在这个问题,比如对 Amazon/Yelp 这类客户评价数据 (review data) 的舆情分析,可以预设舆情的对象是已知的(往往在标题上,或者其他 meta data 的固定位子),每一个review都是针对这个对象(虽然不尽然,review中也可能提到其他的品牌或产品,但是总体上是没问题的,这是由 review data 的特性决定的)。然而在很多社会媒体的自发舆情表述中(譬如微博/脸书/论坛等),在舆情分类之后就有一个找对象的问题。这个问题在比较类语言表达中(比如,"谷歌比雅虎强老鼻子啦" 这样语句,正面评价“强”到底是指雅虎还是谷歌,这看似简单的问题,就难倒了一大帮机器学家,道理很简单,机器分类系统依靠的是keywords,一般没有语言结构的支持,更谈不上理解)。与青春躁动期的小屁孩也差不多,满腔情绪却找不到合适的表达或发泄对象,这几乎成了所有褒贬分类系统的克星。在随兴自发的社会媒体中,这类语言现象并不鲜见,一边夸张三一边骂李四更是网络粉丝们常见的表达(譬如方韩粉丝的网络大战)。
 
第五个挑战是颗粒度的问题。这是分类系统的致命伤,它们只知道数翘大拇指还是伸出中指的数量,这对舆情的总体概览有点意义,但是这远远不是最有价值的舆情情报,关于这一点,我在以前的科普随笔中论述过:
 
褒贬分析只提供舆情的一个概览,它本身并不是 actionable insights.  知道很多人喜欢或者不喜欢一个品牌,so what?企业还是不知道怎么办,最多是在广告宣传投资量的决策上有些参考价值,对于改进品牌产品,适应用户需求,褒贬舆情太过抽象,不能提供有价值的情报。这就要求舆情分析冲破两分、三分、五分的分类法,去发掘这些情绪的背后的动因(reasons/motivation),回答为什么网民喜欢(不喜欢)一个品牌的问题。譬如挖掘发现,原来喜欢麦当劳的主要原因是它发放优惠券,而不喜欢它的原因主要是嫌它热量太大,不利减肥。这样的舆情才是企业在了解自己品牌基本形象以后,最渴望得到的 actionable 情报,因为他们可以据此调整产品方向(如增加绿色品种和花样,水果、色拉等),改变广告策略(如强调其绿色的部分)。
 
上面列举的机器舆情分类系统的挑战,并不是要否定机器学习在舆情领域的价值,而是要阐明以下的观点:粗线条的机器分类只是舆情自动分析的开始,万里长征的第一步,一个真正有价值的舆情挖掘系统还需要更多更细致的舆情自动抽取和挖掘的技术来支持。鉴于学界和业界 90% 以上自称做 sentiment 的系统,都是以机器分类作为基础支撑的,明白这一点尤其重要。那么什么是舆情抽取和挖掘系统所需要的完整的技术基础呢?且听下回分解吧(如果兴起的话)。
 
白马非马,人非人民。人民的呼声通过冗余才能听得见,否则就不是人民的声音,只是可有可无、可以忽略、听不见也不用听见的个体意见
日期: 02/15/2013 12:41:53

[1]zdlh 2013-2-16 01:08对于网络预审删帖这样的样本缺失和数据缺实,你怎么办 ?
博主回复(2013-2-16 02:03):不关我的事儿。铁路警察各管一段。但愿中国随着国家现代化民主化进程,随着新领导人倾听人民呼声的新政的实施,这个问题自然消解。
从技术上讲,在大数据的尺度下,不管什么原因缺失部分数据(server down,数据库 bug,数据提供人改主意突然把发出的帖子又很快删除,非民主社会的政府censorship,还有由于成本原因有意排除一些原始数据而只取一定比例的样本,还有垃圾过滤系统太aggressive的误删,或者我们系统本身查全率 (recall) 不理想,比如明明有褒贬却没有识别出来,等等等等:缺失是常态,而求全则是不现实也是不必要的),都不是大问题,as long as 这种缺失对于要挖掘的话题或品牌没有歧视性/针对性。大数据追求的是舆情动态和salient情报,而这些原则上都不会因为数据的部分缺失而改变,因为动态和 salience 的根基就是信息的高冗余度,而不是真正意义上的大海捞针。不亲手做系统,你难以想象互联网的大海里面,冗余的信息有多少。重要的是,冗余本身也是情报的题中应有之义。所谓舆情就是人民(客户)的呼声,而人民的呼声只有通过个体信息的大量冗余才能听得见。这与同一个情愿诉求为什么要征集成千上万的签名道理一样,至于最终是10万签名还是9万五千人签名了,完全不影响舆情的内容及其整体效应。

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-662101.html

上一篇:不错的话题——对技术社会价值的评价
下一篇:什么是分子?As2O3是个啥模样?

 

9  陆俊茜 李伟钢 刘洋 武夷山 章成志 陈熹 庄世宇 yunmu bridgeneer