【语义计算沙龙:乔老爷的围墙,community 的盲区】

白:
所以,述补结构的处理,分层上要先于名词(短语)填坑。全放在一个平面,就说不清楚坑多萝卜少咋分的。
我:
那是因为 subcat 不是静止的。起点是词典,但在后续中 有变。
在欧洲语言 有一些构词元素具有改变 subcat 的功效 使动语素(世界语用 -ig-)和自动语素(-igh-)是代表,morphology 里面的专门一章学问 有一套套的术语名词。
到了孤立语 句法结构就承担了一些这类subcat remapping 的功效。
白:
“这些馒头把我吃胖了”是个非常好的例子。X吃Y,Z胖。分析X、Y、Z各自的subcat,发现X与Z匹配的可能远大于Y与Z匹配的可能。而Z说好了要做结合后述补结构的逻辑宾语的,于是Y只好很不情愿地做了结合后述补结构的逻辑主语。
“把”就是“置底”,“被”就是“置顶”,“的”就是“掏心”,都是在做语序的重定向。
我:
有意思的说法。
总之 open ended 动补结构 需要动态调整 subcat 的预期指向。
白:
分层了就把复杂问题变简单了。先合并坑,再让坑一致对外。等到真正填坑的萝卜来了,坑多已经是历史传说了,现实的坑不多不少。
我:
分层是必由之路。
不仅仅是为这个 args 的捕捉。很多现象都有 local 和 全局的区分,把 local 的 和 全局的 放在一个锅里煮。不是偷懒 就是脑子进水了。出了问题找不到合适解决途径,还振振有词辩解说 语言是 inter-dependent 的,怎样分层都是割裂整体。这样思维的人 是自作自受。不管语言这个 monster 多么相互关联,难以一刀切干净,作为语言工程 你都必须切成模块。关键不在模块之间是不是绝对地合适分开 大体齐就行了;关键在于 切割了 还仍然是一个 integrated 的无缝连接的系统。即便有些地方切得不妥了 也要有改正、弥补、唤醒或其他补救或patching的机会。这样才好把千头万绪简化成 tractable 的工程开发任务。
事实上,以前红过一阵子的 unification grammars 一派 虽然最终在业界没能开花结果 在学界也被排挤得差不多了,这拨人还在 有不少是名校的名教授。他们深陷在 CFG 的单层的 formalism 里面 加上 unification 的实现也是以 Prolog 的回溯机制为基础,既无效率 也不能真正深入 很难有 scale up 的指望。结果 这帮人形成了自己的一个圈子 也有一定的体量 自己跟自己玩儿,虽然对NLP的学界和业界的影响几近于零了。每年各地诸侯会聚一次。起个名字好像叫 ...... 忘了,总之是类似 very deep parsing 意思的一个什么。其实,怎么可能 very deep,如果层次和formalism这一关不过的话?在乔姆斯基倡导的 formal linguistics 的研究中,他们算是异端。姥姥不疼舅舅不爱 我们外人看去怪落寞的。可是当年(博士阶段)初学的时候 却被它的巨大魅力而吸引。这是一个看上去很美的框架。
白:
毛毛虫万岁!
我:
对。可是看清这一点的 人不多。那么多人陷在乔老爷的怪圈里。

QUOTE ( from [转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】):

白硕老师这篇文章值得所有自然语言学者研读和反思。击节叹服,拍案叫绝,是初读此文的真切感受。白老师对乔姆斯基形式语言理论用于自然语言所造成的误导,给出了迄今所见最有深度的犀利解析,而且写得深入浅出,形象生动,妙趣横生。这么多年,这么多学者,怎么就达不到这样的深度呢?一个乔姆斯基的递归陷阱不知道栽进去多少人,造成多少人在 “不是人话” 的现象上做无用功,绕了无数弯路。学界曾有多篇长篇大论,机械地套用乔氏层级体系,在自然语言是 context-free 还是 context-sensitive 的框框里争论不休,也有折衷的说法,诸如自然语言是 mildly sensitive,这些形而上的学究式争论,大多雾里看花,隔靴搔痒,不得要领,离语言事实甚远。白老师独创的 “毛毛虫” 论,形象地打破了这些条条框框。

     白老师自己的总结是:‘如果认同“一切以真实的自然语言为出发点和最终落脚点”的理念,那就应该承认:向外有限突破,向内大举压缩,应该是一枚硬币的两面。’ 此乃金玉良言,掷地有声。

Church 写 《钟摆摆得太远》 的时候 看到了表象 格局和视野都有 但就是没看到毛毛虫的实质。他看到了这个奇怪的现象:做 formal linguistics 的 community 研究了很多语言现象 有些问题研究得很深入 并试图以自己的框架形式化分析他们 而做 nlp 的这个community 几乎全部陷在浅层的泥坑里。本来面对的是同样的自然语言 而且双方都力图形式化和电脑实现它 应该可以互补的 但这两个 communities 是如此格格不入 老死不相往来 互相看对方 都是雾里看花。
白:
门户之见是不需要证据的
我:
所以他就开了个药方 要求在理性主义预计要回归的时候 请下一代 CL 的学生 必须去修语言学的课程,“计算语言学”不能丢了“语言学”的本,必须知道语言学圈做了些什么 改变这一代的"NLP大师"缺乏语言学的怪象。
白:
抄底靠的是先知先觉。等学生上课,黄花菜都凉了
我:
但是这个药方和呼声是如此疲弱 至少迄今没人当回事。而且这个药方本身也有问题 因为那个另一派也的确问题多多。自己在围墙里面束缚了自己,完全不接地气。争论的问题一多半是口水,大多是 system internal,玩的过家家的游戏(《Church:钟摆摆得太远》)。

quote 计算语言学课程的缺陷

正如上面明斯基和帕佩特指出的,我们不断犯同样错误的部分原因与我们的教学有关。辩论的一方在当代计算语言学教科书中已被遗忘,不再提及,只能靠下一代人重新认识和复原。当代的计算语言学教科书很少介绍PCM 三位前辈。在汝拉夫斯基(Jurafsky) 和马丁(Martin) 编著的教科书以及曼宁(Manning) 等编著的两套教科书中根本没有提及皮尔斯。三本教科书中只有一本简要提起明斯基对感知机的批评。

他要学生回头去啃乔姆斯基等理性主义大师,但不知道乔姆斯基本人就是最大的误导者(乔姆斯基批判《【钟摆摆得太远】高大上,但有偏颇》[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】)。

w:
@wei 很是同意“关键在于 切割了 还仍然是一个 integrated 的无缝连接的系统 ,即便有些地方切得不妥了 也要有改正、弥补、唤醒或其他补救或patching的机会”。切割是为了方便处理,藕虽断但丝还连。即使切错了,还能找回来才是真谛。
白:
这是一个搜索调度策略的问题。无论是平推,还是花开N朵先表一枝,还是台面上的路径之外另有暗送秋波的密道,都是可供选择的。“先表一枝”如能综合使用词典的、subcat的、中间件的、大数据的知识,在概率上可以占得先机。“密道”维护一条“阈下”暗流,一旦主线不保,立刻跳出来翻案,在段子的理解上最像人,但是密道的日常维护机制和受激翻案机制是个高难度的机密。
平推加概率,如果有很好的硬件实现RNN,效率绝对不低。至少确保线速。

我:
rnn 经白老师不断灌输 我就当它为神器来膜拜。
林彪说了 理解的要执行 不理解的更要执行 我对白老师的 rnn 的感受就是如此。
白老师啥时来一个 rnn 直通道 提供一个接口 我就可以不断给它 feed 语言学。
w:
@白 现在的硬件发展肯定会助推DL的性能的。只要基础理论框架结实且有市场,很多的硬件商都会挤进来的,没有人和蛋糕过不去的,AI硬件GPU,FPGA,还有其他什么xPU的倒不少,不过自己没认真关注。
@wei 如果接口来了,那语言学知识好不好喂?是专家级的专属?还是一般用户可为?感觉这是能走多远,走多广的问题。
感觉上李师parser的确是核武器,专家维护几枚就好。不过市场倒很大,很多人想有一枚。就是渠道打不开。
同意白老师的密道说。而且密道也应该不是直通型的,是网络交叉型的。运行时维护密道和应时启用的确是关健。
白:
伟哥说我描述句法分析还带着账房先生的味道,这让我想起当年被傅爱萍请到社科院语言所做交流时,我提起过的“铜臭”。一晃过去这么多年了。

 

【相关】

Church:钟摆摆得太远

[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】

乔姆斯基批判

《泥沙龙笔记:【钟摆摆得太远】高大上,但有偏颇》

【语义计算沙龙:Parsing 的数据结构和形式文法】

关于NLP方法论以及两条路线之争

《朝华午拾》总目录

NLP主流反思的扛鼎之作: 立委译《Church:钟摆摆得太远》

Kenneth Church 谈人工智能和自然语言的历史、发展与未来
选自中国计算机学会通讯

作者:Kenneth Church
翻译:李维(美国网基公司首席科学家)
唐天(美国网基公司首席科学家助理兼助理工程师)

译者按:肯尼斯·丘吉(Kenneth Church) 是自然语言领域的泰斗,语料库语言学和机器学习的开拓者之一。丘吉的这篇长文《钟摆摆得太远》(A Pendulum Swung Too Far) 是一篇主流反思的扛鼎之作。作者在文章中回顾了人工智能发展中,理性主义和经验主义各领风骚此消彼长的历史规律,并预测了今后20 年自然语言领域的发展趋势。文章的主旨是,我们这一代学者赶上了经验主义的黄金时代(1990 年迄今),把唾手可得的低枝果实采用统计学方法采摘下来,留给下一代的都是“难啃的硬骨头”。20 多年来,向统计学一边倒的趋势使得我们的教育失之偏颇。现在应该思考如何矫正,使下一代学者做好创新的准备,结合理性主义,把研究推向深入。丘吉的忧思溢于言表。丘吉预测,深度网络的热潮为主流经验主义添了一把火,将会继续主导自然语言领域十多年,从而延宕理性主义回归的日程表。但是他认为理性主义复兴的历史步伐不会改变。他对主流漠视理性主义的现状颇为忧虑,担心下一代学者会淹没在一波又一波的经验主义热潮中。

实用主义动机

20 世纪90 年代,经验主义的复兴是一个激动人心的时刻。我们从来没有想到,我们的努力会如此成功。当时,我们想要的只不过是一席之地而已。在当时流行的各项研究之外,我们所想的只是为不同于当时其他研究的工作争取一点空间。我们成立了SIGDAT为这类工作提供一个论坛。在1993 年成立之初,SIGDAT只是一个相对较小的关于大语料库的会议论坛,后来演变成规模较大的EMNLP 会议。起初,SIGDAT 会议在很多方面(规模、主题和地理范围)都与主流ACL大会非常不同。然而若干年后,这些区别已经很大程度上消失了。两个会议靠拢,这让人感到高兴。但我们可能是太成功了,我们不仅成功地让我们感兴趣的工作登堂入室,没给其他工作留下多少空间。图1 展示了从理性主义到经验主义的这一戏剧性转变。这种转变还在继续,似乎看不到尽头。

根据霍尔(Hall) 等人的文章,这种转变始于1988 年布朗 (Brown)和丘吉的工作。霍尔等人的依据是对ACL 文集的分析,文献包括自20 世纪70年代至今在计算语言学领域发表的总计16500 篇论文。

但是,如果我们考虑一个更长的时间段,追溯ACL 文集以前的文献,我们看到的是一幅非常不同的画面,如图2 所示。更加显著的趋势是经验主义与理性主义之间的振荡,像钟摆一样,每隔二十多年来回振荡一次:

  • 20世纪50 年代:经验主义(香农(Shannon)、斯金纳(Skinner)、弗斯(Firth)、哈里斯(Harris)) ;
  • 20世纪70 年代:理性主义(乔姆斯基(Chomsky)、明斯基(Minsky));
  • 20世纪90 年代:经验主义(IBM 语音团队(IBM Speech Group)、AT & T 贝尔实验室(AT&T Bell Labs));
  • 2010年代:回归到理性主义了吗?

本文将回顾一些我们这一代人曾经“反叛”的理性主义观点。遗憾的是,我们这一代是如此成功,以至于这些理性主义观点被人们忘却了(如果我们接受图2给出的预测,那么现在正是理性主义应该复苏的时期)。有些重要的理性主义代表人物如皮尔斯(Pierce) 在当今流行的教科书里甚至没有提及。如此下去,下一代人可能没有机会听到理性主义一方辩论的声音。特别是,如果理性主义立场在今后几十年逐渐流行,理性主义者可以提供很多值得重视的见解。

zb1
图1 理性主义到经验主义的转变令人惊讶(而且毫无争议)。该图是基于鲍勃·摩尔(Bob Moore)和弗雷德·贾里尼克(Fred Jelinek)对ACL会议的独立调查(私人通信)

是什么促使20 世纪90 年代经验主义的复兴?我们当时在反抗什么?经验主义复兴实际上是受到了实用主义考量的推动。学术界当时正埋头研究自然语言中面临的巨大挑战,例如完备人工智能(AI-complete) 的难题和远距离的依存关系。而我们所提倡的是从务实的角度来先针对一些较简单的、较有可能求解的任务,例如词性标注。当时数据的获得变得前所未有的方便。我们能用这些语料数据做些什么呢?我们认为,做成一些简单的事情比根本不做强。让我们去摘取一些低枝的果实,让我们利用近距离依存关系做我们能做的事情。虽然那不能解决整个问题,但还是让我们专注于我们能做什么,而不是我们不能做什么。玻璃杯有一半是满的(而不是已经空了一半)。

zb2
图2:对文献不寻常的解读,其中图1所示的趋势(此处以红点表示)是每隔20多年更大振荡的一部分。注意红点所示的是实际数据,而振荡曲线所示意的趋势只是为了说明一个观点

我们当时是这样记述这段历史的:

“20 世纪90 年代重现了具有20 世纪50 年代风格的语言分析的经验主义及其统计方法。50 年代是经验主义的高峰期,主导了从心理学(行为主义)到电子工程(信息论)一系列广泛的领域。当时语言学的通行做法是,不仅仅依据词义,还要基于它与其他词共同出现的情形来划分词类。50 年代英国语言学领域的领袖人物费思(Firth)用一段令人难忘的话总结此方法:‘通过一个词周围的词来了解这个词的意义。’遗憾的是,受一系列重大事件的影响,50年代后期和60年代早期,经验主义式微。这些重大事件包括乔姆斯基(Chomsky) 在《句法结构》(Syntactic Structures ) 中对N 元文法 (n-grams) 的批判,明斯基与帕佩特(Papert) 对神经网络的批判。

经验主义复兴最直接的原因也许是大量数据可用:文本从来没有这么丰富过。10 年前,搜集了100 万词的布朗(Brown) 语料库就被弗朗西斯(Francis) 和库塞拉(Kucera) 认为是大数据,但即使在那时,也有更大的语料库,如伯明翰(Birmingham) 语料库。如今,许多地方的文本样本已经达到上亿甚至几十亿词量……。通常称为文本分析的数据密集型语言研究方法采取的是实用主义手段,非常适合近来被强调的数值评估和具体的任务。文本分析强调对非受限文本(unrestricted text) 的广泛覆盖(尽管可能肤浅),而不是对于(人为)限定领域的深度分析。”

寒冬

20世纪90年代早期, 研究界发现应该注重务实方法,原因之一是该领域当时正处于严重的资金寒冬, 史称第二季人工智能寒冬(AI winter of1987~1993)。在又一次资金萧条到来之际,研究共同体比较容易接受一种更加现实的、结果更可靠的新方法。根据维基百科资料:

“在人工智能的发展历史中,所谓人工智能寒冬是指社会对人工智能研究的资助和兴趣消减的时期。许多新兴技术都经历了从狂热、失望到资金削减的过程(例如历史上的铁路大开发以及网络泡沫),但是人工智能的问题更加突出。这种模式已经发生过许多次了:

  • 1966 年:机器翻译的失败;
  • 1970 年:放弃人工智能联接主义(connectionism) ;
  • 1971~1975 年:美国国防部高级研究计划局(DARPA) 对卡耐基梅隆大学语音理解研究项目的失望;
  • 1973 年:莱特希尔(Lighthill)人工智能评估报告(Lighthill Report)发表之后,英国对人工智能研究资助的大幅削减;
  • 1973~1974 年:DARPA 削减对人工智能学术研究的资助;
  • 1987 年:Lisp 机市场崩溃;
  • 1988 年:战略计算规划(the Strategic Computing Initiative) 取消了进一步资助人工智能的计划;
  • 1993 年:专家系统慢慢跌入低谷;
  • 1990 年代:第五代计算机项目的原始目标黯然淡出视野,以及被牵累迄今的人工智能的坏名声。

人工智能经历的最糟糕的时间段是1974~1980 年和1987~1993 年。有时人工智能寒冬指的就是两者之一(或两者的某个时间段)。”

寒冬常常紧跟着过度的乐观主义,例如西蒙(Simon)在文献中提到的:

“在不久的未来——不会超过25年——我们将会有技术能力用机器来代替机构中的任何人类功能。而且,我们将充分掌握人类认知过程及其与人类情感、态度和价值观的交互过程的理论,这些理论将会被实验所证实。”

如今,比起第二季人工智能寒冬,我们变得更有信心。15 年低枝果实的采摘已经取得了相对稳定的成果,也获得了相对稳定的资助,至少比人工智能寒冬的形势乐观很多。

皮尔斯、乔姆斯基和明斯基

毋庸讳言,我们所反抗过的伟大的理性主义者如皮尔斯、乔姆斯基和明斯基(Pierce, Chomsky and Minsky, 以下简称PCM),对人工智能领域的现状不会感到满意。当然,另一方面,今天此领域的领军人物大多也不乐意看到PCM 理性主义的复兴。一位领域的带头人听说我在写这篇文章,讥讽道:“皮尔斯对我们现在有什么意义?”PCM 的观点在当年就饱受争议,现在依然如此,因为它们导致一些领域包括语音、机器翻译和机器学习多次进入了严重的资金寒冬。

本文主要感兴趣的是PCM三位大师理性主义的共同主线。不过也必须指出,这三位大师的声音并不完全一致。在信息论方面他们有很大分歧。皮尔斯对香农和乔姆斯基二位均大加赞佩,尽管乔姆斯基对香农在信息论方面的许多工作持反对意见。很显然,这些观点并不能清楚地划分成不同学派(例如理性主义和经验主义),学派之内并非完全一致,学派之间也不是处处相异。

关于智能亦有很多不同意见。明斯基是人工智能的创始人之一,而皮尔斯一直是直言不讳的批评者之一。他说:所谓人工智能真乃愚蠢之极7。皮尔斯反对任何试图接近人类智能的东西,当然包括人工智能,也包括机器翻译和语音识别。皮尔斯主持了著名(或者说是臭名昭著)的语言自动处理咨询委员会(Automatic Language ProcessingAdvisory Committee, ALPAC) 报告。这一报告直接导致了机器翻译的资金寒冬[27]。皮尔斯也曾为《美国声学学会会刊》(JASA ) 撰写富有争议的通讯“语音识别往哪里去”(Whither Speech Recognition?),给语音识别研究的资金造成令人寒心的困境。

本文重在回顾他们的共同主线,而不是他们的分歧。PCM 对当年流行现今复兴的一系列经验主义方法,均提出过挑战。他们的反对意见对于许多当今流行的方法都有影响,包括模式匹配、机器学习(线性分离机)、信息检索(向量空间模型)、语言模型(N 元文法模型)和语音识别(隐式马尔可夫模型(hidden Markov models, HMMs) 以及条件随机场(conditional random fields, CRFs))。

学生们需要学会如何有效地使用流行的近似方法。大多数近似方法基于简化的假设,这些假设在多数情况下有用,但并非万能。例如,N 元文法能捕捉许多依存关系,但当依存范围超过n个词距离的时候,N 元文法则无能为力。同理,线性分离机在很多情况下可以区分正例和反例,但对无法线性区分的样例自然无效。许多这类限制显而易见(由其本性所决定),但即便如此,相关的优劣争论有时仍然很激烈。有时候,争论的某一方不再被写进教科书,逐渐被遗忘,只能期待下一代学者去重新发现或复兴。

乔姆斯基论述了N 元文法的局限,明斯基论证了线性分离机的局限。也有学者对于其他近似方法的种种局限提出看法。例如,图基(Tukey) 教导学生如何有效使用回归算法[34]。他鼓励学生测试各种正态假设的偏离现象。离群点(outliers) 是回归算法常见的麻烦来源,正如偏离直线的弯曲残差(bowed residuals)。很多人提出了种种绕行的补救方案。一个常见的手段是对数据做非线性变换,如对数变换。这些技巧把问题转化为另一个问题,使其偏离假定的麻烦有所减少。

乔姆斯基的反对意见

如前所述, 乔姆斯基指出N 元文法不能捕捉远距离依存关系。虽然现在回想起来似乎是显然易见的,然而在当时,香农-麦克米兰- 布雷曼熵定理(Shan-non-McMillan-Breiman theorem)令人非常兴奋,对这条定理的解释是:在极限条件下,只要稍加制约,N 元文法模型足以捕捉字符串的所有信息(譬如英语的句子)。乔姆斯基认为,在极限条件下这条定理也许是正确的,但是N 元文法模型远远不是能概括许多语言事实最简洁的模型。在实际系统中,我们往往必须将N 元文法严格限制在某个(小的)固定的值k 上(例如三元或许五元)。这种限长的N 元文法模型系统可以捕捉到很多语法关系一致性方面的现象,但并非全部。

我们应该将这场论辩教给下一代学者,因为他们可能将不得不比我们更加认真地对待乔姆斯基的反对意见。我们这代人很幸运,可以摘取到大量的低枝果实(也就是那些可以用较短N 元文法捕捉到的语言现象)。但是,下一代学者将没有这么幸运,因为在他们退休之前,那些捕捉得到的语言事实大多将被捕捉已尽,因此,他们很可能将不得不面对那些简单N 元近似方法无法处理的语言现象。

中心嵌套论(Center-Embedding)

乔姆斯基不仅反对N 元文法模型,也反对有限状态(finite state) 方法,其中包括很多目前流行的方法,如隐式马尔可夫模型和条件随机场。

有限状态方法超越了N 元文法,它不仅可以捕捉一切N元文法可以捕捉到的语言现象,而且可以捕捉超越N 词距离的语法依存关系。例如,下列文法表现了主谓在数上一致的关系,名词和动词应该一致,二者同为单数(sg) 或者同为复数(pl)。这样的文法可以捕捉超过N 词距离的依存关系。

S → Ssg

S →Spl

Ssg → NPsg VPsg

Spl → NPpl VPpl

NPsg → … Nsg …

NPpl → … Npl …

VPsg → … Vsg …

VPpl → … Vpl …

最大的问题是,此文法是否需要无限的内存。为了使这场辩论严谨,乔姆斯基引入中心嵌套的概念,并创建了现今被称作乔姆斯基层级体系(Chomsky hierarchy)的理论。

乔姆斯基层级体系不仅在语言学,在其他许多领域,例如计算机科学9,也具有非凡的影响力。克努特(Knuth) 坦承他在1961 年的蜜月期间读到乔姆斯基的文章,发现它是如此“奇妙的事情:在这个语言的数学理论中,我可以感受到一个计算机程序员的直觉”。

乔姆斯基指出,乔姆斯基层级体系与相应的生成能力之间具有一种简单的对应关系:

类型0 > 类型1 > 类型2 >类型3

递归可枚举文法 > 上下文有关文法 > 上下文无关文法 > 正则文法

特别是上下文无关文法可以涵盖并超越正则文法;有一些需要无限内存(栈)所做的事情,有限内存就做不到。乔姆斯基的论证是,中心嵌套是上下文无关与有限状态之间的关键区别。也就是说,当(且仅当)一个文法具备中心嵌套能力,它才需要无限内存(栈)。否则就可以用有限内存(有限状态机)处理。

zb3

更正式地讲,如果一个文法中具有一个可以生成形如xAy的非终结节点A,其中x 和 y 均为非空,那么这个文法就是中心嵌套。如果x 或 y 为空,则可以得到较简单的左杈或右杈的嵌套。左杈嵌套和右杈嵌套均可在有限内存(有限状态机)中处理,而不像中心嵌套那样需要无限内存(栈)。

中心嵌套的一个简单例子是一个括号嵌套的文法:

< expr > → (< expr >)

括号嵌套文法是中心嵌套的一个特殊案例,其中 x 是左括号,y 是右括号。一个栈结构可以很容易地记录左括号与右括号之间的远距离依存关系,但这需要无限的内存。最大的问题是有限内存是否可以处理括号嵌套文法。乔姆斯基证明这是不可能的。更一般的表述是,有限状态方法无法捕捉中心嵌套。

乔姆斯基用下列样例论证英语为中心嵌套语言,因此超越了有限状态方法(如隐式马尔可夫模型)的捕捉能力。乔姆斯基假定英语具有一个非终结节点 S(代表句子或从句),其自生成的时候在它的左右两侧可以添加非空内容,如下所示:

  1. S → If S, then S.
  2. S → Either S, or S.
  3. S → The man who said that S, is arriving today.

关于中心嵌套的语言事实一直存在争论。本文审阅者之一反驳中心嵌套所用的几点论证,我当年在我的硕士论文中也提过类似的质疑。语料库中很难找到超过两层或三层的中心嵌套11。不过,乔姆斯基的说法并非没有道理。想要描述上述语言事实,采用允许任意中心嵌套的文法较之采用仅有一两层中心嵌套的文法可能更容易和简洁。

到目前为止,N 元文法和有限状态方法等近似模型足够我们使用。虽然这些近似模型都有其明显局限性,但迄今难以找到更有效的替代方法。尝试捕捉不常见的远距离关系也许可以处理一些不常见的边缘案例,但它们带来的问题往往比解决的问题要多。工程师们发现,处理好常见的短距离依存关系比处理不太常见的远距离依存关系更为重要。至少,这是我们这一代人的体验。

尽管如此,我们还是应该为下一代学者做好准备,使他们有可能比我们做得更好。我们应该教给下一代认识目前比较流行的各种方法的长处和短处。他们需要了解我们所知道的最成功的近似方法,但他们也需要了解其局限性。下一代学者很可能会找到改进N 元文法的办法,甚至可能发现超越有限状态的方法。

明斯基的反对意见

明斯基和帕佩特表明,感知机(更广泛地说是线性分离机)无法学会那些不可线性分离的功能,如异或(XOR) 和连通性(connectedness)。在二维空间里,如果一条直线可以将标记为正和负的点分离开,则该散点图即线性可分。推广到n 维空间,当有n -1 维超平面能将标记为正和负的点分离开时,这些点便是线性可分的。

判别类任务

对感知机的反对涉及许多流行的机器学习方法,包括线性回归(linear regression)、logistic 回归(logistic regression)、支持向量机(SVMs) 和朴素贝叶斯(Naive Bayes)。这种反对意见对信息检索的流行技术,例如向量空间模型 (vector space model) 和概率检索(probabilistic retrieval) 以及用于模式匹配任务的其他类似方法也都适用,这些任务包括:

  1. 词义消歧(WSD):区分作为“河流”的bank 与作为“银行”的bank。
  2. 作者鉴定:区分《联邦党人文集》哪些是汉密尔顿(Hamilton)写的,哪些是麦迪逊(Madison)写的。
  3. 信息检索(IR) :区分与查询词相关和不相关的文档。
  4. 情感分析:区分评论是正面的还是负面的。

机器学习方法,比如朴素贝叶斯,经常被用来解决这些问题。例如,莫斯特勒(Mosteller) 和华莱士(Wallace) 的鉴定工作始于《联邦党人文集》,共计85篇文章,其作者是麦迪逊、汉密尔顿和杰伊(Jay)。其中多数文章的作者是明确的,但有十几篇仍具争议。于是可以把多数文章作为训练集建立一个模型,用来对有争议的文件做判别。在训练时,莫斯特勒和华莱士估算词汇表中的每个词的似然比:Pr(word|Madison)/Pr(word|Hamilton)。对有争议的文章通过文中每个词的似然比的乘积打分。其他任务也使用几乎相同的数学公式,如表2 所示。近来,诸如logistic 回归等判别式学习方法正逐步取代如朴素贝叶斯等生成式学习方法。但对感知机的反对意见同样适用于这两类学习方法的多种变体。

zb4

停用词表、词权重和学习排名

虽然表2 中4 个任务的数学公式类似,但在停用词表(stoplist)上仍有重要的区别。信息检索最感兴趣的是实词,因此,常见的做法是使用一个停用词表去忽略功能词,如“the”。与此相对照,作者鉴定则把实词置于停用词表中,因为此任务更感兴趣是风格而不是内容。

文献中有很多关于词权重的讨论。词权重可以看作是停用词表的延伸。现今的网络搜索引擎普遍使用现代的机器学习方法去学习最优权重。学习网页排名的算法可以利用许多特征。除了利用文档特征对作者写什么进行建模外,还可以利用基于用户浏览记录的特征,来对用户在读什么建模。用户浏览记录(尤其是点击记录)往往比分析文档本身信息量更大,因为网络中读者比作者多得多。搜索引擎可以通过帮助用户发现群体智能来提升价值。用户想知道哪些网页很热门(其他和你类似的用户在点击什么)。学习排名是一种实用的方法,采用了相对简单的机器学习和模式匹配技术来巧妙地应对可能需要完备人工智能理解(AIcomplete understanding) 的问题。

最近有博客这样讨论网页排名的机器学习:

“与其试图让计算机理解内容并判别文档是否有用,我们不如观察阅读文档的人,来看他们是否觉得文章有用。

人类在阅读网页,并找出哪些文章对自己有用这方面是很擅长的。计算机在这方面则不行。但是,人们没有时间去汇总他们觉得有用的所有网页,并与亿万人分享。而这对计算机来说轻而易举。我们应该让计算机和人各自发挥特长。人们在网络上搜寻智慧,而计算机把这些智慧突显出来。”

为什么当前技术忽略谓词

信息检索和情感分析的权重系统趋向于专注刚性指示词(rigid designators)14(例如名词),而忽略谓词(动词、形容词和副词)、强调词(例如“非常”)和贬义词15(例如“米老鼠(Mickey mouse)”16 和“ 破烂儿(rinky dink)”)。其原因可能与明斯基和帕佩特对感知机的反对有关。多年前,我们有机会接触MIMS 数据集,这是由AT & T 话务员收集的评论(建议与意见)文本。其中一些评论被标注者标记为正面、负面或中性。刚性指示词(通常是名词)往往与上述某一类标记(正面、负面或中性)紧密关联,但也有一些贬义词标记不是正面就是负面,很少中性。

贬义词怎么会标记为正面的呢?原来,当贬义词与竞争对手相关联的时候,标注者就把文档标为对我方“正面”;当贬义词与我方关联的时候,就标注为对我方“负面”。换句话说,这是一种异或依存关系(贬义词XOR 我方),超出了线性分离机的能力。

情感分析和信息检索目前的做法不考虑修饰成分(谓词与论元的关系,强调词和贬义词),因为除非你知道它们在修饰什么,否则很难理解修饰成分的意义。忽视贬义词和强调词似乎是个遗憾,尤其对情感分析,因为贬义词显然表达了强烈的意见。但对于一个特征,如果你不知道其正负,即使强度再大也没什么用。

当最终对谓词- 论元关系建模时,由于上述异或问题,我们需要重新审视对线性可分的假设。

皮尔斯的反对意见

比起明斯基和乔姆斯基,皮尔斯在时下的教科书上更少提到,尽管皮尔斯作为ALPAC 委员会主席以及著名的“语音识别向何处去”一文的作者对本领域有深远影响。无论从终结资助还是从文章的引用率看,皮尔斯对该领域的冲击力是如此之大,真不明白现代教科书为何如此冷待皮尔斯。原因也许在于,比起明斯基和乔姆斯基,皮尔斯的批评“麻烦”更大。很多学者试图回应他的批评,但几乎没有任何回应能像他原来的批评那样有力和值得一读。

皮尔斯一生硕果累累,他开发了脉冲编码调制(pulse code modulation, PCM),一种与当今WAVE 文档格式紧密相关的语音编码方法,而WAVE 是一种在个人计算机上储存音频文件的流行格式。此外,皮尔斯在真空管领域的研究亦成就卓著,但他又带领团队发明了晶体管,使真空管很快消亡。皮尔斯的研究工作也涵盖卫星领域,后来他作为贝尔实验室的研究副总裁,在把卫星研究转化成商业应用上发挥了关键作用,成功开发了Telstar 1,这是卫星首次在电信领域的商业应用。

总之,皮尔斯是一位具有非凡成就的顶级技术执行官。与他争辩的另一方根本无法与他相提并论,其中包括一些可能会被拒授终身教职的初级教职人员。这是一场不公平的论战。但即便如此,也没有理由忽视他对领域的贡献,哪怕这些贡献给我们带来诸多“麻烦”。

ALPAC 报告与“语音识别向何处去”都非常值得一读。网上很容易找到 ALPAC 报告的原文,但其篇幅较长。如果读者时间有限,建议先从阅读“语音识别向何处去”开始,因为这篇通讯言简意赅,观点明晰。短短两页的通讯基本上论及两条批评意见:

  1. 系统评测:皮尔斯反对用演示来评测系统,也反对现今仍流行的各种系统评测方法。“即使给出了统计数据,语音识别的成功与否还是很难测量。总体而言……当……时对于……系统可以达到 95% 的准确率。在……情况下,性能会急遽下降。很难鉴定这种性能的语音识别系统能否成为实用的、经济合理的应用产品。”
  2. 模式匹配:皮尔斯反对现今仍流行的模式匹配技术(如机器学习和语音识别),斥之为巧妙的欺骗:“与科学相比由于更容易取巧而更快成功”。

模式识别批判

皮尔斯以魏岑鲍姆(Weizenbaum)开发的伊莉莎(ELIZA) 程序作为案例来解释“巧妙的欺骗”。虽然伊莉莎很明显并不“智能”,但它或许可以通过图灵测试。伊莉莎批判从此成为对那些看上去比实际能力要强的程序的标准批判。维基百科对“伊莉莎效应”的定义如下:

“在计算机科学中,所谓的伊莉莎效应,指的是下意识地假设计算机与人类的行为相似的一种趋势。从特定形式上看,伊莉莎效应只是指‘人们阅读被计算机串起的符号序列(特别是单词),往往读出了这些符号并不具备的意义’。更一般地,伊莉莎效应描述的是这样一种情形,仅仅依据系统输出,用户就把计算机系统理解为具有‘其软件控制(输出)不可能实现的内在素质和能力’,或者,‘假设(输出)反映了比实际更大的因果关系’。无论是在特定还是一般形式上,甚至当系统的用户已经知道系统产生的输出是预定不变的,伊莉莎效应都会显著出现。从心理学观点来看,伊莉莎效应源于一种微妙的认知失调,一方面,用户意识到程序编制的局限性,另一方面,他们对程序的输出结果依然盲信。伊莉莎效应的发现是人工智能的一个重要进展,说明利用社交工程原理,而不是显式编程,也可以通过图灵测试。”

魏岑鲍姆在意识到他的伊莉莎程序让公众如此信服后,他自己反而成为人工智能的强烈反对者。以下是从他的著作《难以理解的程序》(Incomprehensible Programs ) 中的一个章节摘录的:

“这两个程序(MACSYMA和DENDRAL) 与其他大多数人工智能程序完全不同,它们牢牢建立在深厚的理论之上……计算机当然还有其他许多重要的、成功的应用。例如,计算机可以操控整个石油精炼厂的流程,可以导航飞船以及监测并在很大程度上操控飞船内的环境,以便宇航员执行任务。这些程序依赖于数学控制理论和牢固确立的物理理论。这种以理论为基础的程序具有极其重要的优势,一旦程序走偏,监测人员就能发现它们的性能不符合理论的要求,从而可以用理论帮助诊断失败的原因。

但是, 大多数现有的程序……不是以理论为基础的……它们多是探索式的……采用的是在多数预见情况下显得‘可行’的策略……我自己的程序伊莉莎正是这种类型。伍诺格拉德(Winograd)的语言理解系统也是……纽厄尔(Newell) 和西蒙的GPS20 也是如此。”

魏岑鲍姆继续争辩道,程序理应易于理解,并建立在坚实的理论基础之上,这种观点皮尔斯想必也会同意。

皮尔斯关于“巧妙的欺骗”的提法批评了包括人工智能、语音识别以及模式识别(也包括大部分现代机器学习)的很多领域用演示来验证系统的做法。

“前述讨论适用于模式识别的各个领域,其应用作为练习留给读者”。

模式识别有其优缺点。优点是,模式识别可以巧妙应对许多科学难题,在实际应用中取得进步。但是这一优势同时也是其缺点。短期的取巧分散了领域的精力,无法顾及真正有意义的长远目标。

很多工程任务与语音合成一样有两类研究:一类是实用的工程方法(例如衔接合成和磁带拼接),另一类是雄心勃勃的科学计划(如模拟人类发音的合成)。一般而言,实用的方法更有可能在短期内产生较好的结果,但学术界也激励更有前途的科学路线。对于尚未解决的重大科学问题,如果我们直接研究它们,而不是投机取巧,我们会有更好的机会取得进展。话虽这么说,如果你在工业界领导一个语音合成产品,为了在预算内按时按质交付产品,采用任何工程手段和技巧都是题中应有之义。

回应

针对“语音识别向何处去”曾有很多回应,但是多数回应都没能有效应对上面提到的两条主要批评意见:

  1. 目前在论文发表时所要求的系统评测方法究竟有何意义?
  2. 与科学相比,模式匹配的意义何在?

罗(Roe)和威尔彭(Wilpon)争辩说,在“语音识别向何处去”提出后的25 年中,领域的发展已经把所谓“无用”的努力演变为商用现实。他们的文章开头介绍了隐式马尔可夫模型等流行方法,这些方法基于皮尔斯所反对的模式匹配技术。接着提到目前常用的评测方法。评测旨在展示模式匹配技术的有效性,然而评测带来的结论正如皮尔斯归纳描述的那样:“难以度量”。

“在实验室条件下,语言识别器对于声音的模式匹配相当准确。然而,在‘真实世界’的条件下,错误率会高出很多”。

ALPAC报告

相当长的ALPAC 报告提出了很多反对意见,其中许多批评意见令人尴尬,也很难回应。报告的结论部分提到一些好消息:

“如今仍有理论语言学家对实证研究或计算都不感兴趣,也有应用语言学家对十年来的理论进展无动于衷,对计算机也很木讷。但是,与以往任何时候相比,都有更多的语言学家尝试把微妙的语言理论与更丰富的数据相结合,他们中几乎所有人,无论在哪个国家,都渴望计算机的支持。前一代人需要一辈子做的工作(譬如建立对照语库、词汇表、浅层文法),如今借助计算机几个星期即可完成(下一年大概只需要几天)。在对于作为人类交流工具的自然语言的理解方面,人类迈出了万里长征的第一步。”

但好消息随后紧接着就是不那么好的消息 :

“ 但是,我们还没有简单易用并广为人知的计算机处理语言数据的好方法。”

作为回应,斯蒂德曼(Steedman)将我们的研究领域与物理学领域做了对比。他指出物理界并没有被类似于ALPAC 的报告所困扰:“没人去告诉周围的物理学家该做什么。”斯蒂德曼建议,如果我们更自律,并避免在公共场合过度渲染,我们的领域也许会处于更好的状态。

我们其实没必要羡慕物理学领域的状态,以此排斥ALPAC报告。斯蒂德曼的回应不仅没有解决问题,而且事实上,物理学在学术界根本就不处于一个令人羡慕的位置。曾经有一段时间,物理学确实处于相对良好的状态,但那是很久以前的事情了。物理学的冬天已经持续太久,以至于许多人离开了物理学领域。曾经的物理学家们对许多领域做出了贡献,包括我们领域的几个方向,例如机器翻译和机器学习等。至于过度渲染,物理学不比我们少。

甚至连ALPAC 报告也指出,计算语言学比物理学有许多优势:

“我们看到计算机为语言学家带来了一系列的挑战、视角和机会。我们相信,这些可与粒子物理面临的挑战、问题和视界相当。毫无疑问,语言的重要性不亚于任何其他现象。而且计算语言学所需要的工具成本,比起需要数十亿伏加速器的粒子物理学少得多了。”

哈钦斯(Hutchins)在ALPAC报告30 周年纪念时在《机器翻译国际新闻》(MT News International) 中题目为《ALPAC :著名(抑或臭名昭著)的报告》的文章中,总结道:

“ALPAC 对机器翻译持怀疑态度是有一定道理的:当时机器翻译的质量无疑非常糟糕,似乎确实没有正当理由获得那么多的资助。报告中也正确地指出需要研制计算机辅助翻译,并强调计算语言学需要更多的基础研究。然而,需要指责的是……”

哈钦斯继而批评ALPAC 报告的观点太过以美国为中心,机器翻译问题本应在更广阔的全球语境中来考虑。既然基调如此严肃,他对以美国为中心的批评就显得相对单薄。如果从美国角度看机器翻译技术质量不好,费用昂贵,难道换一个角度就会对他国合适?

事实上,ALPAC 报告之所以被认为臭名昭著,是因为它的怀疑论直接导致了机器翻译的资金寒冬,尤其是在美国方面。然而,报告(第34 页)实际上建议在两个不同方向上增加经费开支:

  1. 对于语言学和计算语言学的长期的基础学术研究,以及
  2. 对于实用的、可以短期奏效的提高翻译质量的工作。

第一类基础研究应该以其科学价值为基础,经过同行评议,而评估第二类应用程序应该着重于实用的指标:速度、成本和质量。

皮尔斯的这两个建议凸显出他的两个不同侧面,正由于这种两面性使得皮尔斯能够同时认同乔姆斯基和香农那样两种不同的立场。一方面,皮尔斯是基础科学的坚定支持者。皮尔斯反对任何将科学扭曲成其他东西(例如应用程序)的企图,以及试图以误导性演示和盲目的指标(如今天所例行的各种评估办法)歪曲科学的发展。另一方面,皮尔斯也有实用的一面,他在语音编码、真空管、晶体管和通信卫星等领域所取得的非凡成就就是证明。他是应用型工作强有力的支持者,但所用的规则与基础研究完全不同,比如强调从商业案例出发。应用型工作要按应用型工作来评估(基于商业标准),而科学必须按科学的标准来评估(基于同行评审)。

如果皮尔斯今天还活着,他会被学术界的现状深深困扰。太多的资金投入到了模式匹配技术和数值评估上,干扰了他认定的作为核心科学问题的学术发展。

从更积极的方面看,皮尔斯的应用一面应该会对谷歌的商业成功留下深刻印象,尤其是在搜索方面。尽管如此,谷歌的边缘业务如语音识别和机器翻译是否可以称作成功,从他的角度应该还有疑问。虽然我们有理由对这些领域抱有希望,像皮尔斯这样的怀疑论者会觉得,比起过去的几十年研发的巨额投资,机器翻译和语音识别的应用成就并不相称。作为一个合理的投资回报,现在的语音识别和机器翻译应该产生一个杀手锏级的应用,使得几乎每个人每天都离不开它,就像当年AT & T 发明的电话,或者像微软Windows 系统或谷歌搜索一样。谷歌在搜索方面的核心业务已经实现了这个理想,也许有一天他们的语音和翻译等边缘业务也能最终达到这一目标。

皮尔斯能给今天的我们提供什么?迄今为止,该领域已经做得很好,采摘了不少低枝果实。在有很多果实容易采摘的好时光里,我们自然应该充分利用这些机会。但是,如果这些机会逐渐枯竭,我们最好还是遵循皮尔斯的教诲,认真面对核心科学的挑战,而不是继续寻找不复存在的容易采摘的果实。

无视历史注定要重蹈覆辙

在大多数情况下,机器学习、信息检索和语音识别方面的实证复兴派简单地无视PCM 的论辩,虽然在神经网络领域,感知机附加的隐藏层可以看作是对明斯基和帕佩特批评的让步。尽管如此,明斯基和帕佩特对他们所著的《感知机》出版20 年以来领域进展之缓慢深表失望。

“在准备这一版时,我们本来准备‘把这些理论更新’。但是,当我们发现自本书1969 年第一次出版以来,没有什么有意义的进展,我们认为保留原文更有意义……只需加一个后记即可……这个领域进展如此缓慢的原因之一是,不熟悉领域历史的研究人员继续犯别人以前已经犯过的错误。有些读者听说该领域没有什么进步,可能会感到震惊。难道感知机类的神经网络(新名称叫联接主义)没有成为热烈讨论的主题吗?……当然不是,该领域存在很多令人感兴趣的问题和讨论。可能确实也有些现在的发现也会随着时间逐渐显出重要性。但可以肯定的是,领域的基础概念并没有明显改变。今天令人兴奋的问题似乎与前几轮大同小异……我们的立场依然是当年我们写这本书时的立场:我们相信这个领域的工作是极为重要和丰富的,但我们预计其发展需要一定程度的批判性分析,可那些更富浪漫精神的倡导者却一直不愿意去做这种分析,也许因为连通主义的精神似乎变得与严谨分析南辕北辙。

多层网络并不比感知机更有能力识别连通性。”

计算语言学课程的缺陷

正如上面明斯基和帕佩特指出的,我们不断犯同样错误的部分原因与我们的教学有关。辩论的一方在当代计算语言学教科书中已被遗忘,不再提及,只能靠下一代人重新认识和复原。当代的计算语言学教科书很少介绍PCM 三位前辈。在汝拉夫斯基(Jurafsky) 和马丁(Martin) 编著的教科书以及曼宁(Manning) 等编著的两套教科书中根本没有提及皮尔斯。三本教科书中只有一本简要提起明斯基对感知机的批评。刚刚进入此领域的学生也许意识不到所谓“相关学习算法”包含了很多当今非常流行的方法,如线性回归和logistic回归。

“一些其他的梯度下降算法(gradient descent algorithms) 有类似的收敛定理,但是在大多数情况下,收敛只能达到局部最优。……感知机收敛能达到全局最优是因为它们从线性分离机这样一类比较简单的模型中选择分类器。很多重要的问题是线性不可分的,其中最著名的是异或问题。……决策树算法可以学习解决这类问题,而感知机则不能。研究人员在对感知机最初的热情[29]消褪以后,开始意识到这些局限性。其结果是,对感知机及相关学习算法的兴趣很快消褪,此后几十年一直一蹶不振。明斯基和帕佩特的论文《感知机》通常被看作是这类学习算法开始消褪的起点。”

曼宁等人的2008 版教科书中有简短的文献指向明斯基和帕佩特1988 年的论文,称其对感知机有不错的描述,但并未提及他们的尖锐批评:

“对文中提到但本章未进行细述的算法,感兴趣的读者可以参阅以下文献:神经网络方面的毕夏普(Bishop) 、线性和logistic回归方面的黑斯蒂(Hastie) 等人以及感知机算法方面的明斯基和帕佩特等的论文。”

基于这样的描述,学生可能会得出错误印象,以为明斯基和帕佩特是感知机算法(以及当今流行的线性和logistic 回归相关方法)的支持者。

毕夏普明确指出,明斯基和帕佩特绝不是感知机和神经网络的赞许者,而且把它们认作“不正确的构想”予以排斥。毕夏普把神经网络在实际应用中的普及看作是对明斯基和帕佩特上述批评意见的反击证明,认为并非如他们所说的那样“没有多少改变”、“多层网络并不比感知机更有能力识别连通性”。

当代教科书应该教给学生认识神经网络这类有用的近似方法的优点和缺点。辩论双方都大有可言。排除任何一方的论证都是对我们的下一代不负责任,尤其是当其中一方的批评是如此的尖锐,用到“不正确的构想”和“没有多少改变”这样的说法。

乔姆斯基比皮尔斯和明斯基在当代教科书中被提及得多一些。曼宁和舒兹(Schütze) 的教科书引用乔姆斯基的论文10次,汝拉夫斯基和马丁的教科书的索引中共有27 处引用乔姆斯基的论文。第一本书中较少引用是因为它专注于一个相对狭窄的话题——统计型自然语言处理。而第二本教科书涉及面广泛得多,包括音韵学和语音。因此,第二本书还引用了乔姆斯基在音韵学方面的工作。

两本教科书都提到乔姆斯基对有限状态方法的批评,以及这些批评在当时对经验主义方法论的抨击效果。但是话题迅速转移到描述这些方法的复兴,而对这一复兴的论辩、动因及其对目前实践和未来的影响的讨论则相对较少。

“由乔姆斯基1956 年的论文开始的一系列极具影响力的论文中,包括乔姆斯基1957 年的论文以及米勒(Miller) 和乔姆斯基1963 年的论文,乔姆斯基认为,‘有限状态的马尔可夫过程’虽然是可能有用的工程探索,却不可能成为人类语法知识的完整认知模型。当时的这些论辩促使许多语言学家和计算语言学家完全脱离了统计模型。

N 元模型的回归开始于耶利内克(Jelinek)、默瑟(Mercer)、巴尔(Bahl) 等人的工作……”

两本教科书对N 元文法的讨论都是从引用其优缺点开始:

“但是必须认识到,无论怎样解读,‘一个句子的概率’都是一个完全无用的概念……。”

“任何时候,只要一个语言学家离开本研究组,识别率就会上升。”(弗雷德·耶利内克(Fred Jelinek),当时他在IBM 语音组,1988)

曼宁和舒兹是以这样的引用开始讨论的:

“统计的考量对于理解语言的操作与发展至关重要。”

“一个人对合法语句的产生和识别能力不是基于统计近似之类的概念。”

这种正反面观点的引用确实向学生介绍了争议的存在,但却不能真正帮助学生领会这些争议意味着什么。我们应提醒学生,乔姆斯基反对的是如今极其流行的一些有限状态方法,包括N 元文法和隐式马尔可夫模型,因为他相信这些方法无法捕捉远距离的依存关系(例如一致关系的限制条件和wh- 位移现象)。

乔姆斯基的立场直到今天仍然是有争议的,本文审阅者之一的反对意见也佐证了这种争议。我不希望站在这场辩论中的某一方。我只是要求应该教给下一代双方的辩论。对于任一方,都不至于由于我们疏于教授而使他们需要重新“发现”。

计算语言学学生应该接受普通语言学和语音学的培训

为了让进入这行的学生对低枝果实采摘完后的情形做好准备,今天的教育最好向广度发展。学生应该全面学习语言学的主要分支,如句法、词法、音韵学、语音学、历史语言学以及语言共性。我们目前毕业的计算语言学的学生在一个特定的较窄的子领域具有丰富的知识(如机器学习和统计型机器翻译),但可能没听说过格林伯格共性(Greenberg’s universals)、提升(raising)、等同(equi)、 量词辖域(quantifier scope)、 空缺(gapping)、孤岛条件(island constraints) 等语言学现象。我们应该确保从事共指关系(co-reference) 研究的学生都知道成分统制(c-command) 和指称相异(disjoint reference)。当学生在计算语言学会议上宣讲论文的时候,他们应该已经了解形式语言学(formal linguistics) 对此问题的标准处理。

从事语音识别工作的学生需要了解词汇重音(如文献)。音韵学重音对于下游的语音和声学过程具有各种各样的影响。

zb5-3
图3 “politics”and“political”的谱图显示有三个/l/同位音。在重音前后出现不同的音位变体。

语音识别目前没有充分利用词汇重音特征是一个不小的遗憾,因为重音是语音信号中较为突出的特性之一。图3 显示了最小对立体 (minimal pair)“ politics”和“political”的波形和谱图。这两个词千差万别,目前的技术着重于语音单位层面的区别:

  1. “politics”以 –s 结尾,而“political”以-al 结尾。
  2. 与“politics” 不同,“political”的第一个元音是弱化的非重读音节的元音(schwa)。

重音的区别更为突出。在诸多与重音有关的区别中,图3 突出显示了重音前与重音后/l/ 的音位变体之间的区别。另外还有对/t/ 音的影响。“politics”中 /t/是送气音,但在“political”中却是闪音。

目前,在语音单位层面,仍有大量低枝果实可以采摘,但这些工作终有完结之时。我们应该教给语音识别领域的学生有关音韵学和声学语音学的词汇重音知识,以便他们在目前的技术水平超越语音单位层面的瓶颈时依然游刃有余。由于重音存在超过三元音素的远距离依存关系,重音方面的进展需要对目前流行的近似方法的长处与缺陷均有深入的理解。语音识别方面的基础性进展,例如能有效使用重音,很可能要依赖于技术的根本性进步。

结论

学界前辈皮尔斯、乔姆斯基和明斯基曾经严重质疑过当年流行后来复活了的一些经验主义方法。他们的反对意见涉及许多当代流行的方法,包括机器学习(线性分离机)、信息检索(向量空间模型)、语言模型(N 元文法)、语音识别(隐式马尔可夫模型)和条件随机场。

学生们需要学习如何有效地使用流行的近似模型。乔姆斯基指出了N 元文法的缺陷,明斯基分析了线性分离机的局限性。许多局限性很明显(由自身算法设计带来的),但即便如此,对其支持与反对之间的争辩有时仍然非常激烈。有时,其中一方的论点不会被写进教科书,只有等到下一代人去重新发现和复兴这些被遗忘的思想。我们应该鼓励下一代学者充分了解辩论双方的论据,即使他们选择站在一方或另一方。

20 世纪90 年代,当我们复兴经验主义时,我们选择了实用主义的理由来反对我们导师的观点。数据从未如此丰富,我们能拿它做什么呢?我们认为,做简单的事情比什么都不做要好。让我们去采摘一些低枝果实。虽然三元模型不能捕捉到一切语言现象,但它往往比其他方法更有效。捕捉我们可以轻易捕获的一致性事实,要比好高骛远试图捕捉更多语言事实而最终得到更少要好。

这些说辞在20 世纪90 年代有很大的意义,特别是学术界在前一波繁荣期提出了很多不切实际的期望。但是今天的学生在不久的将来可能会面临一系列非常不同的挑战。当大多数低枝果实采摘完毕,他们应该做些什么呢?

具体就机器翻译而言,统计方法的复兴(例如文献)由于实用主义的原因,始于采用有限状态方法。但随着时间的推移,研究人员已经越来越接受使用句法捕捉远距离的依存关系,尤其是当源语与目标语缺乏平行语料库,或者当两种语言具有非常不同的词序的时候(例如,从主谓宾词序的语言(如英语)翻译到以动词收尾的语言(如日语))。展望未来,我们可以预料到机器翻译的研究会越来越多地使用越来越丰富的语言学表达。同样,很快也将有一天,重音将成为语音识别的重要依据。

既然计算语言学教科书不可能涵盖所有这些内容,我们就应该与其他相关科系的同事合作,确保学生能接受到广泛的教育,足以让他们为所有可能的未来做好准备。

选自《中国计算机学会通讯》第9卷第12期。
本文译自Linguistics issues in Language Technology, 2011; 6(5) K. Church 的“A Pendulum Swung Too Far”一文。
译者:李维(美国网基公司首席科学家。主要研究方向为信息抽取、舆情挖掘等)唐天(美国网基公司首席科学家助理兼助理工程师。主要研究方向为自然语言处理和机器学习)。

【置顶:立委NLP博文一览】

NLP University

【立委NLP相关博文汇总一览】

NLP University 开张大吉

 《朝华午拾》电子版

余致力自然语言处理(NLP,Natural Language Processing)凡30年,其目的在求交流之通畅,信息之自由,语言之归一,世界之大同。积30年之经验,深知欲达此目的,必须启蒙后进,普及科学,同心协力,共建通天之塔,因作文鼓而吹之。处理尚未成功,同志仍需努力。

0. AI/NLP最新博文

AIGC 潮流扑面而来,是顺应还是(无谓)抵抗呢?
美术新时代,视频展示
漫谈AI 模型生成图像
《李白宋梁130:从短语结构的词序基础约束到大模型向量空间的天马行空》
AI 正在不声不响渗透我们的生活
RPA 是任务执行器还是数字员工?
图灵测试其实已经过时了
《立委科普:自注意力机制解说》
《深层解析符号模型与深度学习预训练模型》(修订文字版)
NLP 新纪元来临了吗?
【随感:大数据时代的信息茧房和“自洗脑”】
推荐Chris Manning 论大模型,并附上相关讨论
[转载]转载:斯坦福Chris Manning: 大模型剑指通用人工智能?
《我看好超大生成模型的创造前途》
[转载]编译 Gary Marcus 最新著述:《深度学习正在撞南墙》
老司机谈NLP半自动驾驶,欢迎光临。
立委随笔:机器翻译,从学者到学员
关于NLP 落地以及冷启动的对话
《AI 随笔:从对张医生的综述抄袭指控谈起》 
《AI 随笔:观老教授Walid的神经网络批判有感》
从人类认知谈AI融合之不易
与AI老友再谈特斯拉自动驾驶
《AI 理性主义的终结是不可能的吗》
《马斯克AI自动驾驶的背后:软件的内伤,硬件的短板》
《王婆不卖瓜,特斯拉车主说自驾》
《AI 赚钱真心难》
NLP自选系列2020专栏连载
《语言形式的无中生有:从隐性到显性》

1. 关于NLP体系及方法论

 
 
 

【立委科普:自然语言parsers是揭示语言奥秘的LIGO式探测仪】

泥沙龙笔记:漫谈语言形式

《泥沙龙笔记:沾深度神经的光,谈parsing的深度与多层》

【立委科普:语言学算法是 deep NLP 绕不过去的坎儿】

《OVERVIEW OF NATURAL LANGUAGE PROCESSING》

《NLP White Paper: Overview of Our NLP Core Engine》

White Paper of NLP Engine

【新智元笔记:工程语法和深度神经】

【新智元笔记:李白对话录 – RNN 与语言学算法】

《新智元笔记:再谈语言学手工编程与机器学习的自动编程》

《新智元笔记:对于 tractable tasks, 机器学习很难胜过专家》

《新智元笔记:【Google 年度顶级论文】有感》

《新智元笔记:NLP 系统的分层挑战》

《泥沙龙笔记:连续、离散,模块化和接口》

《泥沙龙笔记:parsing 的休眠反悔机制》

【立委科普:歧义parsing的休眠唤醒机制初探】

【泥沙龙笔记:NLP hard 的歧义突破】

【立委科普:结构歧义的休眠唤醒演义】

【新智元笔记:李白对话录 – 从“把手”谈起】

《新智元笔记:跨层次结构歧义的识别表达痛点》

立委科普:NLP 中的一袋子词是什么

一切声称用机器学习做社会媒体舆情挖掘的系统,都值得怀疑

立委科普:关键词革命

立委科普:关键词外传

《立委随笔:机器学习和自然语言处理》

【泥沙龙笔记:语法工程派与统计学习派的总结】

【科普小品:NLP 的锤子和斧头】

【新智元笔记:两条路线上的NLP数据制导】

《立委随笔:语言自动分析的两个路子》

Comparison of Pros and Cons of Two NLP Approaches

why hybrid? on machine learning vs. hand-coded rules in NLP

Why Hybrid?

钩沉:Early arguments for a hybrid model for NLP and IE

【李白对话录:你波你的波,我粒我的粒】

【泥沙龙笔记:学习乐观主义的极致,奇文共欣赏】

《泥沙龙笔记:铿锵众人行,parsing 可以颠覆关键词吗?》

泥沙龙笔记:铿锵三人行

《泥沙龙铿锵三人行:句法语义纠缠论》

【科普随笔:NLP主流的傲慢与偏见】

【科普随笔:NLP主流最大的偏见,规则系统的手工性】

再谈机器学习和手工系统:人和机器谁更聪明能干?

乔姆斯基批判

Chomsky’s Negative Impact

[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】

【新智元笔记:语法糖霜论不值得认真对待】

【科研笔记:NLP “毛毛虫” 笔记,从一维到二维】

【泥沙龙笔记:NLP 专门语言是规则系统的斧头】

【新智元:理论家的围墙和工程师的私货】

泥沙龙笔记:从乔姆斯基大战谷歌Norvig说起

【Church – 钟摆摆得太远(2):乔姆斯基论】

【NLP主流的反思:Church – 钟摆摆得太远(1):历史回顾】

【Church – 钟摆摆得太远(3):皮尔斯论】

【Church – 钟摆摆得太远(4):明斯基论】

【Church – 钟摆摆得太远(5):现状与结论】

《泥沙龙笔记:【钟摆摆得太远】高大上,但有偏颇》

自给自足是NLP王道

自然语言后学都应该看看白硕老师的“自然语言处理与人工智能”

语言创造简史

Notes on Building and Using Lexical Semantic Knowledge Bases

【NLP主流成见之二,所谓规则系统的移植性太差】

Domain portability myth in natural language processing (NLP)

【科普随笔:NLP的宗教战争?】

Church – 计算语言学课程的缺陷 (翻译节选)

【科普随笔:NLP主流之偏见重复一万遍成为反真理】

坚持四项基本原则,开发鲁棒性NLP系统

NLP 围脖:成语从来不是问题

NLP 是一个力气活:再论成语不是问题

立委围脖:对于用户来说,抓住老鼠就是好猫

《科普随笔:keep ambiguity untouched》

【科研笔记:NLP的词海战术】

在构筑一个模型时,枚举法是常用的必要的强盗分类

没有语言学的 CL 走不远

[转载]为什么谷歌搜索并不像广泛相信的那样主要采用机器学习?

手工规则系统的软肋在文章分类

老教授回函:理性主义回摆可能要再延迟10几年

每隔二十年振荡一次的钟摆要多长?

【系统不能太精巧,正如人不能太聪明】

《泥沙龙李白对话录:关于纯语义系统》

【泥沙龙笔记:语义可以绕过句法吗】

一袋子词的主流方法面对社交媒体捉襟见肘,结构分析是必由之路

《新智元:通用的机器人都是闹着玩的,有用的都是 domain 的》

SBIR Grants

 

2. 关于NLP分析(parsing)

语义计算沙龙:Parsing 的数据结构和形式文法

【语义计算群:句法语义的萝卜与坑】

【语义计算群:李白侃中文parsing】

【语义计算群:借定语的壳装状语的瓤】

【语义计算群:带歧义或模糊前行,有如带病生存】

【一日一parsing:”钱是没有问题”】

【一日一parsing:休眠唤醒的好例子】

【一日一parse:长尾问题种种】

【语言学小品:送老婆后面的语言学】 

【一日一parsing:NLP应用可以对parsing有所包容】

泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(1/2)

泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(2/2)

【语义计算沙龙:巨头谷歌昨天称句法分析极难,但他们最强】

语义计算沙龙:parsing 的鲁棒比精准更重要】

语义计算沙龙:基本短语是浅层和深层parsing的重要接口》

【做 parsing 还是要靠语言学家,机器学习不给力】

《泥沙龙笔记:狗血的语言学》

语义计算沙龙:关于汉语介词的兼语句型,兼论POS】

泥沙龙笔记:在知识处理中,很多时候,人不如机

《立委科普:机器可以揭开双关语神秘的面纱》

《泥沙龙笔记:漫谈自动句法分析和树形图表达》

泥沙龙笔记:语言处理没有文法就不好玩了

泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索

泥沙龙笔记:从 sparse data 再论parsing乃是NLP应用的核武器

【立委科普:NLP核武器的奥秘】

【立委科普:语法结构树之美】

【立委科普:语法结构树之美(之二)】

【立委科普:自然语言理解当然是文法为主,常识为辅】

语义计算沙龙:从《知网》抽取逻辑动宾的关系】

【立委科普:教机器识英文】

【立委科普:及物、不及物 与 动词 subcat 及句型】

泥沙龙笔记:再聊乔老爷的递归陷阱

【泥沙龙笔记:人脑就是豆腐,别扯什么递归了】

泥沙龙笔记:儿童语言没有文法的问题

《自然语言是递归的么?》

Parsing nonsense with a sense of humor

【科普小品:文法里的父子原则】

Parent-child Principle in Dependency Grammar

乔氏 X 杠杠理论 以及各式树形图表达法

【泥沙龙笔记:依存语言学的怪圈】

【没有语言结构可以解析语义么?浅论 LSA】

【没有语言结构可以解析语义么?(之二)】

自然语言中,约定俗成大于文法教条和逻辑

泥沙龙笔记:三论世界语

泥沙龙笔记:再聊世界语及其文化

泥沙龙笔记:聊一聊世界语及老柴老乔以及老马老恩

《泥沙龙笔记:NLP component technology 的市场问题》

【泥沙龙笔记:没有结构树,万古如长夜】

Deep parsing:每日一析

Deep parsing 每日一析:内情曝光 vs 假货曝光

Deep parsing 每日一析 半垃圾进 半垃圾出

【一日一parsing: 屈居世界第零】

【研发随笔:植树为林自成景(10/n)】

【deep parsing:植树为林自成景(20/n)】

【deep parsing:植树为林自成景(30/n)】

语义计算沙龙:植树为林自成景(40/n)】

【deep parsing 吃文化:植树为林自成景(60/n)】

【deep parsing (70/n):离合词与定语从句的纠缠】

【deep parsing (80/n):植树成林自成景】

【deep parsing (90/n):“雨是好雨,但风不正经”】

【deep parsing (100/n):其实 NLP 也没那么容易气死】

 

3. 关于NLP抽取

【立委科普:NLU 的螺旋式上升及其 open知识图谱的趋向】

【语义计算沙龙:知识图谱无需动用太多知识 负重而行】

【立委科普:信息抽取】

《朝华午拾:信息抽取笔记》

泥沙龙笔记:搜索和知识图谱的话题

《知识图谱的先行:从Julian Hill 说起》

《有了deep parsing,信息抽取就是个玩儿》

【立委科普:实体关系到知识图谱,从“同学”谈起】

泥沙龙笔记: parsing vs. classification and IE

前知识图谱钩沉: 信息抽取引擎的架构

前知识图谱钩沉: 信息体理论

前知识图谱钩沉,信息抽取任务由浅至深的定义

前知识图谱钩沉,关于事件的抽取

钩沉:SVO as General Events

Pre-Knowledge-Graph Profile Extraction Research via SBIR (1)

Pre-Knowledge-Graph Profile Extraction Research via SBIR (2)

Coarse-grained vs. fine-grained sentiment extraction

【立委科普:基于关键词的舆情分类系统面临挑战】

【“剩女”的去向和出路】

SBIR Grants

 

4.关于NLP大数据挖掘

 

“大数据与认识论”研讨会的书面发言(草稿)

【立委科普:自动民调】

Automated survey based on social media

《立委科普:机器八卦》

言多必露,文本挖掘可以揭示背景信息

社媒是个大染缸,大数据挖掘有啥价值?

大数据挖掘问答2:会哭的孩子有奶吃

大数据挖掘问答1:所谓数据完整性

为什么做大数据的吹鼓手?

大数据NLP论

On Big Data NLP

作为公开课的大数据演讲

【立委科普:舆情挖掘的背后】

【立委科普:所谓大数据(BIG DATA)】

【科研笔记:big data NLP, how big is big?】

文本挖掘需要让用户既能见林又能见木

【社媒挖掘:《品牌舆情图》的设计问题】

研究发现,国人爱说反话:夸奖的背后藏着嘲讽

立委统计发现,人是几乎无可救药的情绪性动物

2011 信息产业的两大关键词:社交媒体和云计算

《扫了 sentiment,NLP 一览众山小:从“良性肿瘤”说起》

 

5. 关于NLP应用

 

【河东河西,谁敢说SMT最终一定打得过规则MT?】

【立委科普:NLP应用的平台之叹】

【Bots 的愿景】

《新智元笔记:知识图谱和问答系统:how-question QA(2)》

《新智元笔记:知识图谱和问答系统:开题(1)》

【泥沙龙笔记:NLP 市场落地,主餐还是副食?】

《泥沙龙笔记:怎样满足用户的信息需求》

立委科普:问答系统的前生今世

《新智元笔记:微软小冰,人工智能聊天伙伴(1)》

《新智元笔记:微软小冰,可能的商业模式(2)》

《新智元笔记:微软小冰,两分钟定律(3)》

新智元笔记:微软小冰,QA 和AI,历史与展望(4)

泥沙龙笔记:把酒话桑麻,聊聊 NLP 工业研发的掌故

泥沙龙笔记:创新,失败,再创新,再失败,直至看上去没失败

泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索

立委科普:从产业角度说说NLP这个行当

【立委科普:机器翻译】

立委硕士论文【附录一:EChA 试验结果】

社会媒体(围脖啦)火了,信息泛滥成灾,技术跟上了么?

2011 信息产业的两大关键词:社交媒体和云计算

再说苹果爱疯的贴身小蜜 死日(Siri)

从新版iPhone发布,看苹果和微软技术转化能力的天壤之别

非常折服苹果的技术转化能力,但就自然语言技术本身来说 ...

科研笔记:big data NLP, how big is big?

与机器人对话

《机器翻译词义辨识对策》

【立委随笔:机器翻译万岁】

 

6. 关于中文NLP

【语义计算群:李白侃中文秀parsing】

【parsing 在希望的田野上】

语义计算沙龙:其实 NLP 也没那么容易气死

【deep parsing (70/n):离合词与定语从句的纠缠】

【立委科普:deep parsing 小讲座】

【新智元笔记:词的幽灵在NLP徘徊】

《新智元笔记:机器的馅饼专砸用心者的头》

【新智元笔记:机器的馅饼(续篇)】

【新智元笔记:parsing 汉语涉及重叠的鸡零狗碎及其他】

【新智元笔记:中文自动分析杂谈】

【deep parsing:“对医闹和对大夫使用暴力者,应该依法严惩"

【让机器人解读洪爷的《人工智能忧思录》(4/n)】

【让机器人解读洪爷的《人工智能忧思录》(3/n)】

【让机器人解读洪爷的《人工智能忧思录》(2/n)】

【让机器人解读洪爷的《人工智能忧思录》(1/n)】

《新智元笔记:找茬拷问立氏parser》

【新智元笔记:汉语分离词的自动分析】

《新智元笔记:与汉语离合词有关的结构关系》

《新智元笔记:汉语使动结构与定中结构的纠缠》

《新智元笔记:汉语parsing的合成词痛点》

《新智元:填空“的子结构”、“所字结构”和“者字结构“》

【沙龙笔记:汉语构词和句法都要用到reduplication机制】

钩沉:博士阶段的汉语HPSG研究 2015-11-02

泥沙龙小品:小词搭配是上帝给汉语文法的恩赐

泥沙龙笔记:汉语牛逼,国人任性!句法语义,粗细不同

泥沙龙笔记:汉语就是一种“裸奔” 的语言

【NLP笔记:人工智能神话的背后是汗水】

【立委随笔:中文之心,如在吾庐】

汉语依从文法 (维文钩沉)

《立委科普:现代汉语语法随笔》

“自由”的语言学至少有三种理论

应该立法禁止切词研究 :=)

再谈应该立法禁止切词研究

中文处理的迷思之一:切词特有论

中文处理的迷思之二:词类标注是句法分析的前提

中文NLP迷思之三:中文处理的长足进步有待于汉语语法的理论突破

专业老友痛批立委《迷思》系列搅乱NLP秩序,立委固执己见

后生可畏,专业新人对《迷思》争论表面和稀泥,其实门儿清

突然有一种紧迫感:再不上中文NLP,可能就错过时代机遇了

社会媒体舆情自动分析:马英九 vs 陈水扁

舆情自动分析表明,谷歌的社会评价度高出百度一倍

方寒大战高频情绪性词的词频分析

方韩大战的舆情自动分析:小方的评价比韩少差太多了

研究发现,国人爱说反话:夸奖的背后藏着嘲讽

立委统计发现,人是几乎无可救药的情绪性动物

研发笔记:粤语文句的情报挖掘

《立委随笔: 语言学家是怎样炼成的》

《立委科普:汉语只有完成体,没有过去时》

《科研笔记:中文图灵试题?》

立委统计发现,汉语既适合吹嘘拍马亦长于恶意构陷

比起英语,汉语感情更外露还是更炽烈?

科研笔记:究竟好还是不好

《科普随笔:汉字和语素》

《科普随笔:汉语自动断词 “一次性交500元”》

《科普随笔:“他走得风一样地快” 的详细语法结构分析》

【立委科普:自动分析 《偉大的中文》】

《立委随笔:汉语并不简单》

语言学小品:结婚的远近距离搭配

中文处理的模块化纠结

【立委科普:《非诚勿扰》中是谁心动谁动心?】

曙光在眼前,轻松过个年

挺反自便,但不要欺负语言学!

当面对很烦很难很挑战的时候

创造着是美丽的

汉语依从文法 (维文钩沉)

《新智元:挖掘你的诗人气质,祝你新年快乐》

 

7. 关于NLP社会媒体舆情挖掘的实践

 

【语义计算沙龙:sentiment 中的讽刺和正话反说】

【喋喋不休论大数据(立委博文汇总)】

【新智元笔记:再谈舆情】

舆情挖掘系统独立验证的意义

【社煤挖掘:雷同学之死】

《利用大数据高科技,实时监测美国总统大选舆情变化》

世人皆错nlp不错,民调错大数据也不会错

社媒大数据的困境:微信的风行导致舆情的碎片化

从微信的用户体验谈大数据挖掘的客户情报

社媒挖掘:社会媒体疯传柴静调查,毁誉参半,争议趋于情绪化

奥巴马赢了昨晚辩论吗?舆情自动检测告诉你

全球社交媒体热议阿里巴巴上市

到底社媒曲线与股市曲线有没有、有多少相关度?

再谈舆情与股市的相关性

【『科学』预测:A-股 看好】

舆情挖掘用于股市房市预测靠谱么?

大数据帮助决策实例:《走进“大数据”——洗衣机寻购记》

【社媒挖掘:外来快餐店风光不再】

【社媒挖掘:中国手机市场仍处于战国争雄的阶段】

世界杯是全世界的热点,纵不懂也有义务挖掘一哈

【大数据挖掘:方崔大战一年回顾】(更正版)

【大数据挖掘:转基因一年回顾】

【大数据挖掘:“苦逼”小崔2013年5-7月为什么跌入谷底?】

【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】

【大数据挖掘:转基因英文网络的自动民调和分析】

只认数据不认人:IRT 的鼓噪左右美国民情了么?

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么

关于转基因及其社会媒体大数据挖掘的种种问题

【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】

【社媒挖掘:必胜客是七夕节情侣聚餐的首选之地?】

【社媒挖掘:大数据时代的危机管理】

测试粤语舆情挖掘:拿娱乐界名人阿娇和陈冠希开刀

【社媒挖掘:不朽邓丽君】

【社媒挖掘:社会媒体眼中的李开复老师】

【社媒挖掘:糟糕透顶的方韩社会形象】

社媒挖掘:关于狗肉的争议

社媒挖掘:央视的老毕

社媒挖掘:老毕私下辱毛事件再挖掘

大数据淹没下的冰美人(之一)

大数据淹没下的冰美人(之二)

大数据淹没下的冰美人(之三): 喜欢的理由

大数据淹没下的冰美人(之四): 流言蜚语篇(慎入)

大数据淹没下的冰美人(之五): 星光灿烂谁为最?

【社媒挖掘:成都暴打事件中的男司机和女司机】

【社媒挖掘:社会媒体眼中的陳水扁】

【社媒挖掘:社会媒体眼中的李登輝】

【社媒挖掘:馬英九施政一年來輿情晴雨表】

【社媒挖掘:臺灣政壇輿情圖】

【社媒挖掘:社会媒体眼中的臺灣綠營大佬】

舆情挖掘:九合一國民黨慘敗 馬英九時代行將結束?

社会媒体舆情自动分析:马英九 vs 陈水扁

社媒挖掘:争议人物方博士被逐,提升了其网路形象

方韩大战高频情绪性词的词频分析

方韩大战的舆情自动分析:小方的评价比韩少差太多了

社媒挖掘:苹果CEO库克公开承认同志身份,媒体反应相当正面

苹果智能手表会是可穿戴设备的革命么?

全球社交媒体热议苹果推出 iPhone 6

互联网盛世英雄马云的媒体形象

革命革到自身头上,给咱“科学网”也挖掘一下形象

两年来中国红十字会的社会媒体形象调查

自动民调Walmart,挖掘发现跨国公司在中国的日子不好过

【社媒挖掘:“剩女”问题】

【舆情挖掘:2013央视春晚播后】

【舆情挖掘:年三十挖一挖央视春晚】

新浪微博下周要大跌?舆情指数不看好,负面评价太多(疑似虚惊)

【大数据挖掘:微信(WeChat)】

【大数据解读:方崔大战对转基因形象的影响】

【微博自动民调:薄熙来、薛蛮子和李天一】

【社媒挖掘:第一夫人光彩夺目赞誉有加】

Chinese First Lady in Social Media

Social media mining on credit industry in China

Sina Weibo IPO and its automatic real time monitoring

Social media mining: Teens and Issues

立委元宵节大数据科技访谈土豆视频上网

【大数据挖掘:中国红十字会的社会媒体形象】

【社媒挖掘:社会媒体眼中的财政悬崖】

【社媒挖掘:美国的枪支管制任重道远】

【舆情挖掘:房市总体看好】

【社媒挖掘:社会媒体眼中的米拉先生】

【社会媒体:现代婚姻推背图】

【社会媒体:现代爱情推背图】

【科学技术之云】

新鲜出炉:2012 热点话题五大盘点之五【小方vs韩2】

【凡事不决问 social:切糕是神马?】

Social media mining: 2013 vs. 2012

社会媒体测试知名品牌百度,有惊人发现

尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲?

舆情自动分析表明,谷歌的社会评价度高出百度一倍

圣诞社媒印象: 简体世界狂欢,繁體世界分享

WordClouds: Season's sentiments, pros & cons of Xmas

新鲜出炉:2012 热点话题五大盘点之一【吊丝】

新鲜出炉:2012 热点的社会媒体五大盘点之二【林书豪】

新鲜出炉:2012 热点话题五大盘点之三【舌尖上的中国】

新鲜出炉:2012 热点话题五大盘点之四【三星vs苹果】

社会媒体比烂,但国骂隐含舆情

肮脏语言研究:英语篇

肮脏语言研究:汉语篇(18岁以下勿入)

新年新打算:【社媒挖掘】专栏开张大吉

 

8. 关于NLP的掌故趣闻

《朝华午拾:创业之路》

《朝华午拾 - 水牛风云》

《朝华午拾:用人之道》

《朝华午拾:欧洲之行》

《朝华午拾:“数小鸡”的日子》

《朝华午拾:一夜成为万元户》

《朝华午拾:世界语之恋》

《朝华午拾:我的考研经历》

80年代在国内,社科院的硕士训练使我受益最多

科研笔记:开天辟地的感觉真好

《朝华午拾:今天是个好日子》

【朝华午拾:那天是个好日子】

10 周年入职纪念日有感

《立委随笔: 语言学家是怎样炼成的》

说说科研立项中的大跃进

围脖:一个人对抗一个世界,理性主义大师 Lenat 教授

《泥沙龙笔记:再谈 cyc》

围脖:格语法创始人菲尔墨(Charles J. Fillmore)教授千古!

百度大脑从谷歌大脑挖来深度学习掌门人 Andrew Ng

冯志伟老师以及机器翻译历史的一些事儿

《立委随笔:微软收购PowerSet》

NLP 历史上最大的媒体误导:成语难倒了电脑

立委推荐:乔姆斯基

巧遇语言学上帝乔姆斯基

[转载]欧阳锋:巧遇语言学新锐 - 乔姆斯基

【科普小品:伟哥的关键词故事】

不是那根萝卜,不做那个葱

【随记:湾区的年度 NLP BBQ 】

女怕嫁错郎,男怕入错行,专业怕选错方向

据说,神奇的NLP可以增强性吸引力,增加你的信心和幽会成功率

【立委科普:美梦成真的通俗版解说】

【征文参赛:美梦成真】

【创业故事:技术的力量和技术公司的命运】

把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发

MT 杀手皮尔斯 (翻译节选)

ALPAC 黑皮书 1/9:前言

《眼睛一眨,来了王子,走了白马》

职业随想曲:语言学万岁

立委随笔:Chomsky meets Gates

钩沉:《中国报道》上与导师用世界语发表的第一篇论文

钩沉:《中国报道》上用世界语发表的第二篇论文

贴身小蜜的面纱和人工智能的奥秘

有感于人工智能的火热

泥沙龙笔记微博议摘要

【泥沙龙笔记:没有结构树,万古如长夜】

【泥沙龙笔记:机器 parsing 洪爷,无论打油或打趣】

老革命遇到新问题,洪爷求饶打油翁

我要是退休了,就机器 parse 《离骚》玩儿

 

【语言学小品:送老婆后面的语言学】

456822675539882531

谁会误读?为什么误读?研究一下背后的语言学 and beyond。

双宾两个坑 human 默认的坑是对象 “老婆”是“送”的对象,这是正解。
对于心术不正的人 human 也可以填受事的坑,“老婆”跟礼物一样,成了“送”的受事。
这是 “送” 的歧义,到了 caption 里面的合成词 “送给”,subcat 有细微变化,就没歧义了。为什么 “送-个” 也没歧义呢?因为“个”是不定的,而对象这个角色通常是有定的。
这里面细说起来还有一摞的语言学。

(1)双宾句型的对象一般是有定的,不定的对象不是绝对不可以,譬如:
“我把一大批书送(给)一所学校了。”
“一所” 是不定数量词,作为对象。
汉语中的 “一+量词”与光杆“量词”通常认为是等价的,范畴都是不定(indefinite),后者是前者省略了“一”而得。但是二者并非完全等价。
对象这个角色默认有定(definite,虽然汉语没有定冠词),如果是有定,不可以省略“一”,或者说,不可以由带光杆量词的NP充当。
汉语句法里面可以总结出这么一条细则:带有光杆量词的NP只能充当直接宾语,不能充当间接宾语(对象)或其他。

(2)再看合成词 “送给” 里面的语言学。
汉语反映双宾概念的语词,常常可以进一步与“给”组成合成动词,意义不变,但注意合成前后的subcat的微妙变化:“送” vs “送给” (寄给,赠给,赠送给,等)
“送”的 subcat patterns:
(1) 送 + 对象NP + 受事NP: 送她一本书
(2) “把”受事NP+送+对象: 把一本书送她
(3)受事NP+送+对象: 这本书送她了
(4)送+受事NP: 送个老婆
(5)送+对象NP(human,definite):送(我)老婆。

请留心(4)和(5):两个patterns有相交竞争的时候,于是歧义产生。当“送+给”构成合成动词后,subcat 的 patterns(1)(2)(3)(5) 保持不变,而(4)基本失效(退出)了。说基本失效,是因为:虽然 “送给老婆”只能循 pattern 5,但“送给个老婆”(稍微有限别扭,但仍在语言可接受之列)似乎仍然需要理解为 pattern 4,这是怎么回事呢?
这就是语言的微妙之处:pattern 4 本来应该退出,因为“给”已经决定了后面是对象而不是受事;但是因为汉语有另一条很细但是很强的规则说,光杆量词的NP只能做受事,不能做对象或其他。在这两条规则(pattern 5的对象规则与光杆受事规则)发生冲突的时候,后一条胜,因此“送给个老婆”就不得不做 pattern 4 的受事解了。这叫规则与规则打架,谁胜谁输也是语言学的一部分,电脑实现的时候可以运用一个priority的机制来model。

上图还涉及一个常见的促销句式: 买NP1送NP2
买iPhone 6 送耳机
买 Prius 送三年保修
这个语用句式的存在,加强了NP2作为受事的可能性,使得 human 本来默认为对象的力量受到制衡。这似乎涉及语用与句法的交界了。

这些算是语言学。Beyond 语言学,也可以从文化上看这个误解或歧义的现象:

对于来自落后农村的人,老婆作为受事的理解几乎是理所当然,因为农村的封建落后使得娶不起媳妇的光棍汉太多,白捞一个媳妇的渴望诱使他们更多向受事而不是对象方面联想,何况手机对于他们是天价,卖肾才可得之,因此对于促销句式也就更加敏感。反之,对于一个知识分子或富裕阶层人士,“送老婆”可能更偏向于理解为对象。

就跟王若水老老年谈桌子的哲学类似,这则小品主要是想谈谈日常的语言学。哲学家满眼都是哲学,语言学家以语言学看世界。语言人人会说,背后的语言学却不是老妪能解。语言如水如空气,一般人熟视无睹了,语言学家来揭示。这是 real life linguistics,琐碎而不乏规律,似海却仍可见底。

【相关】

《立委随笔: 语言学家是怎样炼成的》

《朝华午拾》总目录

【关于立委NLP的《关于系列》】

【置顶:立委NLP博文一览(定期更新版)】

立委NLP频道

【立委NLP频道的《关于系列》】

【立委按】有了这个《关于系列》,NLP有关的话,该说的已经大体说完了。以后再说,大多是重复或细节而已。有些论点可以不同角度说,关键的事情可以反复说,以信息的冗余试图保障信息传输的有效性和完整性。以前说过的,这方面立委有三个榜样,一律苦口婆心:第一是马克思,尤其反映在他集30多年功力未及完工的砖头一般厚重的《Das Kapital(资本论)》;第二是乔姆斯基,他对美国外交霸权主义和美国大众媒体的批判,絮叨了一辈子,万变不离其宗;三是老友镜子先生横扫万事万物,见诸立委主编【镜子大全】。都是菩萨心肠,把自以为的真知灼见(当然不是真理,也难免偏激)说给世界听。至少于我,说给世界听,但并不在乎世界听不听。老夫聊发少年狂,花开花落两由之。

关于 NLP 以及杂谈】                         专栏:杂类English

关于NLP体系和设计哲学】;               专栏:NLP架构

关于NLP方法论以及两条路线之争】 专栏:NLP方法论

关于 parsing】                                    专栏:Parsing

【关于中文NLP】                                   专栏:中文处理

【关于信息抽取】                                   专栏:信息抽取

【关于大数据挖掘】                               专栏:情报挖掘

【关于知识图谱】                                   专栏:知识图谱

【关于舆情挖掘】                                   专栏:舆情挖掘

【关于问答系统】                                   专栏:问答系统

【关于机器翻译】                                    专栏:机器翻译

【关于NLP应用】                                   专栏:NLP应用

【关于我与NLP】                                  专栏:NLP掌故

【关于NLP掌故】                                  专栏:NLP掌故

【关于人工智能】                                  专栏:杂类

 

【关于机器翻译】

 

【立委科普:机器翻译】

立委硕士论文【附录一:EChA 试验结果】

《机器翻译词义辨识对策》

【立委随笔:机器翻译万岁】

【河东河西,谁敢说SMT最终一定打得过规则MT?】

NLP 历史上最大的媒体误导:成语难倒了电脑

 

关于 NLP 以及杂谈

关于NLP体系和设计哲学

关于NLP方法论以及两条路线之争

关于 parsing

【关于中文NLP】

【关于信息抽取】

【关于舆情挖掘】

【关于大数据挖掘】

【关于知识图谱】

【关于NLP应用】

【关于人工智能】

【关于我与NLP】

【关于NLP掌故】

【关于问答系统】

立委科普:问答系统的前生今世

《新智元笔记:知识图谱和问答系统:开题(1)》

《新智元笔记:知识图谱和问答系统:how-question QA(2)》

《朝华午拾:创业之路》

【Bots 的愿景】

《泥沙龙笔记:怎样满足用户的信息需求》

《新智元笔记:微软小冰,人工智能聊天伙伴(1)》

《新智元笔记:微软小冰,可能的商业模式(2)》

《新智元笔记:微软小冰,两分钟定律(3)》

新智元笔记:微软小冰,QA 和AI,历史与展望(4)

再说苹果爱疯的贴身小蜜 死日(Siri)

从新版iPhone发布,看苹果和微软技术转化能力的天壤之别

非常折服苹果的技术转化能力,但就自然语言技术本身来说 ...

与机器人对话

关于 NLP 以及杂谈

关于NLP体系和设计哲学

关于NLP方法论以及两条路线之争

关于 parsing

【关于中文NLP】

【关于信息抽取】

【关于舆情挖掘】

【关于大数据挖掘】

【关于知识图谱】

【关于NLP应用】

【关于人工智能】

【关于我与NLP】

【关于NLP掌故】

【关于知识图谱】

泥沙龙笔记:搜索和知识图谱的话题

《知识图谱的先行:从Julian Hill 说起》

《泥沙龙笔记:知识习得对本体知识,信息抽取对知识图谱》

【泥沙龙笔记:再谈知识图谱和知识习得】

《新智元笔记:知识图谱和问答系统:开题(1)》

《新智元笔记:知识图谱和问答系统:how-question QA(2)》

【立委科普:信息抽取】

《朝华午拾:信息抽取笔记》

《有了deep parsing,信息抽取就是个玩儿》

【立委科普:实体关系到知识图谱,从“同学”谈起】

前知识图谱钩沉: 信息抽取引擎的架构

前知识图谱钩沉: 信息体理论

前知识图谱钩沉,信息抽取任务由浅至深的定义 2015-10-30

前知识图谱钩沉,关于事件的抽取

钩沉:SVO as General Events

Pre-Knowledge-Graph Profile Extraction Research via SBIR (1)

Pre-Knowledge-Graph Profile Extraction Research via SBIR (2)

“大数据与认识论”研讨会的书面发言(草稿)

言多必露,文本挖掘可以揭示背景信息

大数据NLP论

【立委科普:所谓大数据(BIG DATA)】

文本挖掘需要让用户既能见林又能见木

【立委科普:信息抽取】

《朝华午拾:信息抽取笔记》

 

关于 NLP 以及杂谈

关于NLP体系和设计哲学

关于NLP方法论以及两条路线之争

关于 parsing

【关于中文NLP】

【关于信息抽取】

【关于舆情挖掘】

【关于大数据挖掘】

【关于NLP应用】

【关于人工智能】

【关于我与NLP】

【关于NLP掌故】

【语义计算沙龙:知识图谱无需动用太多知识 负重而行】

w:
@wei 现在做知识图谱是否大多是工程性的工作了?
漆:
做知识图谱不仅仅是工程
w:
我是觉得李老师,趟过情感分析的河,现在也许只是工程上的工作了
漆:
看你怎么理解工程
w:
同意,虽然没上手这个领域,但是感觉上不是简单工程上的
漆:
知识图谱本质上就是知识工程的一个分支而已,但是里面涉及到的技术还是蛮多的。至少现在深度神经网络,本体推理都用得上,还是有很多理论问题需要解决。
w:
那么,现在受制于那些主要问题呢
漆:
现在还有很多问题没解决,主要是特定领域的知识挖掘很难,特别是中文,很多资源都是缺乏的。而且现在的信息抽取算法精度不是很高,离实用还有一段距离,需要做很多dirty work 召回就更不要说了
w:
恩,觉得现阶段 准确率,胜过召回率 扎实做稳,逐步积累
雷:
对的
w:
就是中文标注的文本源太少
漆:
特别是事件抽取,好像没有谁可以做得很好 各种论文都是没用的 semantic parsing也没几个真正做得好的
w:
反过来说,还是Parser,质量不高的 李老师@wei 没有用上 语义parser,那是啊
漆:
我觉得不仅仅是一个parser的问题了,parser怎么可能做到完美呢 人类的自然语言就是含糊的 所以还是需要各种推理
w:
syntax parser 和semantic parser ,.应该不是严格分离的
漆:
数据清洗
w:
尽管李老师是主张parser 纯点
漆:。而且需要是context-dependent
w:
谈到推理,摊子就大了
漆:
还有常识知识
w:
我觉得专业领域的文本,是否使用推理情况少点,但是标注语料难求。
我:
唉 怎么说呢 让你们这么一议,知识图谱需要这个知识,那个推理,甚至常识,岂不寸步难行 遥遥无期了?照我说,其实没那么玄,有了靠谱的 deep parser,知识图谱的基础就打扎实了。知识图谱无需动用太多知识 负重而行。
漆:
专业领域会有很多业务规则的推理
我:
说了你可以不信
mei:
我也认为parser不够,还需要更powerful knowledge representation,再加推理,knowledge graph @漆
我:
不过还是可以说:中文事实抽取有啥难的 关系抽取有啥难的?
w:
哈!一个知识图谱,常识,推理,都来了,这掀起了NLP中的所有的锅盖啊
我:
这些基本事实的抽取就是小菜,如果与我们所做的 sentiment 做比较的话。客观语言的抽取工作 比起主观语言的抽取就是难度低了一个量级。
漆:
这个倒是 主观的更难
我:
如果因为论文中看到的抽取不靠谱 就断定抽取难的话 那是还没见到而已,不是不存在。
漆:
关系抽取还是可解的
我:
事件比关系的难度是一个水平级的 有了 deep parsing 就是一个玩儿。什么样的 deep parsing 可以让抽取成为玩儿呢? 就是我每天秀的这个 parser 就可以。它不完美 但足以支持抽取。
w:
相信@wei 几十载个功力,是可以处理相当的问题的
mei:
从抽取到推理都有一大步
我:
当然 秀出来的 parsing 结果仅仅是树结构,隐去了节点信息 抽取是在 arc+节点 两条腿上做的。推理另说。但没有必要把推理作为抽取的核心基础。倒是在知识图谱层面 有时需要一点推理。在抽取层面 无需严格意义的推理。最多是暗度陈仓引进一些零星的 ontology 的 taxonomy。
漆:
您现在的parsing还是单句的,如果是段落,有关系依存的句子,难道也是一样?
我:
parsing 都是单句的 抽取也是 一码归一码。
w:
在想,各种需求,如何结合得更好。一方面说现在没有好句法,另一方面,现在的句法好得很。这又都同时出现在本群中,如何衔接空隙呢?
mei:
单调的static predicate,knowledge graph之上加推理有很大一步。ontology也可以做成知识图谱的一部分,可离story understanding还差远
我:
到了做融合(fusion)的时候,需要跨句、跨段落、跨文章。
漆:
有些关系是跨句抽取的,如果只是单句抽取倒还好
w:
如果单句复杂得很话,也相当复句,或小段落了@wei 的大长句parsing 结果
漆:
是的
w:
同意@mei 可离story understanding还差远。我觉得现在篇章理解的初级阶段都不是,不能看论文的发表情况,看实用效果和市场产品,更为真实
我:
这里的问题是 story understanding 是一个什么任务?为什么产品或应用服务?如果抽象地说,understanding 很难,这是宇宙真理。如果具体到支持某一个应用,问题往往简化。譬如 如果知识图谱用来支持 entity 展示其中关系以及牵扯到的事件(所谓顺藤摸瓜),那么 understanding 与否 其实不会根本影响。
w:
story understanding,当然不一定是story,就我而言,我认为很重要,有产品需求。可以自动提取人类知识的规则,建立常识知识库,而不是手工CYC啊。
我:
CYC 也是如此,要 CYC 干什么用?抽象的说,常识及其常识推理是人类调动的知识手段,那么机器模拟人的话,自然也需要这个手段。但是具体到一个应用,问题不是这样的 因为很多应用无需常识就可以。
w:
来让机器认识我们周围的世界,有点常识,不要太机器
我:
CYC 叠床架屋一直得不到大用 根子就是只有它能做的事儿并不多。很多是,语言分析就可以做,常识也可以做,为什么要舍近求远呢?
漆:
CYC确实是用处不大
w:
当初研究 自然语言的目的,就是为了让机器思考,思考需要知识,知识来源于书籍(不限于),书籍需要表达,表达需要语言,---转了一个大圈,原来是卡在语言理解这块
漆:
不过常识知识还是很重要的,比如说,我们现在做地理知识问答,就需要很多地理常识知识 特别是空间知识
我:
QUOTE 三位语义巨人中探索知识最深入和纯粹的是 Lenat 教授,他带领团队手工开发的 cyc 知识系统,试图从常识的形式化入手,利用常识推理帮助解决语言理解等人工智能核心问题。可惜这套庞大的系统太过复杂和逻辑,在实际应用上有点像大炮打蚊子,使不上劲。 (《语义三巨人》)
mei:
CYC 都是手写的,很难实用。
漆:
挺有意思的一个博客
w:
常识是针对问题的常识,不是无边际的
我:
QUOTE cyc 是属于未来世界的。他的 cyc 探索必然在历史上留下足迹,未来的某一天,他会被人纪念。生不逢时吧,虎落平川。(一个人对抗一个世界,理性主义大师 Lenat 教授】)
w:
@mei 所以要自动提取。篇章理解好了,提取也就成了
mei:
所以很多实用是针对一个一个vertical的。同意。要也能自动。
w:
不赞同CYC手工,也不是长远事。语法是骨架,但是要真实世界的话,光语法是不够的
我:
094610c29n9t6heepp4891
(【立委科普:自然语言理解当然是文法为主,常识为辅】)
此图是要说明,只有 common sense 才能做的工作其实是很小的圈儿,而常识本身的形式化很难 很大 也很脆弱。
漆:
同意
我:
所以理论上万能的常识 实践中意义有限。
漆:
不过没有这个很多任务也不好完成
mei:
所以我说要knowledge representation 和推理
w:
同意常识很脆弱,不排除甚至走走就会自相矛盾。
我认为“常识本身的形式化”的最好形式就是自然语言。哪怕简洁自然语言,人人可懂,人人可修。自然滚雪球越走越大。否则,形式化这关就毙了。其他的三元组,都是不周全的。
我:
QUOTE 在自然语言处理的空间里,多年的实践使我们可以做一个宏观估计,大体说来,文法可以搞定大约80%的自然语言现象和问题,表现在图中就是绿色和棕色的区域。常识呢,因为常识系统很难建成,其应用尝试就更加艰难(这一点后面谈可操作性还要重提),我们其实不知道单单用常识、不用文法到底能解决多少语言问题。我们暂先给一个乐观的估计,假设它也可以解决约80%的问题,在图中用红色和棕色表示。绿色区域和红色区域所要说的是,语言中有少数现象文法可以搞定但常识搞不定,也有少数现象常识搞定但文法搞不定。
上面图示要传达的关键信息是,即便文法和常识都能搞定很多语言问题,二者必然具有相当大的重复面或论据冗余度(棕色区域)。这个推测应该是有道理的,因为文法可以搞定多数现象是可以证实的,笔者也多次经历过。那么常识如果可以大部搞定同样的问题领域,就必然与其大面积相交。
结论: 综上所述,规则系统中,文法为主的路子比起常识为主的路子要靠谱得多。无论规则系统还是机器学习,常识成为自然语言核心技术,既无必要,更无可能,后学谨记。作为科学家,你可以进军这一领域,但不要指望它在现实中开花结果。如果你要做工程,请绕开常识这个monster,你可以零星地收编一些常识,切忌陷入深不见底的常识(推理)系统的泥坑。
w:
@wei 这句话还是有印象。但是,发展的话,这是如何绕不过去的 就看谁来为,怎么为了
漆:
同意
w:
各位先聊,我这边忙,谢谢各位
白:
在投资领域,还是必须把常识进行到底的,哪怕手工做,只要价值在,时间够,就要往前推。没有常识的舆情都是耍流氓。
梁:
@w 赞成用“简洁的自然语言”,或受限语言,表达常识。
而且是 Domain Specific, 金融领域,明显可做。 另比如,tester 的语言是: Given-When-Then, 我很喜欢 Cucumber 语言。
w:
谢谢!
谢谢梁老师肯定,关于选用简洁语言做常识表示,当初也是基于知识库的长远发展性考虑的。
梁:
对呀,只要未来的小读者喜欢读它,愿意扩展它,这种语言可以 evolve. 它就活了。
w:
它也不是仅限于常识性的知识,对定义性知识,过程性知识,都可以。只要愿意参与,容易参与,多人来参与,确实就走活了。现在很多知识库为知识库而知识库,没用起来,再大也是静态的死库。
比如说有一个做一道菜的过程知识。描述语言先不多说,肯定人能懂也好改,机器明白几何不论,但能照做并做出菜来。那么后人看加点这个,加点那个,菜味有改善。又有人觉得一某个过程火候调一下更好,这样不断众人拾菜火焰高,这道菜就越发有发展了,发展到极佳。当然这共享知识,做菜机下载能用,参与“流通”,那么这做这道菜知识,就是活知识,当然也可能这知识发展饱合了,也是好事一桩,那说明这菜己炉火纯青了,人们可以考虑别的菜了。
知识块就这样一个点,一个小区域慢延展开来,随后形成某一个知识体系,可被调用的活知识。
梁:
对呀,a piece of knowledge, 人人可以参与,改它,更新它,微调它,download 它,使用它。
我:
难道 wiki 不就是如此而且成功了吗?连那么尊贵的大英百科 也不得不退让。
梁:
yeah, wikipedia 模式,但它的 business model, 它怎么赚钱?
w:
wiki的知识更多是面向人类的而非机器。机器理解不了,就消化不了,转化不成力量
我:
受限语言践行最久大概算波音了 但那是需要接受培训。
w:
接受培训这样的语言能传播多远?
我:
辅之以机器检查才能成事 天生就不是wiki一样开放给社区
w:
那种培训语言也就真只是“受限”语言
我:
不受限 那就采 wiki 模式 靠的是人编辑确保质量和一致性
w:
我认为是不自觉地参与进来,不觉累,没有义务,都有收益的编辑模式,就自然成风。中文的wiki规模就寒酸了。另外这种wiKi编辑模式,也有待改进之处。
@wei 李老师的规则描述可否走向普通人可编辑的方向?这样大家共建,走向查缺补漏的新天地
梁:
对呀,大家共建,共享,当然还要李老师培训把关。
w:
今天我和梁老师很有共鸣,是非常高兴的事。这边很晚了,再见!
梁:
原来在陈肇雄黄河燕老师的公司里做汉英系统,调句子,十几个女孩子一起干,调规则和字典。干得挺开心的。collaboration is great。:)
Good night
我:
最好是男女搭配 那就更开心。最后还是要一个掌舵人的指引和宏观保障,否则可能成为 over done 的系统 负载太重难以前行。微软前 nlp 组由着一帮语言学家做 系统庞大 如今基本废弃不用了吧 可惜了里面那么多语言学总结 不见天日。

【相关】

立委科普:自然语言理解当然是文法为主,常识为辅

语义三巨人

一个人对抗一个世界,理性主义大师 Lenat 教授

【立委科普:信息抽取】

《朝华午拾:信息抽取笔记》

泥沙龙笔记:搜索和知识图谱的话题

《知识图谱的先行:从Julian Hill 说起》

《有了deep parsing,信息抽取就是个玩儿》

【立委科普:实体关系到知识图谱,从“同学”谈起】

《朝华午拾》总目录

【语义计算沙龙:sentiment 中的讽刺和正话反说】

w:
看见前面的“降温”,这降温是何极性?
“本来就防寒措施准备不足,这不现在又要降温了。”
“他这几天高烧不退,还好刚才开始降温了。”
还有“降级”
“他这学期实在太差,学校对他实行了降级处理。”
“由防恐工作己经卓有成效,上面终于把防恐等级降级了。”
看这“随风倒”的词,在做情感分析,只看词的话也不大可靠。
我:
大小 多少 高低 长短 增减 之类 自身没有褒贬 根据它所修饰者而定
w:
这些中性词一看很清楚。降级这个偏向性应该很明显。
我:
那是。
降 中性。
w:

我:
级 级别 职称 等级 这些属于隐性正面词 在语言中被激发 被 increase、start or decrease、suspend 这类概念的词所激发。
w:
李老师研究是颇有心得啊!那存不存在褒义词贬义用,贬义词褒义用。
我:
当然存在 譬如讽刺 挖苦 自嘲 和 讥笑
w:
是的
我:
譬如 “谢谢你的完美误导”:“谢谢” 与 “完美” 的褒义 在“误导”前 转为讽刺 因此是负面
w:
呵呵! 那机器拿捏起来,就比较困难了。
我:
再如
“居然拿狐狸肉冒充牛肉上架 沃尔玛 你真行”
你真行 从褒奖转为讽刺贬义。
w:
例子,李老师也是随手拈来啊,这个"真行" -都是用坏了。这些应该是属于超一般文本的自然语言处理。觉得,在NLP 特别棘手这种讽刺,隐喻,借代,拟人之类的
我:
我过去五年就是陷在 sentiment 泥淖呢。
w:
好不容易搭配个语义模板出来,总那么多非法的都是合法的而且是高水平的修辞手法
这让机器莫名其妙,莫衷一是
我:
上面这样的正好反说有迹可循,有套路,小心一点,还是可以抓住的。做过 sentiment 后 事实抽取为基础的知识图谱就是小菜了。
白:
sentiment也是有结构的,仅仅正负面标签远远不够。
w:
同意白老师。独立标签
独立标签也许就如李老师之前所说的关键词
白:
“坑挖深了”有歧义,和不同预期有关。
原来挖浅了,现在按照要求深挖,可以交差了。这是一个意思。
没预期挖那么深,一不留神用力过猛,挖深了,是“过深”的意思。
【相关】

【关于舆情挖掘】

《朝华午拾》总目录

【一日一parsing:NLP应用可以对parsing有所包容】

白: “西方人类比用得少,是因为西方的逻辑学产生的早。”
t0614a
什么叫狗屎运?我的定义就是:
遇到一个找茬的顾客,看到他藏着陷阱的“自然语言”语句,心里有点没数,但测试自己的系统,一次通过了。
今天是个好日子,撞了一个狗屎运,不必 debug 了,因为此例就没有 bug。
当然,真是通不过,需要 debug 也没啥,所有的系统都不是一锤子买卖。只要这种 bug 是在你设计的框架内,有一个顺达的对症下药之路,而不是为了这个 bug,没完没了折腾系统。严格说,也可以找到瑕疵:理想的 parse 最好是对 “西方人” 耍个流氓,label 成 Topic,而不是 S,但这个 Topic 的流氓不见得比现在这个 parsing 强,半斤八两吧。现在的parsing 是把 “西方人类比”当成主语从句了。S 是主语,Subj 是主语从句。
对于半斤八两的句法分析路径 怎么判断对错?
一个包容的系统,就认可两者,因为其间的区别已经很 sutble 了,连人很多时候也糊涂。所谓包容的系统,指的是,在语用层面做产品需要语义落地的时候,parser 对此类现象给出的两个不同的路径,应该不影响落地。这个对于句法和语用 integrated 的系统,是没有问题的。后者可以也容易实现这种鲁棒性。对于汉语常见的 NP1+NP2+Pred 的现象,下列分析大都可以被包容:
(1) Topic + S + Pred
(2)[S + Pred] +Pred
when the second element can be Pred (V, A, or deverbal N)
(3) [Mod + S] Pred
包容的都是可以预见的,因为可以预见,因此可以应对,hence robustness
顺便做个广告,承蒙高博协助,立委 NLP (liweinlp)频道 再张大吉:
liweinlp.com

【相关】

关于 parsing

【关于中文NLP】

《朝华午拾》总目录

【泥沙龙笔记:吃科学的饭,还是技术的饭?】

我:

我虽然被封了个小公司 Chief Scientist 的职称,实在不敢称科学家了,因为早已脱离 academia,也没真正靠科学吃饭:这个金饭碗太沉,端不起。这倒不是谦虚,也不是自我矮化,因为科学家和技术人在我心中难分高低。作为一线技术人,并没觉得自己比一流科学家逊色。

不说生物,说说NLP。可重复性是科学的根本,否则算命先生和跳大神的也都是科学家了。针对一个单纯的任务,或一个纯粹的算法,在 community 有一个标注测试集的时候,这个可重复性似乎是理应有所要求的,虽然具体怎么验证这个要求,验证到哪一步才被公认有效,似乎远非黑白分明。

我的问题是,如果是一个复杂一些的系统,譬如 deep parser,譬如 MT,特别是在工业界,有可能做到可重复吗?不可重复就不能认可吗?且不说不可重复是保持竞争优势的必要条件,就算一家公司不在乎 IP,指望对手能重复自己的结果,也是难以想象的事儿 -- 除非把全盘源代码、原资源,包括所有的词典,原封不动交给对方,而且不许configure,亦不允许改动任何参数,否则怎么可能做到结果可以被重复呢?

毛:

凡是“构成性要素”,必须在一定的误差范围内可重复。要不然就属于商业秘密而不属于科学发现了。

我:

所以 key 就是看你吃哪一碗饭。吃学术的饭,你就必须过这一关。怎么拿捏是 community peer reviewers 的事儿。

毛:

还是那句话,你不能把什么好处都占了。

我:

吃工业的饭,你只要你的黑箱子 performs 就ok了。

这就使得学术界只能就“构成性要素”而发表,做一个 integrated 系统是不讨好的。这个从科学上是有道理的,但是很多做学术的人也不甘心总猫在象牙塔里,为他人做嫁衣裳,他们也想做实用系统。integrated 的实用系统几乎肯定无法由他人重复出结果来,因为变数太多,过程太复杂。

毛:

那倒也不一定,当年的 unix 就是系统。但是在同样的配置条件下得到的结果应该在一定的误差范围之内。

我:

换句话说吧,别说他人,就是自己也不见得能重复出自己的结果来。如果重起炉灶,再做一个 parser 出来,结果的误差是多少才能算容许的范围呢?就算基本设计和算法不变,相信是越做越好,但结果的误差在做成之前是很难预测的。这与在新的开发现场所能调用的资源等因素有关。

毛:

对呀,所以别人也不至于吹毛求疵,大家会有个共识的。像Parser一类,如果是对自然语言,那应该是很宽的。但如果是形式语言、编程语言,那就要求很严了。

我:

说的是自然语言。十几年前,我还在学术殿堂边徘徊,试图讨好主流,分一杯羹,虽然明知学界的统计一边倒造成偏见流行(【科普随笔:NLP主流的傲慢与偏见】)积久成疾,我辈压抑,同行如隔山,相互听不见。直到有一天大彻大悟,我到底吃的是谁的饭,我凭的什么在吃饭?原来我的衣食父母不是科学,更不是主流。我与隔壁的木匠阿二无异,主要靠的是手艺吃饭,靠的是技术创新的绝技,而不是纯科学的突破。认清这一点,也就避免了以卵击石,长他人威风,灭自己志气。说到底,在业界,老板不在意你在哪一条路线上,客户更不在乎你有没有追赶潮流,白猫黑猫,一切由系统说话。你有你的科学突破,我有我的技术绝技,到了应用现场,还要看谁接地气,有没有硬通货呢。系统结果可能难以重复,客观测量却并非难事儿。

【相关】

关于NLP方法论以及两条路线之争

【关于我与NLP】

《朝华午拾》总目录

 

【关于我与NLP】

《朝华午拾 - 水牛风云》

《朝华午拾:用人之道》

《朝华午拾:在美国写基金申请的酸甜苦辣》

【朝华午拾:安娜离职记】

《朝华午拾:今天是个好日子》

【朝华午拾:那天是个好日子】

10 周年入职纪念日有感

科研笔记:开天辟地的感觉真好

泥沙龙笔记:创新,失败,再创新,再失败,直至看上去没失败

80年代在国内,社科院的硕士训练使我受益最多

《立委随笔: 语言学家是怎样炼成的》

【把酒话桑麻,MT 产品落地史话】

泥沙龙笔记:把酒话桑麻,聊聊 NLP 工业研发的掌故

把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发

看望导师刘倬先生,中国机器翻译的开山鼻祖之一

巧遇语言学上帝乔姆斯基

[转载]欧阳锋:巧遇语言学新锐 - 乔姆斯基

【科普小品:伟哥的关键词故事】

立委随笔:Chomsky meets Gates

遭遇脸书的 Deep Text

不是那根萝卜,不做那个葱

女怕嫁错郎,男怕入错行,专业怕选错方向

【创业故事:技术的力量和技术公司的命运】

《眼睛一眨,来了王子,走了白马》

职业随想曲:语言学万岁

钩沉:《中国报道》上与导师用世界语发表的第一篇论文

钩沉:《中国报道》上用世界语发表的第二篇论文

【泥沙龙笔记:机器 parsing 洪爷,无论打油或打趣】

老革命遇到新问题,洪爷求饶打油翁

我要是退休了,就机器 parse 《离骚》玩儿

关于 NLP 以及杂谈

关于NLP体系和设计哲学

关于NLP方法论以及两条路线之争

关于 parsing

【关于中文NLP】

【关于信息抽取】

【关于舆情挖掘】

【关于大数据挖掘】

【关于NLP应用】

【关于人工智能】

【关于我与NLP】

【关于NLP掌故】

【关于NLP掌故】

百度大脑从谷歌大脑挖来深度学习掌门人 Andrew Ng

冯志伟老师以及机器翻译历史的一些事儿

《立委随笔:微软收购PowerSet》

NLP 历史上最大的媒体误导:成语难倒了电脑

立委推荐:乔姆斯基

巧遇语言学上帝乔姆斯基

【随记:湾区的年度 NLP BBQ 】

女怕嫁错郎,男怕入错行,专业怕选错方向

据说,神奇的NLP可以增强性吸引力,增加你的信心和幽会成功率

MT 杀手皮尔斯 (翻译节选)

ALPAC 黑皮书 1/9:前言

泥沙龙笔记微博议摘要

【把酒话桑麻,MT 产品落地史话】

泥沙龙笔记:把酒话桑麻,聊聊 NLP 工业研发的掌故

把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发

看望导师刘倬先生,中国机器翻译的开山鼻祖之一

遭遇脸书的 Deep Text

【创业故事:技术的力量和技术公司的命运】

 

【关于舆情挖掘】

【喋喋不休论大数据(立委博文汇总)】

【新智元笔记:再谈舆情】

舆情挖掘系统独立验证的意义

【社煤挖掘:雷同学之死】

《利用大数据高科技,实时监测美国总统大选舆情变化》

世人皆错nlp不错,民调错大数据也不会错

社媒大数据的困境:微信的风行导致舆情的碎片化

从微信的用户体验谈大数据挖掘的客户情报

社媒挖掘:社会媒体疯传柴静调查,毁誉参半,争议趋于情绪化

奥巴马赢了昨晚辩论吗?舆情自动检测告诉你

全球社交媒体热议阿里巴巴上市

到底社媒曲线与股市曲线有没有、有多少相关度?

再谈舆情与股市的相关性

【『科学』预测:A-股 看好】

舆情挖掘用于股市房市预测靠谱么?

大数据帮助决策实例:《走进“大数据”——洗衣机寻购记》

【社媒挖掘:外来快餐店风光不再】

【社媒挖掘:中国手机市场仍处于战国争雄的阶段】

世界杯是全世界的热点,纵不懂也有义务挖掘一哈

【大数据挖掘:方崔大战一年回顾】(更正版)

【大数据挖掘:转基因一年回顾】

【大数据挖掘:“苦逼”小崔2013年5-7月为什么跌入谷底?】

【大数据挖掘:转基因中文网络的自动民调,东风压倒西风?】

【大数据挖掘:转基因英文网络的自动民调和分析】

只认数据不认人:IRT 的鼓噪左右美国民情了么?

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么

关于转基因及其社会媒体大数据挖掘的种种问题

【美国网民怎么看转基因:英文社交媒体大数据调查告诉你】

【社媒挖掘:必胜客是七夕节情侣聚餐的首选之地?】

【社媒挖掘:大数据时代的危机管理】

测试粤语舆情挖掘:拿娱乐界名人阿娇和陈冠希开刀

【社媒挖掘:不朽邓丽君】

【社媒挖掘:社会媒体眼中的李开复老师】

【社媒挖掘:糟糕透顶的方韩社会形象】

社媒挖掘:关于狗肉的争议

社媒挖掘:央视的老毕

社媒挖掘:老毕私下辱毛事件再挖掘

大数据淹没下的冰美人(之一)

大数据淹没下的冰美人(之二)

大数据淹没下的冰美人(之三): 喜欢的理由

大数据淹没下的冰美人(之四): 流言蜚语篇(慎入)

大数据淹没下的冰美人(之五): 星光灿烂谁为最?

【社媒挖掘:成都暴打事件中的男司机和女司机】

【社媒挖掘:社会媒体眼中的陳水扁】

【社媒挖掘:社会媒体眼中的李登輝】

【社媒挖掘:馬英九施政一年來輿情晴雨表】

【社媒挖掘:臺灣政壇輿情圖】

【社媒挖掘:社会媒体眼中的臺灣綠營大佬】

舆情挖掘:九合一國民黨慘敗 馬英九時代行將結束?

社会媒体舆情自动分析:马英九 vs 陈水扁

社媒挖掘:争议人物方博士被逐,提升了其网路形象

方韩大战高频情绪性词的词频分析

方韩大战的舆情自动分析:小方的评价比韩少差太多了

社媒挖掘:苹果CEO库克公开承认同志身份,媒体反应相当正面

苹果智能手表会是可穿戴设备的革命么?

全球社交媒体热议苹果推出 iPhone 6

互联网盛世英雄马云的媒体形象

革命革到自身头上,给咱“科学网”也挖掘一下形象

两年来中国红十字会的社会媒体形象调查

自动民调Walmart,挖掘发现跨国公司在中国的日子不好过

【社媒挖掘:“剩女”问题】

【舆情挖掘:2013央视春晚播后】

【舆情挖掘:年三十挖一挖央视春晚】

新浪微博下周要大跌?舆情指数不看好,负面评价太多(疑似虚惊)

【大数据挖掘:微信(WeChat)】

【大数据解读:方崔大战对转基因形象的影响】

【微博自动民调:薄熙来、薛蛮子和李天一】

【社媒挖掘:第一夫人光彩夺目赞誉有加】

Chinese First Lady in Social Media

Social media mining on credit industry in China

Sina Weibo IPO and its automatic real time monitoring

Social media mining: Teens and Issues

立委元宵节大数据科技访谈土豆视频上网

【大数据挖掘:中国红十字会的社会媒体形象】

【社媒挖掘:社会媒体眼中的财政悬崖】

【社媒挖掘:美国的枪支管制任重道远】

【舆情挖掘:房市总体看好】

【社媒挖掘:社会媒体眼中的米拉先生】

【社会媒体:现代婚姻推背图】

【社会媒体:现代爱情推背图】

【科学技术之云】

新鲜出炉:2012 热点话题五大盘点之五【小方vs韩2】

【凡事不决问 social:切糕是神马?】

Social media mining: 2013 vs. 2012

社会媒体测试知名品牌百度,有惊人发现

尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲?

舆情自动分析表明,谷歌的社会评价度高出百度一倍

圣诞社媒印象: 简体世界狂欢,繁體世界分享

WordClouds: Season's sentiments, pros & cons of Xmas

新鲜出炉:2012 热点话题五大盘点之一【吊丝】

新鲜出炉:2012 热点的社会媒体五大盘点之二【林书豪】

新鲜出炉:2012 热点话题五大盘点之三【舌尖上的中国】

新鲜出炉:2012 热点话题五大盘点之四【三星vs苹果】

社会媒体比烂,但国骂隐含舆情

肮脏语言研究:英语篇

肮脏语言研究:汉语篇(18岁以下勿入)

新年新打算:【社媒挖掘】专栏开张大吉

 

【关于中文NLP】

【parsing 在希望的田野上】

语义计算沙龙:其实 NLP 也没那么容易气死

【deep parsing (70/n):离合词与定语从句的纠缠】

【立委科普:deep parsing 小讲座】

【新智元笔记:词的幽灵在NLP徘徊】

《新智元笔记:机器的馅饼专砸用心者的头》

【新智元笔记:机器的馅饼(续篇)】

【新智元笔记:parsing 汉语涉及重叠的鸡零狗碎及其他】

【新智元笔记:中文自动分析杂谈】

【deep parsing:“对医闹和对大夫使用暴力者,应该依法严惩"

《新智元笔记:找茬拷问立氏parser》

【新智元笔记:汉语分离词的自动分析】

《新智元笔记:与汉语离合词有关的结构关系》

《新智元笔记:汉语使动结构与定中结构的纠缠》

《新智元笔记:汉语parsing的合成词痛点》

《新智元:填空“的子结构”、“所字结构”和“者字结构“》

【沙龙笔记:汉语构词和句法都要用到reduplication机制】

钩沉:博士阶段的汉语HPSG研究 2015-11-02

泥沙龙小品:小词搭配是上帝给汉语文法的恩赐

泥沙龙笔记:汉语牛逼,国人任性!句法语义,粗细不同

泥沙龙笔记:汉语就是一种“裸奔” 的语言

【立委随笔:中文之心,如在吾庐】

《立委科普:现代汉语语法随笔》

“自由”的语言学至少有三种理论

应该立法禁止切词研究 :=)

再谈应该立法禁止切词研究

中文处理的迷思之一:切词特有论

中文处理的迷思之二:词类标注是句法分析的前提

中文NLP迷思之三:中文处理的长足进步有待于汉语语法的理论突破

专业老友痛批立委《迷思》系列搅乱NLP秩序,立委固执己见

后生可畏,专业新人对《迷思》争论表面和稀泥,其实门儿清

突然有一种紧迫感:再不上中文NLP,可能就错过时代机遇了

方寒大战高频情绪性词的词频分析

方韩大战的舆情自动分析:小方的评价比韩少差太多了

研究发现,国人爱说反话:夸奖的背后藏着嘲讽

立委统计发现,人是几乎无可救药的情绪性动物

研发笔记:粤语文句的情报挖掘

《立委随笔: 语言学家是怎样炼成的》

《立委科普:汉语只有完成体,没有过去时》

《科研笔记:中文图灵试题?》

立委统计发现,汉语既适合吹嘘拍马亦长于恶意构陷

比起英语,汉语感情更外露还是更炽烈?

科研笔记:究竟好还是不好

《科普随笔:汉字和语素》

《科普随笔:汉语自动断词 “一次性交500元”》

《科普随笔:“他走得风一样地快” 的详细语法结构分析》

【立委科普:自动分析 《偉大的中文》】

《立委随笔:汉语并不简单》

语言学小品:结婚的远近距离搭配

中文处理的模块化纠结

【立委科普:《非诚勿扰》中是谁心动谁动心?】

曙光在眼前,轻松过个年

挺反自便,但不要欺负语言学!

当面对很烦很难很挑战的时候

创造着是美丽的

汉语依从文法 (维文钩沉)

《挖掘你的诗人气质,祝你新年快乐》

 

【关于NLP应用】

立委科普:问答系统的前生今世

《新智元笔记:知识图谱和问答系统:开题(1)》

《新智元笔记:知识图谱和问答系统:how-question QA(2)》

【立委科普:NLP应用的平台之叹】

【Bots 的愿景】

【泥沙龙笔记:NLP 市场落地,主餐还是副食?】

《泥沙龙笔记:怎样满足用户的信息需求》

《新智元笔记:微软小冰,人工智能聊天伙伴(1)》

《新智元笔记:微软小冰,可能的商业模式(2)》

《新智元笔记:微软小冰,两分钟定律(3)》

新智元笔记:微软小冰,QA 和AI,历史与展望(4)

泥沙龙笔记:把酒话桑麻,聊聊 NLP 工业研发的掌故

泥沙龙笔记:创新,失败,再创新,再失败,直至看上去没失败

泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索

【立委科普:从产业角度说说NLP这个行当】

社会媒体(围脖啦)火了,信息泛滥成灾,技术跟上了么?

2011 信息产业的两大关键词:社交媒体和云计算

再说苹果爱疯的贴身小蜜 死日(Siri)

从新版iPhone发布,看苹果和微软技术转化能力的天壤之别

非常折服苹果的技术转化能力,但就自然语言技术本身来说 ...

科研笔记:big data NLP, how big is big?

与机器人对话

【立委科普:机器翻译】

立委硕士论文【附录一:EChA 试验结果】

《机器翻译词义辨识对策》

【立委随笔:机器翻译万岁】

【河东河西,谁敢说SMT最终一定打得过规则MT?】

 

【关于大数据挖掘】

“大数据与认识论”研讨会的书面发言(草稿)

【立委科普:自动民调】

Automated survey based on social media

《立委科普:机器八卦》

言多必露,文本挖掘可以揭示背景信息

社媒是个大染缸,大数据挖掘有啥价值?

大数据挖掘问答2:会哭的孩子有奶吃

大数据挖掘问答1:所谓数据完整性

为什么做大数据的吹鼓手?

大数据NLP论

On Big Data NLP

作为公开课的大数据演讲

【立委科普:舆情挖掘的背后】

【立委科普:所谓大数据(BIG DATA)】

【科研笔记:big data NLP, how big is big?】

文本挖掘需要让用户既能见林又能见木

【社媒挖掘:《品牌舆情图》的设计问题】

研究发现,国人爱说反话:夸奖的背后藏着嘲讽

立委统计发现,人是几乎无可救药的情绪性动物

2011 信息产业的两大关键词:社交媒体和云计算

《扫了 sentiment,NLP 一览众山小:从“良性肿瘤”说起》

 

关于 NLP 以及杂谈

关于NLP体系和设计哲学

关于NLP方法论以及两条路线之争

关于 parsing

【关于中文NLP】

【关于信息抽取】

【关于舆情挖掘】

【关于大数据挖掘】

【关于NLP应用】

【关于人工智能】

【关于我与NLP】

【关于NLP掌故】

【关于信息抽取】

【立委科普:信息抽取】

《朝华午拾:信息抽取笔记》

泥沙龙笔记:搜索和知识图谱的话题

《知识图谱的先行:从Julian Hill 说起》

《有了deep parsing,信息抽取就是个玩儿》

【立委科普:实体关系到知识图谱,从“同学”谈起】

泥沙龙笔记: parsing vs. classification and IE

前知识图谱钩沉: 信息抽取引擎的架构 2015-11-01

前知识图谱钩沉: 信息体理论 2015-10-31

前知识图谱钩沉,信息抽取任务由浅至深的定义 2015-10-30

前知识图谱钩沉,关于事件的抽取

钩沉:SVO as General Events

Pre-Knowledge-Graph Profile Extraction Research via SBIR (1)

Pre-Knowledge-Graph Profile Extraction Research via SBIR (2)

Coarse-grained vs. fine-grained sentiment extraction

【立委科普:基于关键词的舆情分类系统面临挑战】

【“剩女”的去向和出路】

SBIR Grants

 

【关于 parsing】

关于 NLP 以及杂谈

关于人工智能

关于NLP体系和设计哲学

关于NLP方法论以及两条路线之争

《朝华午拾》总目录

【置顶:立委NLP博文一览(定期更新版)】

立委NLP频道

【Bots 的愿景】

其实 所谓 bots 只是一个用户端的入口,不久未来的世界中的人机接口。

从长远来看,它不仅仅是连接音响或其他apps的启动装置,也不满足于做一个聊天的玩具。加入知识图谱以后,它就变成了知识问答。IBM沃森的问答超越人类,作为AI的里程碑,其背后的原理也不过如此。沃森系统更多是工程的成就,而不是研究的突破,是大数据 大架构 大运算的成果。从系统本身看,并没有超出我们当年做问答系统的基本原理和算法。在第一届 TREC-8 问答系统大赛中,我在Cymofny做的QA系统赢得第一名,66 分,比 IBM 系统(沃森系统的前身)超出了 20 多分。他们后来的成就是因为 IBM 有实力把这个工作进行到底,而整个业界在 NASDAQ 2001 年坍台以后,全部抛弃了 QA 的应用开发,投资人撤资或冻结这方面的任何尝试。我们当年是转向去专做企业情报挖掘了。

广义的图谱包括 parse trees 可以对付无法预见的语义搜索的长尾问题。本义的图谱专指针对领域和应用的 predefined 的知识挖掘,可以精准回答可以预见的问题。由于大数据的信息冗余,使得 imperfect NLP 技术也一样在问答应用上闪闪发光,打败人类。IBM 系统底层的 NLP 和 IE 内核,据了解并非一流的水平,但这不妨碍它在大数据大运算大存贮大架构的工程运作下,一鸣惊人。

图谱是动态的,这一点有几个应用方面的视角:

首先,图谱的知识来源是动态的,因此图谱需要定时和不断地更新
我们做社会媒体挖掘,挖出来的 sentiment 图谱大约是一个季度更新一次,有特别需要的时候更新更快。在并行云计算的架构里,每次更新前后需要约三周时间 近200台servers。

其次,图谱里面的关系和事件是动态连接的
它有无数种进一步组合的可能性,也有进一步挖掘其隐含关系或 trends 的潜力。这些潜力需要一个触发机制去调动它 根据应用的需要和接口。

浅谈一下使用动态图谱的几个场景:

1 semantic search:包括 SVO search

这是对关键词搜索的直接延伸,保留了关键词搜索的应对长尾的能力,可以应对无法事先预见的问题和信息索求,同时大幅度提高搜索的精准度 借助(广义)图谱或 parse tree 的结构 leverage。

2 问答系统

这是对可以事先预见的问题,或一个领域的 FAQ 等设计的 是知识图谱的拿手好戏。根据需要回答的问题,制定图谱抽取挖掘的目标,针对性强,有备而来,焉得不成?

3. 智能浏览

这也是图谱的拿手好戏,因为图谱本身就是互相连接的实体的关系与事件的巨大的网络。只要有一个起点,顺藤摸瓜似的动态智能浏览可以设计得随心所欲,让信息随着人的关注点动态 real time 转移,满足人类没有特定目标或只有模糊目标时的信息需求 对于研究者是特别有力的工具。

 

【相关】

【立委科普:实体关系到知识图谱,从“同学”谈起】

【泥沙龙笔记:知识图谱是烧钱但靠谱的战略项目】

《朝华午拾:信息抽取笔记》

泥沙龙笔记:搜索和知识图谱的话题

置顶:立委NLP博文一览(定期更新版)】

《朝华午拾》总目录

立委NLP频道

【立委科普:实体关系到知识图谱,从“同学”谈起】

同学 同乡 同桌 同门 同事 同仁 同性恋 朋友 对象 配偶 恋人 爱人 。。。 这类词(R),作为逻辑谓词,语义上实际上有两个 arguments 的坑要填。这两个坑是 reciprocal 的,其逻辑语义关系就是 human 实体之间的R关系。其汉语的句法表达是:

1. NE1 BE NE2 的 R
张三是李四的同学
== 李四是张三的同学

2 NE1 NE2 R
张三李四同学过
== 李四张三同学过

3 NE1 AND NE2 R
张三与(跟、和、同)李四同学
== 李四与(跟、和、同)张三同学

4. NE1 NE2 BE R
张三李四是同学
== 李四张三是同学

5 NE1 AND NE2 是 R
张三与(跟、和、同)李四同学
== 李四与(跟、和、同)张三同学

6 NP(Plural)R
她们从小同学

“她们” 不仅仅是 Plural 而且必然是指的 2 entities

7 NP(Plural) BE R
她们是同学

BE(联系动词)包括:成为、变成 、当、当成、疑似等,还有介词 “作为”也可归于此类。R 在汉语是名词,有时也“活用”为动词。逻辑上对应的是 (1) 指代;(2)逻辑谓词(表达实体关系)。最有意思的是 R 的双重身份(polymorph,学过C++的都知道这个)使得 R 可以自己给自己填坑。因此本来 R 是有两个坑的: 谁1与谁2 发生了 R 的关系,但由于实体(指代)的 R 可以自己填 谓词R 的坑,结果在简单的名词短语 “NP de R”(e.g. “我的同学”、“张三的同学”)的结构里面,语义坑填满了(saturated),很圆满的样子,一个是 R 本身,一个是 NP:

“我的同学” 逻辑上等价于
==【我】是【我的同学】的同学
==【我的同学】是【我】的同学

假如我的同学叫“张三”,我叫“李四”,貌似同义反复的第二句其实是:

【我的同学(张三)】是【我(李四)】的同学。
== 张三是李四的同学。

逻辑表达式是: 同学{张三,李四}
Note 谓词后是集合 { ...... } 不是 list < ...... > 因为此类关系是相互作用(reciprocal)的,没有逻辑的次序。

最后说一句,这类实体之间的关系的抽取挖掘,是建立知识图谱(knowledge graph)的一个核心任务。我们当年给起了个名字叫 CE(Correlated Entity) relationship。说话已经15+年前的事儿了,那时还没有知识图谱这个被谷歌炒热的术语。没必要谦虚,我们是知识图谱的 pioneers(之一)(《知识图谱的先行:从Julian Hill 说起》),我们当年的工作对于美国国防部立项知识图谱起了关键作用。这是旧话了,好汉不提当年勇,要往前看,看借助 deep parsing 的核当量的威力,能不能施展一下拳脚,在中国和中文知识图谱大业上建功立业。

好风凭借力,送我做图谱。大数据图谱之上,种种应用在望,问答系统(QA)、智能浏览(intelligent browsing)、语义搜索(semantic search),等等等等。不求名利,无意宇宙,但求 put a ding 在我大唐。一切具备,只欠东风。求主保佑。

 

【相关】

【Bots 的愿景】

知识图谱的先行:从Julian Hill 说起

【泥沙龙笔记:知识图谱是烧钱但靠谱的战略项目】

【立委科普:信息抽取】

《朝华午拾:信息抽取笔记》

《有了deep parsing,信息抽取就是个玩儿》

泥沙龙笔记:搜索和知识图谱的话题

《泥沙龙笔记:知识习得对本体知识,信息抽取对知识图谱》

【泥沙龙笔记:再谈知识图谱和知识习得】

前知识图谱钩沉: 信息抽取引擎的架构

前知识图谱钩沉: 信息体理论

前知识图谱钩沉,信息抽取任务由浅至深的定义

前知识图谱钩沉,关于事件的抽取

钩沉:SVO as General Events

Pre-Knowledge-Graph Profile Extraction Research via SBIR (1)

Pre-Knowledge-Graph Profile Extraction Research via SBIR (2)

置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

立委NLP频道

【关于 parsing】

泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(1/2)

泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(2/2)

【语义计算沙龙:巨头谷歌昨天称句法分析极难,但他们最强】

语义计算沙龙:parsing 的鲁棒比精准更重要】

语义计算沙龙:基本短语是浅层和深层parsing的重要接口》

【做 parsing 还是要靠语言学家,机器学习不给力】

《泥沙龙笔记:狗血的语言学》

语义计算沙龙:关于汉语介词的兼语句型,兼论POS】

泥沙龙笔记:在知识处理中,很多时候,人不如机

《立委科普:机器可以揭开双关语神秘的面纱》

《泥沙龙笔记:漫谈自动句法分析和树形图表达》

泥沙龙笔记:语言处理没有文法就不好玩了

泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索

泥沙龙笔记:从 sparse data 再论parsing乃是NLP应用的核武器

【立委科普:NLP核武器的奥秘】

【立委科普:语法结构树之美】

【立委科普:语法结构树之美(之二)】

【立委科普:自然语言理解当然是文法为主,常识为辅】

语义计算沙龙:从《知网》抽取逻辑动宾的关系】

【立委科普:教机器识英文】

【立委科普:及物、不及物 与 动词 subcat 及句型】

泥沙龙笔记:再聊乔老爷的递归陷阱

【泥沙龙笔记:人脑就是豆腐,别扯什么递归了】

泥沙龙笔记:儿童语言没有文法的问题

《自然语言是递归的么?》

Parsing nonsense with a sense of humor

【科普小品:文法里的父子原则】

Parent-child Principle in Dependency Grammar

乔氏 X 杠杠理论 以及各式树形图表达法

【泥沙龙笔记:依存语言学的怪圈】

【没有语言结构可以解析语义么?浅论 LSA】

【没有语言结构可以解析语义么?(之二)】

自然语言中,约定俗成大于文法教条和逻辑

泥沙龙笔记:三论世界语

泥沙龙笔记:再聊世界语及其文化

泥沙龙笔记:聊一聊世界语及老柴老乔以及老马老恩

《泥沙龙笔记:NLP component technology 的市场问题》

【泥沙龙笔记:没有结构树,万古如长夜】

Deep parsing:每日一析

Deep parsing 每日一析:内情曝光 vs 假货曝光

Deep parsing 每日一析 半垃圾进 半垃圾出

【研发随笔:植树为林自成景(10/n)】

【deep parsing:植树为林自成景(20/n)】

【deep parsing:植树为林自成景(30/n)】

语义计算沙龙:植树为林自成景(40/n)】

【deep parsing 吃文化:植树为林自成景(60/n)】

【deep parsing (70/n):离合词与定语从句的纠缠】

【deep parsing (80/n):植树成林自成景】

【deep parsing (90/n):“雨是好雨,但风不正经”】

【deep parsing (100/n):其实 NLP 也没那么容易气死】

 

关于 NLP 以及杂谈

关于NLP体系和设计哲学

关于NLP方法论以及两条路线之争

关于 parsing

【关于中文NLP】

【关于信息抽取】

【关于舆情挖掘】

【关于大数据挖掘】

【关于NLP应用】

【关于人工智能】

【关于我与NLP】

【关于NLP掌故】

 

【关于 NLP 以及杂谈】

关于 NLP 以及杂谈

关于NLP体系和设计哲学

关于NLP方法论以及两条路线之争

关于 parsing

【关于中文NLP】

【关于信息抽取】

【关于舆情挖掘】

【关于大数据挖掘】

【关于NLP应用】

【关于人工智能】

【关于我与NLP】

【关于NLP掌故】

 

【语义计算沙龙:深层做出来了,抽取还会远吗?】

mei:
@wei 我提议过,你的parser,能做个API 吗?NLP as a service。如diffbot.com. They are good revenue. Single founder. Large impact. Recently got $10 million series A from ten cent.
还有,你能做几个语言?
diffbot 的NLP/IE 比FB 好。其实小公司 比大公司做的好是 常有的事。所以大公司只好靠acquisition
我:
现在就是 API,内部也是 API 调用。NLP 做 service 或 component technology 作为 business 以前很少见到挺得住的,但对于个人创业,是可能短期“成功”的,毕竟现在的形势也不同了。
我带领我们组做过 18 个语言,囊括所有主要欧亚主要语言。我自己亲手做的是英语汉语世界语,亲自指导过的是法语、俄语、土耳其语。
我:
你说的是 FB 的 deep text??
mei:
FB 几次 NLP effort都差
现在形式是不同
Diffbot 很成功。每个大公司要买,他们不卖
我:
前两年我与FB里面的人聊天,他们才刚想 NL 的事儿,没什么概念,做得很浅。
Diffbot 是个什么背景?
马:
这家公司不算NLP吧 他们主要做爬虫和正文抽取
我:
抽取可以不用 parsing,或者只用一点 shallow parsing 但抽取是 NLP 这个大伞下面的。另一方面,有了 deep parsing,抽取就是一个玩儿。
马:
他这个抽取不是IE而是从html里提取文本 对文本的结构并无任何分析
我:
那是当年 whizbang!,一个路数。
当年做得很好 泡沫破灭投资人撤资 可怜几麻袋源码 白菜价拍卖。最后 inxight 买了也没见消化 自己也当白菜卖了。
马:
也许会历史轮回,也许会" This Time Is Different "
mei:
Diffbot 没做parsing做IE
crawling,取text只是第一步
白:
深层就算做出来了,怎么抽取还有很多问题。几个难点:1、多重否定:我不是没注意到这件事他没生气。2、多重模态:我知道他相信你不否认某某的领导能力。3、高阶表述:对油价快速上涨的预期减弱。
如果都还原成情感三元组:《对象、属性、极性》,貌似有问题。
你可以放过,前提是识别准确;如果没放过又做了错误识别,就玩大了。
mei:
IE parsing 都只是NLU 的一部分。真正的story understanding 且得做呢。研究生时学的story understanding/knowledge representations, 现在没一家做到。做NLU/AI且得做呢!
我:
白老师说的那些 都见识过。Sentiment 做了四五年了 抽取挖掘做了18年了 能想到的 都见到了。只不过 绕弯不过三 这是基本原则 有时有意选择不做。不是不可以做 是不必做。
白老师的所谓三元组的表达更不是问题 因为表达是自己跟自己玩。识别了 还能无法表达 人不会被尿憋死的。
白老师认可一部分长尾可以选择不去做 但警告说不做不过是漏掉长尾而已 对于大数据 漏掉不是问题 问题是没漏掉 却抓反了。这个对没有经验的开发者 的确是个挑战。对于我们 早已突破了。
白:
自己跟自己玩是因为同质化的东东放在一起有计算手段上的优势,来一个异质化的东东,只好撇在大锅之外了。伟哥有本事开小灶,其他人就难说了。
我:
因为选择不做 与识别准确 不在一个量级上。白老师说的这些问题对学习系统构成的挑战 要比规则系统大很多。
白:
不怕漏识,关键是别误识
我:
对于学习 不是选择做与不做的问题 基本上是到不了选不选的那一步。因为缺乏结构 只能撞大运。凡是绕了几层的结构对于缺乏结构的系统 基本上是噪音 如果标识的时候 手工排除 对学习更有利。不要指望解决它 最好是不要干扰了学习 把系统弄糊涂。
我们从来不是为深层而深层 深层从 day one 就是与抽取挖掘无缝连接的 就是为了支持语用的。不像 syntaxnet 离开应用还有 n 丈远。

冯志伟老师以及机器翻译历史的一些事儿

有群友问,冯志伟老师还好吗?联想到一些MT的历史,随笔记下。
冯老师的微博还很热闹啊(冯志伟文化博客的微博_微博),他四处讲学 著作等身 看照片神采奕奕的样子。学问的高峰虽已过,游离于主流非主流一线之外 但老当益壮 勤于笔耕 教书育人 传播科学。
中国机器翻译(MT)历史上 有冯老师的一页 他凭着多语言的天赋 在法国时期实现了一个一对多(汉语到欧洲语言)的机器翻译。我的硕士论文也是一对多(世界语到英语和汉语),比起冯老师,就算玩具了,但做一对多MT的人很少很少。说的是当年。后来 SMT 盛行了,终于能 scale up 到多对多,尽管仍然是一个语言对一个语言对做的 而我们当年做的一对多 源语分析模块是共享的。
关于冯老师 也有些故事。我的学长乔毅(硕士做的是法汉机器翻译,二刘老师文革后招收的MT首届研究生之一,其他的学员还包括冯老师、李卫东、黄秀铭等)告诉我,冯老师在这拨人中很特别,因为他处于两代之间,地位特殊。他实际上在文革前就介入MT的研究项目了,与二刘老师早有合作。由于文革的十年蹉跎,文革后二刘老师用招收研究生的方式让他归队,因此他实际上是以半同事、半学员的身份回来的。从资历上,二刘老师对他来说更像兄长和同事,而不是传统意义的导师。乔毅说,我们见两位刘老师,都毕恭毕敬称刘老师或刘先生,只有冯志伟例外,他称刘老师为老刘。
冯老师是个蛮豪爽的人,给人亲近感。记得89年香山会议上山,他气喘吁吁,跟我说,由于运动,他路上花了四五个小时才到,我问刘老师呢,他说,刘老师不同,他是圣人。冯老师最津津乐道的成就之一就是,他是第一个(或第一个之一)提出要用多标记做MT的。因为传统的MT都是在词类(POS)和词的基础上做,但POS 太大,词(直接量)太小,很难细线条成hierarchical 的规则系统以提高质量。因此 当一个词带有多标记(譬如 ontology 的标记 如 Human、Food 之类)参与规则条件 自然是打开了一扇大门。不过这一点我觉得是针对西方主流MT系统的算法而言。中国的MT,二刘老师从60年代就开始使用“句子场”的数据结构,这个句子场里面的每一栏实质上就是一个词的多标记。
刘涌泉刘倬老师给我们上课,他们的说法是,MT 50 年代初期由美国率先,苏联紧随,中国自从 57 年从苏联取经就是第三个开展 MT 的国家了。到了 60 年代,中国 MT 的研究处于世界先进水平。主要的原因是,美国和苏联的研究重点都是英俄或其他欧洲语言之间的MT,而中国一开始就不得不面对两个完全不相干的语系之间的MT(俄汉、英汉)。这个特殊性迫使我们不得不把 MT 推向深入。
MT 后来的历史巧合是,到了 1966 年,美国遭遇了由【黑皮书】带来的 MT 寒冬,中国没有黑皮书,但有红卫兵,也同时遭遇了文革带来的科研寒冬。MT 的复苏是在文革后,西方差不多同时也复苏了。世事巧合,莫过于此。参见:ALPAC 黑皮书 1/9:前言 ,MT 杀手皮尔斯 (翻译节选)

QUOTE 【立委按】此前的博文摘要编译过皮尔斯论,这次重发的是对原文逐字逐句的完整翻译。皮尔斯是当年美国高科技官僚的代表人物,他是以MT(Machine Translation,机器翻译)杀手的面目记载在领域历史里。1966年,他主持撰写的那篇世界著名(或臭名昭著)的 ALPAC 黑皮书,把热火朝天的机器翻译研究,一下子打入冷宫。丘吉教授认为,皮尔斯给自然语言处理泼冷水,促成对自然语言和人工智能很多项目的资助冻结,是有其洞察力和远见的。不管我们心内对他多么不自在,必须看到他的反对意见至今没有过时,仍值得我们认真反思。

【语义计算沙龙:其实 NLP 也没那么容易气死】

白:
“严把个人商用房客户准入关”
我:
这个句子我人脑也费了半天劲才明白讲的啥(“严把个人商用房客户准入关”=="对个人商用房客户应严把准入关”),尝试用parser也只好瞎碰了,果然乱得不是一处两处,甚至把 “准入关”词典化(拼音联想词组里面 还真有这个词条)也还是不行:
t0626a
白:
“严把个人商用房客户准入关”
严还是个姓,上下文清晰时,可以用裸姓指代全名
“入关”也是词
“把”作动词用不如作介词用的概率高
“房客”也是词

我:
幸亏 real world 这样的句子是极少数。不过人脑怎么 parse 的呢? 虽然也饶了几圈,backtracking ......
白:
这个例子是银行发的正式文件里的
纵向不确定性比较丰富,导致结构貌似不稳
“个人”是定语
我:
这个“严” 做状语也不好掌控 因为更多是做谓语的
"个人"也有些难缠,词典不行 因为有 “n个人” 的存在,只好后面补救了。
个人的定语问题倒是可以解决,但还是搞不定这句:
t0626b

算了,就当没看见。我投降。
白:
“准入”是有坑的,“把关”是有坑的。当“准入”+“关”生成“准入关”的时候,坑也要有同步的调整。
我:
谁(被)准入; 为谁把关(把谁的关)?
白:
把什么事由的关。
我:
把VP的关
白:
“皇军要当你的家”类似
我:
“把学习英语的关”
“英语学习的关真不好把”
白:
“严把生猪进口质量关”
我:
“要把好业务关”
这个事由的坑可以是 VP or (abstract)NP,逻辑语义大体是 about:关于什么事儿的关

白:
“教室的地得扫了”
旅行的目的地得调整了
马:
气死NLP
的士的目的地得调整
我:
其实 NLP 也没那么容易气死 @马少平
t0626c
t0626d
t0626g

马:
哈,强大
我:
当然不能指望“世界第1”的谷歌NLP,靠的是世界第0 的立氏NLP。毛主席保证,上面的句子是一次通过,没做任何工作(当然此前一定是有工作的)。
白:
扫地的离合词处理
目的地,长词优先,不用特意做什么
我:
幸好 real world 的句子也有貌似困难其实无根本挑战的 我们还有活路。
白:
反过来才有挑战性,看着是离合词,就是不该碰一块儿的。伟哥试试:“这地是这样地难扫。”
我:
t0626e
哈哈哈哈 仰天大笑
李白曰过的:我辈岂是蓬蒿人
白:
很好
舍近求远得真解
我:
不过我心内是把它当成狗屎运的,只不过狗屎运常光顾愚公似的人。以前说过n次,NLP 是力气活
白:
话说,离合词这个功能好像也没多久。
我:
两三月前?早就想做了 盘算很久了 实现是最近几个月的事儿。量词更近,才个把月。
白:
量词和本群有直接关系
我:
离合词的处理 直接源于我13年前做英语的 phrasal verbs:take it off / take off the coat / take the coat off 之类(Wei Li et al, An Expert Lexicon Approach to Identifying English Phrasal Verbs, ACL 2003
对量词,的确是本群反复议论才被促上马的 因为没有量词搭配 90%+以上的场合无碍 以前一直拖着没做。

白:
“蔡英文说得不好。”
我:
这种还是休眠吧,hidden ambiguity,跟 “难过” 类似。真做就唤醒,用 word driven
t0626f
白:
和大语境有关
如果满篇都在说另一个蔡,就和蔡英文没啥关系了。
我:
是的,但是那种情形的处理需要在另外一个层面去做。discourse 的因素 trigger “蔡英文”-driven 的唤醒机制。
白:
分层不是单向,该交互时就交互
我:
word driven 是可以想象的,因为“蔡英文”这个词对于我们来说,的确是既透明又黑箱的:黑箱是,只要不是文盲,基本上都知道蔡英文是一个人名;透明是,尽管知道这是一个人名,我们也仍然知道这个词的内部结构,以及这个词的句法可能性:蔡 -- 英文,Topic - S 的潜在性,单从这个词,我们就知道。
白:
一个上下文提供了所提及对象的“场”,重复出现可以增加“场强”,左右句法层面对部件的“抢夺”。
我:
不过这些可以想象的操作,大概很少有人去做,选择不做为多,因为还有很多可做的事儿还没做完呢。
白:
分场景。在游戏场景,上下文中的活跃对象“场”是至关重要的,不仅对其中的NLP,也对智能角色的动作规划。用于NLP是捎带脚
我:
所有的 hidden ambiguity 都可以用 word driven 机制唤醒 如果我们真想做的话。
而 hidden ambiguity 一直公认为是中文切词的死穴。至少可以说,死穴不一定就死。换句话说,在休眠唤醒理论(见文末【相关】链接)正式提出之前,这个挑战很可能是被认为无解或极其困难的
但是,我们已经用 “难过” 在 sentiment 语义落地的实际工作中的实现,证明了还是有救。“小王很难过” vs “小桥很难过”,如今在我们的中文舆情系统中处理得如此漂亮!(重温  【立委科普:歧义parsing的休眠唤醒机制再探】)

白:
从一个包含NLP在内的更大系统视角来看,关键语境参数的实时刷新,受益者绝不仅仅是NLP。作者的观点和作者转述的他人观点,在极性上就是需要区别对待的。引述可能是为了反驳或反衬。所以,观点的主人是谁,就需要甄别。
我:
至少在知识图谱的工作中,discourse 内的实体aliasing 以及 anaphor 的工作,成为整合抽取信息的相对可靠的关键元素,这一步可以 leverage document-internal 的线索,这才为下一步的跨文本的 information fusion 打下了基础。
跳过 discourse 直接做 fusion 是不智的。

 

【相关】

《泥沙龙笔记:parsing 的休眠反悔机制》

立委科普:歧义parsing的休眠唤醒机制再探

【泥沙龙笔记:NLP hard 的歧义突破】

【立委科普:结构歧义的休眠唤醒演义】

《朝华午拾:我的考研经历》

NLP 是一个力气活:再论成语不是问题

【新智元笔记:巨头谷歌昨天称句法分析极难,但他们最强】

Wei Li et al, An Expert Lexicon Approach to Identifying English Phrasal Verbs, ACL 2003

【置顶:立委NLP博文一览(定期更新版)】

《朝华午拾》总目录

导亦有道,我是这样做NLP导师的

我:
我是这样教导学生 NLP和 AI 的:
人工智能里面没有智能
知识系统里面没有知识
一切都是自己跟自己玩
一切都是为了自己玩自己的时候 努力玩得似乎符合逻辑 自然 方便 而且容易记忆和维护

学:
前面的听懂了,AI 这块有点懵懂

我:没关系 前面听懂了是关键。后面是哲学,哲学的事儿不必那么懂。你都懂了 我这个做导师的怎么吃饭呢?

学:
给功能词加 features 怎样才妥?

我:
功能词可以枚举,原则上可以没有 features,无所谓妥不妥。看你怎么用 用起来觉得妥就妥 觉得别扭或捣乱 就不妥。如果你永远不用 则没有妥不妥的问题 给了与不给一个样 因为永远没用到。没用到是可能的,譬如你总是为这个词写 WORD 的规则, 不让它有机会被 feature 的规则匹配上 那么 features 就是摆设 也就谈不上妥不妥。

学:
有道理。本来就这么几个词,写WORD就好了,不需要为Feature伤脑筋。

我:
有点开窍的意思

学:
跟老师多交流,才能开窍,不然我就钻进自己的死胡同了。

我:
人都是这样的 钻进n个胡同以后才能在 n+ 的时候开窍。没进过胡同就开窍的 那不是天才 那是死人。

学:
NLP 里面的知识表达,包括词典的 features,应该怎么设计呢?

我:
从词典表达 lexical features 到句法语义逻辑的表达,大多没有黑白分明的标准答案。
就是自己这么给了 显得蛮合理 也好记忆 否则自己就不舒服 或记不住。更重要的是 给了 features 以后 规则好写了 规则自然 简洁 有概括性 且方便维护。
almost everything is coordination
u assign
u use
no one is in between
no intelligence no god
as long as it makes sense to you (not to others) so u know what u r doing
as long as it is natural and easy to remember
as long as you find it convenient to use certain features in rules and rules are easy to read and easy to maintain
in principle u can assign anything to any words
or choose not to assign
what goes around comes around
you play with yourself
computer knows nothing
features are just 0s or 1s
WHAT GOES AROUND COMES AROUND
that is NLP in an integrated system
whether it refers to POS, chunking, SVO or logical form
it is to make your job easy and yourself comfortable
u have no need to make others happy unless your system is a middleware commodity to serve your clients
if your NLP and your NLP apps are within your own control
they are integrated in your system in your own architecture
everything is internal coordination
This is my lecture on NLP Architecture for Dummies

白:
you是谁?个人、团队、公司?

我:
good question, it is the architect in most cases: he has the say.  Sometimes it can be a bit democratic if the architect wants to motivate his team, for example the naming right.

白:
是全局系统的architect,还是NLP这嘎达的architect?

我:
a bit of knowledge is named as f1 or f2, that is arbitrary and the major consideration is memonic-like,  features must be easy to remember, but sometimes we let a team member decide its name, such practice often makes the team happy, wow I can act like God, wow I can decide a drop of the sea in the system language ...

白:
伟哥还没回答我最后一个问题: 是全局系统的architect,还是NLP这嘎达的architect?

我:
the former because we are talking about NLP and NLP apps in an integrated system:
apps 不是产品 而是语义落地。落地后 还有一个产品层面 包括 UI 等 那已经不劳我们操心了。落地是与产品的接口而已。NLP 核心引擎与 NLP 落地 是一个无缝连接的系统 这种 design 可以羡慕死人。
如果是有缝对接 如果是两拨人马 两个设计师 甚至两个公司 那就扯不完的皮 擦不完的屁股 成不了大事儿。NLP 和 NLP 产品可以分开 而且应该分开  但是 NLP 与 NLP落地 最好不分开。NLP 落地 包括(1) IE (2) MT (3) dialogue (mapping) (4) QA (5)...... 内部分层 但外部不分开 这就叫无缝连接

可以说 offshelf 害死人,component technology 没有啥前途。选择 offshelf 或 license components 往往是无奈之举,自己暂时没有能力 或不具备条件做,也有找的借口冠冕堂皇:不要 reinvent wheels,最后害的还是自己。
我们已经害过几次自己了 吃尽了苦头 才有这 “十年一悟”,以前说过的: 做工业NLP 自给自足是王道。

白:
这个,关键看公司拥有什么样的专家了。专家不同模式也不同。

我:
也与时代有关: 20 年后也许不必自给自足,就一样做好NLP落地。

【相关】

【立委科普:NLP 联络图 】

【立委科普:自然语言系统架构简说】

自给自足是NLP王道

置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

 

语义计算笔记:坐而论道谈“的”“地”

【立委按】以前在语言学圈子里有些高雅的沙龙,譬如在冯志伟老师回忆 中津津乐道过的语言学沙龙,每周一次,通常在北大,参与的圈子很小,都是精英之精英,朱德熙(语言学大家,北大副校长)、陆捡明(汉语语法学家)、马希文(计算语言学家,传奇人才,白老师的导师)、冯志伟(计算语言学家)等。坐而论道,雅致之极,令人羡慕嫉妒恨不能入。如今时代不同了,这种沙龙还有吗?回答是,有,譬如白老师主持的【新智元语义计算群】即是:谈笑皆鸿儒,往来有白丁,微信群使得高大上的沙龙平民化了,但高度、大度、上度不浅反深,盖因所延揽的精英早已不再局限于小小的京城,而是遍及全球。白老师树大招风,与NLP有关的华裔背景的顶级专家学者毛姑姑也有90%了,或高论,多潜水,胜景跌出,风光无限。甚至连中国NLP旗手董振东老前辈也上了“贼船”,乐在其中。此番繁荣,拜技术所赐,先给张小龙敬个礼。

白:
“这本书的匆忙de出版,险些坏了大事。”  这里的“de”,是“的”还是“地”,为什么?
如果按照“从里到外”的原则,是“匆忙de”先跟“出版”结合,彼时“出版”尚未被强制,因此还是满格的动词属性,de理应为“地”。但是……个人语感为什么倾向于“的”,而且理论上找不出理由。
“今天真遗憾,错过了大师的精彩de指挥。” 这个就是百分之百的“的”了。
我:
既然白老师爱钻牛角尖儿,咱们就钻钻。
白:
难道这个“指挥”不是被强制的?
我:
不能说 100% 可能是 90%+ 吧。验证的话,可以用大数据。
白:
大数据里有错别字
我:
哪怕大数据里面出来的结果是 100%,用“超大数据” 也会发现不是 100% 而且不仅仅是由于错别字。
白:
验证如果找100个文字编辑,我没意见。
我:
这里面的道理就不是大数据这种表象了,而是某种语言学。
动词概念被性状概念的词修饰,在具体语言中的形式应该是怎样的?就是这个问题。到了汉语,默认的形式是:(1)前置 (2) 加“地”。凡是默认 必有例外。如果 大数据发现了例外 或者 100 个文字编辑的内在句法趋向于一种例外的结果 这个例外就有语言学上的说法。
这里面还有一个微妙之处:口语中是de1 de2不分的,因此上述形式的讨论只限于书面汉语,而书面汉语受到了文法规范化教育的灌输。因此至少从一个层面看,这个问题就是一个 moot point,因为每个人的受教育程度是不同的,而每个人的儿童时学会语言的过程则是相当类同的。这二者打架的结果就会出现不一致,因此 100% 很难。如果聚焦到 100 个文字编辑做裁判的话,实际上是放大了教育的影响。有意思的问题于是成为:本来 “的”是 de 的默认,而非默认的“地”的使用是受教育的结果,因此文字编辑应该趋向于在形状类概念修饰动词性概念的时候,使用“地”而不是“的”。但是,这个 case 却不是(假如白老师的语感或修养靠谱的话),正相反,受过教育的人在这个 case 中,更趋向于用 “的”。这是为什么呢?这里面必有更深层的说法。
还要继续吗?或者谁继续牛角尖下去?
白:
其实,我是在对“从里到外”和“从左到右”的原则在质疑。如果“从左到右”,名物化结构强制的痕迹在不断加重,用“的”就理所当然了。如果“从里到外”,强制在外层,里层在不确定情况下会追随标配。
我:
其实我也正想说到这点儿,就是发散太远,还没收回来。
白:
所以,我认为是“从左到右”的分析策略在起作用。
我:
左右就是词序形式。抽象一点,不是词序,而是【层次性】与【去层次性】在语义表达或理解中的矛盾体现。这在句法学界已经打了很久很久了。层次性是一派,去层次性(扁平化)是另一派。公、婆各有理。
白:
不需要那么极端,就是已经读进来但还没有构造成树的成分,是完全被动地等在那里,还是对后续的消岐有所影响的问题。

我:
层次性的理解涉及多性状概念的 scope 边界,这是乔姆斯基短语结构的真义。去层次性的理解不强调这种 scope 的严密性,而是把他们的配置看成是自由搭配。这是为什么 dependency grammar 的结构树放弃非终结节点的表达。
白:
结构强制发生在有明确结构预期的时刻,而不是真正等来了结构强制对象的时刻。
伟哥可以顺带看看“恢复疲劳”那段。
我:
层次性一派的假设: x1 de x2 de x3 == [x1 de [x2 de [x3]]]
去层次性一派的假设: x1 de x2 de x3 == x2 de x1 de x3
两个假设都可以找到语言事实的支持。
白:
应该有 强去层次 和 弱去层次 之分
强:等价;弱:sometimes等价
我:
相信层次化的理解和去层次化的理解,在相当多的人中其实是模糊的。人的语义,无论表达还是理解,都充满了模糊性,而这种模糊性基本上也不影响语义的语用。换句话说,怎么说都可以,人类在交流中基本不 care。
白:
对分析策略似有影响
我:
歧义不仅可以保留或休眠,直到语用,甚至可以 beyond 语用,一直到死:严格说到死的歧义超越了交流,不能算歧义,最多算伪歧义。从这一点看(伪)歧义,就发现很多问题是人自找的;董老师也说过类似的意思。“人” 指的是系统设计师。
白:
又漂了
我:
漂是因为某个思路还没到终点,意犹未尽,很难受的。
回到分析策略,自底而上最实在。自底而上与层次化自然相配,但也不必然采纳层次化的 representation。
说说 恢复疲劳 吧。这是个固定用法 词典化的条目。
白:
结构强制是个特殊的操作,如果承认在短语“这本书的不出版”中,“不出版”是个状中结构,而再外层是个定中结构,于是结构强制就发生在这两层的衔接当中。“这本书的匆忙de出版”站在层次观点也是一样的,但我质疑层次结构在先结构强制在后。
我:
虽然汉语的 动宾句法 可以有 n 种逻辑语义,但是作为 open-ended 的句法语义解读,这 n 种解读不能是非自然的或满拧的语义。“恢复”与“疲劳”就是满拧。里面省略了的 FROM 就是反映这种蛮拧的。如果 FROM 不出现,那么必然要词典化 用记忆去绑架。
白:
“维持骚乱”的说法也成立
我:
如果要探究为什么这种乍听上去矛盾的说法进入了人类的语言 被词典化,简单的说法就是约定俗成。深究的话 其实是因为矛盾的双方是共现频率极高的相关概念。因为高度相关,所以本来可以明晰的连接双方的句法手段(词序啊,小词 from、against 啊等)就显得太啰嗦,偷懒的人开始省去这些句法元素 共同体开始接受这种省略。最后就进入了集体的固定用法的记忆。“从疲劳中恢复” >> “恢复疲劳”;“维持和平以防骚乱” >> “维持骚乱”。
白:
我的观点是,分析不在乎是不是词典化,生成在乎。哪怕是第一次看到这样的组合,也会放行的,因为张力的指向一览无余。
我:
分析不在乎,是语义不落地,只是休眠。管它什么宾呢 动宾是无疑的。
白:
“维持骚乱”就不必有什么固定记忆,一看这俩词儿,就知道是从不正常状态努力进入正常状态。
我:
没进入固定记忆,是还在过程中。
董:
知网词典的词语,与两位讨论的有关,供参考:

W_C=打扫房间
G_C=verb [da3 sao3 fang2 jian1]
S_C=
E_C=
W_E=clean the room
G_E=verb [51cleanverb-0vi      ]
S_E=
E_E=
DEF={clean|使净:patient={room|房间}}
RMK=

W_C=打扫垃圾
G_C=verb [da3 sao3 la1 ji1]
S_C=
E_C=
W_E=sweep away rubbish
G_E=verb [51sweepverb-0vi      ]
S_E=
E_E=
DEF={remove|消除:patient={waste|废物}}
RMK=

W_C=打扫卫生
G_C=verb [da3 sao3 wei4 sheng1]
S_C=PlusEvent|正面事件
E_C=
W_E=cleaning
G_E=noun [7 cleaningnoun-0action,uncount,ofnpa次    ]
S_E=PlusEvent|正面事件
E_E=
DEF={clean|使净:StateFin={spotless|洁}}
RMK=

W_C=恢复疲劳
G_C=verb [hui1 fu4 pi2 lao2]
S_C=PlusEvent|正面事件
E_C=
W_E=recover from tiredness
G_E=verb [51recoververb-0vi      ]
S_E=PlusEvent|正面事件
E_E=
DEF={BeRecovered|复原:StateIni={tired|疲乏}}
RMK=

W_C=恢复知觉
G_C=verb [hui1 fu4 zhi1 jue2]
S_C=PlusEvent|正面事件
E_C=
W_E=recover consciousness
G_E=verb [51recoververb-0vi      ]
S_E=PlusEvent|正面事件
E_E=
DEF={BeRecovered|复原:StateIni={dizzy|昏迷}}
RMK=

W_C=救火
G_C=verb [jiu4 huo3]
S_C=
E_C=
W_E=fight the fire
G_E=verb [51fightverb-0vi      ]
S_E=
E_E=
DEF={remove|消除:patient={fire|火}}
RMK=

W_C=救生
G_C=verb [jiu4 sheng1]
S_C=PlusEvent|正面事件
E_C=
W_E=lifesaving
G_E=noun [3 lifesavingnoun-0action,uncount,ofnpa次    ]
S_E=PlusEvent|正面事件
E_E=
DEF={rescue|救助:StateFin={alive|活着}}
RMK=

W_C=救穷
G_C=verb [jiu4 qiong2]
S_C=
E_C=
W_E=help the needy
G_E=verb [51helpverb-0vi      ]
S_E=
E_E=
DEF={rescue|救助:StateIni={Circumstances|境况:host={group|群体}{human|人},modifier={poor|穷}}}
RMK=

W_C=救命
G_C=verb [jiu4 ming4]
S_C=PlusEvent|正面事件
E_C=
W_E=save somebody's life
G_E=verb [51saveverb-0vt,sobj      ]
S_E=PlusEvent|正面事件
E_E=
DEF={rescue|救助:StateFin={alive|活着}}
RMK=

W_C=救灾
G_C=verb [jiu4 zai1]
S_C=PlusEvent|正面事件
E_C=
W_E=provide disaster relief
G_E=verb [51provideverb-0vi      ]
S_E=PlusEvent|正面事件
E_E=
DEF={rescue|救助:StateIni={mishap|劫难:cause={NaturalThing|天然物}}}
RMK=

白:
比如“打击卖淫嫖娼”为什么不能是“打击卖淫 嫖娼”而必须是“打击 卖淫嫖娼”?就是因为一个正面一个负面,是拧巴的,两个正面,就顺当了。这说的是sentiment对分析的反作用。
我:
“维持骚乱”对我这个个体 目前处于一种不接受的状态。并不因为拧巴 我就接受它合法。如果我是语文老师,我会判错 我自己也避免这样用 也不会这样用。但是如果共同体在这个演变过程的终点选择接受 也就是选择词典化,那么我只得也选择接受 并加入我的词典。这是其一。
其二,拧巴的确在语言交流中起作用。拧巴迫使人放弃默认 去探索其他的语义路径 达成理解 虽然心里可能依然别扭。心里别扭是因为还没有词典化 黑箱化。
白:
参加维和部队,到非洲去维持骚乱。
好点没?
我:
有了上下文,当然别扭感好一些。(同理,我也可以这样加上下文:恐怖主义分子猖獗得很,他们要维持骚乱,我们怎能坐视不理。)
在 sentiment 中,有些故意矛盾的说法来表达讽刺,也是这个拧巴理解的过程。以前说过的 thank you for misleading me,thank 的正面褒扬与 misleading 的反面 是拧巴的。理解放弃了默认,选择了 misleading,是客观sentiment对主观emotion的胜利。thank 的正面语义因此消失,被讽刺取代。
白:
“感谢你八辈祖宗”
我:
英语的 improve 是这样一个褒义词,以至于它不在乎宾语是正面反面。可是 维持 在汉语不是,因此“维持骚乱”的别扭感更强,除非是置于合适的上下文,或被语言共同体词典化绑架。

宋:
“这本书的匆忙的出版”和“这本书的匆忙地出版”都是合乎语法的,而且都是指称语。深入一层,“匆忙的出版”和“匆忙地出版”都受“这本书的”修饰,也都是指称语。再深入一层,“匆忙的出版”中的“出版”是指称语,“匆忙地出版”中的“出版”是述谓语。“匆忙的出版这本书”语法上是错的,“匆忙地出版这本书”没问题。一般来说,动词V的语用功能既可能是指称语,也可能是述谓语,依靠它的句法位置来区别。被“Adj的”修饰的V是指称语,被“Adj地”修饰的V是述谓语。修饰后得到的短语,“Adj的V”是指称语,“Adj地V”与V一样,既可能是指称语,也可能是述谓语,依靠它的句法位置来区别。
我:
基本同意宋老师。
顺便提一句,感觉与白老师对话的时候,常常是,似乎是两股道上跑的车,这不影响互相听得见;这两股道不是完全平行的 而是中间老有交叉点。仔细想来,估计是白老师是广度优先的对话算法;而我是深度优先的算法:一条路径不穷尽不愿意回头,就是所谓 “漂”或发散性思维。因为对话是在有限时空中进行,无论什么算法都不可能穷尽路径,因此就造成白老师提纲挈领 总站在云端俯瞰的效果,而深度优先的算法就成了啥了,捡了芝麻,丢了西瓜的印象。宋老师则不同,广度深度都有,但往往是隐而不发 一锤定音。董老师更是大师了 拈花微笑,howNet 拨千斤。就没有能超出 HowNet 的,简直就是如来佛的手掌心。
董:
“出版”,这对于Hownet曾有重要意义。HowNet当年就此要回答两个问题:第一,“出版”(或类似的“计算”、“分析”等)在汉语里也类似于英文既有动词词性,还有一个名词词性吗?这涉及在知网词典中,它们应有两个词条,还是只有一个词条?第二,“这本书的出版”和“这本树的不出版”,在理论意义上它们的区别是什么?
“出版”的问题,HowNet与宋老师是一致的。以前在我们对这个问题的说明时,我们说:“出版这本书”和“这本书的出版”中两个“出版”在核心语义上没有差别,所差的是:前者是有过程的,而后者是静态的,是一个事实。用比喻说,前者是一段视频,后者是一个镜头。这也就是宋老师的述谓性的和指称性的理论。HowNet基于这样的认识,“出版”这样的词语在词典中,只有一个词性,即动词,但对应着两个英文词条,动词和名词。
白:
“这本书的出版”揭示的结构强制现象概括为三句话:1、修饰语决定整体的词性;2、中心词保持原有的词性;3、修饰语填中心语的坑。
我:
Ontology 是逻辑的 高于语言的。在 ontology 的顶层 也有类似词类的东西,可以称作 逻辑类:逻辑动词 逻辑名词 逻辑形容词。这个思考在hownet 得到印证。我个人的这个思考发源于对世界语的钻研及其与不同类语言的比较。我学过法语 俄语 加上英语 汉语 世界语,有足够的表征支持跨语言、高于语言的逻辑类的探索。特别是世界语的构词法 对于这类研究的启示,当年感觉是醍醐灌顶。
白:
中心词的词性也可以“嫁鸡随鸡”,强制前保持原有词性,强制后由修饰语决定。此处特别容易走向拍脑袋。
我:
强制前强制后,原逻辑类都是恒定不变,它是这个语词概念的本质类别,不随句法词法而变。到了特定语言 会有一个类似的 field,俗称 pos,这个是可以改变的。但是传统上 nlp 定义的 pos 任务 很容易过火 过犹不及 结果是让开发者陷入依赖pos的误区(见【中文处理的迷思之二:词类标注是句法分析的前提】)。尤其是照搬英语pos做法到汉语的人 特别要警惕 pos 的陷阱。【迷思】里蕴涵很多只可意会的实践体会和哲学思考,说给世界听 但并不在乎世界听不听。陷阱本就是为人预备的 栽进去也没啥 不过是重复我们曾经的苦难而已。不说不忍,说了也就是菩萨心肠。

quote 需要说明的是,笔者并不反对先POS后Parser的中文处理策略,只是指出POS并非Parser的先决条件,还有一种句法直接建立在词典之上的一步走的策略。顺着这个思路,一步半的策略也许更好。所谓一步半,就是做一个简单的 POS 模块(算是半步)把词类区分中比较大路容易的现象标注好,并不求对所有词类施行标注。

这里要提的建议是:推向极端可以不做汉语 pos,为了工程方便 可以做,但不要过火 不能依赖。
董:
说得太对了。我们在HowNet 那本书的最后单有一章,讲的是中文。其中批评了宾州中文树库,说那是照着英文套中文。特别举得例子是他们标注:年平均(adv)-增长3倍,同句中的年平均(adj)增长率,中文真是如此吗?我们中文的哪本词典里有如此区分词性的。英文词典里look是动词还是名词表的清清楚楚。我们中文是到真实文本中浮动的。英文的文法是百姓的文法,中文的文法是汉语学家的文法。
清:
董老师分析的透彻!
我:
董老师做 HowNet 的30年,所经过的思考,是我们一般人难以企及和想象的,所以我说,真地就好像如来佛的手掌心,有时候我们自以为自己有什么创新思维,最多也不过是个孙猴子,还不等到得意,就发现董老师高高在上 拈花微笑呢。
白:
不过只要伪歧义控制得住,就算多几个POS,技术上也没什么大不了的。至少这不是个技术问题。
我:
问题是,这些都是相互关联的。多数人,特别是没有经过磨练的新毕业生,一头栽进去,根本就无法控制伪歧义。汉语处理一不留神就是个泥淖。
白:
毕业生学什么课太关键了,学了错的课,时间还不够用来消毒的。
杨:
精辟!

白:
NLP的精妙所在就是纵向不确定性(一个位置上取什么标签)和横向不确定性(哪两个标签之间有关联性,独享还是共享)互相交织,最后还给出一个确定的解。
我:
就好比一个迷宫。虽然说走出迷宫 并非只有一条路径 但能走出来的路径真心并不多,而且每条到达终点的路径都必然七曲八拐 暗礁险滩。可以展示最终的形态 很难展示历经的过程。有人认为 只要最终形态是相对确定的 这个路径就必然可以根据最终形态学出来。这就是黑箱子的哲学。似乎天然可行 也赢得了全领域 甚至全人类(大部分是外行)的理所当然的认同。我称它为学习乐观主义。有没有 catch 只有天知道 白老师知道。
白:
七拐八拐真心不是障碍,障碍是目标函数是什么。
我:
七拐八拐关涉多层,不也是毛毛虫的一个部分?

 

【相关】

中文处理的迷思之二:词类标注是句法分析的前提

[转载]【白硕 - 穿越乔家大院寻找“毛毛虫”】

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

Deep parsing 每日一 fun: 雨是好雨,但风不正经

气象局通知~~~原约定今日凌晨来的暴雨,因半路上被堵,耽误了点时间,或许今天下午到夜间赶到。这场雨如果下大了肯定不小,下小了也肯定……不能大,请市民再耐心等待!具体情况等气象台会上研究后报给市民。气象台温馨提醒:今天如果不下雨,明天不下雨的话,这两天就没有雨了,等下暴雨再准确播报。
气象台郑重劝告美女们最近几天不要穿裙子,容易被撩,雨是好雨,但风不正经。

这是微信最近流行的段子。每日 parsing 一 fun:
t0621a0
t0621a下面是笔者对两条路线斗争的总结,也 parse parse see see 吧,QUOTE:

说什么两条路线斗争 宗教门派之别 主流非主流 眼珠转与不转 这些都不是本质 本质就是鸡同鸭讲。隔行如隔山 同行也隔山。隔了山还讲个球。鸡犬之声相闻 老死不相往来。这就是计算语言学的尴尬。这是一个非常奇怪的交叉学科 两路完全不是一个类型的人 没有 chemistry 没有基本的共同背景、世界观和方法学 没有共同语言  兴趣迥异 无法正常对话  更甭提恋爱结婚 最简单的办法 就是一派灭了另一派 眼不见为净。结果就是虽然被扫地出门了 语言学对于多数的殿堂内人 依然是格格不入 而又回避不了。做了一辈子的某些主流 NLP 大牛 不懂语言学常识的 并不鲜见 这在任何其他学科都是不可思议的。但是语言学比共产主义还更像一个幽灵,一直在殿堂徘徊。

0623a
0623b
0623c
0623d
0623e
0623f
0623g

My interview:
wei_interview
from http://www.netbase.com/about-netbase/

 

【相关】

【立委科普:语法结构树之美(之二)】

【新智元:parsing 在希望的田野上】

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

NLP核武器的奥秘

我总说,deep parsing 是NLP应用的核武器,有人以为夸张,今天就说说这道理儿。

NLP 的应用主要分两部分,一部分是对于 text input 的分析或“理解”,一部分是反映这种分析理解的 output(俗称语义落地,譬如 output 是另一个语言,就是MT;output 是 response,就是对话系统;output 是针对 input 问题的答案,就是问答系统;等等)。NLP 应用就是连接 input 到 output 的系统。其中第一部分是关键,核心就是 parsing,可以实现为作为条件的模式匹配,而第二部分很多时候不过是与第一部分对应的作为结论的 mapping 或 side effects。

在上述场景的抽象描述中,可以这样来看 parsing 对于处理text的作用。首先,input 的样本就是我们 parsing 的 dev corpus,样本中的语句相同或类似意义的是我们识别的对象。绝大多数情形,识别了就算 “理解” 了,系统就知道如何应对最合适。

自然语言的难点在于表达这些 input 的语句千变万化,因此用 ngram 枚举它们是不现实的。现实的办法是 parse 相同或类似意义的input语句成为结构树,然后在这些树上找共同 patterns,叫“最大公约树”吧(intuitively 叫最小才顺耳,就是这些树的common core,树大了的话就没有召回率了,白老师提议叫“最大公共子树”)。如果找不到,那就把这批句子分而治之 直到可以找到几个所谓子树 patterns,写成逻辑或的模式规则。

Patterns 的宽严度调试得恰到好处 就可以以有限的规则 应对无限的表达了。宽严不外是调整结构arc的条件 或 节点(node)的条件,deep parsing 说到底就是创造这些结构条件的机器。

以不变应万变,用有限的patterns抓住无限的语言变化,这就是自然语言核武器威力的表现。

【相关】

泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索

泥沙龙笔记:从 sparse data 再论parsing乃是NLP应用的核武器

【置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录