【泥沙龙笔记:带标大数据这道坎迈不过去,不要侈谈AI革命】

李:前两天与NLP主流的权威人士聊人造智能的现状和前景。我问,人造智能这么牛,你给我找一个在自然语言方面没有标注大数据,靠非监督学习落地成功的案例。只要一例。

其实主流里面就是找不到一例(非主流有,但大家习惯性视而不见)。主流里面规模化成功的全部是监督学习,全部靠大数据。应了那句话,多少人工,多少智能。

毛:你这要求太苛刻了。咱们人小时候不也要靠爹妈教吗?@wei

李:不对,爹妈教的不是大数据。孩子跟父母学的是小数据,举一反三,不是举100返1。当然乔姆斯基认为那不是爹妈的功劳 也不是学童的功劳,是上帝的功劳,固化遗传的。

白:人工用在语料上还是用在资源上,才是区分技术路线的关键。

李:同意。前者简单野蛮粗暴,容易推广,后者需要精心设计。

在带标大数据的这道坎迈不过去前,不要侈谈人造I的革命。

有些疑似不需要带标大数据的有效学习,可以一一讨论。看看到底是不是无监督学习突破了,知识瓶颈化解于无形了。

MT 不用说了,无穷无尽的带标大数据。人类翻译了多少年,而且还会一直翻译下去,或者利用MT然后修订编辑。活水源源不断。好处是免费,是人类正常翻译活动的副产品。

白:小数据带标、大数据聚类,小数据循聚类举一反三。实际就是协同推荐。

李:好,看看大数据聚类,clustering 的本性就是非监督,有成功案例吗?clustering 是个好东西 但是独立规模化成功的,几乎不见。

白:加上小数据,不是纯聚类。

李:对。以前有一个路子,貌似有部分成功,就是先聚类,然后人工少量干预(给好的聚类起一个名字、把混进革命队伍的异己分子手工踢出去之类),然后利用所起的名字作为带标数据,把聚类(clustering)转换为可以落地有价值的分类(classifciation)。狸猫换太子,多少就克服了大数据短缺的知识瓶颈,聚类--》分类,曲线救国。

白:带标小数据更关键。

李:那也是一途 叫 seeds,boot strapping,找个办法来 propagate,用得巧的话,也有部分成功的,算是弱监督学习。

白:聚类是纯几何行为,不知道对什么敏感。小数据告诉你该对什么敏感。两轮驱动,不可偏废。大数据聚类可以提供疑似窝点,小数据一举捣毁。不是所有疑似窝点都值得捣毁。聚类是等势线(超曲面)相互包围的拓扑。

毛:立委你这不是抬杠吗,也没人说AI已经等同于人类智能呀。

肖:用户分群很有用啊,例子很多很多。聚类方法找异常也有很多成功应用,比如反欺诈。

李:聚类的结果 粗线条应用大概是有的,在宁可错杀一千的应用场合,或有当无的场合,聚类可松可紧,拿来就用,总之是有统计基础,作为参考,强过看不见。细线条就傻了。只要用眼睛和脑袋去检视过聚类结果的,大都有这个体会:这玩意儿说它不对,还长得蛮像,说它对吧,米锅里 到处可见老鼠屎。经常的感觉是鸡肋 食之无味 弃之可惜,用又不敢用,对接吧 可费劲了。词典习得 (lexicon acquisition),聚类用得上,最后的难点还是在对接上,就是聚类以后的标注(起名字),并让标注与现有的知识体系对接上。

白:不需要,有内部编号即可。以xor为例。聚类可以聚出四个象限。不需要为每个象限取名。如果小数据指向一三象限,就把这两个聚类的内部名称贴一个外部标签。聚类按小数据的指引,当粗则粗,当细则细。不能只用一个尺度,小波的成功就是借鉴。记得工厂里钣金,师傅领锤,力道不大但是都在点儿上,徒弟力大但不能乱锤,必须跟着师傅走。小数据是师傅,大数据是徒弟。

李:这个形象。

最近的NLG(自然语言生成)方面的成功,是因为语言模型在深度学习的时候 强大了。生成的句子 比我们普通人还顺溜。我们受过这么多年教育 还免不了文法错误 语句不顺。机器生成的句子 越来越“超越”人类了。怎么回事?

原来 NLG 比 MT 还邪性 还牛叉,MT 还需要双语的翻译大数据,NLG 面对的是单一的语言,数据无穷无尽,文满为患,这是一个极端的 raw corpus 居然等价于 labeled corpus 的现场。我们每个人写文章 都是潜在给 NLG 提供标注服务。自然语言语句与词汇随机发生器发出来的字符串 的不同,全部体现在每一篇人类撰写的文章里面。它不出色才怪呢。NLG 可以预见将来有大发展,在应用文写作等方面。有孩子的 可以放松他们的语文训练了,将来他们只要学会善用机器 就没有写不出规范的文章的。

白:大家写文章全一个味儿,也是问题。应该以强风格的作家为吸引子,形成若干漩涡,你接近某个漩涡,就持续往里面吸。至少不能千人一面。

肖:(NLG)现在摘要还写不好。

李:孩子不必特地去修应用文写作课,反正后来会有电脑帮忙写文字的。这就跟我小时候钢笔字写得狗爬似的,一直难受 羡慕小伙伴每天练字 让人看得赏心悦目。(当年喜欢一个女孩子 一半看脸蛋 一半看她写的字。)结果 我成年后 除了签字 就几乎没有写钢笔字的机会。

以前要成为(文科)大学者,最为人津津乐道和崇敬的是:

(1)记忆能力:过目不忘,检索起来可以闭着眼睛把典故的章节甚至页数指出来。社科院里面有很多这样广为传诵的奇闻逸事,尤其是关于钱锺书、吕叔湘这些老先生。

马:我认识一个理工科的教授,跟他聊天时,经常会说,那本期刊第几期第几页提到了这个问题。

李:(2)好书法。(3)诗词歌赋。这些到了机器,反而容易。

白:千万别提机器那个诗词歌赋,倒胃口。

李:感觉清华的《九歌》比不少郭沫若的诗词写得好。小时候看郭沫若带着西哈努克去山里面玩,诗性大发 口占一首,那个诗可真是纯粹应景 干瘪无味,就是平仄啥的应该整对了,论意境、诗味,啥都没有。

机器诗词倒胃口 也比不上郭沫若的那次表演(忘了是什么纪录片了),印象极深刻 不是好印象 而是坏印象。当然 艺术的鉴赏 见仁见智 不好说绝对。但往前看,机器做诗词 还有很多提升空间。人要熟读唐诗300首就很不容易了,机器灌输它个全唐诗去模仿,是小菜。人在时间限制下 需要应景作诗 提升空间就不大了。七步诗这样的天才 万里无一。

白:端到端、简单无结构标签、大数据是深度学习商业化的关键。但凡涉及到场景化、复杂结构和小数据,深度学习一定会不适应。是让应用迁就深度学习还是用技术改造深度学习,这不是个简单的选择。我主张:1、把标注的对象从“语料”迁移到“资源”;2、用带标小数据引领无标大数据;3、尊重领域专家、融合领域知识。

【相关】

【 立委小品:AI is fake I 】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

AI is fake I

The term Artificial Intelligence (AI), which traces its roots to the milestone Dartmouth's historic conference, is quite a bit of an afterthought by the then thought-leaders of the time, with an emphasis on artificiality. It, in essence, defines the true nature of AI as a fake intelligence that simulates human intelligence. But we seem to often forget that.

Those commonly known as "vegetarian chicken" or "vegetarian duck" are soy products, generally classified under the category of "artificial protein". The gap between "artificial proteins" and "animal proteins" is very comparable to that between "artificial intelligence" and "human intelligence". Every vegetarian eating "vegetarian chicken" knows clearly that it is fake meat so they feel comfortable enjoying it with its great taste. In contrast, almost all media and the majority of users of AI products today rarely regard the nature of AI as fake intelligence. That is quite a surprise to me.

I don't know if it's just tabloid hype or it's true. But the impression is fairly clear that those popular AI stars more and more often act like god. They seem to love to use super big words and philosophical metaphors which lead the mass to the belief of an equal sign between AI and human I. I don't think it is so much a sense of mission as a sense of superiority and ego, and they just feel too good about themselves in mastering some magic of AI algorithms. It occurs to me that if you act like God, talk like God, over time you will believe you are God. In times of AI bubbles, people buy that; more importantly, media love that, and investors are willing to pay high.

My entire career has been engaged in "natural language understanding" (NLU), with a focus on "parsing", which was for a long time widely accepted as the key to language understanding, the crown of artificial intelligence as some experts put it. As practitioners in developing industrial products, we know all these AI terms such as language understanding, machine learning, neural networks, plus AI itself, are just analogy or metaphors. AI models are just simulations, mechanical programs attempting to mimic intelligent tasks. But that is apparently not what has been depicted by media's efforts for "AI marketing", nor is it educated by the few AI stars at the spotlight. The public opinions or even decision-makers, shaped or influenced by such media, run more and more towards the opposite. So it might be high time to air a different voice and re-uncover the true nature. Artificial intelligence is fake intelligence by its very nature, filled with "artful deception", as pointed out by Pierce in the AI history. His criticism has never been out of time. In fact, there is never a time with this much "artful deception" built into products such as intelligent assistants, so artful that we start getting used to it for the convenience.

What is "understanding"? Strictly speaking, the computer has zero intelligence except for its mechanical computation and memorization. Natural language understanding has always been a metaphor by convention, that is why the Turing test was purposely designed to define "artificial intelligence" by bypassing "understanding". This is by no means to deny the breakthrough in recent years in the functional success stories of AI applications such as speech processing, image recognition, and machine translation.

We all have had personal life experiences when we were amazed at some functions performed by a non-human. As a child, I was amazed for quite some time that the radio could "talk", how "intelligent" this box called radio was. My mother had been confined to a remote rural area in her childhood, and when she went to a middle school in the nearby town, she had a chance to see an automobile running on the road for the first time. She ran away in awe and years later described to me the shock at the time when a non-human machine was running so fast. That is beyond intelligent to her mind. We all had those first times of "intelligence" shock, the first time we had access to a calculator when I was a middle school kid, the first time we walked through an automatic door, the first time we went to the bathroom which automatically flushed the toilet, not to mention the first time we used GPS. All those fake intelligence behaviors look so true and superior to our modest being when we are first exposed to them. But now such "intelligence-like behavior" is all out, we all accept that it is non-I. By human nature, we tend to over-read the meaning when we do not understand something. We are shocked to see any "automatic" behavior or response from a non-human, regardless of whether the mechanism behind is simple or an algorithm with complexity. Such shock is easy to amplify, and it's hard not to be fooled by wonders if we don't understand the mechanisms and principles behind, which happens a lot around the media talks about AI. In recent years, the media and industry are never tired of "man-machine competitions", in games and knowledge showoffs, in order to demonstrate that now AI beats human. Sometimes in my dreams, I have been haunted by similar images of human weight lifting champions challenging a crane to see who could lift the ton of steel with a single swipe.

In recent years, some celebrity CEOs in industry and legendary figures in the science community have seriously begun to talk about the problem of the emotional machines and the threat from machines equipped with super-human AI. It is often far fetched, citing functional AI success as autonomous intelligence or emotions. I would not be surprised when the topic is taken one step further to start discussing the next world problem as recreating hormones and reproductive systems in machines. Why not? Machines are believed to develop a neural network to become this powerful, it is a natural course to be reproductive and even someday marry humans for the man-machine hybrid kind. Science fiction and reality tend to get mingled all in a mass too easily today.

Nowadays, artificial intelligence is just like a sexy modal attracting all the eyeballs. Talking to an old AI scholar the other day, he pointed out that AI is, in fact, a sad subject. A significant feature of AI is to temporarily hold things whose mechanisms are not yet clear. Once the mechanisms are clear, it often becomes "non-artificial intelligence" and develops into a specialized discipline on its own. The plane is up in the air, the submarine is under the water, deployed everywhere in our land for decades. Do people who design airplanes and submarines call themselves artificial intelligence researchers? No, they are experts of aerodynamics, fluid dynamics, and have little to do with AI. Autonomous driving today is still under the banner of AI, but it has less and less to do with AI as time moves on. Aircraft has long been self-driving for the most part, no one considered that artificial intelligence, right? Artificial intelligence is not a science that can hold a lot of branches on its own. The knowledge that really belongs to artificial intelligence is actually a very small circle, just like the part that really belongs to human intelligence is also a very small circle, both of which are much smaller than what we anticipated before. What is the unchangeable part of AI then? We might as well return to some original formulations by the forefathers of AI, one being a "general problem solver" (Simon 1959).

(Courtesy of youdao-MT for the first draft translation of my recent Chinese blog, without which I would not have the energy and time in its translation and rewriting here.)

My original Chinese blog on this topic:

【 立委小品:AI is fake I 】

Other English blogs

The Anti-Eliza Effect, New Concept in AI

From IBM's Jeopardy robot, Apple's Siri, to the new Google Translate

Question answering of the past and present

【 立委小品:AI is fake I 】

有个关于翻译的疑问, AI 台湾翻译为“人工智慧”, 大陆不知谁最先翻译的,总之一直叫“人工智能”。两岸都没有采用更为贴切的翻译“人造智能”。

那些俗称为素鸡素鸭的大豆制品,一般归到 “人造蛋白” 类。“人造蛋白”(或植物蛋白)与“动物蛋白”的距离和区分,可比“人造智能”与“人类智能” 的差异,鸿沟比较清晰。“人工智能/智慧”的译法有很大可能误导或被误解,当然媒体与大众多半乐于误导或被误导,那是另一回事儿。

突然想到老川把除了 fox 外的主流媒体一律称为 fake news,也可以考虑把AI 叫作 fake intelligence,至少比老川靠谱得多,利人也是这么认为的:“AI被忽悠得大家都认为是真的了”。

不知道是小报的渲染,还是的确如此,总之印象是,被称为AI牛人的,常常做上帝状,无论说话口气,还是描画蓝图,与其说是使命感,不如说是优越感,自我感觉特别良好。

认真说,明明是artificial,如今开口闭口机器智能,甚至自主推理、自发情感,弄得跟真的似的。巧妙欺骗的时代,连国家首脑都难免受影响,整得风声鹤唳,草木皆兵。貌似狼来了,机器就要统治世界,人类末日即将来临。

我一辈子做自然语言理解(NLU),主攻语言自动解析(parsing),这曾经被广泛认为是语言理解的钥匙,人造智能的皇冠。那天群里老友说,“理解文章上,机器比90%读完高中的人差吧”,突然意识到类比与现实已经潜移默化到我们自己都可能不假思索混同和认同的时候,觉得也许可以试图做一点澄清了:

什么叫“理解”?严格说,电脑是0理解。所谓自然语言理解,不过是个比喻的说法,所以图灵测试一开始就绕过“理解”来定义“智能”。区别在于,符号派用一套看上去是模拟理解的符号推理的步骤,也就是在符号系统内自己跟自己玩,过家家的游戏。经验派甚至连这个模拟的过家家也不要了,端到端,别跟我扯理解,你理解了要做什么,给我把要做什么的任务定义出来,然后按照这个定义给我标注数据,越大越好,上不封顶。然后给你把这个任务做出来,照猫画虎。你说它理解了啥?毛都没有。说理解和智能,都是比喻,不改变artificial智能是fake的本质。这并不是要否认模仿的功能性成功。

小时候很长时间惊异于收音机“会说话”,不理解无线电啥玩意能够如此“智能”。记得看过一本书,里面描述凉山少数民族百姓第一次“被看电影”,下面观众惊吓莫名。我妈妈一直在农村读私塾,后来到城里读中学第一次见到汽车在路上跑,跟我描述过当时的震撼。25年前我母校语言学系教授第一次对着苹果电脑叫 “Open Computer”,用语音启动电脑的得意样子还历历在目。还有我们第一次用计算器,第一次走进自动门,上厕所自动冲洗马桶,更甭提第一次用GPS。所有这些fake智能,全是那么真切。可现在全部脱离 I了,成为 non-I。可见,“智能”这东西不仅仅界限模糊,而且很雷人。第一次见到任何非人类出面的“自动”行为或反映,甭管原理简单还是算法复杂,受众都会感觉震撼。这种震撼很容易放大,如果不理解背后的机制和原理,很难不被忽悠。

小时候还有一事儿,挺扎心的,手太笨学珠算、写钢笔字总也没大成效。好在用了电脑后,就几乎没“写”过字,字俊字丑没人知道,藏拙了。当年对于心算快的,算盘打得快的小伙伴,那叫一个羡慕。计算器出来以后,没听说过有人组织过人机算术挑战赛。可是后来的下棋,知识问答,机器翻译,却不断作为智能的里程碑载入史册。回头想想,不就在计算器的延长线上,一多半靠的是memory和computing吗。人跟机拼,傻呀。近几年来,不知怎的,我常常头脑出现一种诡异的画面:人类举重冠军组团挑战起重机,看谁能把“那成吨的钢铁,轻轻地一抓就起来”(盗自革命样板戏《海港》插曲)。媒体和业界乐此不疲的“人机大战”,除了噱头效应外,其实也是非良定义(ill-defined)的为多:苹果怎么好与梨子打架呢。

Artificial 智能,明明是假智能(fake intelligence),里面充满了“巧妙的欺骗”(artful deception,于今为烈,前辈皮尔斯历史上的著名的AI批判其实从来没有失效过,见 Church - 钟摆摆得太远(3):皮尔斯论】 ),如今整得跟真的似的。哲学上、伦理上、媒体上、国际政治上,如今都在说狼来了。

还好AI这个术语,追根溯源到达特茅斯那次历史性会议,起名还算知趣,强调的是人工/人造/仿造。但大家久而久之时间长了就忽略了定语 artificial,把电脑与人的智能和理解,混同了。加上科技小编和科幻的鼓噪,类比与现实貌似等同了。甚至一些名人也一本正经开始大谈机器具有情感的问题,自主智能到自发情感,就差说要与人类杂交生子了。下一个世界难题应该是机器中再造荷尔蒙与生殖系统。(理论上也并非绝对不可能。无机物突变为有机物,历史上应该是发生过的。不妨在人类高科技刺激下,再发生一次?)

隐约记得以前论过这个话题,一搜果然说过,而且说得还不浅:

“人工智能其实应该翻译为人造智能。人造翻译(或仿人翻译)与人工翻译可大不相同。但取法乎上仅得其中的古训不大灵了,古训忽略了量的概念。被取法者足够大量的时候 所得不止于中。AI 代替中庸 势在必行。取法乎众 可得中上,这是事实。但最好的机器翻译不如最好的人工翻译,这也是事实。因为后者有智能 有理解。而前者虽然号称神经了,其实连“人造的理解”(譬如 NLU)都没有。

现如今人工智能好比一个性感女郎,沾点边的都往上面贴。今天跟一位老人工智能学者谈,他说,其实人工智能本性上就是一个悲催的学科,它是一个中继站,有点像博士后流动站。怎么讲?人工智能的本性就是暂时存放那些机理还没弄清楚的东西,一旦机理清楚了,就“非人工智能化”了(硬赖着不走,拉大旗作虎皮搞宣传的,是另一回事儿),独立出去成为一个专门的学科了。飞机上天了,潜艇下水了,曾几何时,这看上去是多么人工智能啊。现在还有做飞机潜艇的人称自己是搞人工智能的吗?他们属于空气动力学,流体动力学,与AI没有一毛钱的关系。同理,自动驾驶现如今还打着AI的招牌,其实已经与AI没啥关系了。飞机早就自动驾驶了,没人说是人工智能,到了汽车就突然智能起来?说不过去啊。总之,人工智能不是一个能 hold 住很多在它旗下的科学,它会送走一批批 misfits,这是好事儿,这是科学的进步。真正属于人工智能的学问,其实是一个很小的圈圈,就好比真正属于人类智能的部分也是很小的圈圈,二者都比我们直感上认为的范围,要小很多很多。我问,什么才是真正的恒定的AI呢?老友笑道,还是回到前辈们的原始定义吧,其中主要一项叫做“general problem solver”(西蒙 1959)。

from 【尼沙龙笔记:宁顺不信,神经机器翻译的成就和短板】

这个话题足够重要,不妨从不同角度多说说、反复说,被热昏误导的人太多,吹吹冷风,听见一个算一个。

【相关】

English: "AI is fake I "

【尼沙龙笔记:宁顺不信,神经机器翻译的成就和短板】

人工智能,一个永远没有结果的科学_马少平

【Church - 钟摆摆得太远(3):皮尔斯论】

反伊莉莎效应,人工智能的新概念

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《每周两歌:中外女声魅力嗓音,Allison与于文华》

首先,刚过去的周末,祝各位母亲节快乐!

母亲节请欣赏【于文华:想起老妈妈】。背景是上次探亲,正值江南油菜花的季节。我插队的村子的邻村 原来鬼不生蛋的深山老坳 如今是【美丽乡村】的典型了。

关于于文华,以前推荐过:“于文华绣花嗓子,甜美细腻。郁钧剑怎么配她?(别说,还就那嘎声嘎气的尹相杰配于的细嗓子,还有点特别的风味。)郁钧剑没唱过什么给人留下印象的歌曲,这一次照他的功底,老实说算是不错了,也难为他了。无奈于文华的演唱登峰造极,相比之下郁钧剑太平淡了。我们通常只听第一段于的演唱,一到郁钧剑就回头或跳过去。”

Allison is my all time favorite, with her unique voice.  The footage I shot is from a Costco tv demo plus the footage from the Apple Store in the new headquarters

【相关】

音乐欣赏随笔:Brad Paisley & Allison Krauss:威士忌安魂曲

立委随笔:网事如烟

《每周一歌:水姑娘》

风情万种的《水姑娘》,让人骨头松软的民族风

好像是水族的民歌。《水姑娘》周末放送 祝各位复活节快乐!

花红柳绿 风情如此。此乐只有地方有 绕梁三日不绝缕。不知道歌手是哪一位少数民族夜莺 “嗲”得如此上档次。

10年前从湾区草根舞蹈团的Mary老师处听得此曲 惊为仙乐 藏之深山。

画面应该是水乡写意之类。但要与亲友分享三个猫咪的近况,懒得单制作视频了,分享音乐和pets合二为一了。

三只猫只有一位 lady,katara 具有水姑娘的气韵 (也兼具铁姑娘的风餐露宿、攀缘跌打本领)。两位君子 牛顿忠厚 Xander 懵懂。片头片尾是苹果新总部的 Apple Store,这视屏就是在手机上用他家 iMovie 制作的,非常便利。

《李白113:白老师秘密武器二瞥(2/2)》

立委按:两载设计,三载实现,白老师的自然语言秘密武器日前曝光。十载孕育,如水流年。挑开面纱,犹抱琵琶,先者为快,一睹芳颜。

李:其实语言理解过程中究竟用到哪些知识,并不难确定。难的是 这些知识如何加分减分打群架。

白:人理解时也不过是在打群架,没高明到哪儿去。

李:如果不给设计师束缚,所有的知识都特征化,不限定范围和多少。然后假定神经可以搞定这些特征,那么 符号逻辑 实际上只剩下符号特征化的工作。逻辑由神经管了,果如此 自然语言理解离开终结就不远了。

白:不对。逻辑有两部分,一部分是有限的可选择的操作或变换,另一部分是何时何地选择何操作的控制策略。控制策略特征化应该鼓励,而所选择的操作的轨迹,是充分可理解、可定点修复的。表示-对表示的操作-选择操作的策略,这三者,我认为第三种是适合特征化、向量化、神经网络化的。这不仅不是终结,更是升华。同时也并不影响前两者的可解释性、可定点修复性和容纳复杂结构的能力。

“身份证”的主人在两句中不同。

李:设想对话场景:

A: 他要求我出示身份证
B:你出示了吗
A:出示了,结果没通过。
B:为什么?
A:因为他是检疫官,要求我出示我宠物的身份证。我以为他是警察,要求出示我本人的身份证呢。
B:这才叫场景的阴错阳差!你过的哪道关都没搞明白。

再如:“监护人向我出示了身份证,是想证明这孩子不是非法移民。”

hidden links 根据常识或常理而来,这就带来两个问题:

第一是,因为是常识、常理,而不是语言明确指明的信息,这些 hidden links 即便挖掘出来,也仍然是不重要的枝节边缘信息,更谈不上情报价值,因为一般人根据已知信息都可以推算出来。

第二是,因为是常识、常理,因此肯定有例外。例外常源于场景和背景的不同。如前面的对话场景的思维实验。

白:打群架好了,神经最擅长。

李:既不十分可靠 也没有新意 也许意味着常识介入理解应该有个限度。如果常识的带入,是帮助确定了情报,那就物有所值。如果常识的带入,不过是反过来为常识增加一个案例,信息还是常识,那就没啥意义。

白:

1,情报又不是落地的唯一领域。

2,即使情报,三个link有情报价值,一个link是这三个link的常识推论,那这推论人做还是机器做大不一样。你先抓到那三个links,人聚焦了看,然后人得出推论,黄花菜都凉了。机器直接得到四个links,能一样吗?

3,推论重要还是那三个重要,这得情报人员自己说,NLP不应该越俎代庖。常识是带变量的f(),只要里面的x是新的,f(x)就是新的。新的就可能有意义。常识都知道撤职了职务属性值就该变了。但是只要张三撤职是新的,张三职务属性值就应该变化为新的。就算常识是旧的,有常识和新事实共同参与的推论也是新的。另外,疑似知识、打过折扣的知识并非就没有意义,只不过置信度稍低而已。哪有那么多百分百置信度的事儿。谣言还满天飞呢。

李:有一定道理。

@白硕 他要求我出示身份证 / 他向我出示身份证。“出示” 一般认为是 3-arg:sb “出示” sth to sb: SVOC,现在看来 这个补足语萝卜 C(嫡系) 是被当成附加语(庶出)了。这不是主要问题,问题在 hidden links 因此也漏掉了。“他要求我出示身份证” 中,“我” 连上了 “身份证”,但是 “出示” 没有连上 “他”。逻辑语义上 向谁 出示呢?是向他的。

白:改成双宾了。这情形更可预期。

李:”他 为/替 我出示身份证”,“为” 与 “向” 的区别在句法如何利用?小词不同,句法有表示吗?还是指望接盘的 一个一个小词重新 check 来做区分?

白:小词会携带算子,把动态特征贴到自己修饰的成分上。目前只能说这么多。比如,一个“的”,无所谓跟谁相谐。但是“张三吃的”就必须明确自己的subcat。

李:fair 就是说 显示出来的 what 只是个架子,不是输出的全部。这其实是自然的。如果不在 link 上细化,那就在特征上细化。反正信息需要下传。

双宾句如何处理的呢?譬如:

他送了我一本书。
他把一本书送了我。
他送了一本书给我。
他给我送了一本书。
那本书他送我了。
那本书他送了我
他送一本书给了我。

白:

双宾句式,双宾句式加明示间接宾语的介词短语的互通,我们已经做得很透彻了。

李:两个 Lma 一个 Rma,等于是三个 args 句法都不做鉴别。下面接盘的,依靠什么来区分,去做 123 与 abc 配对。

白:这个自有办法。分母上的数字只是显示

李:怕下面接盘的 还要回头做部分句法

白:不需要,句法信息都带进去了。

李:句法上 Topic 与 synS 不区分,但是偏移量有区分,也算等价了。怎么知道 “我” 不是 O,“书” 才是 O 呢?

白:书有subcat信息,还有Default位置信息。如果O的subcat跟S兼容而且相对Default有变,比如O提前做了话题,那就取决于右填坑的间接宾语的事理因素了。

这个丫鬟我送你了。

这位夫人我送那个丫鬟

取决于夫人和丫鬟在事理中的地位。这个绝不是句法单独可以做的。加上subcat也不行,所以目前我们做不了。只当default位置是O,啥时候事理做了进来,就有希望了。

李:句法为谓词选了萝卜候选人,萝卜进坑的事儿归后面的语义模块,所以 后面的任务仍然蛮繁难。因为萝卜进坑 仍然需要综合平衡,语序、小词和语义相谐,综合平衡才能基本搞定。更难的要借助事理。

白:哪个对哪个,特别是subcat也区分不了的时候,目前没有足够的资源。NLP的魅力就在这里。好在方向基本是看清楚了的,见效取决于投入。要想糊弄人,做个玩具事理图谱也能蒙一阵子。不过我们不会这么做。事理图谱一定要结合应用场景做。不见兔子不撒鹰。

李:”吃在买后“ 这样的事理,HowNet 没有:HowNet 主攻本体常识,一般不带入动态场景的形式化。真正规模做过“场景常识”的只有 cyc,“开枪” 在 “伤残” 之前 之类。但以前的教训依然存在,其数目实在太大了。

白:吃、买太具体了,模式是“消费在取得后”,消费是吃的上位,取得是买的上位。如果仅看到具体事件对具体事件的因果联系和承接联系,那还不累死。要把事件的Taxonomy像实体一样组织起来。赋予抽象度适中的标签。事件的诸多要素,都要纳入这个体系,参与者、时空特性(时-体)、事件类型的包含与继承、关联类型的包含与继承,触发条件、副作用……不一而足。这是目前聚焦事理图谱领域的各个利益相关方都极为关注的。

李:“我洗脸”,英语总是说:我洗我的脸(I wash my face)。中文解析,根据常识,可以推算出“我的脸”。感觉上 人的理解中 标配信息真地很边缘。赶巧了英语用代词把它明说出来了。但说了也跟没说差不多。情报性无论怎么定义 这个“脸”属于“我”都很难成为情报焦点。

一般而言,感觉上 possessive 的 hidden links 情报性最差,在有冠词的语言,possessor 很多时候被一个定冠词 “the” 虚指了。凡是定冠词打头的实体(语言学里面叫 anaphor) 理论上省略了所有者这类实在的 specifier。“the” 的含义是“你知我知”, 虽然有个主儿但这不重要。

白:不同源头会带上不同约束,使推论减少盲目性。比如“给”的介词宾语和非三价动词的主宾语坑就不太能共享。这是“给”所明确标记的间接宾语属性所决定的。这些约束会截断共享通道。

“张三给李四写自传”,这李四要是有什么来头,情报价值还真挺大。张三是个代笔的小人物,张三的自传不重要。所以谁的自传,不简单。

李:从性质上看 寻找这类所有者属于篇章的 coreference 范畴,而 coreference 的工作,句法有一定影响 (binding theory 说的就是句法对于 coreference)。但是句法影响对于篇章非常有限。更大因素还是语义相谐和距离。把 一个实体对于其所有者的预示 与一个谓词对于一个 arg 的期望 等量齐观,有点高抬了前者。

白:优先级不一样。

对范畴语法做了重大简化,跟依存很接近但比他更丰富。分析结果可以不是树而是图,图还可以成环。图更科学,更反映语言实际。

带加号的句法标签,可以看成是“只约分不输出”的范畴。每次完成约分,就废掉自身,以保持中心语的正统地位。

李:就是 adjunct/mod,庶出,跟私生子也差不多,投奔过来又不能不认,但上不了台面。

我的理解,DG 与 CG 性质不同,DG 是 一种结果表示法 刻画的是output what,CG 却带有 how 的味道 表示和刻画 input tokens,可以据此演算 作为 parsing 基础和驱动。最终从 CG 达成 DG 的结果。

parser 被词典化的 CG 驱动以后,在遇到叉口的时候 求助于其他知识的引入,主要是语义相谐的调用。根据一个优先原则和有限级计算的机制 做路径判断 然后完成 parsing。如果不怕伪歧义 也可以只依据 CG 词典与优先级原则 而不引入其他知识。

这条路线的搜索空间 (universe)是句子长度 n 的这样的一个函数:可以 assume n 中每两个词都必须发生7种二元关系之一。三种是实关系但是有方向(父父子子),所以“原子化”后就是6种实关系,即,是二元排列不是组合。第7种是:无关系。无关系也算关系,就一网打尽了。任意两词只允许发生7种关系之一,不能多也不能少。在 n 不大的时候,搜索空间爆炸得不算厉害。

白:ordered pairs,A跟B和B跟A可以有不同的关系标签。

李:对,有这个二元循环的可能,忘了这茬了。不过那很罕见,对于搜索空间影响不大。能想到的只有 定语从句谓词与中心词有二元循环关系,一个 mod 一个 arg 方向相反。

李:By the way,你用 subcat 正好与(很大一部分的)语言学内部用的术语相反,句法学家说 subcat (子范畴)只是针对 句型,主要是给 谓词 根据不同句型的预测 分为不同的 subcat,而一个词的本体的细分 就是 subclass(子类),所以 vt,vi 属于 subcat,到了 HPSG 等理论,这个 subcat 就真展开成句型了:

give:: SUBCAT <NP left:S>, <NP right:O>, <PP(to):C>]
give:: SUBCAT <NP left:S>, <NP right1:C>, <NP right2:O>]

第一条 SUBCAT 句型是 sb give sth to sb;第二条是 sb give sb sth

白:不管了,反正就是负载逻辑语义结构信息的标签,来自词典。标签之间的关系在本体里定义。

也不能说是“特征”,因为特征给人的印象是扁平化、向量化,缺少结构。但也绝不是曾经流行的“复杂特征”。

李:扁平化 原子化 有好处的,以前你也是赞成的。复杂特征在符号逻辑上漂亮,但不好伺候,难以承受逻辑之重:实用系统不能过分与逻辑较真(这个体会很深,以后有机会展开再论)。

白:我们只有一层除号,分子,分母。分子和分母里边都不再有除号,我称之为“单子化”。就一个成分而言,萝卜和坑都不必再有相对性。它们都是“单子”(singleton)。

李:那是因为你们的出身是 CG,算法里面就对分子分母的表示有要求,作为区分输入输出的手段。

白:把CG改造到这么实用的程度,我们应该在世界上挂个号了。

李:不知道这个 CG 还有没有个 community 和相应的 events,还是拉丁文一样被搁置了。HPSG LFG 那些人还在,有自己的圈子 不过是越来越游离于主流(两不靠:语言学主流和计算语言学主流都不是)之外了。

白:CG可能就剩下CCG还活跃。CCG的本质是带坑填坑,于是就会产生我们所说的残坑。残坑在计算上的处理非常复杂,单子化对残坑处理带来莫大好处。但是从数学观点看,引入“修饰”,就是N+、S+这种,打破了“一个运算符吃遍天下”的理论美感,理论框架变得有些dirty了。等有空了,我会梳理一下“修饰”从数学上看是个什么鬼鬼。修饰之于单纯的相除,就好像X-bar之于CFG。象牙塔里的人可能不屑为之,我们编外游侠接手没什么顾忌。

【相关】

白硕:人工智能的诗与远方,一文读懂NLP起源、流派和技术

文章来源:https://read01.com/AJGzNQN.html

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《李白112:白老师秘密武器一瞥(1/2)》

立委按:两载设计,三载实现,白老师的自然语言秘密武器日前曝光。十载孕育,如水流年。挑开面纱,犹抱琵琶,先者为快,一睹芳颜。

白:坑之交响曲:

脑补进行时:

李:白老师的符号给个说明啊,L是左 R是右。LMo 是左成分 不占坑 属于 mod/adjunct,LMa 是左成分,是填坑的萝卜,属于 arg,是不是?

一个及物动词挖了两个坑 2N,左边填坑的叫 LMa 右边填坑的叫 RMa,什么时候确立他们的逻辑主宾呢?

Me 是个什么?条件结果的谓词之间“(如果)选择,(那么)看好”是 Me,动补合成词内部的“哭-肿”也是 Me,所以这是个表示并列或接续的二元关系,不分词法句法 也不分短语还是从句。

二元关系图里面 层次扁平化 结构层次没看见有反映。X-bar 这类层次信息一多半属于语言 一小半属于逻辑。属于语言的可以扔掉 属于逻辑的应该有个表示。起码 “哭-肿” 的二元关系 与两个谓词结构的因果关系 在层次上天差地别。对于 dependency graph 表示,如果不允许逻辑交叉的“飞线”,层次信息可以从子树中 derive 出来,短语就是子树的 parent node 所下辖的节点范围。以此反映思维中的复合概念与单纯概念的区分。但是,现在我们允许 dependency 可以交叉,甚至允许循环(dag 丢掉了 acyclic 特性,成了 dg),以此来挖掘语言中隐藏很深的 hidden dependency (譬如 “眼睛” 与 “肿” 的主谓关系)。这虽然使得深度解析更加深入,同时也带来了层次交叉以后的副作用。复合概念的边界和范围模糊了。逻辑概念的层次没得到应有的表示。图中的主次不再分明。

结构(表示)应该是由关系和层次两个要素构成,否则就难以担当语言的模型和思维的模型。其实 关于 graph representation,以及利用 graph matching 落地到应用,里面很多机制性的东西,还是没有探索清楚。属于深水区,摸着石头过河会不会不小心淹死,也不好说。

白:树是现成的,只是没有做展现而已。

回顾一下五个操作:Ma代表Match,也就是填坑,除了左右填坑还有中填坑,就是分子向分母上的残坑填坑。Mo代表Modify,也就是修饰。Me代表合并,不仅有S(谓词)的合并,也有N(体词)的合并。谓词的合并在传统句法看来那么多种情况,在我们看来其本质都是分子合二而一,分母尽可能共享,在结合的优先级上也刚巧非常合理地靠在一起。Up和Down是升格降格。在扁平表示中,采用了新增虚拟节点和方式,原节点汇聚入边,新节点汇聚出边,新旧节点间则是单一的升降格边。

这些范畴非常“冷血”,非常地就形式论形式,但不代表不能转换成主谓宾。但是,第一,我不认为主谓宾的叫法在句法上比我更科学;第二,句法标签只是个过渡,对接语义标签时,这套标签不仅不会输给传统标签,反而映射更直接,比如话题、大小主语、总分关系、谓语动词周边非逻辑主宾语的地位尴尬的NP。第三,这套标签不是不分词法句法,而是词法句法的边界在一些地方有异于传统认知,特别是紧定中式名词(如“红太阳、好朋友”等)和动结式动词(如“打伤、哭肿、染红”),由于在我们的体系下微结构和句法(比如动趋式、动介式)并无不同,所以放到句法里并没有违和感,也并不因此多费什么手续,完全是搂草打兔子,顺手的事儿。

这个体系会不会乱?我们用了将近两年的时间建立它的what,接近三年的时间建立它的how,经过了无数的推演、测试和复盘。在这样高强度的打磨下,传统语法书里的绝大部分难句都不是问题,也没有因此把普通句搞得不普通,基本结论是结果(what)可用、过程(how)可控。

解析结果保持歧义的能力也有独特风格,比如“鸡不吃了”是传统歧义句,但在我们的表示框架下,句法无歧义,一个左填坑,一个右修饰,如此而已。歧义是语义层面的,鸡不小心即是Animate又是Food而已。这两个角色在句法上都是左填坑的N,并无区别的必要。

如果落地要的是语义标签,我们可以直接去对接。如果一定要传统标签,我们可以做转换,但这就像高清晰度的视频向低清晰度的视频转换一样,我们并不认为它是一种成就,而是一种无奈。比如“这件事我有意见”里面,“这件事”和“意见”有直接的填坑关系,跟“有”没有一分钱的关系。你让我标注出“这件事”是“有”的什么角色,我当然是很不情愿的。


我们说动结式动词的微结构和松耦合的述补结构在本质上是同一类结构,都是分子合并、分母尽量共享坑,但坑的共享是有相谐性前提的。刚才说到的“哭肿”就没有相谐的坑可以共享,所以只好各填各坑,但是分与合,都是在一个机制下的不同子模块而已,并不是说一个很好把握另一个很难把握,都在可控范围之内。

李:落地要的语义标签是逻辑语义,还是语用的标签?语用标签譬如信息抽取里面的事件角色。

白:公共服务落地是逻辑语义标签,应用落地是语用标签。中间隔一层适配。

李:这个落地模块 需要多少额外的知识呢,包括语义相谐。

白:适配具有行业特点,不懂行业没门儿。

李:逻辑语义原则上是行业独立的。

白:也不可能一家公司包打,一定会发展出众多的落地服务商和落地适配包。主打逻辑语义的公共服务,在足够精准的前提下是有独立商业空间的,如果再做几个示范的语用落地,表明生态效应和层次衔接机制work,后续还会有大发展。就好比,逻辑语义提供面粉,应用落地提供面包蛋糕包子馒头。面粉的供应商有自身的商业空间。面粉也需要好的面包蛋糕包子馒头来背书自己的质量。

李:说这些 道理上站得住,听起来好遥远。parser 要独立成为生意,感觉很难,NLP component technology 定位的,迄今几乎没有成功案例。不是没人尝试,而是没人成功,除非今后几年有突变发生。(满世界只知道端到端呢,最近加了个普遍看好的预训练,离开符号语言学更遥远了。)

如果句法就3种关系,嫡系 Ma,庶出 Mo,哥们儿 Me,从数目上看 这不仅比 100种逻辑语义、也比 五六种传统句法关系(“主谓宾定状补”之类)要粗线条。说这个 what 是高清,感觉还不够。

白:这个标签体系显然不是逻辑语义,但它可以直通类似知网的逻辑语义体系。说直通的意思是,拓扑基本上都对,只是需要细化。谁跟谁有关系基本都对,什么关系需要细化。不像有些拓扑都不对的,细化起来遇到的麻烦大得太多。

李:从这个 what 匹配到逻辑语义,是一对n,必然需要更多的知识和做功。

对于短句,标签集很小的时候,凭着词典的预示信息,句法基本不是问题。到了长句 可能挑战就来了。短句不是问题 就好像过去社交圈小 但每个人都必须结婚,谈恋爱就特别容易有结果,因为没得选。很多时候 门当户对以后 候选只剩下一个 那就ta了。

白:结构就是用来拉近距离的。依托结构拉近的距离,比望文生义拉近的距离,更为精准。

李:词典在类别基础上所给的那些subcat预示信息,譬如 S/2N,这类 subcat 也是粗线条。即便原子化 平铺开来 也没有多少,估计 20 个左右。

白:这不算subcat,只是POS

李:上面的标签 S/2N 传统词典是 vt,属于 V 的 subcat,不过叫什么名字无所谓,总之是预示一个潜在 pattern 的词典标签。这类标签的集合 感觉20个可以收住。在 20 个标签以内做句法,结果的关系是 3,这应该还算是粗线条的。

让人眼亮的是这种颗粒度 的确是句法最核心的部分,在回答 “谁与谁发生 directed 关系” 的问题上,是一个不错的抽象。

短句容易做粗线条句法是显然的 因为没得选,“这件事 我 有 意见”,一共两个潜在萝卜 n1 n2,正好有两个坑 空着,“我” 被 “有” 抓走以后,“意见” 的 【对象】 只剩下 “这件事”,不是它 也是它了。

白:还有另一面,明明空着,也不进来。下例中,“今年”,“食堂”,明明是最贴近坑的萝卜,但不是你的坑,打死不填。宁可降格做状语。这就不是那么简单了。还有前面“这碗猪”也不能谈婚论嫁,要等“汤”拉近,这背后有玄机。绝不是一个村里没婚没嫁就可以拉郎配的。

李:这里面玄机如果不论 how 就没法评论了 只能说不明觉厉,特别是“食堂” 不填坑,句法上有点天理不容。

白:所以这样的结果,转换成主谓宾,得多憋屈。那是后退。前进一步,就是精准的逻辑语义。拓扑都对了,就差一个相当于知网的基础设施。

李:可是反过来想,“吃” 与 “食堂” 发生了关系 是肯定的,这个关系中 “吃” 是老爸 也是无疑问的。为什么要把 arg 与 mod 的区分负担,强加给句法,而不是留到语义或语用呢?

“鸡不吃了”里面的主宾歧义句法都可以包容,为什么不可以包容 arg 和 mod。如果句法最好轻装 那就听乔姆斯基的,彻底排除语义,现在看来 这个 "食堂" 的降格 是带入某种语义了。反正 map 到逻辑语义的时候 还是要调用语义约束,想不出为什么一定要有选择地把部分语义前置。

白:语义arg无边无际,句法管不过来。我的原则是:标配的语义arg走填坑,非标配的语义arg走修饰。

李:“我吃月亮” 呢? 现在也降格吗?

白:是。

李:感觉是得不偿失。因为不降格做引申意义的宾语情形,应该比降格做状语的现象更加普遍。

白:“这场火”,也降格。月亮可以是处所啊。怎么非常识了?

李:比起传统的svo句法解析,个人感觉这样做是得不偿失。要是我,就宁肯放宽语义约束,得到一个非常识的解析,也比过早实施语义约束合算 命中率会更高。 这当然只是感觉,还需要数据调查和统计来验证。“把月亮吃了”,就是“非常识”,而非常识的说法 语言中也没有那么罕见(“一片乌云飘来,吃了月亮”)。原因是 非常识为语词的 引申,创造了条件和手段。说话者是用不相谐 来倒逼听话的人去联想 引申。

白:修饰,只是非标配的语义坑而已,不明属性,并不是语义层不能再入,这个修饰的标签并不给语义分析设置篱笆墙。只是说他非标配,非标配的后续,既可以脑补缺失的非标配格标记,也可以作为修辞手段再入标配格标记。两个可能性都存在。并不存在“失”,只有“得”。

李:设不设篱笆墙,说到底还是 句法输出以后,后续工作量 是增加了还是减少了。把“食堂”和“月亮” 都降格了,后续工作量 感觉是增加了 而不是减少了。因为 月亮被吃这类的表述 比 “吃食堂” 这类表述 数量为多,何况 吃食堂其实已经词典化了,本来就不该参合进来的。关键在 它不应该在歧义区分的雷达上,属于常识例外。词典绑架 没商量。

白:工作量不是唯一标准,有利于精准才是最终标准。再入,实际上你可以认为引申受事和常规受事是两个格标记。

即便词典化,微结构仍然是修饰。吃七食堂,吃教工食堂,并不是词典化的,但我们不怕。

李:那种叫成语活用,在词典绑架的延长线上。实现一个成语活用的机制 也就可以不来参合了。

白:吃勺园,吃全聚德。吃麦当劳 ... 也不是成语活用,但背后是一个机制。它们如果走了不同路径,反而奇怪。

李:这是真歧义,“吃麦当劳” 作为地点和食品 均可。这其实也成语化了 真歧义也可以在词典绑架为歧义表述。

白:就算吃食堂是词典绑架,但其词典定义依然是S/2N,并没因为“食堂”的加入而变成S/N,这恰恰证明“食堂”填的确非标配坑。

李:话说回来,只要句法不必调用语义相谐的大数据,而只是使用语义标配的二值判断,那不过是查一下本体,也没什么可批评的。不过就是两种各有利弊的路线 择其一而行之。

白:不一定二值啊,可以连续值,折扣么。

李:如果折扣的话,

我吃月亮
我吃石头
我吃土疙瘩
我吃面疙瘩
我吃疙瘩

这些解析结果应该有区别,而不是都降格,或都是宾语。

白:对啊,看你Ontology怎么设计的了。这与分析器无关,取决于Ontology的返回值。

李:返回标配是二值,还是多值,多到什么程度。

白:连续值,看小数点精度。但是0.2和0.3的差别,估计不足以颠覆。能够利用梯度最理想。

李:哈 你这一球踢出去 倒是轻省了,对了是我的,错了是你的。

就是说,ontology 供应商的相谐颗粒度,不一定是二值 但也不要超出太多,多了反正也没有区别,也许三值 很搭/较搭/不搭。也许四值。ontology 供应商最好是婚恋交友网站的架构师出身,懂得如何配对。

我还是没理解 从设计上为什么句法要在 “嫡系/庶出” 上较真,非要劳动 ontology,而在 “主语/宾语” 上反而不较真。反正提供的是半成品。从逻辑语义角度 语义也还是不全的。

白:我觉得这太显然了,这事儿不正是Ontology该做的吗?要站在比它们俩都高的视角看他们俩。句法和本体,我们的方法论是,句法要给出对的拓扑。为此,Ontology、情感、事理都是必要的补充。

李:细节不纠缠 逻辑语义可以算是一个唯一可以公认的语义理解的黄金标准了。arg 与 mod 的区分,本来就不是黑白分明的。这个对错 不好说。

白:但是构建逻辑语义层的输出,虽然也同样使用Ontology 、情感、事理,但是用得更重。这两个方向的用,不可混为一谈。

李:所以说是 双重使用啊,重复劳动。

说起 arg 与 mod 的嫡系和庶出 有点意思 可以展开简单说说。args 是计划内的婚生子女,主语、宾语、宾语补足语,名正言顺,所以受到父母特别关照。mods 属于计划外的秘密勾当。因此,总是 parent 去找 args,利用 subcat 的计划内指标。到了庶出的 mods 就管不过来了,只好是 mods 去找 parent。千里寻父 叫父亲太沉重。

可是这一切的句法区分都是世俗的角度,语义层面 嫡系和庶出并没有那么大的鸿沟,都是围坐在天父身边 各司其职 各有角色。所以说 句法费力气区分嫡系庶出 为的是服务语义和理解,可是 语义那边偏偏对这种区别其实没那么敏感。为啥?因为语义在分配角色的时候,更加看重本人的资质,而不是看重 嫡系还是庶出的出身。“有成分,不唯成分论”,重在个人品质。个人的品质,就是你到底离我的本体要求有多远。

白:就是因为庶出的不加标记的情况太稀疏,句法留这么多资源给稀疏的庶出,不值得。

李:反正语义那边还要政审把关,用的也还是ontology 资质审查,为什么句法还要预审?

白:此地预审,方便彼地直通。

李:我是说 费力区分 Ma 与 Mo,没多大必要性。如果这种区分 不需要劳动各种知识 那当然。如果需要费力 就不值得了。

白:从基础设施建设的角度,只为一个中间步骤建,当然越轻越好。如果建了既可以为一个中间步骤服务同时更可以为有独立商业价值的最终步骤服务,那就可以建的重一点。即使重,也包办不了落地适配。落地适配是一个既统一规划又独立实施的环节。也就是说,从一个必建的基础资源里顺手提取一些信息就可以搞定正确的拓扑,这算不得什么费力。劳动的方式非常清晰和标准化(相谐度查询),也算不得什么劳动。我们目前的算法也并不是对所有候选邻对都进行相谐度查询。只有当前动态优先级最高的邻对才做相谐性检查。

这个,显示还有点小bug,但是揭示了一个现象,就是嫡出的萝卜出现位置太远,需要许多中间步骤拉近。但一旦拉近,那个位置还是人家的,庶出的没脾气。远近并不构成威胁。把“你”挪到“食堂”后面,也是同样结果。“要是这个时间吃食堂你就只剩下包子了”,用传统句法范畴分析这个“你”,就很莫名其妙,它跟“剩下”是主谓关系吗?但是论坑,一点关系没有。它跟“吃”是主谓关系或者述宾关系吗?论坑是的,但是形式上却完全不在那些位置。甚至跑到了另一个从句的辖域里面,要多尴尬有多尴尬。谐我坑者,虽远必填。

李:好例。改造一下:

“要是这个时间吃食堂你就只剩下二厨了 大厨早就自己躲一边吃包子了”

“二厨” 比 “食堂” 如何? “包子”更远 但相谐,为什么不能虽远必填?

“要是这个时间吃食堂 大厨早就自己躲一边吃包子了。”

白:后面又出现了“吃”,截胡了,“包子” 第一次就近填坑。

李:填 “剩下”,与 填 “吃”,不都是劫持了吗?

白:“剩下”的坑,抽象度比较高,万金油。我们的说法是“置换”,就是把首次填的坑从占名额的调整为不占名额的,后续填的坑再视情况决定占不占名额。

李:就是说 对于远近两坑,还要做比较计算,来决定截住没有?

“要是这个时间吃食堂你就只剩下二厨了 大厨早就做完一屉包子回家休息了”

“做完” 与 “剩下” 差不多,都是万金油 vt,截住没有?

白:这个还真可以有。但前提是,子句之间得有依据是连接的。大厨做完了包子,不一定卖完。

李:人的理解,首选不是包子,而是二厨做的档次较低的食品。大厨做的包子 轮不到。

白:如果两个子句只是最低档次的连接(next),还真未必建立坑的共享。但是用连接词连接的,肯定可以共享。

李:有一万个理由否认,因为说话语气是可惜和后悔,想吃大厨的口福 你享受不到。谁叫你迟到呢。共享与共产共妻类似,是高危操作。

白:你那里只有空格,没有上句和下句的明确锚点,不在我们的共享白名单里面,不能建立Me,所以坑里的萝卜是带不过来的。跨小句需要白名单制。前提是:1、甲小句不饱和、2、乙小句有供给、3、两小句连接方式在白名单中。

李:嗯,虽远必填 限定在句法关系圈内,也是一说。

“要是这个时间吃食堂 厨师都出去买海鲜了。”

这个应该是 Me,因为符合 “要是...就...”句型。

白:对。

单从本体看海鲜就是加分的,但是事理是减分的。吃在买前,不符合事理。不符合事理的会减分,就看二者抵消成啥样了。

李:这个事理如何用 感觉漫无边际,“先买后吃” 这样的常识事理,何止以万计。

白:但是人就是这么判断的。这是长尾,攻击到本体的概率有限,不到落地肯定不做。

李:所以 句法一般不带入事理常识,语义语用才考虑用。

白:句法只是中间产物,又不是产品。加了边还可以砍啊。砍了边再加就不那么简单了。有一万种方法砍。一个公司既做句法也做落地,没必要维护句法的面子。整体可以就OK。句法提供的这些边,送神容易请神难。

李:就是大体了解句法模型,用到几个维度的知识,用到的维度 颗粒度如何。之前论过 维度多了就是一锅粥。如果符号逻辑最终还是一锅粥,那就不如索性舍弃符号。因为一锅粥最终丧失了符号的优势。可解释性不再清晰,可定点纠偏也丧失了。

白:还是要区分表示和控制。表示是符号的,控制是符号与神经结合的。这没什么不可以。

(未完待续...... 《李白112:白老师秘密武器一瞥(2/2)》

【相关】

白硕:人工智能的诗与远方,一文读懂NLP起源、流派和技术

文章来源:https://read01.com/AJGzNQN.html

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《李白111:范畴细化与语义相谐的知识爆炸》

白:“张三不满意李四没有表扬自己”“张三不满意李四没有批评自己”

这个是情感倾向性决定“自己”共指关系的例子。虽然,default建立得很脆弱。外面有个风吹草动就可能洗牌。比如张三和李四绑死了是一伙儿的 等等语境引入的预设。

“把鸡咬死的虫子扔了” “把鸡咬死的狐狸跑了”

李:好例。

微瑕是,鸡吃虫 论咬吗?虫无骨 没咬劲儿。

白:“中国北京是首都”当中的“中国”是啥成分?“这支队伍我是当家的”当中“这支队伍”是啥成分?

“这个人我感觉很蛮横”“这个人我感觉很舒服”

插入语一旦确立,应该封闭与外部建立hidden links的通道。什么“你知道、我认为、他觉得……”当中的你我他,都不要再花心了,安守本份即可。

李:

"有点乱,有点乱......"

想起周华健的“今天我有点烦 有点烦”。“当家”与“队伍”挂上是对的,可貌似关系颠倒了,这 S2/mCL 肯定是个?,需要 “de- de-” 的。

白:队伍和当家摘开,并不明智。

李:debug 过火了耶。句法负面影响了语义。应该弱化句法。

昨天/前天 说了,这 Topic 如果是人名, 默认就是“呼语”,如果不是人,那就是状语,什么状语?很可能表示 scope(范围)。

把“的字结构”也做过火了,结果 “的” 成了 S2(hidden subject), 反而 “我”没有直接做“当家”的主语,虽然道理上可以通过与 “的” 的 coreference 推导出来。

白:王冕死了父亲,王冕也是状语?

李:不是。王冕是句法主语(synS),不是 Topic 降格。

白:“人” 给 “队伍” 当家,这坑都在。“的”不占名额,回指到定语从句里没事的。 空出一个坑留给“队伍”。

李:那个坑感觉不强烈?“当家” 需要一个 范围。可啥东西不要范围?就跟时间 地点似的,啥事儿都发生在时空及其范围之中。

“当家” 词法上是动宾 感觉饱和了,其实不然 它词义是 manage,与其说范围,不如说需要 manage 一个对象。但是词法饱和(“家”已经做了“当”的词法宾语)的残留影响还在,所以这个句法宾语的坑只好退化为范围状语,逻辑语义上其实是【对象】的。

白:不一样。在真正一个家庭里当家,范围是默认的。在一个“拟家庭化”的组织里当家(掌权),这个组织就是需要凸显的范围。这是隐喻固化导致的,跟一般动词的范围不可同日而语。从非标配坑提升到了标配坑,于是就获得了参与句法构建的资格。

李:成葫芦了:

白:这就靠谱了。还可以画成公鸡?

李:传统 parsing 怎么可能做到这个深度?PennTree 的标注太浅,PSG 的本性也无力表达到这种深度。

群里面专门修过乔姆斯基语言学课程的朋友说说,对于这种语义谓词隐藏较深的,乔姆斯基句法是怎么最终达到他的 logical form 的?还是根本就不管,当不存在?逻辑形式的核心类似一个SVO: <我 - 当家 - 队伍>。

“这支队伍我当家”。

白:这样就可以啊:

李:N[+1] 变成 N[-1] 啊,狸猫换太子的感觉。+1 是左,-1 是右,这个指针运算还蛮溜的。

白:这是把“是”当S+使,把“的”当+S使。偏移量。残坑出自“当家”。辖域合并不交叉,指针还原就交叉了。

李:传统语言学里面的 subcat 没有这么丰富细致,CG 细化过来的,主要是词典功夫。乔老爷好像在 subcat 上没强调细化。

subcat 的范畴细化 还不够,因为范畴细化 不加上语义相谐的支持 仍然导致伪歧义泛滥。在专家词典学派看来,范畴细化+语义相谐 成为一体了,那就要求词典成为知识库,等于是把语言学词典转变为 HowNet 了。HPSG 其实就是在专家词典学派这条道上,想走 没完全走通 就式微了。

白老师是分开了范畴细化与语义相谐。可是展示的 parsing 全部是范畴细化,相谐的工作机理语焉不详。所以 看白老师的 parse 图,结论是,就这些子范畴,运算起来,这路是 “应该” 通的。其他不应该通,但实际上也通了(伪歧义等),就不在雷达上。

白:这是what,不是how。what我希望更多的人理解和支持。how的商业属性就太强了。当然,这是结果,过程中不仅使用了这些。

李:就是。

what 似乎也不齐全,只是展示结构的 what,没有展示结构的功能性(角色)。所以,作为学习,这里有两个空白需填补,一个是 how,尤其是语义相谐机制,怎么招之即来挥之即去的。另一个是逻辑语义,逻辑语义怎么在句法或逻辑的链接基础上得出的。当然这二者是相关的,前者是条件,后者是结论。目前展示的结构树图就是个架子和桥梁。

白:这是一套资源向两个方向的延展。向句法方向就是前者,向语义方向就是后者。而且是句法方向退一步,语义方向进两步。

但是认真地说,本例,真的不需要语义相谐性,纯句法层面就搞定。

李:不是说本例。所以说是 (语义相谐是)招之即来 挥之即去耶。

那个 “专家的” 或 “大数据的” 语义,像个鬼影。说是要做个不是 HowNet 的 HowNet(《知网》),数据驱动的。怎么做?

这与最近NLP主流特火的预训练 也许殊途同归?预训练是个好东西,听上去就是阳光大道。就是不知道今后几年的使用中 会遇到什么坎儿。

白:新一代NowNet,早晚要做。但是不能跟场景两张皮,必须通盘顶层设计。

李:架构上,我看好预训练,关注它的走向。道理也简单 我们一直孜孜以求的就是把语言学和领域先分开,然后再连接,各司其职。预训练就是先分开,而且不用标注语料,这个语言模型等于是在无穷语料上架设。所有的语义相谐和常识理论上都应该在预训练的模型里面(间接)反映了。

白:“他们让我从侧门进大楼”“他们让我跟太太进大楼”

“侧门”(N/N)的宿主是“大楼”,“太太”(N/N)的宿主是“我”。这要动用本体了。这俩的对比很有意思,纯句法肯定搞不定。

李:

白:侧门和大楼没挂上,侧门的宿主是building。所以building下位一定相谐。大楼小区之类。

李:知道。HowNet 都有,但不好贯彻。

不确定要多大的语义相谐合适。如果大面上说 只要是 part 就与不是 part 的 physical object 相连,那是手到擒来的事儿,怕的是副作用。会不会连得太多,因为 part 和 physical object 都是范围很大的本体概念,概括一大批语词。如果说,细化到 “楼” 与 “门”的本体,就非常相谐,没有顾虑,那就需要一个完整的 hownet 本体知识,可是 我对 hownet 的使用 目前是限制的,不想进入语义泥淖太深。HowNet 董老师自己用 得心应手,其他人用 就颇不易。

白:知识必须是机器可读的。

李:hownet 是机器可读的,或者说 形式化的。

白:机器可读的最好办法就是向一个丰富的技术栈靠拢,否则自己从头建立技术栈,得不偿失。但是董老师对此并不感冒。

李:subcat 以及 sub-subcat 的语义关联,有点组合爆炸的味道。本体自己从细到粗就是一个不小的集合(上千的 vocabulary),本体与本体的相谐 就是组合爆炸。如果组合粗线条 不会爆炸 但失去精准,如果细化 把 HowNet 全部引进,相应的规则集也有个组合爆炸的细化过程,有可能不好管理和维护。总之 现在是控制使用,不想步子迈得太大。

白:还是要区分what和how,what本身无所谓组合爆炸,只有how没做好才组合爆炸。向句法这一端延伸,只用到少量资源。机制必须是轻量级的,重了适得其反。

时代呼唤具有更好场景对接能力和顶层设计理念的新一代“类知网”基础资源。

李:语义常识是一个多大的坑啊,淹死人不偿命啊。谁设计 谁来组织去做?个人还是开源社区?最后 谁用?怎么用?除了设计 白老师可以统率 后面这些问题都还不好回答。

白:要分层,基础层给专业层用,专业层给用户场景用,但是必须统一规划。知网也没搞成开源社区。这东东,不容易协调利益。除非使用区块链。关于知识长什么样如果没有统一的顶层设计,本体和场景一定是两张皮。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《音乐心情故事:童趣回放》

女儿小时候的录音不多,仅有的几段大概在 iPod 里录的音,随 iTunes 转到了 iPhone,车上常听,与音乐一起化为岁月的记忆。

小时候就特爱说话,甚至有点饶舌,话比思维快,喜欢显摆童谣。录音里面有几个美国儿童的段子。

“boys go to Jupiter to get more stupider, girls go to college to get more knowledge.”

这是取笑男孩的。饶舌的甜甜现场发挥,富于夸张和强调:“what do you want me to say now? boys go to Jupiter , do you know the planet Jupiter? they go to the planet Jupiter, once they get there, they get supider and supider every second. And girls they go to college to get more knowledge and knowledge into their brain on their head.”

"Eeny, meeny, miny, moe,
Catch a tiger by the toe.
If he hollers, let it go,
Eeny, meeny, miny, moe.

My mother told me/says to pick the very best one, and you are not it."

这是非常流行的“选择”童谣。小孩子面对两个或多种选择的时候,不知道选哪一样好,就口中念念有词,一边用手在选择物之间轮流数着,道理上应该是童谣完了手落在哪个选择上,就选择哪个。可是,儿童的心理是微妙的,很多时候内心其实有了一个所指,为了最终得到自己想得到的,表面上还跟着童谣走,孩子们学会在童谣后面,打着家长的名号,用肯定或否定来保证自己不要落到自己不要选的东西上:如果最后落到中意的选项上,就说 “My mother told me/says to pick the very best one, and that is YOU”. 否则就改口说:“My mother told me/says to pick the very best one, and you are not it.”

可见,生活的智慧,从儿童就开始滋生。明明是自己的愿望和选择,却包装成命中注定,或听命于父母大人。

(cf: https://en.wikipedia.org/wiki/Eeny,_meeny,_miny,_moe)

"You know what
Kick your butt
All the way to Pizza Hut

While you're there,
Comb your hair
Don't forget your underwear!"

里面有个片段说学校的事儿。回家说的这个故事是小女孩玩家家的,也有微妙的儿童心理:

"I said that I am the Princess of Jewelry because one of my friends and buddy said that she looked at my jewelry I brought to school.  What happened is she was so surprised and she loved it ... she said that I am Princess of Jewelry and she is the Queen of Makeup.  Next time I am going to bring new jewelry, she said that I am the Queen of Jewelry...... No,Daddy, Jessica said I am the Queen of Jewelry if I bring some new jewelry tomorrow."

显然这个小女孩 Jessica 是精明的,有小希拉里的情商。她见到甜甜带到学校的那些“首饰”(女孩喜欢收集的那些小玩意儿),先是恭维甜甜是“首饰公主”,然后自封自己为“化妆女王”。甜属于比较傻的那种,一听恭维,高兴得不行。说明天要带更多新首饰去找女孩儿玩儿,带了新首饰,Jessica 就会封她为“首饰女王”了。可是“化妆女王”是“首饰公主/女王”的老板呀。跟孙悟空讨了个弼马温乐得不行一样,甜却非常高兴做女王的首饰运输队长。哈。

前后还有两段读书录音的回放。可以明显区别什么叫 native speaker/mother tongue,什么是第二语言。前一段英语故事读起来非常顺溜,有声有色。从幼儿园到小学一直就是英语的环境,在家里听的那点汉语无法匹敌。周末中文学校的课本文字,读起来就显得生硬。

说起来这都是十六七年前的片段了。

樱花季节,岁月如斯。

【相关】

Little Stories of Tian Tian

成长花絮

《朝华午拾》总目录

《李白110:深度解析,曲高和寡,值得吗》

白:“这首歌听过的都说好听”“这首歌听过的都说过瘾”

——什么好听?

——谁过瘾?

李:"过瘾" 这类词对人对物均可:我听这首歌过瘾;这首歌过瘾。

这就好比 -ed/-ing 混合了:exciting/excited。类似于 自动/他动 的零形式转变,“好听” 不同,只能对物。

白:“这首歌过瘾”可以看成,过瘾的正主儿没出现,但是使动的角色已经在那儿了。句法上鸠占鹊巢,本体上主客分明。

李:正主儿不重要,默认是 (令人)过瘾,这个“人”等于没说。

白:本体里“人”是出席的。linked data,首要任务就是不能掉链子。

李:本体是逻辑体系,不要掉链子。语言理解和表示,有所不同。本体等于是个认知背景,理解时候随时调用,也可以不调用。

“这首歌听过的都说过瘾 / 听过的都说过瘾 / 听过这首歌的都说过瘾 / 听过的都说这首歌过瘾 / ......”

白:句法上,不相谐并不一票否决,而只是减分。没有更好的选择,减分的选择也会顶上去的。但是在回答问题的时候,低分的选择会提示某种降低自信的折扣。

在c-command位置有多个置换候选,用哪一个自然会精挑细选;如果只有一个,横竖就是他了;如果坑已经被占满,c-command位置上无论有多少候选也是干瞪眼。

李:终于弄妥了。

此图像的alt属性为空;文件名为Screen-Shot-2019-04-11-at-2.19.32-AM.png

就是这图越来越不像树了,倒是更像那种叫四不像的动物。Topic 可以抹去的,不过感觉留下有益无害。真要逻辑较真的话,“的字结构” 与 “过瘾” 还可以连上 S 或 S2。痕迹都在,本体也支持,但懒得做了。连来连去,也还就是个 “的”字,连个名儿都没有。谁过瘾了?哦,听过的人过瘾了。 感觉没人这么问的。信息不具有情报价值,更像是从常识推导来的。常识常识,就是那种理应熟视无睹的不具备情报价值的知识。

白:推理,张三是听过的人,张三过瘾。

李:三段论是如此。就是不大容易想到啥场景会用上的,怀疑其解析价值。另外就是,语言表达中的确有清晰的情报与边缘的信息的区分,也的确有重要与不重要的区分。所以,单从语言角度看,也有一个什么一定要抓,什么可以放过的问题。所以,单从语言角度看,也有一个什么一定要抓,什么可以放过的问题。从情报性角度看,其实是不应该让常识过多介入的。常识之所以为常识,就是它不具备情报性。如果语言表达方面有意无意的漏洞或含糊之处都被常识“脑补”了,信息单元的情报性就被抹平了,主次容易混淆。

白:脑补的东西,一定有单独的标记。怎么可能允许一锅煮。“营业额超过了联想”也是需要脑补的。

李:人的表达和理解,都有很大的偷懒成分在。这一方面为了节能,节省带宽和脑力,另一方面也可能有个聚焦因素在。解析作为一个为表达通向理解所搭建的桥梁,也许也应该模拟逼近人的表达和理解中的聚焦和节能。所以 一直以来 句法以后做那些逻辑语义的 hidden links,总觉得是锦上添花 适可而止的工作。要做可以做得很深很全,特别是不断引入常识“脑补”,就有很多的 hidden links 可以挖掘。隐隐觉得这不是目标和应该着力的点。

白:不脑补,那张图摆在那里也是摆设。地球人都知道不可比,关键是,轻量级的脑补还是重量级的脑补。

李:这类例子很难说是需要解析的脑补。更大可能是在语用场景,是在领域落地的阶段,根据领域词汇和领域知识去补。这里有个区别:深度解析利用常识脑补,基本是不分领域和场景的,算是 boil the ocean。而到了领域场景,那是下一个阶段了,那里已经有场景聚焦和领域聚焦的考量了。

白:只做解析的立场和做场景的立场是截然不同的。下一阶段,未必是时间的先后,可能只是工序的先后。一个抓总的人需要同时考虑。

知网的设计者,除了翻译是直达场景的,其他很难说有多少场景驱动的东西触达了知网的架构和方法论层面。这也导致二次适配的工作量巨大。时代呼唤一个从方法论层面直接对接场景的新一代知网,or whatever 网

李:撇开MT,NLU 两大应用是:

  1. 知识挖掘 这更多是后台,离线,大数据。
  2. 对话,这更多是前台,在线,小数据。

当然,一个完整的交互系统,是两端都需要有的。现在看这两大应用,迄今为止,对于深度解析,需求不大,不明显,也许更多是因为还没找到可以利用的巨大潜力。

白:层次残缺。

需要解析器、本体、领域适配包协同工作,不能各行其是。

李:端到端的系统不去说它了,即便是想努力使用NLU的,在这两大应用中,凭实际经验看,对于 shallow parsing 的需求,远远大于对于深度解析的需求。shallow parsing 主要就是 NE 和一些 XP 抱团,这方面做好了,可以立竿见影。超越 shallow 的部分,用起来感觉不在痛点上。

也许是还没到那个火候。

白:现在的需求不是真正的需求,因为没有把各环节的潜力展现给最终用户。还是没做好。

李:总之,日常的开发实践和场景,不断把我们拉向 shallow 的工作。这些都是非常琐碎的,基本是资源堆积的领域性工作。也没有那么大挑战性,只要有人力 有资源,总是可以大兵团作战,以资源取胜。而具有挑战性 让我们着迷的深度解析,却发现性价比很差。做了白做的时候居多。

全世界都做对话系统,问题于是简化为 intent/slots,说白了,都是既浅层又领域的目标定义。intent 根本就没有语言学定义,不具备任何普遍语义。intent 完全就是根据目标应用所需要的 actions 来定义的语用意义上的“语义”,是典型的端到端的反映,没有可移植性。就是对于输入问题的一个针对具体应用(skill)的classification,1000个skills 有 1000 种不同的定义。这些是当前的“范式”,浅得不能再浅,但证明是可以 scale up 和有效的,前提是有资源去做。

“听过这首歌的都说好听”:

“都说听过的这首歌好听”:

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《语义群笔记:端端的端到端》

白:“盼望长大的童年”

本来是歧义,常识把它变成了伪歧义。“长大的”和“童年”不搭。

李:“盼望长大的童年”,可以问:1. 谁盼望长大?-- 童年;2. 盼望【谁】长大? -- 童年;3. 盼望 可能有两个 【human】 的坑。类似的例子有:“盼望到来的幸福” vs “盼望幸福的到来”,当然 还有一个 盼望- 长大(了)的童年。

虽然说似乎不合常识,概念来点弹性的话,也不是说不通:童年的定义里面虽然有没长大的意味,在类比和修辞的意义上,两个概念可以做各种关联和联想。事实上,“不搭”才是诗意的简单有效的手段,保证了想象的空间。

"这就是我那位想买你别墅的朋友"

白:【打败你的不是天真,是“天真热”!】

李:不是天真,而是天(真)热:

白:“它是一个不断松弛的过程,到头来,已经没得松可驰了。”

李:没得松可驰了 还是 没得弛可松了?没得澡可洗 从来不说 *没得洗不澡。当然 “松弛” 虽然 比照 “洗澡” 的动宾离合词 但自己并不是动宾 而是并列,因此 换位了也不觉得。没得学可习 还是 没得习可学?

成语活用 只要愿意花时间 不是问题 问题仍然是 有多少用场。

Lai:@wei 有什么深度学习有效的方法可以发现这些Dependency?

李:不知道 据说只要有标注 就不是问题。

郭:斯坦福的陈丹琪(danqi chen)和她的导师Manning有个深度学习的dependency parser。应该算state of the art。开源,是stanford coreNLP的一个模块。

谷歌基于这个工作,做了个大数据版,据说准确率“超过人类”。也是开源的。

李:标注可以让目前的系统先自动做,让人去修正(只修正黑白错误,不修正模糊地带或不清晰的地方),这会大量节省人工,所以数据也不是大问题。最大的问题是,这些 dependency 出来了,懂得如何派上用场的 不多。在大半个世界都迷信端到端的时候,缺乏资源去用的话,parsing 就是面壁十年的玩偶。

白:端到端不是问题,问题是端不能容纳结构。

李:神经MT 就是一个端到端典型示范。一端是串 另一端还是串 为什么要容纳结构。只要有可以监督的数据 信息抽取也是如此。

白:关系抽取不是这样的。

李:以前一直以为抽取乃是我结构的长项。最近朋友问我 如果是抽取关系,现存数据库就有亿万,表示 locationOf,whereFrom,bornIn,bossOf 等等关系。这些关系的两端 都在数据库里面,用他们去找语言数据 可以产生难以想象的不用人工的标注大数据。结构的路子一定可以匹敌这种大数据?我觉得很难。这与mt可以一比。

还有一些端到端 结构无从下手 可是端到端可以派上用场,譬如 图片转文字看图说话,和文字转图。这些事儿 有了结构也难以缩短距离。玩结构 玩理解 应该在小数据 多变的domains 以及数据虽大 但无法监督的情况下。这时候 人家“端端的” 根本就不跟你玩,视而不见。另一个就是 打下手 做小三。在人家玩剩下的某些短板上 玩补充作用。譬如 mt,张冠李戴这类问题 可以帮上忙。

神经mt最不可思议的突破是顺畅度。这是当年认为mt无解的一个方面。突破带来的副作用是损失忠实,这点损失 符号结构派其实可以擦屁股的。结构派有个貌似真理的预设,自然语言千变万化 唯有结构化才可以变得 tractable。这话实际上并不尽然。结构化的确可以导致 以较少的patterns 捕捉较多的现象,可是 对于“端端的”系统 对于海量容量和算力 这种 generalizations 的意义大打折扣。推向极端 如果有个现象 两个 patterns 可涵盖一千个变体,如果我真有充分的数据 可以看见这一千个变体足够的重复,全部记住了 或者用另一种非符号化非规则化表达了 embedding (嵌入)抽象了,那么那两条 patterns 还有什么优势呢?何况 符号规则化的本性就是不够鲁棒 免不了漏掉点什么例外。

还有个有意思的现象。以前老以为 起码起码 结构化总是帮助提供了更好的基础 总是归纳了很多现象 没有功劳有苦劳。这个苦劳认不认不重要,客观情形是,满世界没几个人有兴趣利用,一多半也因为没几个人懂得怎么利用和消化,包括业界学习方面的牛人,曾经私下交流过,回答说,引入结构说起来应该有好处,但不好融啊。

绝大多数的端端学习系统有自己的一套比较成熟的 有广大community主流不断集体探索和积累的基于一包词或ngram的各种模型 算法和工具,语言结构横插进来,有异物感,heterogenous evidence,增加了模型复杂度,很容易得不偿失。

牛的 parser 能够开拓市场和被大家接受估计需要相当一段时间,其契机可能是: 1. 端端系统遇到瓶颈或死胡同,不得不探索其他路子的时候;2. 主流中的少数坚持探索利用结构或者结合AI理性主义和经验主义路线的融合派,在算法研究中取得了突破性进展,带动整个领域”产业升级“到结构化。

在此之前,基本上是自产自销,内部消化,用于目前主流“视而不见”无所作为的短板应用场景。(其实很不少,甚至 text NLP 中端端最成熟的 MT,进入领域由于缺乏数据也有很大短板。)

吕:@wei 大赞。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《岁月如歌: 美错 / 雪落下的声音》

喜欢王菲的《美错》,后来周深也唱得同样好,为此自己编制一枚音乐风光片试试,背景是硅谷高尔夫乡村俱乐部(高档社区)。特别喜欢《美错》的歌词,为此曾经在白老师的语义群里 parsed 过玩儿。

本來相約他在海邊山盟海誓 卻找錯地方來到一個游泳池
滿眼湖水藍的美麗 你我就從那裡開始 藍色的漣漪鋪展一段回憶
你送我偶然從天而降的隕石 我一直誤會那是顆完美鑽石
不曾看見它的瑕疵 把它鑲在我的戒指 我也沒發現 有什麼損失讓我感情用事 理智無補於事 至少我就這樣開心過一陣子
不管他是真的你是假的誰是目的地 能自以為是也是個恩賜
不是來的太快 就是來的太遲 美麗的錯誤往往最接近真實
儘管昏迷有時夢醒有時不堅持 人生最大的快樂也不過如是
所謂醉生夢死 大概就是這個意思

为什么 NX(接续) 不是 C(宾补)?怪就怪词作者用的是 “相约” 而不是 “约”。大概是凑个双音节吧,句法就突破一点了。接续就接续吧。

很虚的小词(e.g. indefinite,默认),和已经 feature 化(e.g.【转折】)的小词,过河拆桥,扔掉。

这个 “的” 估计是 “得”, 可 “美丽” 并不是 typical 补语。解为 ((满眼)的 ((湖水 蓝)的 美丽)),也通。

鑲+在 合成动词,前者带过来一个 O 后者带来一个 C(locative),非常常见的构词方式。

从来没听说有人拿陨石当钻石送给女友,而女友居然把陨石镶嵌到戒指上。这段 romance 好奇异。

作为“外一首”福利,再来一枚风光音乐片,这次是周深的《雪落下的声音》:

美死人不偿命,据说天堂不过如此。对于住进去提前进入共产主义的一批硅谷码农特权阶层,他们无一例外全部蜕变为修正主义分子。

乡村俱乐部离硅谷市中心不过15分钟车程。朋友说 这个社区其实并不贵 山顶上的那座宫殿不过两千万美元 中等大屋两三百万。次贷危机那阵子好多法拍屋 也就一百万美元 比京上广别墅便宜太多了。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《立委科普:语音交互时代是NLP的历史机遇》

越来越喜欢语音交互 这两天玩 Siri,Google Assistant,感觉还是搜索公司做语音交互更有前景。

为什么?因为搜索公司的知识源积累雄厚,不是其他 players 可比(不知道百度是不是以自己的积累优势 推出啥 assistant)。这是问题的一面,搜索公司做交互从回答开放问题方面,有天然优势。问题的另一面是,从问题解析角度看,搜索公司传统的优势不再。这给社交媒体公司和NLP创业公司留下了机会。以前做文本NLP,虽然可以 argue NLP 赋能的SVO搜索,可以大大提高关键词搜索的精准,但总体上感觉NLP想进入搜索,是针插不进的。

白老师说:这是商业模式问题。关键词作为标的,太成熟。

商业模式之外,还有个重要原因。很多年来,受众都被搜索公司潜移默化了,通过query log 可知,搜索框里面的 queries 绝大多数不是“人话”,就是几个关键词,而且搜索的人,越来越不管语言的词序与小词,因为经验教训都是词序和小词没用。这就使得NLP失去了合适的对象,优势发挥不出来。这边厢 关键词技术以鲁棒和长尾见长,NLP 真地是难以实现价值。可是,语音交互时代不同了,人开始越来越多学会直接跟机器对话,这时候,自然语言回归“自然”,被搜索公司洗脑的坏习惯 在语音交互中难以持续。

这给了 NLP 以机会。

以前老觉得NLP做文本比较成熟,来了语音转文字,多了层损耗。可现在语音技术成熟了,这点损耗不算啥。考察现有的交互系统,卡壳的地方多出现在 NLP 而不是语音转文字方面。

看目前 Siri 的水平,相当不错了,蛮impressed,毕竟是 Siri 第一次把自然语言对话推送到千千万万客户的手中,虽然有很多噱头,很多人拿它当玩具,毕竟有终端客户的大面积使用和反馈的积累。尽管如此,后出来的 Google Assistant 却感觉只在其上不在其下,由于搜索统治天下20年的雄厚积累,开放类知识问答更是强项。

最近测试 Google Assistant 的笔记如下。可以说,道路是曲折的,前途是光明的。

对于相同的刺激 回答不同 感觉是随机在同义词话术中挑选。

哈 nlp 卡壳了。搜索公司的backoff法宝就是搜索,卡壳了 就改成搜索结果。

卡壳以后 退到搜索以后 搜索结果有个质量控制,可能的结果做了排序。如果觉得搜索质量不高 或找到其他痕迹发现问题不适合做搜索。就用话术装傻:My appologies ... I don't understand(对不起 先生 我没听懂)。所谓“话术”,人工智能历史上称为“巧妙的欺骗”(artful deception,见《Church:钟摆摆得太远》)。这种欺骗是实用系统的永不过时的法宝之一。

thankful 的表述今天没听懂 但迟早会通过 bug 积累反馈过程 被听懂的 所以只要系统持续维护 机器对于日常会话 就会越来越应答自如 这一点没有疑问。语音交互虽然不像AI泡沫期望的那样立马改变我们的生活 但人机语音交互越来越渗透到我们和我们下一代的生活中 是一个自然而然 不可逆转的趋势。

知识问答 特别是开放类新闻查询 搜索的拿手好戏 这种搜索回应 不是退而求其次的后备应答 而是首选的答案。

所有话术都那么具有可爱的欺骗性,until 最后一句,莫名其妙回应说 this isn't supported.

(顺便一提,上面终于发现一个语音转写错误,我跟 Google Assistant 说的是,you are both funny and sometimes amusing. 她听成了 and sometimes I'm using. 从纯粹语音相似角度,也算是个 reasonable mistake,从句法角度,就完全不对劲了,both A and B 要求 A 和 B 是同类的词啊。大家知道,语音转写目前是没有什么语言学句法知识的,为了这点改错,加上语言学也不见得合算。关键是,其实也没人知道如何在语音深度神经里面融入语言学知识。这个让深度学习与知识系统耦合的话题且放下,以后有机会再论。)

这就是胡乱来了。测试下来 发现句子一长 系统就犯糊涂。10个词以上就进入深水区,常常驴唇不对马嘴。

可是 即便后备到搜索 也不至于如此不堪啊 一点 smoothing 都感觉不到 整个一个白痴。再一想,估计是我原话中提到 long sentence 它给我找来一个讲 grammar writing 的博客。

所谓语音门户之战,看样子是个拉锯战,可能是持久战。呈两极三角态势。一极是搜索巨头,谷歌、百度,手里有海量知识和答案。另一极是社媒或零售巨头,离用户近,腾讯、脸书、苹果、亚马逊等。他们可以把端口部署到千家万户去。这两极各有优势,可以长期对抗下去。三角方面,似乎还有一个角,是给NLP技术或创业公司留着的。谁知道呢,也许在用户和知识源都不具备优势的时候,技术型公司会以NLP的亮丽表现异军突起,帮助或联合其中一极成就霸业,也未可知。

haha LOL,简单即王道。

王道是要有出口。上面的乱套是系统设计的毛病,不是AI自身的问题。

又看了一遍上列“简单为王”的反AI宣传片,又笑了半天。前后两个问题,其实是两种解决方案:前一个是产品层面的。产品设计需要有个 accessibility 的机制。当主人因故说不出话或说不清话的时候,应该有个类似为残疾人准备的后备机制。这方面苹果 iPhone 做得很好,它的 accessibility features 非常丰富 考虑到很多场景和小众残疾或不残疾的另类用户。第二个问题的解决方案是技术性的,机器人应该识别主人的声音,默认只听主人的指令。从产品层面看,起码应该是个可以 configure 的选项,不应该听到声音就去执行。

总结一下自动解析所依据的语言形式是什么。主要是三种:

1. 语序
2. 直接量(尤其是小词和形态)
3. 特征

前两种叫显性形式,特征是隐性形式。语言形式这么一分,自然语言一下子就豁然开朗了。管它什么语言,不外乎是这三种形式的交错使用,比例搭配和倚重不同而已。所谓文法,也不外是用这三种形式对语言现象及其背后的结构做描述而已。

摘自《自然语言答问》(to be published)

被搜索巨头20年潜意识引导/洗脑,人上网搜索的 query,第一不讲究语序,第二扔掉了小词(知道小词是 stop words 基本上被关键词索引忽略 有它无它不 make difference)。这就使得 query 其实不是自然语言,不过是一小袋词的堆积。作为显性语言形式,小词和词序很重要,因为自然语言很大程度上依赖语序和小词这样的语言形式,来表达句法结构和逻辑语义。这么一来,query 不是自然语言技术施展的合适对象。

在不知不觉就会到来的语音交互时代,query 被语音的 question 所取代,自然语言复归“自然”,这就为NLP/NLU发挥作用,创造了条件。人会不会把上网用的 query 坏习惯带到语音交互的现场呢?考察语音交互现场,可以发现,基本上人机对话的时候,有意识背离自然语言规范的做法,是很少见的。人说话虽然并不总是特别规范,但是从学会说话的时候就开始积累的语言习惯是难以人为改变的。至少不会像 query 那样“变态”和偏离自然语言。

这是NLP的福音。

回顾一下,历史上看NLP走出实验室的落地历程,大多是遇到特殊的机遇。第一个机遇是信息抽取(IE)。在IE诞生之前,NLP面对大海一样的语言,漫无目标,是 IE 让 NLP 瞄准实际的领域需求,预定义一个狭窄的清晰定义的情报抽取范围和种类。第二个机遇是大数据,不完美的NLP技术遇到了大数据,使得信息的大量冗余弥补了引擎质量的不足。第三个机遇深度学习,仍在进行时,现在看来海量语料的预训练可以帮助模型捕捉千变万化的语言表达方式。第四个机遇就是移动时代和物联网的到来,这使得语音交互开始渗透到人类生活的方方面面,反过来促进了NLP技术充分发挥其潜力。

有意思的是,与其说搜索巨头用一个小小的搜索框“教育”或误导了用户的查询习惯,不如说是用户在不断的搜索实践中适应了关键词技术。其结果就是那不伦不类的搜索 queries 的出现和流行。既然用户会通过正向反向的结果反馈,来慢慢适应关键词搜索不懂自然语言的短板,可以预见,用户也会慢慢适应不完美的自然语言语音交互。

怎么讲?

如果同一个问题有100个问法,其中80个问法是清晰无误的,20个是有歧义的,用户会慢慢学会回避有歧义的问法,或在第一轮被误解以后,会迅速返回到更加清晰的80种问法范围来。如果这 80 种问法,机器只涵盖了 60 种比较常见的,久而久之会出现这样的情形:一方面,只要机器还在持续维护和bug fix 的反馈回路上,所涵盖的边界会慢慢扩大,从 60 往上走。另一方面,用户也会学乖,慢慢倾向于越来越多使用更加常用的,已经被反复证实的那些问法中去,回到 60 的边界内。除了恶作剧,没人存心为难自己的助手,毕竟交互的目的是为达成目标。这样来看不完美的NLP技术,面对真实世界的场景,我们是有理由乐观的。

所有的软件系统,一个最大的好处就是可以确定地说,明天更美好。除非是非良定义或设计,同时开发维护过程也是非良的操作规程,软件的质量永远是上升的,最多是爬升趋于缓慢而已。因此,今天我们取笑的交互实例,我们为机器的愚蠢所困扰的方方面面,明天后天一定会逐步改良。

唯一感到有些可惜的是,语言工程本来是一个打磨数据的过程,很多工作应该可以共享的,避免重复劳动。但实际上,这种重复劳动还在大面积进行中,而且很长时间内,也看不到资源共享的理想平台、机制和架构,虽然预训练的资源共享看上去是在这个方向上迈进了一步,但有效利用第三方的预训练资源,帮助落地到本地产品和场景,依然是一个挑战。

【相关】

《Church:钟摆摆得太远

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【一日一析:谁是谁同桌?】

白:“同桌偷了张三一块橡皮给我。”“张三偷了同桌一块橡皮给我。”

谁是谁同桌?

“同桌偷了张三一块橡皮给李四。”这个能说不?如果能,谁是谁同桌?

“张三逼同桌骂了李四一通”,张三的同桌无疑。“张三逼同桌骂了我一通”,含糊了,我的同桌也是可能的。说话人一直是“在场的(present)”,所以先行的语境里有这么一号角色在。“张三逼李四骂了同桌一通”,似乎又是李四的同桌了。先行与否、就近与否、旁路与否、一直在场与否,都对填这个坑的候选萝卜有影响。刚才列举的选择不同也说明了:兼语式的主支(含兼语动词的那一支)不是旁路,和介词短语不同。

“同桌当着张三的面骂了李四一通。”

好像,既不是张三的同桌,也不是李四的同桌。

李:解析器觉得是李四的同桌,大概是因为张三沉底了:

(解析忘了把 hidden link 加上,谁当着张三的面?“当-面”的逻辑主语是“同桌”。这个bug容易fix,结构很清晰。)

所谓伴随情况状语(attendantR),是附带性的谓词,与主句谓语不在一个层次。从句法层次角度,“同桌”更应该是“李四”的,虽然物理距离更远。当然,人的理解机制有点一团浆糊的味道,其实没必要把人的理解神圣化。在诸多因素参与角力的时候,人的认知理解和判断其实不是确定的,因人而异,因背景而已,甚至同一个人也会因时而异。

在物理距离与句法层次的较量中,不同的人有不同关联和解读,是正常的。这个加分减分的较量,即便有一个机制去计算,也没有一个确定性的目标去最终评判。最多是企望有个理解的容忍范围。何况,对于 heterogeneous evidence,整出一个合适的加分减分的算法,一直以来就是挑战。把不同层面的因素,整到(投射到)同一个平面折合成统一的度量,然后根据这些因素之间的冗余性,打合适的折扣,最终能做出一个最优结果,同时又能讲出道理来,听上去就让人头皮发麻。

寄希望于深度神经,哪怕“讲出道理来”这一条暂时达不到也行。

白:“同桌”挖了一个坑,这个坑回指(先行词填坑)时是清晰的,预指(后继词填坑)时是模糊的,一般都是说话人(“我”)填坑。如果硬要别人填坑,除非语境有所交代,否则默认说话人填坑好了。回指的规则就是所谓“最近提及+类型相谐”。

“李四骂了同桌一通”,同桌是李四的同桌。“同桌骂了李四一通”,谁的同桌就不好说了。但说话人的同桌是标配。

李:

白:旁路上的先行词,待遇差点儿:“张三当着李四的面骂了同桌一通。”好像还是张三的同桌。

李:如果所模拟的人的理解过程就是浆糊,再牛的算法,加上再大的数据,也没辙。也许,有些牛角尖不值得钻。如果是语言理解多项选择问答题,大概是这样:

问:“同桌当着张三的面骂了李四一通”这句中,谁是谁同桌?

答:

  1. 张三的同桌 (A)
  2. 李四的同桌 (B)
  3. 未知人的同桌(不是张三也不是李四的同桌:!A & !B)
  4. 既是张三的同桌,也是李四的同桌 (A&B)
  5. 不是张三的同桌,就是李四的同桌 (A XOR B)
  6. 任何人的同桌 (一团浆糊,语言未指明,A|B|..., 但不care)

【Parsing 标签】

1 词类:V = Verb; N = Noun; A = Adjective; RB = Adverb;
DT = Determiner; UH = Interjection; punc = punctuation;

2 短语:VP = Verb Phrase; AP = Adjective Phrase; NP = Noun Phrase;
VG = Verb Group; NG = Noun Group; NE = Named Entity; DE = Data Entity;
Pred = Predicate; CL = Clause;

3 句法:H = Head; O = Object; S = Subject;M = Modifier; R = Adverbial;
(veryR = Intensifier-adverbial;possM = possessive-modifier);
NX = Next; CN = Conjoin;
sCL = Subject Clause;oCL = Object Clause; mCL = Modifier/Relative Clause;
Z = Functional; X = Optional Function

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【一日一析:“新买”、“新建”与“新修”】

白:“张三在北京新建的高科技园区里工作。”

“张三在北京新买的别墅里有两个菲佣。”

“张三在北京新建的高科技园区开工了。”

不能指望一本道了。必须走不齐。

李:谁买的?一定是张三吗?其实,也未必是张三新买的。非常有可能是他老爸老妈给他新买的,尤其在这个物价高企、啃老盛行的年代。

定语从句中的 args 毕竟非主线上,不是信息交流的要点。定从属于附带信息,除了较真的人,面对这类句子,没人去问谁新买的,或谁新建的,这样的问题。因此,没有答案,或答案模糊也没什么不可以。

“张三在新修的长城上拍照。”

为什么后者的主语施事不是张三?也许随他去。定语从句的 args 没那么要紧。

白:别墅那个,谁做了买的那个动作(谁付的钱,付的是谁的钱)其实不重要,张三取得了什么性质的产权也有得扯,但是张三达到了买别墅的效果,by default就是张三买的,如果有其他角色出来认领买的动作,可以override。没有就是他了,句法只能帮到这了。但即使有override发生,句法的贡献也不是负面的,只是说大家遵守的就是那样一种逻辑。

就好像,没说是什么鸟,我推断该鸟会飞,总是合情理的。你说出是鸵鸟,刚才的推断虽然被override了,但在信息不足的情况下做出那样的推断并不是一个bug。

李:"句法的贡献也不是负面的",不错。不过,对于确定性不大的贡献,要看其求解难度来定是不是值得去做。往往可能费很大力气做出一个不重要或没啥实际价值的结果。更要紧的是,这样钻牛角尖,很可能弄巧成拙。细粒度是个好东西,但过细可能使系统精巧而脆弱。

ha 不该来的来了:“张三”新修(“长城”),“张三”没“拍照”?

“新买” 与 “新建” 的细微差别,使得一个单个的实体(“张三”)做不做逻辑主语 成为问题。这种粒度的知识推理实在太细了。到了“新修”,单个实体与群体似乎都可以做逻辑主语,这时候还要进一步看“新修”的对象是个啥东西。如果对象是“长城”,单个实体不可能做逻辑主语,如果对象是“厨房”,单个实体又可以了。细细琢磨人的认知心理,上面这些逻辑链条都有道理。值得去模拟求解吗?退一步看,虽然人的认知的确有这些细微差别,但是另一方面,人其实也不 care 这些细微差别。

白:“在北京”去掉了性质就变了。在……里,是一个形态显著的框式结构。“北京”融化在“……”之中,而且不排斥填“新建”的坑。另一个,“北京”填“新买”的坑不那么靠谱,所以让出来给外面的“张三”以机会。并不是光杆儿在比优先级。是里面发生了吸引/排斥,连锁反应传导到了外面。

【Parsing 标签】

1 词类:V = Verb; N = Noun; A = Adjective; RB = Adverb;
DT = Determiner; UH = Interjection; punc = punctuation;

2 短语:VP = Verb Phrase; AP = Adjective Phrase; NP = Noun Phrase;
VG = Verb Group; NG = Noun Group; NE = Named Entity; DE = Data Entity;
Pred = Predicate; CL = Clause;

3 句法:H = Head; O = Object; S = Subject;M = Modifier; R = Adverbial;
(veryR = Intensifier-Adverbial); NX = Next; CN = Conjoin;
sCL = Subject Clause;oCL = Object Clause; mCL = Modifier/Relative Clause;
Z = Functional; X = Optional Function

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【语义小品:首尾相接,天涯若比邻】

白:“姐姐走了小明很想念。”

想念谁?怎么建立起来的填坑关系?

李:首尾相接,天涯若比邻。假设输入文句的词串如下:T1 T2 T3 …... Tn, 首尾相连的示意图如下所示:

处于句首位置的名词性萝卜“姐姐”(通常所谓 主语或话题),正好可以跳过句点填补处于句末的谓词“想念”闲置的坑,作为其逻辑宾语。赞曰:句首萝卜句末填,万水千山只等闲。

“姐姐说走就走了 头也不回 我们都知道可怜的小明很是想念。”

白:“姐姐穿一件貂皮大衣 闪亮的高跟长筒靴在张三身上踩了一脚 扬长而去 李四甚是同情。”

事理角度,同情弱者,不在乎首尾。

李:“姐姐穿一件貂皮大衣 闪亮的高跟长筒靴在张三身上踩了一脚 扬长而去 李四甚是鄙视。”

说首尾相连 是说一种搭配趋向。不应该参入人为语义因素来看这样的 heuristic,那样的话 啥都说不准了。

君在长江头 妾在长江尾。其所以会有越过远距离有这种呼应,是有结构认知的依据的。首尾分别暴露在外,没有两端外的顾忌。这是其一。其二 语言结构嵌套,无论右递归 还是中心递归,最外面的两个 tokens 是天然的最大括号的承接者。如果一个恰好有坑 一个又多出个萝卜 那就离绝配不远了。

白:结构因素和认知因素、事理因素应该通过某种折算,摆到同一个平台上来。势力较量,无非加分减分。分值至上。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《语义小品:什么是隐含歧义?》

宋:


李:哈 hidden ambiguity,八角 vs 八/角。

白:要是语境含糊一点,未必不可以。这么清晰的语境,不激活都对不起作者。

李:当年八角就能炒一桌菜。一个整劳力天不亮上工 做到天黑 才能挣七毛八分钱呢。八角可能炒不了一桌菜(看什么菜了),够炒两三盘菜是肯定的。猪肉是7毛三分钱一斤 很多年不变的价格。一盘青椒肉丝 三两肉足够了。蔬菜比肉便宜多了。所以 不好说遇到“炒菜”的语境,八角就定死了。

钱是万能的,无处不在:八/角 不是一笔小钱。香喷喷的烤红薯大约一条5分钱,最多一毛钱。冰棍3分钱,奶油雪糕5分钱到一毛钱。

白:如果是投币智能炒锅,往锅里放八角钱很正常。此锅里非彼锅里。没有什么是定死的,都要看各方较量。语境只是加分而已,说不定别人加分更多。

李:正好用来说明隐含歧义(hidden ambiguity)呢。

a salt of fun...lol

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《哭送董振东老师》

董振东先生(1937-2019)

噩耗传来,人还在路上,深为震惊,感觉脑袋嗡嗡的。当时我刚下高铁,是我老爸最先传来的消息,比各群都早。老爸肯定是关注了中文信息学会的。他也常听我谈起过董老师。

老友尼克提议我写纪念文章。追随、受惠于先生三十载余,心中的怀念,千头万绪,从哪儿说起呢?

89风波后不久,第二届机器翻译高峰会议在德国慕尼黑举行。我代表刘倬老师在会议上介绍了我们的翻译系统,董老师也到会。会后,我们应邀去荷兰BSO公司的多语机器翻译小组,参加他们的 Chinese week,讨论把中文加入到他们多语计划中的议题,以及探讨中文处理的挑战(见《朝华午拾:欧洲之行》)。

很多年后,董老师给我来信说,孩子们整理老照片,翻出来一张在荷兰的合影,感觉很珍贵。Witkam 就是照片上的BSO项目组长,当年是他从欧共体争取到机器翻译项目的基金,BSO公司 match 另一半,这才成就了他们以世界语为轴心语言的多语言机器翻译项目的五年计划。其中的中文部分就是我为他们做的依存关系文法(我的《朝华》系列有记述【一夜成为万元户】:全是纸上谈兵的一套,但也勾画了中文形式化的雏形(见:【美梦成真通俗版】)。当年董老师对我的这个工作赞许有加。

荷兰BSO多语机译项目组长Witkam,董老师与立委(1989)

我也回寄了一张在高立公司一起做机器翻译项目期间的临别合影。高立公司那段是个机缘,我得以与董老师在地下室改造的办公室相处几个月,亲聆教诲。

高立公司CEO,刘老师,立委,董老师(1991)

那是 2013 年四月,董老师回信说:

谢谢。对我们而言都是非常珍贵的照片。那年我已54岁,但体力脑力还不错。又一个20年过去了。我还在想再挑战自己一把。至少我会把我们的基于HowNet的机译系统,一直做下去,看看最后会到一个什么程度。上次回去领奖时去看望了刘老师,他提及所里建议他还是再带学生。他觉得没有课题,经费不好弄,他没有应承。我回来想了想觉得他也许还是干点什么好。也许会开出个什么新天地。

我想你一定很忙,刚回来。Kaplan我已写过信了。他没有回信,只是把我的信转给了Weiner,即当年Microlytics的经理。我向他们解释了那年的事情。他们也就理解了。我也算放下了。

最近接到学会来信,2013年的计算语言学大会,看了他们的征文内容,觉得想说点什么,等我写了,也给你转去,供参考。

家里热闹了一番吗?女孩大了,不好太管。

振东

上周问过你Ron Kaplan的email地址,你知道吗?那年他还是在Micolytics时,我在中软曾与他们经理谈过一个很好的生意,可惜被六四给搅黄了。当时还没有法子跟他们解释。我一直觉得过意不去。

我的回复:

2013/4/27 <[email protected]>

>>谢谢。对我们而言都是非常珍贵的照片。

我把这张照片还有其他一些老照片加入了博文《看望导师刘倬先生》

>>那年我已54岁,但体力脑力还不错。

那应该是 HowNet 的酝酿阶段,记得您当时提过几次设想。

>>又一个20年过去了。我还在想再挑战自己一把。至少我会把我们的基于HowNet的机译系统,一直做下去,看看最后会到一个什么程度

上次您提到可以用一些细致分类去解决结构歧义(PP-attachment 类的问题)。也许仔细做是可以的,但是我觉得结构歧义的根本出路不在人工的 taxonomy,而在统计:因为结构歧义说到底是三角恋爱,最终谁与谁结合决定于语义拉力的相对力量对比,而这种AC与BC相对的拉力是无法事先计算出来的,因为有太多组合的可能性。但是,AC 或者 BC 各自的拉力是可以通过大数据事先学习出来的(本质上是 lexical coherence acquisition)。只要有一种机制让这种统计信息在结构歧义的现场提出来做对比,理论上可以解决这个问题。这比用细致的语义features去人工调试应该有效合理一些。

事实上,这种机制目前已经可以实现。当然实现起来还有些繁杂,代价还需要考察。

>>。上次回去领奖时去看望了刘老师,他提及所里建议他还是再带学生。她觉得没有课题,经费不好弄,他没有应承。我回来想了想觉得他也许还是干点什么好。也许会开出个什么新天地。

这次看望刘老师,感觉还是苍老、迟缓很多。估计他也没有足够力气了。我理解您的意思,搞了一辈子科研,即便退休,最好也别完全停下来,除非有别的爱好。可惜的是,我们很多人除了做系统,都没有什么其他爱好。退休生活容易寂寞。

再谈

学生:维

与董老师长达30多年的交往,除了生活上的问候外,我们谈的最多的还是专业。董老师是性情中人,富有幽默感,常让人忍俊不禁。记得当年谈到他的译星,董老师说那才真正是自己的孩子,呕心沥血的结晶。接着笑道:儿女不算,为啥?那是“自然灾害”的结果。可是很多年以后,他又跟我说到孩子的话题,希望我有机会带董强一起干,列举自己孩子的优点缺点。最后不忘补一句,自己的孩子,瘌痢头也是好的。

在中国机器翻译的历史中,我的导师是开创者:刘涌泉老师1957-1958年开始组建团队,从外语学院挖来了刘倬老师,还有一位早逝的高祖舜老师,1959年第一次实验成功,三人后来合著《机器翻译浅说》一书(日本从事MT研究的时候作为主要参照,译成了日语)。董老师应该是60年代的某个时间点,作为黑龙江大学外语系的老师,参加了两位刘老师的MT项目。董老师对两位亦师亦兄的刘老师非常尊重,去年还跟我提到不久前曾分别去看望两位,表达敬意。

董老师青出于蓝,后来在军科院率先把MT落地为开放型软件,成为中国MT和NLP的领军人物之一。从国际交流来看,董老师在很长的时期是中国NLP的大使,是与国际学界的接口。

当时,董老师从军科院的“科研一号”实用开放型英汉机器翻译原型系统,到中软真正落地,推出第一款商品化软件“译星”(TranStar),给当时全国近十个MT团队做出了榜样:MT 可以走出实验室。

与董老师同期推出的还有一款“非主流”系统,是工程师出身的刘孝叔先生编制的,也放到中关村橱窗上卖出去过几套,但影响小多了。刘孝叔先生的故事,以前在这个群里作为掌故说过(见【把酒话桑麻,MT 产品落地史话】)。

译星是一个里程碑。

董老师后来跟我说过其中的经验体会。最主要一条就是不能原地打转,要抓大放小,研发到一定的阶段,迅速扩大测试集,开放系统给其他人测试,在错误中成长。

译星之前的研发,实际上都是在非常小的开发集上做,当年也不分开发集与测试集,系统通常也不开放,所谓的学术成果鉴定会,大多在一个封闭集中,抽取几个样例进行。以前的机器条件也差,常常是输入一个句子,鉴定组成员出去喝了咖啡回来才能看到结果。

董老师的“科研一号”是第一次把系统开放给评委专家来测试的事件。这在当年是需要底气和勇气的。

我还清楚记得跟着刘老师去军科院参加“科研一号”系统评测的情景。礼堂外展示了系统的过往翻译样品和系统说明。礼堂内专家们用不同的句子挑战系统。对于系统的开放测试,印象非常深刻。

董老师与台湾的苏克毅教授关系很好。董老师跟我说,你看,苏教授自己凭着对MT的 passion 开了家翻译公司,软件虽然做得并不精细,但他敢于大胆使用,不断迭代。

80年代末,高立公司来找刘老师合作,决定根据刘老师的 JFY-IV型专家词典为基础的 MT 来做新一代机译产品。那时候,我们已经从董老师的开放实践中学会了放开脚步。此前我们为几百句可以反复打磨一两年。

董老师自己也承认,从设计上,刘老师的专家词典系统比“译星”更胜一筹,更具有潜力。他也受邀参与了高立的计划,但那时候,他的重点已经有转移,开始酝酿《知网》(HowNet)了。他觉得机器翻译的基础知识资源不足,需要从根子上加强语义词典。这一做就是30年!

知网》对跨语言概念精细分类,以义元及其关系为人类常识编码,建立了一个形式化的本体知识体系和逻辑语义表示。它是非人力可为的天才杰作,是上帝之光对董老师的眷顾,是中国对人类文明的贡献。说深度神经三位先驱者坐了20-30年冷板凳,终于迎来了图灵奖(见《图灵奖颁给熬过寒冬的人》)。董老师坐了30多年冷板凳,还基本上是藏在深山人未识。《知网》未必不是一个图灵级别的对于人类认知的贡献。我以前说过,“可以预见,将来某个时候,当机器翻译和自然语言理解的应用项目穷尽了浅层可用的低枝果实之后,知识系统将会被进一步发掘、利用和欣赏。”(摘自《语义三巨人》

知网》是董老师的不朽丰碑。

我91年出国以后,就流浪天涯了,从英国到加拿大,与国内的亲友和师长都难得联系。但出国前,董老师给我写了个“介绍信”,交给在UMIST担任系主任和计算语言学中心负责人的大名鼎鼎的Tsujii 教授(他是日本MT元老长尾真的弟子,李航的导师)。董老师还为我其他的留学申请多次写过推荐信。出国前夕,董老师告诉我,刘老师跟他说了,项目把李维留下来好几年了,错过了几次留洋机会,这次的中英友好奖学金的留英机会,不好再留了,决定放人。鼓励我出国好好深造。

记得还在我出国前,有一次董老师召集陈肇雄和我们几个人一起聚会,说(大意):咱们这里都是 中国MT 的精英了,我们可以不可以考虑加强合作,实实在在做一番事业。

等我转到加拿大念博士的时候,董老师已经到新加坡了。记不得怎么恢复的联系,总之董老师作为1996国际中文计算会议主席召集大会的时候,鼓励我参会,把大会的海外赞助给了我。其实,我博士时期的 HPSG 中文研究,属于小众的探索,基本上就是玩具系统,并没有多少拿得出手的东西。当时跟董老师在新加坡做项目的有郭进。董老师与 Dr Lua 是大会主席副主席。

以前说过,董老师虽然不是我的直接导师,但多年来对我的指引、关照和鼓励,实际上是编外导师了。总之 非常幸运 能遇到这样的前辈,从一开始就信服他 追随他 研读他的逻辑语义学说(董振东:逻辑语义及其在机译中的应用)。写《语义三巨人》的时候,我是怀着一片虔诚之心。

我翻译的反映NLP领域理性主义与经验主义两条路线斗争史的《钟摆摆得太远》长文,就是董老师最先推荐给我的文章,也是董老师介绍我联系 Church 教授本尊。翻译前后我们三人间的频繁通信以及他的指正,也是一大篇故事。

后来在群里,有一次对于符号系统的自嘲,无意中触犯了董老师(董老师和我都是符号主义践行者)。那是第一次他当众批评我“矫情”,我的感觉就是,耳提面命,诚惶诚恐。除了刘老师和董老师,任他天王老子,我也不会不反唇相讥,可董老师是我心中的圣哲,在他面前,肝脑涂地也是值得的。高山仰止,说的就是这个意思。他不需要正确,他也可以固执,但伟人就是伟人,他和他的思想的存在本身,就是一种权威。我辈望尘莫及。

一个多月前,我给他微信,请他给《语言答问》一书作序,没想到他已经到最后的阶段了。恩师已去,我心恍惚。

董老师一直到老,始终在调试系统,探究人脑和语言的奥秘。我想天堂应该也有电脑,上帝不会让他闲着,《知网》不仅是他留给我们的精神遗产,也会在天国大放异彩。

【相关】

《朝华午拾:我的世界语国》

《朝华午拾:欧洲之行》

本体知识系统的一些历史掌故和背景

美梦成真

把酒话桑麻,MT 产品落地史话

钟摆摆得太远》(立委译)

知网

董振东:逻辑语义及其在机译中的应用

《语义三巨人》

李白董之51:说不完的subcat和逻辑语义

李白董冯吕64:NLPers 谈 NLP 渊源及其落地

【立委小传】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《朝华午拾:我的世界语国》

Mia Esperantio

除了已经死去的语言,语言的地理分布不难确认。可世界语国(Esperantio)在哪里?世界语者(Esperantistoj)会很自豪地告诉你:nenie kaj chie (哪里都没有,可又无所不在). Esperantio estas tie kie estas Esperantistoj. (哪里有世界语者,哪里就成为世界语国。) 这使我想起我的基督徒朋友,他们对精神家园也有类似的表述。圣经说(大意),哪里有基督徒聚会,哪里就是我的国度。

的确,世界语对我,有着宗教般的吸引力。当年初入北京世界语圈子,感受到的新鲜和温暖,使我一个外地人兴奋莫名,遂以全部热情投入。二十多年了,我的世界语国也经历了很多有趣的人和事。

== 昆明全国第一届世界语大会 ==

去昆明开会,是我的世界语之旅的第一次远行。我们北京一伙人,一路谈笑,亲如一家。同行有邱大姐(歌唱演员,文革时唱过家喻户晓的“我为革命下厨房”)和老大哥王彦京(一个很英俊的小伙子,是“老”世界语者了,常跟我们吹嘘他是黄埔一期,当年在大礼堂上百人接受文革后第一批世界语培训的光荣经历)。途中遇到一位山西姑娘,独自远行开会,起先不爱理人的样子。后来熟了,才知道她天性活泼开朗,完全不象北京女孩那样一本正经,是那种性情温和、相处让人舒服的人。都是年轻人,自然比较聊的来,一直相处得很自然愉快。接触一多,不时招来老大哥的善意讥讽:你那位 Shanxi-anino 呢?我当时已经悄悄地有北京女友了,岂敢有“不良”居心。后来,她嫁给了我的北京世界语哥们,算是昆明大会做的媒吧。一方面为朋友高兴,心里面还真有点嫉妒:这小子天上掉下来的福气。

给黄华副委员长做翻译

71届世界语大会前夕,中国科学院世协举办了一个国际世界语科技研讨会,有幸请到了黄华副委员长莅临讲话。世协本来安排外交学院世界语前辈沙地教授做黄华的翻译,可临场前一刻钟,沙教授忽然跟我说:“你年轻,脑子快,还是你上场吧”。天哪,我才刚学世界语不到一年,虽然仗着语言学出身和词典的帮助,阅读写作并无障碍,可是并没有多少机会练习口语翻译啊。沙教授看我犹豫,鼓励说:“你肯定行”。也是初生牛犊,糊涂胆大,这一激就呼啦上场了。往黄华身边一站,差点傻眼了,只见无数闪光灯袭来,眼前明晃晃一片白光。毕竟是外交部长出身,黄副委员长出口成章,抑扬顿挫,表情丰富。每说一段,就停下来等我翻译。我强作镇定,努力想复述,也只能挂一漏万。记得黄先生提到圣马力诺世界语科学院,我一时不敢确定圣马力诺在世界语怎么说,黄先生看我卡在那里,提醒道:“San Marino”。这次翻译实在不怎么样。表面上黄先生的每一段,我都应付了几句,但自己都翻译了些啥,根本没数。下场后,心里懊悔极了。我后来想,世协的主办人肯定更加懊悔,没想到半路杀出来个愣头青,早知沙教授临场换人,他们一定会安排其他世界语高手出场,北京世界语界可是高手如林。黄华啊,岂是等闲人物,绝不该有半点差错。不过,这次赶鸭子上架对我个人的命运却非同小可,它成就了我的婚姻。我的太太就是冲着我曾是黄华翻译,才同意跟我见面,最终结成良缘的。当然,这是后话了。

== 给 Frank 教授一家演示世界语机器翻译 ==

圣马力诺世界语科学院院长、西德控制论专家 Frank 教授是致力于世界语和科技相结合的头面人物。Frank 一家都热衷于世界语活动,在71届世界语大会前,他携夫人和女儿全家来访。来之前,信息管理系主任、老世界语者欧阳文道跟我联系,安排我为 Frank 全家现场表演我编制的世界语软件:一是我的硕士项目,一个世界语到汉语和英语的自动翻译系统(叫 E-Ch/A),二是我编制的一个英语到世界语的术语自动转写系统(叫 TERMINO)。这是他接待 Frank 教授的一个重头戏。我于是认真准备,在机房等待欧阳先生陪 Frank 全家进来。我的印象是,Frank 教授西装革履,风度翩翩,他太太雍容华贵,和蔼可亲,两个金发女儿,也亮丽鲜艳。我用世界语招呼客人后,一边讲解,一边演示。果然,Frank 教授一家对我的两个系统兴趣浓厚,当场试验了几个句子和一批术语,连连称赞。Frank 当即问我,你能尽快把该系统的概述给我的杂志发表么?我说,已经提交世界语科技研讨会了。教授说,没有关系,我们不介意,只要你允许我发表即可。Frank 教授回国后,以最快时间在他的控制论杂志作为首篇刊发了我的系统概述,这成为我学术生涯上在科技刊物正式发表的第一篇论文。我也被吸收为圣马力诺世界语科学院成员。不仅如此,Frank 教授随后在他给陈原和欧阳文道诸先生的探讨中德合作计划的长信中,强调要资助立委硕士到他的实验室继续开发这套系统。可惜,由于种种原因,我未能成行。(见《朝华午拾:一夜成为万元户》

== 北京71届国际世界语大会 ==

1986年北京首次举办的71届国际世界语大会把中国世界语运动推向了高潮,成为全国世界语者的狂欢节日。我作为世界语“新秀”,有幸参加了从大会预备到终场的全过程(后来了解到,由于当时的政治现状,很多外地资深世界语者没有得到参加盛会的代表资格,严重打击了同志们的热情)。

立委在大会门前与老世界语者语言学家周流溪老师留影

当时的国际形势也很微妙。东欧还处在苏东崩溃的前夕,意识形态控制比中国还严。我遇到几个保加利亚和罗马利亚的世界语者,很神秘地告诉我,他们的世界语代表团安插有政工,专事监督他们,必须倍加小心。在亚洲,两伊战争正酣,国家施行铁血控制。我结识了一位优秀的伊朗青年世界语者(忘了姓名了,很是个人物),她很活跃,聪明过人,反应极快,积极牵头组织世界青年世界语者的活动,曾表示希望我作为中国青年世界语者召集人,跟她配合。我问她,你要是遇到敌国伊拉克的世界语者,怎么办啊?她毫不犹豫地说,我会上前招呼握手,跟他/她交朋友,我们世界语运动的宗旨,不就是加深理解,消除仇恨,实行世界和平么。她也告诉我,在她国内必须小心,随时可能被送进监狱。象她这样抛头露面比较西化的人,恐怕早已上了黑名单,是政府盯梢的重点。“不过,我不怕,我有对策”,她很有信心地说。大会以后,我跟这位优秀的世界语者还保持通讯了一些时日。

漂亮的伊朗世界语者

说到伊朗世界语者,还遇到一位姑娘,身材高挑,皮肤白皙,极为漂亮,可惜世界语只是初级水平,不易沟通。她是由母亲(也很年轻,有人说她们是姐妹)带领来参加盛会的。漂亮姑娘谁不愿意多看一眼,所以在大会组织到长城游览时,我就有意无意跟在她一拨登长城。记得在长城半路,遇到外院一批小伙子下长城,这几个挺帅气的小伙子同时在少女前停下来,惊为天人。他们毫不掩饰地赞叹,天哪,你怎么这么漂亮。(我还是第一次听到中国小伙子当面夸姑娘漂亮,但是他们的率真很可爱)。姑娘微笑不语(大概也不会英语),小伙子于是转向她的妈妈:“Your sister is so beautiful”。妈妈说:“Thanks. But she is my daughter.” 言语里透出无限的自豪骄傲,看样子她当年肯定也是个大美人。后来我想,原来,人的爱美之心都是一样的。记得当时,北京电视台摄影记者大会采访,也随我们登上了长城,跟我们一样兴奋,制作了关于世界语的一个文艺片,还配上了很好听的歌曲。(真的是好制作,可惜只播放了一次,不知道有没有有心人存录下来)。

人都说世界语不是任何人的母语,只是部分无产阶级或者小资产阶级的业余爱好。其实,因为热衷世界语的人往往喜欢国际交往和各处旅游,结果成就了很多婚姻。这样的世界语家庭里面已经出现了一批母语(家庭用语)是世界语的后代。71届世界语大会时候遇到过一批来自欧洲的这样的少年,他们很自豪地告诉我:“Ni estas denaskaj Esperantistoj” (We are Esperantists by birth)。

当时我们北京世界语者有一个据点,就是美术馆附近王艾姐妹的家。王艾长着一张总也不老的娃娃脸,好像也是黄埔一期的。她姐妹俩典型北方人性格,为人热情爽朗,会张罗,结交广,富有幽默感。到她家,就跟到自己家一样感觉亲切自在。世界语文艺片播放那天,我们一拨人于是相约到她家看。遇到国外世界语朋友来访,我们也常常带到王艾家聚会。

大会期间,还有一位男的日本世界语者跟我们交往颇深。恰好赶上我哥哥来京,于是我兄弟俩和王艾一起陪同日本朋友逛圆明园,然后召集一批世界语朋友在王艾家晚餐聚会,热闹非凡。

拉宾小姐演出之余

王艾最得意的就是她抓拍了一张世界语大会期间拉宾小姐演出之余的照片。这的确是一幅摄影杰作,画面干净利索,色彩鲜艳,人物神态,栩栩如生。难怪照片洗印店的老板把照片放大摆放在门前作为招徕顾客的样榜。

值得一提的是,我在这次大会上,结识了一位国际世界语界大名鼎鼎的人物Victor Sadler 博士,并与他保持了多年的交往(特别是他在BSO从事机器翻译研究期间,后来我去英国留学,他不但给我写了推荐信,还解答了我选择学校的困惑:他告诉我,论名声和学术,应该去剑桥大学;要是想继续从事机器翻译研究,应该去曼彻斯特的UMIST计算语言学中心;如果想学人工智能,爱丁堡大学最佳)。他是剑桥大学的语言学博士(后来跟我一样成为计算语言学家,从事机器翻译的研究,他首创了利用自动句法分析过的双语语料库施行机器翻译的统计算法,比后来盛行的同类研究早了5-10年),长期以来是国际世界语协会的头面人物之一,当时是国际世界语协会的财务总监。他平易近人,有长者风范,约我到他饭店面谈,对我的世界语机器翻译研究极感兴趣。他问我是否就我的研究给大会的科技演讲提交了提纲,我委屈地说,提交了,但是没有被采纳。他微笑,有点可惜的样子,没有做进一步的解释。后来我得知,国际世界语大会的科技演讲,不仅仅要所选课题对路,水平好(这两点,我已基本做到),还要看研究者的资历,起码是博士,最好是国际知名教授(记得当年的演讲包括陈原教授的和Victor Sadler本人的。陈原的演讲妙趣横生,不愧为大家。Victor Sadler 讲的是涉及世界语的电脑处理,属于我的计算语言学专业)。我一个第三世界的硕士生刚毕业,根本谈不上。

2006年四月十六日
于美国B城

【相关】

【立委小传】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录



《微信群笔记:深切悼念语义宗师董振东先生》

帅:中文信息学会 讣告 | 董振东教授逝世

李:震惊。深切哀悼!

宋:惊闻董老师去世,十分悲痛。董老师的成就令人钦佩,董老师的科研价值观引领我们前行!

金:90年代初各种计算语言学会上都能碰见董振东先生,受教多多。董先生千古,一路走好???

邢:深切悼念董老师   先生风骨精神,求真求实,我辈追随榜样!先生千古!

梁:惊闻董老师去世,非常震惊和悲哀!先生精神永存,永驻我心!

Nick:@wei 伟哥应该写篇纪念文章

李:绝对的巨人和恩师。深切哀悼! 董老师从未停息对nlu的研究 一直在做系统 让人折服。在很长的时期 董老师是中国nlp和mt与世界的接口。语义宗师 一代巨人 高山仰止。

洪:如果允许,咱群凑份子联名送个花圈花篮啥的,@wei @Nick Zhang

Nick:@wei 伟哥牵个头。

李:董强谢谢大家,说后事从简,已经办完了。

白:董老师在本群的交流中为我们贡献了宝贵的精神财富,无论在解说HowNet的顶层设计思路方面,还是在评价NLP最新进展方面都是金句叠出,振聋发聩。本群失去了一位巨匠级的群友。董老师在群里交流的那些话题值得我们结合各自的学习工作实际,长久体悟。

施:沉痛悼念董先生。最钦佩董先生的知识分子风骨,我们学会有次换届,他大骂一些学霸领导的场面历历在目。特别解气。我们做不到。有次他举办知网国际研讨会,问我能否支持。我给了5万元,他也只是淡淡的说了声谢谢。知识分子啊!!

洪:CNLP用知网,// Chinese NLP
基础资源WordNet相当。
当年请来百度讲,// 2005
老当益壮携董强。

李:重发旧文 《语义三巨人》深切悼念董老师。先生千古!

洪:应该四巨人,作WordNet的George Miller绝对是心理语言学大家。

李:论影响力 是的 @洪涛Tao 可能我有偏见,我对 WordNet 意见很大。我以前倒是觉得 Wilks 可算上第四语义巨人。

洪:Miller和Chomsky同时代,基本上平起平坐。他的 science of words很科普。

李:最后一次收到董老师信息是2月17号。董老师发来的是郑钧的《长安长安》,我一直也喜欢郑钧的。不过此前 我与董老师从来没有议论过音乐。

回想起来,过去一年,董老师在微信群上越来越少见到了。不是他不关注,估计是终于精力不济了。

白:董老师对ontology一直很敏锐,总觉得他有高见没有说出来。能早十几年就在ontology层面不满足于taxonomy而想到去做类似当今事理图谱那样的东西,真的是高屋建瓴。董老师对“部件”也是有话要说,我一直期待他的高论……

Nick:old soldiers never die, they just fade away.

洪:
老兵不死留枪支,弹药充足后人使。
老兵升天入云时,依旧深情地俯视。

张:一代宗师 我的恩师 心痛不已~~~董先生风骨盖世,学识惊人,成就人类文明——“译星”、“知网”闪耀人类创新创造历史。

董振东语录:

1)“我们老了,但机器翻译还年轻”———1996年泰国机器翻译峰会之中日印马泰多国语机器panel 上的感慨;

2)“我这一辈子做了二件事,一件是别人不愿做的事,一件是别人做不了的事。”

3)规则的机器翻译是傻子,统计的机器翻译是疯子。

刘:董老师还有一句话我印象非常深刻: “我就是个工匠”。那时候还没有工匠精神的说法。

李:@张桂平 老师,董老师说的这两件事儿 后者是 《知网》 吧 那的确是别人做不了的事 需要超凡的智慧和耐性。别人不愿做的事呢?科研一号/译星 还是 日本多语项目中方负责人?

姜:@白硕 嗯!谢谢老师的指导!  董老师在军科跟我是一个研究室的,也跟我住邻居,是“科译一号”的研发组长。九十年代我和领导战友们在军科后山散步,经常看到他和儿子一起散步。见到他时大家就一起说说笑笑,气氛融洽,甚为欢快。后来到他家请教过几次。他亲自打开电脑给我讲hownet的设计思路,还当场用他定义的“义原”对几个词做了定义和修正,而那时其实他已经重病在身了,他身体力行不屈不挠不计回报敢为天下先的工作精神真是让我敬佩,给了我很大的激励。后来又作为我的博士论文答辩小组组长,给了我很好的指导。昨天惊闻先生逝世,心肝悲痛,愿先生千古,永垂不朽!??

李:最近几年董老师专注于 运用知网做语言深度解析和理解 尤其在中文理解方面。这与我最近几年的着力点非常吻合 所以群里和私下我也常请教 我们常有交流。大的方向和技术路线是一致的。董老师更多运用知网的知识体系和某种常识推理解析中文英文。解析结果更加靠近他构建的逻辑语义表达 解析深度更接近理解。就是说比我做系统更加细线条 虽然我做的工作比多数系统已经很细线条了。在广度和鲁棒性上 感觉董老师所做的工作 限于资源有限 还未充分展示其潜力。

把董老师介绍入群是我的主意。我知道董老师对于nlp和ai话题特别有兴趣 常见他在 linkedin 里面与人讨论相关话题 于是想到他对我们常讨论的一定会有兴趣的。于是尝试联系询问。董老师以前不怎么用微信 我就跟董强夫妇商量 他们也同意 觉得董老师如果能参与我们的 nlp 话题 是很好的事情 对于董老师身心健康也有好处 我们后辈自然也亲身受益。于是先尝试让董老师用董强的id入群观察 最后水到渠成 他就加入了。特别是白老师的语义群 很多是他的学生 同事和仰慕者 很快就融入了。过去两年 有了董老师的参与和教诲 群里的讨论更有深度。我们共同度过一段与导师直接互动的难得的时光。

【相关】

讣告 | 董振东教授逝世

语义三巨人

与董老师对话:什么是知识图谱?

《语义沙龙笔记:结构被神经编码了吗》

立委按:说深度神经三位先驱者坐了20-30年冷板凳,终于迎来了图灵奖。董老师坐了30多年冷板凳,还基本上是藏在深山人未识。《知网》未必不是一个图灵级别的对于人类认知的贡献。

詹:


有道翻译太牛了!

王:这也太达意了,牛!

白:“张三为李四写了这篇论文而后悔不迭。”

看点:1、论文可能是张三写的,给李四当枪手,写了以后后悔了,也可能是李四写的,idea跟张三撞车了,张三后悔自己下手慢了。2、“为……而……”属于“套路”句式,即所谓“构式”,具有强搭配特性,优先级很高。3、一般性的“VP1而VP2”中,VP1与VP2在语义上要么高度平行,要么高度对立,既不平行又不对立的填入这个结构的优先级很低。一进一出,当枪手的解读式微,论文撞车的解读看涨。如果一定要表达当枪手的意思,要么把“为”重复成两个,要么把“而”去掉。话说,两个因邻近而重叠的小词缩合为一个,在语音上也是可以成立的,在无伪歧义的场合尽管用,但在有伪歧义的场合不占优。具体到本例,也就是“为+为—>为”这个动作不占优。或者说,虚增一个与后面“而”呼应的“为”,不足以对抗另一个解读。

“刘为为为为为人民而牺牲的烈士立碑的劳动者献花。”

这个跟“一把把把把住了”有得一拼。

吕:神经网络是不善于数数的

白:

这个是枪手解读。前一个干脆不管几个“为”,意思到了,没人竞争,就他了。多出来的就当你结巴。不仅可以无中生有,还可以视而不见。

宋:三个介词连用,漂亮的嵌套:
第二家加拿大公司因被发现害虫而被从向中国运输油菜籽的名单中除名。

刘:第二家加拿大公司因被发现害虫而被从向中国运输油菜籽的名单中除名。Google翻译:The second Canadian company was removed from the list of transporting rapeseed to China due to the discovery of pests.

白:discovery不好

刘:结构都对了

白:那倒是。这个结构看起来叠床架屋,但其实不受干扰,是所谓“一本道”。discovery太正面了,单独看跟科学成果似的。放在这个语境里也对冲了负面色彩。

刘:要知道神经网络机器翻译是完全不用任何句法信息的,能正确理解这样的复杂结构,很神奇了

白:结构被编码了

白:张三因被发现考试作弊而被从向欧洲派遣的留学生名单中除名 John Doe was removed from the list of foreign students sent to Europe after he was found to have cheated on a test --来自 @彩云小译

刘:张三翻译成John Doe,很有意思了

白:留学生一定是“foreign”?接受的是,派出的不是啊。这是有坐标系的,估计数据太稀疏,这些都顾不上了。一本道的嵌套就相当于parity,难不住神经的。这个found比discovery强。

刘:如果是Phrase-based SMT,这种句子应该是翻不好的

梁:

李:越来越多复杂结构句子,在神经MT翻译中居然对了,以前以为只有深度解析才有望解决的问题,居然在端到端,没有任何显式句法支持的情况下做到了。这种“奇迹”,连在神经第一线的@刘群 老师也不时赞叹。说明这里面的机理不是很清楚,尽管笼统说来,可以说是结构在大数据训练中被合适地编码了。

姜:这是个有趣的问题。非要有显式句法支持,才能翻译复杂结构句子,是一种想当然。

李:是不是“合适”编码了,也难说。因为一方面我们看到了一些翻译对了的”神译“,另一方面我们也看到一些神经过头的乱译。目前似乎也没有办法回答这个疑问:对了的和错了的,是不是共生的。大而言之,我们知道,起码目前的神经翻译,通顺是建立在损失精准(有时候简直到了张冠李戴、指鹿为马、视而不见和无中生有的严重程度)的基础上。还好,起码对于新闻、科技和日常用语等,所损失的精准虽然可能很严重,但频度还不是太高。

梁:科学的精髓  ——  敢于犯错误

李:疑问是,如果机理不清楚,所犯的错误就难以改正。是不是糊里糊涂一本帐,还是改进的目标还算清晰?是不是可以说,结构不是真正的坎儿,标注大数据才是。MT 让我们目瞪口呆的神翻译,似乎已经部分证明了,复杂结构是可以被标注大数据“编码”的。

白:机译可不可以做得更好,我兴趣不大。我更关心各种场景化应用,机译这条路线是否走得通。按正确的结构标注大数据,意思就是,what由人工解决,how由智能解决。how又分两种,一种是歧路,一种是伪歧义。对付歧路,不需要人工。对付伪歧义,必须人工。对付歧路,强化学习、自我标注就够了。

李:NMT中的伪歧义表现在哪里呢?

白:比如上面例子的“留学生”。在不同语境下对齐的词汇不同,但向外派遣,就不该是“foreign”。

李:不仅仅是 NMT,这个一错就可能错得离谱的问题是普遍性的,图像和语音中都有这个问题。what由人工解决,how由智能解决。这种说法是想对神经与结构进行“紧耦合”。不是没人想做,但总体上迄今还是一头雾水。这两个冤家不容易往一起捏。

白:“我是县长派来的”就是歧路不是歧义。全局解唯一,暴力搜索一定能得到。但是暴力搜索的目的是做正确的标注。实时解析策略是通过标注数据训练出来的。紧耦合无所谓,因为神经的那一半压根儿就不需要人工干预。归根结底还是what不给力。

李:what 从语言结构的角度,是有共识的。起码语言学家对于一个句子的依存结构,分歧并不大。如果分解为二元关系,分歧就更小了。分歧多表现为“如何”得到这个结构,而不是这个结构是什么。尤其是 PSG,如何得到决定了树的不同。到了 DG,“如何” 的影响明显减弱。从逻辑语义角度看,what 是有共识的,有很强的确定性,大同小异的。

白:好像不见得。比如“咬死了猎人的狗”公认有歧义,“咬死了猎人的羊”有没有歧义,语言学家未必分歧就小。如果语言学家的共识是后者也有歧义,那就洗洗睡吧,NLP肯定指望不上了。

李:说共识与否,还是要有个量和频度的概念吧。

白:标注即投票?神经的强项就是拎得清此时此刻的力量对比。让语言学家投票,未必拎得清。

李:找个例,很容易忽视量和频度。就说 “咬死了猎人的羊” , 粗分一下,是三个实词(“咬死” 算一个词):咬死(A)了 猎人(B) 的 羊(C)。看看 ABC 之间发生的二元关系,哪些是共识,哪些有疑问。AB 动宾 这是一个二元关系(候选),算是共识。AC 是定语关系,也算是共识;BC 是定语关系候选,也是共识。AC 动宾候选,也算是共识。

白:等等。这里,what必须表达“候选”。如果没有这个表达能力的what,必须靠边了。这在语言学家中也不容易达成共识。

李:总之,即便是个例,如果细分下来,共识的部分还是占多数。如果与常态化语言表达法平均一下,可以说,语言结构没有多少争论的空间。

白:这个平均,在长尾面前无意义。

李:我觉得 问题的关键不在 what 不清楚,需要在 what 上再有突破。关键是,已经知道的 what,也没有有效的办法被神经利用和吸收。两年前遇到刘挺老师,谈到这个问题,问神经这条道,啥时可以利用句法或逻辑语义。他直摇头,说不好办。不是一条道上跑的车。

白:光说动宾不行,光说动宾候选也不行。如果说,句法就送你到这儿了,剩下的看造化。这当然不行。必须把所有的资源摆在那儿,让神经去选。语义的,情感的,事理的。这也是很多语言学家不具备的。可以设想,如果有一个可供神经对接和挑选的“知网”级别的基础资源,局面会大有不同。

李:唉,送上门也未必有人有兴趣 and/or 有能力去用。看吧,看今后五年。今后两年 神经还可能往上走,很多人有这个信心,所以没有兴趣是主因。今后五年,那就是能力的问题了。

白:还可以设想,如果标注人员戴上一种设备,就可以通过追踪眼动或者捕捉神经信号获得标注,语言学家真的彻底不需要了。

李:说深度神经三位先驱者坐了20-30年冷板凳,终于迎来了图灵奖。董老师坐了30多年冷板凳,还基本上是藏在深山人未识。《知网》未必不是一个图灵级别的对于人类认知的贡献。就是用起来殊为不易。

白:可惜董老师不待见神经,也不待见图谱。

李:知网就是本体常识图谱。不待见神经 倒是真的。知网与图谱的距离,最多是工程层面,本来可以有一个更好的实现与接口。

白:不是的。事理的层面,知网超越市面上的图谱。工具的层面,知网弱于市面上的图谱。

李:对呀。多数图谱很肤浅,没法望其项背。

白:此外还有一个适配的问题。各种可用资源参与力量对比,必须折算到统一的度量。知网没有这个度量。分析器玩的就是力量对比。神经倒是未必一定要有,但统一的度量一定要有。

正解压制伪歧义的依据,修辞用法压制一本正经的胡说八道的依据,就是包含词法、句法、语义、语用、情感、事理在内的各种力量的综合对比。首当其冲的,就是把各种力量经过折算放到同一个平台上来。把资源捂起来,只留下标记,不仅没有资源的人学不到真货,有等价资源的人也得连蒙带猜。这资源是what的应有之义。

李:把结构扁平化(譬如嵌套表层化}和原子化(譬如分解为二元关系)变为特征 对于深度学习 没有多少吸引力。如果不简化 也不知道从何入手。

白:结构的嵌入可没这么肤浅。向神经要潜力的话,表示(what)没什么好做的,把功夫下在控制(how)吧。表示就是语言学家、领域专家、知识工程师自己的事儿。另外,就数学本质来说,符号串的代数基础是幺半群,神经的代数基础是矩阵(线性变换群)。这两个群都是非交换的,深层次里有互通的基础。所以嵌入结构是正常的。

宋:@白硕 向神经要潜力的话,表示(what)没什么好做的,把功夫下在控制(how)吧 这个观点我挺有兴趣。能否详细阐述?谢谢,@白硕 我最近一个理论是大脑除了基于矩阵的目前人工神经网络用得多的系统,还有一套控制系统。所以也许能把几何和代数统一起来。

白:可用的资源、输入输出都是符号表示,中间的计算是神经表示。输入是符号序列,输出是操纵符号的动作。有些动作是有副作用的,需要记忆。操纵符号的动作改变符号,类似“重写”,但是不限于“重写”。当你输出一个dependency link时,符号之间的邻居关系改变了。

宋:Causal Reasoning from Meta-reinforcement Learning,我最近看到这篇 arxiv 上的文章比较有趣。我在想 control 这边也许可以放到一个 meta-reinforcement 的框架里面最终去解决。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《语义三巨人》

【立委按】惊闻董振东老师逝世,重发旧文,深切怀念一代语义宗师!董老师从未停息对nlu的研究 一直在做系统 让人折服。在很长的时期 董老师是中国nlp和mt与世界的接口。知网(HowNet)是董老师的丰碑,它像一所常识百科,深藏着人类认知形式化的金子。

好友张桂平老师也一直追随董老师,她摘录了董老师的语录金句:

1)“我们老了,但机器翻译还年轻”———1996年泰国机器翻译峰会之中日印马泰多国语机器panel 上的感慨;

2)“我这一辈子做了二件事,一件是别人不愿做的事,一件是别人做不了的事。”

3)“规则的机器翻译是傻子,统计的机器翻译是疯子”。

Old soldiers never die, they just fade away.

《自然语言处理领域中的语义路线及其代表人物》

如所周知,统计型自然语言处理(Statistical NLP)作为主流盛行了20多年,此前盛行的是以语法分析为基础的规则系统。即便如此,为了模拟人的语言理解过程以及力求语言处理的更高质量,追求以知识系统为支持的语义路线的尝试,从来没有停止过。本篇笔记拟对此做一个简要回顾和比较,并记录自己的心得和不同意见。

就NLP的机器翻译应用而言,在相当长的时期内,统计型机器翻译由于其数据多开发快,善于在浅层模拟人工翻译(特别是成语和习惯用法的翻译)会一直是主流。即便是机器翻译的规则系统,也还是语法为主的路子比语义和知识为主的路子更加切实可行。这不排除在未来,当统计机器翻译和语法为基础的规则机器翻译的改进余地越来越小的时候,人们会重新探索知识路线以求突破。

坚持语义和知识为基础的语言处理路线,是一条繁难艰辛的道路。我感觉,语义是个大泥坑,我等凡夫俗子一旦陷进去大多出不来,而能够驾驭它的人均非等闲人物。

Dr. Douglas Lenat


Prof. Charles J. Fillmore  

语义三巨人

在计算语义界,有三位长期坚持超领域语义的顶天立地的大学者(如果要算第四位,也许应该包括英国的人工智能大师Wilks教授,他早年做过基于语义模板的纯语义机器翻译实验。再往前追溯,人工智能领域早期也有不少先驱者,不过都是在极为狭窄的领域尝试一些玩具知识系统)。这三位学者前辈是,坚持常识推理的 cyc 的 Lenat 教授,格语法(Case Grammar)和框网(FrameNet)的开创者 Fillmore 教授和《知网(HowNet)》的发明人中国机器翻译前辈董振东教授。他们对自己思想和信念的坚持、执着、反潮流和勇于实践,令人景仰。

这些智者的成果都有某种超时代的特征,其意义需要时间去消化或重新认识。可以预见,将来某个时候,当机器翻译和自然语言理解的应用项目穷尽了浅层可用的低枝果实之后,知识系统将会被进一步发掘、利用和欣赏。但目前多数项目还没有到山穷水尽的时候,急功近利是绝大多数项目和产品的固有特征,而且多数主事者也往往缺乏远见。绝大多数语言处理业者遇到语义和知识都是绕着走。

三位语义巨人中探索知识最深入和纯粹的是 Lenat 教授,他带领团队手工开发的 cyc 知识系统,试图从常识的形式化入手,利用常识推理帮助解决语言理解等人工智能核心问题。可惜这套庞大的系统太过复杂和逻辑,在实际应用上有点像大炮打蚊子,使不上劲。

Fillmore 教授是享誉世界的语义学家,他的格语法理论影响了一代自然语言学者,包括中国和日本自然语言处理领域的领军人物董振东教授和长尾真教授。事实上,董教授语义思想的核心概念“逻辑语义”就来源于 Fillmore 的深层格 (Deep Case)。然而,Fillmore 本人的语义发展与董教授的创新发展走上了语义颗粒度不同的两条道路,前者的成果为 FrameNet,后者的结晶是《知网(HowNet)》。

可以从构建NLP应用系统的角度来看 FrameNet 和 HowNet 的不同语义层次,即,从分析器(parser)和应用(applications,包括机器翻译,信息抽取等)的分工合作的关系来看。

语言的分析无论多深入,都不是应用,只是(理论上)缩短了到达应用的距离。就以机器翻译的应用为例,翻译转换可以发生在浅层(极端的例子是所谓词对词翻译系统)、在关键成分不到四个(主谓宾补)和附加成分不到一打(主要的定状语子类)的句法层、在《知网》的90个逻辑语义的层面或者在 FrameNet 的成百上千的 frames 的层面。多数统计型机器翻译都是在浅层进行,通过海量双语训练集,记忆住千千万万大大小小的翻译单位(个体转换规则)。这条路子可行是因为机器擅长记忆。手工编制的翻译系统就很难在浅层进行,因为浅层转换的千变万化超出了人工编制和调控的可能。但是,翻译系统应该深入分析到哪一步实施转换比较合适,是大可讨论的。

我个人觉得,FrameNet 过细(成千上万的 Frames 组成一个 hierarchy,即便只取上层的常用的 Frames, 也有几百个),不仅很难达到,而且实用上没有太多的好处。FrameNet 的提出,是格语法框架的自然延伸、扩展和细化,语义理论上有其位置和意义。但是在实用上,FrameNet 的地位很尴尬,他既不像句法层 argument structure 那样简洁和好把握,也不可能达到语用层的信息抽取模板(IE Template)那样可以直接支持应用(因为信息抽取是依赖领域的,而 FrameNet 原则上是不依赖领域的,或者最多是在语言学与领域之间起某种中介桥梁的作用)。这样一来,从实用角度,与其分析到 FrameNet (这个太繁难了) 再行翻译转换或信息抽取,不如直接从 argument structure 进行(这个靠谱多了,very tractable),虽然理论上前者的转换或抽取应该更加简单直接一些,但是由于 FrameNet 分析工作难度太大,终归得不偿失。换句话说,FrameNet 从使用角度看,语义做得过了(over-done),用起来不方便,没有多少实际利益。 退一步回到句法为基础的 argument structure 如何呢?

Argument structure 立足于句法结构,主要论元最多不超过三个(up to 3 arguments):逻辑主语,逻辑宾语,逻辑补语,加上谓词 governor,构成一个四元组,非常简洁,与各语言的词典句型信息 subcat 相呼应,易于掌握和实现。再加上10来个带有逻辑语义分类的状语(时间、地点、条件、让步、结果等)和定语(颜色,材料,来源等)。这样的中间表达作为语言分析(parsing)的目标,作为应用的基础,已经可以应对绝大多数应用场合。Argument structure 中的逻辑宾语和逻辑主语有其独特的概括能力,对于利用句法关系的语义限制排歧多义词和做知识挖掘具有特别的价值。

HowNet 不满足于此,它的体系是对句法为主的 argument structure 进一步细化,譬如逻辑宾语细化到 “patient”、“content”、“target”、“PatientProduct”、“ContentProduct”和“possession” 等子类。最终达到具有90多个逻辑语义角色的相对纯粹的语义表达。HowNet 就是这样一个概念知识体系,逻辑语义是连接这些概念的主要工具。

从主谓宾定状补这样简练的句法关系,深入到逻辑语义的角色,再进一步把逻辑语义细化,常常的表现就是信息表达的浓缩和冗余。HowNet 这样精细的逻辑语义,不仅反映了一个依存概念到主导概念的逻辑结构关系,而且反映了主导概念的子类信息(hence 冗余了)。例如,对于宾语的细化 “patient”、“content”、“target”、“PatientProduct”、“ContentProduct”,“possession” 等,显然是蕴涵了主导概念(谓词)的子类信息,而这些子类信息本来是已经附着在谓词上的。譬如作为 possession 的宾语,其谓词只能是 have、possess、own 这个小子类。信息表达的冗余意味着即便没有深入到细化的逻辑语义,系统并没有本质上的损伤,因为如果需要的话,细化信息依然可以通过句法关系节点的限制条件即时得到查询。

对于逻辑主语逻辑宾语等进一步细化的必要和利弊,我个人觉得是可以讨论的。首先是任何细化都是有开发和处理的代价的。更重要的是,其必要性究竟如何?从追求纯粹语义和逻辑、追求纯净的独立于具体自然语言的元语言表达的角度,我们总可以找到证据,证明细化是必要的。但是,在应用现场,我们也可能发现,对于绝大多数应用,细化并无必要。就拿机器翻译来说,同一语系之间的结构转换在逻辑主语宾语的 argument structure 的对应上有明显的一致性。即便是不同语系,这种对应也是主流,而不对应的可以作为例外,由词驱动(word-driven)的个性转换来应对。以上讨论,有很多例证,写得匆忙,暂时不例举了。

【相关】

与董老师对话:什么是知识图谱?

Notes on Bulding and Using Lexical Semantic Knowledge Bases

围脖:一个人对抗一个世界,理性主义大师Lenat 教授 ..

《泥沙龙笔记:再谈 cyc》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录



《朝华午拾:Wonder Years: 青涩少年记事》

上个世纪74-75年左右,大概是初三的时候,学校组织我们学军,长途拉练,步行100多里路,去皖南新四军旧址云岭和茂林参观。我比较弱小,那次长途跋涉,真把我坑苦了,一辈子也没有走过这么远的路程,似乎没有尽头。学生队伍前后拉了好几里路长。我一瘸一拐,一根一根电线杆数着往前挪动。终于,有同学报信说,目的地已经在望,就是前面的那座小山。于是,鼓作最后的勇气。可望山跑死马,看着就在眼前的山,还是走了一两个小时,直到天快黑了才赶到。

吃罢晚饭,学校把我们安排在一个大礼堂里面休息。一屁股坐下去,就瘫软在地,居然再也起不来了。脚也没洗,在同学帮助下,挪到临时搭起的铺子和衣睡下。第二天早上,全身没有一块筋骨不疼,勉强可以站立。

虽然很狼狈,对于拉练在外的生活还是感到新鲜兴奋。特别难忘的是参观新四军事迹展览时和女同学耳鬓厮磨的经历,连带当时的心跳、惶惑和尴尬。

我们那个年代,男女生有一条无形的界限,在校园很少交往。不过,我是学习委员,在班委会活动中还是跟女班长和女团支书有工作往来,彼此印象都不错。尽管文化课已经不是学校主业,大概是惯性,学习好的同学还是自然受到青睐。不过她们都比我大两岁,感觉是姐姐一样的形象。女班长是个假小子,面色黝黑,作风泼辣,相处很愉快,但感觉是哥们儿。团支书端庄秀气,能干老练而不失文静。我平时到城外后桥河去游泳,每次经过她家门前,总见她在门口坐着织毛衣,仪态娴雅。她见到我也总落落大方地招呼一声,可我总自我感觉灰溜溜的,不知如何回应。

拉练在外,男女生就比较亲近起来,不象在校园那样拘束,这是当年学工学农学军最让人兴奋的地方。第二天参观新四军展览,不知怎的,跟团支书混在一起,她个头比我略高,站在身后,挨得很近,耳边是她温热的气息。我们两个人拉在最后,仔细切磋揣摩那些展示的图片和实物。两人很默契,一步一步向前挪动,有意无意身子碰到一起。我心痒如蚁,强作镇定,不敢回视。

那一年我14岁。西皮居士有诗云:

野营拉练知何似?跑马望山苦嫩兵。
学军之意不惟军,立委心飞云雨情。

记于2007年二月十九日(阴历大年初二)

《朝华点滴:老队长的歌声(3/3)》

敲锣打鼓把我们迎进村的老队长跟我们走得最近。事无巨细,他都爱来管,自然充当了知青监管人的角色。我们插队的时候,正是老队长大家庭最鼎盛的时期:五个孩子,三男二女,人丁兴旺。老伴操持家务,任劳任怨,对人热情有加。大儿子山虎算我们哥们,比我略长,但长得比我还矮小一大截,似乎发育有问题,但干活并不赖,是个整劳力,担任队里的记分员。山虎小学毕业就回乡种田,作为长子,与女民兵姐姐一起,帮助父亲分担家庭重负。三个劳力,加上两个弟弟拾粪、放鸭,放学做点零工,一家人挣足了工分。这个家庭的红火兴旺,加上老队长的威信,可与家有四朵金花的光头队长一比,这两大家是村子里六七十户人家里面的显赫人家。老队长的家也是我们的家,在他家里我们感觉在自己家一样地自在。一家都是热心人,包括最小的六岁女儿,我们一来,就手舞足蹈,欢呼雀跃。家里做了好吃的,老队长就把我们叫去。大娘从不抱怨,总是笑吟吟默默在一旁伺候我们吃喝。

山虎很活跃,实诚热心,跟我们知青亲如兄弟,给了我们很多帮助。他总是随身带着他的记分簿,满本子是他的涂鸦,只有他自己能看懂的那些工分记录。我见过不少字写得差的人,我自己也一手烂字,可把汉字写到他那样难看,那样奇形怪状,不可辨认,还真不容易。我离开尤村上大学期间,我们一直保持着联系,每次读他的信都要辨认老半天才能猜八九不离十。他每封信尾总是画点图示,两只手紧握啊,或者一颗心系上一条线,朴素地表示他对我们友谊地久天长的祝愿。

老队长是村里德高望重的人物,他清瘦黝黑,尖小巴,身子骨健朗,谈笑如洪钟。他哪年当的队长,哪年让位给光头小队长,我们不很清楚。只知道老队长是退伍军人,识文断字,见多识广,是尤村的核心。我们的到来,老队长异常兴奋。他跑前跑后,张罗安排,滴水不漏。只有一件事,我感觉有些滑稽,内心有抵触,却不敢流露:老队长雷打不动,每周要组织我们政治学习和座谈一次,一学就是一夜。每当这个时候,老队长就把家里的大小孩子统统驱离,把煤油灯点得亮亮的,一点不心疼熬油。他不苟言笑,正襟危坐,特别严肃深思的样子。记得他组织学习《哥达纲领批判》,一字一板地阅读,那样子很象个教授,可从来也没见他有自己的讲解。对于马列,我只在中学迷恋过“政治经济学”,对于其他著作不是很懂。我听不明白的,他其实也不懂,毕竟他也就小学毕业的文化程度。当时我就好奇,他心里在想什么。为什么对那些深奥难懂的马列原著那么热衷,而且总摆出若有所思的样子。我当年自觉是个小毛孩,老队长是可敬有威的长者,是我们的依靠,即便心里有疑惑,也从不敢追问。这样的学习一直持续到我离开尤村。

老队长唱歌富有磁性,略带沧桑,很有魅力。记得在水田薅草的时节,暖洋洋的阳光,绿油油的禾苗,春风和煦。老队长一边薅草,一边张池有度地唱起歌来。听上去有点象船工号子,声音高高低低的,随着风,一波一波袭来,抑扬悠长,不绝如缕。那是怎样一种有声有色,和谐无间,引人遐想的农耕图景啊。

很多年过去,老队长的歌声却一直留在我的记忆中,虽然我从未搞清这首歌的来历。直到去年,女儿的 iPod 新增的一首歌,一下子把我抓住了。这歌当然不是老队长的歌,可曲调内蕴与老队长的歌神似,是它复活了我心中掩埋已久的歌。每当歌声响起,老队长的面容身影,广阔天地的清风和日,单纯悠长的田家生活和劳动的场景,就在我眼前浮现。 我问女儿这是什么曲子。女儿一副我是土老冒的惊讶,这是 Akon 啊,那首红透半边天的歌曲 don’t matter 啊。这首黑人歌曲2007年一出品,很快在电台热播,连续两周居于排行榜首。我惊喜,也感到诧异,远隔千山万水,神秘古老的中国民间小调居然与带有美国非裔色彩的黑人歌曲如此契合。甚至我在 Akon 本人身上也隐约看到黑瘦干练的老队长的身影。

请移步欣赏表演(土豆):
Akon: don't matter

youTube (需要翻墙):
https://youtu.be/JWA5hJl4Dv0

我大学毕业的时候曾回村探望,那时老队长已经离开人世,是癌症夺走了他的生命。女儿远嫁,传回的消息是女婿赌博被抓进了局子,二儿子肝炎治疗不及时丢了性命。大娘经受这种种打击,显得衰老无语。家庭再也没有了欢声笑语,只有山虎撑着这个家,快30的人了一直未娶媳妇。谈起来,他总是苦苦一笑,说不急,先把弟妹上学供出来,自己的事可以放一放。我的心沉沉的,感伤世事无常,那么鼎盛兴旺的大家先失了顶梁柱,复遭种种不幸,如今如此零落。那记忆深处的歌声在我心中也更加增添了些许沧桑的苦涩和无奈。

至于原歌,现在也忘记具体曲调了,就是那种陶醉心迷的印象还在。认准了 Akon 以后,今天就是真的那个曲子再现,我不敢肯定我是否还能识出来。 就 Akon 吧。

【相关】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《插队的日子(2/3):与女民兵一道成长的日子》

往事如烟:前天寻访旧地,遇到了插队时的那位女民兵,《朝花》里面写过的姐妹花中的二妹,如今也是子孙绕膝了。

现在才梳理清关系,原来老队长和新队长是村子里联姻的两大旺族。敲锣打鼓欢迎我们三位知青入乡的老队长一共兄妹仨,妹妹是赤脚医生,就是我们的东家,当年也对我们很照顾。老队长的弟弟娶了新队长的二妹(比我岁数大,我应该叫二姐)。照片就是他们的全家福。老队长和他姐弟三家都在这个池塘边不远。池塘边还有分给我们知青的菜地。

二姐现在的家

重返旧地巧遇二姐。二姐说,维当年就是学问人,会英语,老在家听英语广播。那是我把家里的晶体管收音机,带到乡下,为了听安徽台和江苏台的英语广播讲座。文革年代不知道哪位领导批准的 很多省开办了电台的英语讲座 是当年难得的外语学习机会了。二姐告诉我,三妹小妹如今日子都还不错。三妹不远,就在镇上。小妹在外地做工。

原立委按:朋友说想写点回忆,可是老是瞎忙,就明日复明日地推下去。我的回答是: 不要等。老了有空闲,但不见得就写得出来。我插队一年,那些往事就已经连不成片,感觉将去未去,恍如隔世,想写写不出来,很别扭。分享是人生的一个重要部分。插队的日子,只留下零星的记忆碎片如下:

《朝华午拾: 与女民兵一道成长的日子》

我1976年高中毕业下放到皖南山区烟墩镇旁的尤村。不久赶上了“双抢”(抢收早稻,抢种晚稻),真地把人往死里累。双抢是一年挣工分的好季节,给双份工分,有时甚至给三倍,连续20多天,天不亮起床,到半夜才回,再壮的汉子都要累趴下才能休息半天。人民公社给双倍工分这种变相的资产阶级的“物质刺激”很厉害,不管多累,人都不敢懈怠,你怕累少上工,工就给别人赚去了,到年底分红,你分的稻谷、红薯和香油也相应减少了。其实,羊毛出在羊身上,每年生产队的收成是一个定数,工分多给少给不过是一种财富再分配的方式而已。如果单纯依靠农民的社会主义干劲,双抢跟平时同等工分数,工分总量下来了,单位工分的价格提高了,就没有物质刺激出来的积极性了。谁说经济学在一大二公的人民公社没有用处?

生产队照顾城里娃,工分给高些。于是给我们三个知青各开七分半工,相当于一个妇女全劳力的工分,包括早饭前上早工两个小时,否则只有六分半。那年十分工值RMB0.65元。我在妇女堆里干了半年多,年底分红,赚回了所有的口粮,外带半床红薯和四五斤香油。

妇女全劳力多是年轻的姑娘或媳妇,个个都是干农活的好手。尤村的十几位风华正茂姑娘组成了一个“女民兵班”,不甘寂寞,活动有声有色,曾名噪一时。不过到我去的时候,已经式微,因为其中的骨干大都到了嫁人的年纪,近亲远媒各处张罗,集体活动不能继续。尽管如此,跟女民兵在广阔天地一道成长,在当时是充满了革命浪漫主义的色彩的,让人沉迷和兴奋。干农活的辛苦也去了大半。

我们村村长人很精明,但脾气暴躁,又是光头,让我既怕又厌。倒是他家四个姐妹一个个如花似玉,大妹妹记不得见过,应该是外嫁了。二妹三妹都是女民兵班的主力,小妹妹刚十四五岁,皮肤白嫩,见人脸红,在社办一个作坊里做工。二妹(我叫二姐)刚嫁给本村老队长的弟弟,一个高个帅气的小伙子,感觉有些愣头青的样子。自由恋爱的,算是姑娘们中最幸运的了。刚去不久,这位二姐被照顾在场上打谷,没有下水田。我跟她一起干活,场上就两个人,总是她照顾我。从那时就落下了心猿意马的毛病,直到有一天发现她肚子越来越大,才意识到她跟其他民兵姑娘不同,原来是媳妇级的了。

2019年三月23日巧遇二姐和姐夫

后来跟三妹及一帮姑娘媳妇一道,在田里薅草(就是用耙子在水田里把杂草掀翻,不让杂草长出来),三妹总是侵犯我的领地,把她的耙子探过来帮我。没有她帮忙,我大概一半的速度也赶不上。我老指责她,“不许侵犯”,她总笑而不答,我行我素。三妹模样很好,稍微有些胖,很壮实,象个铁姑娘,但善解人意,脾气性情好得赛过薛宝钗,是我最心仪的。当时媒婆正在给她提亲,我离开村子不久,她就嫁了,听到消息后心里很不是滋味。

这些农家女在我看来都是仙女。从小在那样的艰苦环境中,却一个个风华正茂,英姿飒爽,而且不失农家女的善良朴实和冰雪聪明。我觉得当地没人配得上她们,她们自己也企图跟命运和媒人抗争,不过最后都一个个嫁走了,消没在人海中。

【相关】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《朝华点滴:插队的日子(1/3)》

《朝华午拾:插队的日子(一)》

Date: June 25, 2009 08:39AM

我是文革后最后一批插队的,算是赶上了末班车。当时岁数不够,按照政策可以留城,可是当年的情形是,留城待业常常是永久失业,不象插队,几年之后,还有上调招工或者升学(工农兵学员)的前途。另外就是,由于时代风尚的影响,留城的好像比下乡的矮人一截似的。我有一位同班好友,独子,留城以后,见面说话就没有我们下乡知青那样器宇轩昂。 

插队的故事对我是太久远了,恍如隔世。这也是我一直想写,却感觉心有余而力不足的原因。虽然如此,插队的片断却不时在心中翻腾。虽然连不成篇,这些记忆残片却是刻印在脑海最深处的。 

我插队的地方是比较偏远的皖南山区,叫尤村,就在镇子旁边。当时一起下到这个村子去的一共三位,陈兄是中医世家,人很老成憨实,带来了大半箱子医书。曾兄是退伍军人的子弟,有点吊儿郎当玩世不恭的样子。我随身携带的是薄冰《简明英语语法》和一台晶体管中波收音机,希望还能继续电台《广播英语》的学习。我们三人从镇上一下车,就被尤村的老书记带领一伙人敲锣打鼓迎到了村里,暂时安置在一位公社赤脚医生的家里,住了两个月。后来村子利用国家发给我们三人的安家费,盖了三大间仓库一样透风凉的屋子,我们才算独立安家落户。 

第一个月是吃大户。每天各家各户轮流吃。农民大多朴实好客,我们吃饭的那天,东家往往要比平时多预备一些菜肴。可是,各家家境不同,伙食还是参差不齐,有些确实难以下咽,但又怕人笑话知青娇气,只好硬着头皮吃。最糟糕的不是伙食的质量,而是卫生状况。有一天天擦黑,推门去晚餐,手上黏黏糊糊摸了一手,回来后我们几个一合计,发现不是鼻涕就是浓痰的残迹,都恶心得要吐。 

2019年三月23重返尤村,小池塘还在

后来决定哥仨自己开伙,分工合作。还记得清晨起来到河塘担水,身子骨瘦小的我与水桶不成比例,在早春的冷风中瑟瑟发抖。不过,自己开伙还是受用多了,每天干活就满心盼望早早收工去享用自己的晚餐。最常做最美味的菜肴是咸肉炖黄豆。咸肉是父母捎来改善伙食的,每次割一小块肥肉,慢火烧化,那泛着油光的软黄豆实在太诱人了。黄豆和木炭都是队里照顾知青配给的,弄个小瓦罐盛上黄豆、肥肉和水,上工前置于炭火上,收工回来就四香飘溢。 

这样的美味当然不能长久。于是自己种菜。我们图省事,挑最容易的菜,种了两大片黄瓜。黄瓜这玩意儿,一旦结起来,就不得了,瓜满为患。怎么摘怎么吃也赛不过它生长的速度。平时没事就摘了生吃,到了晚上再做黄瓜汤,或者炒黄瓜,直吃得想吐。这个后遗症不小。很久很久,我都把黄瓜当作最贱的菜,偶然生吃一点可以,从来不拿它当菜。可是斗转星移,不知流浪海外的何年何月,黄瓜忽然金贵起来。太太和女儿都爱吃。暖房子里面出来的英国黄瓜,每根两三块美元,一样成为我们家的必备。有时伙食中蔬菜量不够,怕孩子营养不平衡,就洗根黄瓜给她,她总是美滋滋地啃它,从不厌烦。 

黄瓜确实不好做菜,要是赶上了鸡蛋,炒菜也好,做汤也好,都不错。单做就不成菜,不下饭。鸡蛋是非常珍贵的,我们不养鸡自然没有鸡蛋,也舍不得买。后来还是村子里有人从我们知青这里借钱急用,可又没有钱还,就从鸡屁股下抠出一些鸡蛋来偿还我们,我们才有了些口福。有一天光头队长来巡视,看见我们的黄瓜地,就狠狠剋了我们一顿。说,你们这帮懒虫,谁让你们种黄瓜来着,一点正经菜也不种,你吃个屁。他所谓正经菜,是指辣椒茄子一类,那样的菜只要有点菜籽油,不用鸡蛋不用肉,就可以做得让人垂涎欲滴。可是拾叨起来不容易,除了浇水,还要施肥,最好是粪兑水浇了才好长。

黄瓜吃腻了,后来没的好吃,改吃炒山芋(北方叫红薯)。这一招说来还是村里那个放牛娃教给我的。这个放牛娃很机灵,自从我们知青来了,就总找机会来套瓷。是他告诉我,山芋也一样可以做菜,就跟炒土豆丝一样做法。山芋是口粮,我们不缺,于是我们尝试切丝红炒,添上油盐,做出来比黄瓜好吃下饭多了。不过,有一条与土豆丝不同,炒菜的火候一定要适可而止,否则烂成糊就不好吃了。 

从放牛娃那里学会了骑牛。别看老牛笨乎乎的,走起路来却非常稳妥实在,一步一个脚印。起初我看田埂头的羊肠小道,老觉得那老牛一不小心就会折到沟渠或水田里,其实老牛从不出差错。放牛娃吆喝一声,那老牛就乖乖地倾前身,低下犄角,我在牛娃的帮助和鼓励下,蹬着牛角,翻身上了牛背,开始胆战心惊的骑牛前行。骑牛的最大感受是不舒服,那老牛的脊背咯咯吱吱的,感觉不到皮肉,满屁股都是骨头,根本不象我以前想像中的牧童骑牛之乐。 

【相关】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《李白109:深度学习的猪与符号逻辑的坎儿》

李:刘群老师转了一篇好文:The Bitter Lesson ,机器之心翻译过来了,《AI先驱Rich Sutton:利用算力才是王道,人工智能一直在走弯路

是以历史事实对符号AI和规则NLU的批判。人的方式就是符号逻辑:这样比较舒服,容易理解。但是面对依赖蛮力(算力)的海量搜索和海量学习,符号逻辑显得单薄。无论多么 bitter,历史事实(speech,vision,MT)很难回避,不得不承认。剩下的问题集中在:

1. 可解释性/可定点纠错性

这是不是蛮力/算力的死结?符号逻辑不存在这个问题,by definition,它就是人可解释的。但实际上,可解释性只是一个表象,因为稍微复杂一点的任务,符号逻辑的模型和算法理论上虽然可解释,但实际上也不是容易说清楚的。

白:过程的可解释性和表示的可解释性是两个不同的issue,没有人苛求过程的可解释性。但是表示的可解释性不同。明明有合理的显性表示,非要把它“嵌入”,这就说不过去了。

李:那是。另外一点就是,可解释性背后的东西似乎更重要,那就是定点纠错的能力。因为是符号逻辑,甭管路径多复杂,专家真想 debug 的话,就可以追下去。学习的模型就很难。可解释性/可定点纠错性,这是符号派还可以拿得出手的一张王牌。第二张王牌就是:

2. 不依赖海量标注

这第二张王牌,也越来越让人“担心”了。倒不是担心无监督学习,或者迁移学习会突然有革命性突破。而是实际上看到的是一种渐进的改变。

第一个改变是所谓预训练的进展。的确从方法论上 把通用的模型与应用的需求做了分工,使得对于后者的标注要求理论上是减轻了:这还是正在进行的过程。但预计不会太久,不同的效果就会显现得更有说服力。方向上,很看好预训练的作用,现在只是一个开始,但已经很让人兴奋/担心了。

第二个改变是,很多标注数据可以半自动收集,通过各种方法,各种 tricks,加上时间积累效应,再加上调动用户积极性的“引诱式”标注的反馈,等等。大规模标注数据的人力要求 并不总是想象的那样无边无际和困难。

白:问题是:什么标注?标注体系的科学性,决定它的天花板。标注含不含复杂结构?如果含,又能自动标注,那还训练个啥,就是解析了。如果不含,怎么保证能“命中”目标语言?命中场景,而不是命中“端到端”游戏?

李:“复杂结构”和体系天花板,这些深层符号逻辑的东西,当然也可以是王牌。靠蛮力/算力的端到端学习可能难以应对。但是深层逻辑的东西,感觉上,在 real world 的任务中,占比不大。可以拿来说事,实际限制往往不大。

最近遇到一个同好,聊起来,朋友对我的符号悲观主义很不理解。说做了一辈子的符号了,“李老师”怎么自己跟自己过不去呢,灭自己威风,长他人志气。

这要看年龄段了,到了这个岁数了,威风志气都是小事,不值一提,主要还是看解决问题的能力和潜力。对于上面几张“王牌”或挡箭牌,估计还要两三年的时间可以化解,或见分晓。到那个时候,可以比较确定地看到符号路线的合理定位。到底有多大价值,如何相处和自处。相信不会“蒸发”,但定位成秘书或打杂的可能性,感觉不是完全不可能的事儿。

白:包含/容纳结构,是NLP不同于普通视觉任务的根本特质。深度学习的猪飞不了多久了。

李:“包含/容纳结构,是NLP不同于普通视觉任务的根本特质”,这话自然不错,可是MT是NLP呀,没有结构,NMT 达到的成就,不得不信服。唯一的退路就是,MT 太独特了,端到端的数据是几乎无限的。这自然是 NMT 奇迹发生的根本原因,但逻辑上这个奇迹反驳和弱化了 没有显性结构,学习难以完成NLP任务 的立论。当然,我们总可以找到 NMT 里面的痛点和笑话,来反证其缺乏结构的短板。可事实是,这些痛点和笑话确实没有什么统计意义,对于任务完成的整体效果,其实影响没那么大。对于传统的文法翻译派,NMT 是一个真正的苦果,又是一个不可逾越的标杆。

白:MT的成功是不可复制的。而且MT不是场景化的。这意味着它只能是陪衬。在核心应用的智能化方面起的作用很边缘,算不上什么苦果。

李:做过RMT很多年的人体会有所不同。苦果是说,曾经相信只要自己努力,RMT就可以创造奇迹,直到有一天发现,这是一个无法匹敌的力量对比。所谓“臣服”,大概就是这样。

白:我们提倡黑白双煞,提倡端到端和场景化并举。端到端不适合做产品,也不适合做整体解决方案。2B尤其如此。场景必须是黑白相得益彰,甚至是白远远大于黑。黑盒子做场景先天劣势。

李:场景化怎么说法?我以前的说法就是 NLU 支持 domain porting,NLU 做得功夫越足,domain 落地这边就越轻省,场景化效率越高。

白:我认为,在过程、控制这些地方,神经大用特用都没有关系,在表示则不然。

做场景化的,千万别被MT带歪了。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《一日一析:“让不让我们上学的人见鬼去吧!”》

白:“他们还把不把领导放在眼里了?”

“把不把”,必选格介词加“不”构成疑问句。

N+ X++ N+,先由“不X++”与“把N+”结合,再由两个N+合并,其中后一个N+携带构式标签,符合白名单要求,进入合并merge操作。介词“在”,引导状语时是“S+/N”,引导补语时是“+S/N”。

李:他们还把不把领导放在眼里了 == 他们还把领导放不放在眼里了 ??

应该是等价的。说明选择疑问句,可以从动词的重叠式,转为副动词(介词、助动词)的重叠式: X不X + V

“为人民服务”
“为不为人民服务”
“为人民服不服务”

“开车去南京 -- 开车去不去南京 -- 开不开车去南京” : 貌似有细微差别。

“被他揍了 -- 被他揍没揍 -- 被没被他揍”??

介词重叠识别以后,就成为一个介词了,后面该怎么走怎么走。唯一需要注意的是,介词重叠得出的“选择疑问句 or-Question” 应该从介词身上,传递到谓语身上。这样就保证了 谓词重叠与介词重叠的解析,是一致的。

还有的助动词 “是不是”:我们去不去?== 我们是不是去?

“有没有” 也是助动词:他们去了没去?== 他们有没有去?

白:“在不在食堂吃饭”和“在食堂吃不吃饭”似乎不等价。

副词性语素也可以拆解,但独立副词不行:狠不狠抓,严不严打,难不难为情;*马上不马上动手,*狠狠不狠狠打击,*太不太硬……

对副词的选择问句,要在副词前面加“是不是”。

李:“是不是不方便”

* 不不不方便

梁:要不要马上动手?

李:是不是要马上动手?

马不马上动手?

梁:没这么说的。

李:听得懂呀,不留神这么冒出来 也是可能的。中文重叠式有时候真绝。

白:*立不立刻转账

李:“要不要立刻转账”

用助动词 “是不是”、“有没有”、“要不要”、“能不能”、“可不可以” ......

完成:有没有立刻转账;现在:是不是立刻转账;未完成:要不要立刻转账。

白:“让不让我们上学的人见鬼去吧!”

李:这个句子很绝,很绝。能注意到或想出这样例句的人很神 很神。句子“鬼” 啊。

让不让 (重叠式)vs 让/不让 (非重叠式)。试比较:

“叫不让我们上学的人见鬼去吧!”
“让不让我们上学,我们都是要上学的。”
“让让不让我们上学的决定见鬼去吧!“

不好整:重叠式处理离词法较近,远远早于 VP 的句法阶段,二者纠缠的时候,除非特地做休眠唤醒,很难协调好。真要做,唤醒的思路是:让不让重叠式所反映的选择疑问句 or-Question 语义与祈使句(imperative)语气不兼容。这是个唤醒的 trigger:不能够一边说 让还是不让 一个event 发生,一边又说这个 event 是祈使的。要祈使,就是定下了 event 的走向;要选择,就是没有定下这个 event。譬如:

“你给我滚!”

不能与 “让你滚还是不你滚呢” 兼容。

parse parse,哈哈哈 果然中招:

这个解析“几乎”无可挑剔,until it comes across 神人鬼句。

藏在树和图背后的解析结构表示里面有“选择疑问句”特征 orQ,这个 orQ 与“让”这个小词处于句首所应该表达的祈使语气,无法兼容。因此可以针对 “让” 做词驱动的休眠唤醒,可以搞定,但是显然不值得了。词驱动的休眠唤醒是定点解决问题,只要能落实到词,总是可以实现,虽然琐碎,实现起来其实不难,问题出在:1. 真地不值得:都是些长尾中的长尾,做了与不做,系统的性能测试上无感。2. 词驱动的定点休眠唤醒有一个前提,就是对于需要唤醒的另一条路径解读,需要有预见。

其实没人真地去做那么多“预见”,所以结果总是在遇到 bug 了以后去反思这个词驱动唤醒规则。这样一来,这个技术虽然机制上平台上可以实现,但没有有效的保证可以全面铺开,防患于未然。换句话说,对于小概率的长尾错误,值得做的方法应该可以 scale up,这样长尾积累效应使得系统性能最终得到可以认可并且难以逾越的提升。如果对付长尾需要零敲碎打,见到了才能想到去实现,这虽然比束手无策要强,但实践中也还是不能有真正的效果。词驱动就是零敲碎打,专家编码词驱动比愚公移山还要愚。

学习搞不定,专家又不够愚。难!愚公累了,不愿移山,能等得到上帝吗?

可scale up 的长尾处理案例也有, 譬如 成语泛化(所谓 “1234应犹在,只是56改”),大多可以自动半自动批量进行。得益于成语的 ngram 特性,可以让成语词典自动增加变元 实现泛化 而且不用担心损失精准。

其实,没有比愚公更渴望自动化的 ---- 如果自动化能搞定的话。那天与@毛德操 说,我对于完全自动化存有1%的念想,奇迹很难发生,但是毕竟见证过奇迹的发生,譬如NMT。

白:前面罗素悖论已经是“鬼”句子了。

“他专门给不给自己理发的人理发。”

看看,“给不给”中招不?

“他给不给自己理发的问题还没有答案。”

无论如何,局部构式的优先级一定大于构式拆解的优先级。这是毋庸置疑的。自动的峰回路转,关键在于“过河不拆桥”。构式拆解的优先级还没那么“不堪”,不用等到撞上南墙,只要先前的构式带上坛坛罐罐,速度立马下来。局部次优解没有睡死,还在梦游,梦游速度可以反超。

“打死人要偿命,打死人就不必偿命了。”
“打死了的人无法再说话,打死了的人需要好好说道说道。”

“卖火柴的盒子上的招贴纸的小女孩”。

向前偷看何时了,相谐知多少?

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《李白108:“他就是要裁你的人”》

李:看一下结构歧义的例3 “他就是要裁你的人”,如果你是个兵 手下无人,这句对你就没有歧义。如果你是经理 麻烦了。

你说:裁我的人 痴心妄想!
我说:拜托 他才不要裁你的手下呢,他是要炒你的鱿鱼!

你说会不会很糟心?

  1. 他就是要裁你
  2. 他要裁你的人
  3. 他就是要裁你的人

白:“你的人”局部优先于“裁你”,这没有错。

李:本来是靠相谐度 力量对比,可是 “你” 和 “人” 都是 human。遇到双关式歧义,傻了。小概率事件发生了。

有意思的是,解析器做了一个候选定语M2,貌似为另一路的解读留有一些端倪:“你的人(your men)”。O 与 M2 不兼容(XOR),虽然借的是AND的表示,这是另一个相关话题了,叫做“如何用确定性数据流表示非确定性结果和歧义”,找时间再论。

上述歧义是不难识别的。中文的【V N1 的 N2】,与英文 PP attachment 句式【V NP PP】有一比,都是结构歧义的典型句式。为什么常常不愿意花力气去做结构歧义的识别工作?

与计算机语言不同,自然语言的特点就是有歧义,NLU的任务就是消歧。彻底消歧不容易,因为需要调动很多知识,不仅仅是语言学知识,还包括常识、领域知识和场景知识,这些知识的作用力不同,最后人是怎么综合各种力量对比做出理解的,是一个不好拿捏的过程。形式化建模有挑战。

然而,与词汇歧义的琐碎不同,结构歧义句式清晰,有迹可循,从理论上是可以识别的。识别歧义不需要世界知识,语言学内部的知识就足够了。结构歧义不是难在识别,而是难在识别了以后如何利用各种知识去进一步过滤消歧(剪枝)。

所以有人建议 nondeterministic parsing,把歧义都识别暴露出来,把球踢给接盘的人。这里面的argument就是,识别问题是解决问题的第一步,总比糊里糊涂好。但是实际上,虽然这是一个可以做的事儿,我们却选择不做非确定性输出。只要算一下账就明白为什么不做是更好的对策。

假如一个结构有两个解读,非确定性输出两个路径(解读),在难以确保后面模块有相当把握和精度消歧的情况下,其实不如从一开始就规定系统只能输出确定性路径,宁愿冒过早剪枝的险。(如果后面的落地方向是支持结构检索,俗称SVO搜索,那又另当别论,因为搜索讲求的是召回,非确定性比确定性的支持更有利。)

人对于二叉歧义(a|b)的理解,不外是三种情况:1. a;2.b;3. a|b:其中,3 是不可解的歧义,即便调动现有的知识,歧义还是存在(如 双关语),是小概率事件,可以忽略。剩下的1和2不是均匀分布的,常见的情况是一种可能比另一种可能要大很多。

这时候,确定性系统在数据驱动的系统开发环境中,就会自然偏向于输出可能性大的路径。数据打磨越久,这种趋向越稳定。如果是不确定性的设计原则指导,就会不断追求召回,干扰了对于最大可能路径的目标追求。一般来说,最终结果自然是不合算的。换句话说,在实践中,不是不可以做到很好的召回和识别出(几乎)所有的歧义,但这个工作肯定会干扰集中精力逼近正确的目标。

自说自话半天,其实是自己给自己的“懒惰”寻找背后的动机,今天算是悟出来的。的确事出有因。很久了,一直觉得应该做也有能力做的这件识别所有歧义的事儿,一直没下决心去做。果然不仅仅是懒惰。既然如此,就有理由继续懒惰下去,好把精力放到更合算和有价值的地方去。

白:合算不合算的思维,不是极客思维。极客没有挡箭牌。

李:一般都是天然地批判 “(过早)剪枝”和确定性数据流,终于找到了这个做法的 “说得过去” 的理由和实际好处。当然前提是把开发看成是一个漫长的数据驱动的打磨迭代过程,今天的看似确定性输出的错误,到明天就纠正了,虽然同样是确定性输出。不确定性是假设在不必迭代的情况下,为后期应用保全潜力。迭代思维把这个后期消歧的假设转换成迭代过程中的前期消歧(譬如一条粗线条规则引起的歧义,在迭代中变成了粗细两组规则,消歧了也就没有非确定性了)。极客不极客,不重要。

白:很多技术可以让剪枝成为伪问题。合理的歧义也许就是前后脚的关系,伪歧义也并非始终寸步难行。允许依序择优梦游,天塌不下来。例如,坛坛罐罐走不齐——各种局部解析非等速前进,就可以把剪枝问题化解于无形。你永远无需做是否剪枝的判断。只要“长芽”被无限期推迟,事实上就相当于剪枝。但是无限期推迟只是一个后果,并不是一个决策。

李:在缺乏厚度或深度 没有足够施展空间的情形下的问题。换了架构 就可以化为伪问题。原来的痛点 逐渐消解了。

白:截流的点可以设置。出一个解析和出N个解析,就是截流阈值的选择而已。所有有语言学意义的判断,都融合在优先级机制里了。截流阈值的选择与语言学无关。

“他就是想利用你,并且在利用完了就杀掉你的敌人。”

“就是”可以带体词性表语,也可以带谓词性表语,造成歧义。“利用”、“敌人”是负面sentiment,“杀掉”可反转sentiment。如果带谓词性表语,从“利用”得知“他”为正面,从“杀掉+敌人”得知“他”为负面。拧巴了。如果带体词性表语,“利用”和“敌人”相谐,“你”和“杀掉”、“敌人”不两立,于是“杀掉”和“敌人”也相谐。这个才是正解。

李:我经常纳闷。白老师冒出来的那些例句是怎么回事。肯定是平时有心,对数据超级敏感,这是数据驱动的角度看例句的收集。数据驱动的有心,本质还是被动的。另一个角度应该是主动的方向性收集+发挥?就是在多种因素中,有意识瞄准冲突最戏剧化的案例。譬如 句法与常识的冲突,惯性与转向/刹车的冲突。

白:嗯,似乎有一种直觉,能筛选出哪条语料对于我来说是不寻常的。

李:中文的【V N1 的 N2】,主要看 V+N1 动宾相谐度与 V+N2 动宾相谐度的力量对比:

“卖火柴的小女孩”
“卖小女孩的火柴”

卖的是东西,不是人。

白:超相谐的填坑>修饰>相谐的填坑>不相谐的修饰>不相谐的填坑

李:这里面貌似有距离因素,修饰距离近 动宾距离远,所以 同等相偕 修饰大于动宾。

白:【笑而不语】

三个境界:1、能单独处理“就是S+(重读)”;2、能单独处理“就是S/2N(轻读)”,其中修饰>填坑;3、能综合处理“就是S+||S/2N”。3又分:“正解+伪歧义”和“真歧义”。境界2中,一度占先的解读推进到某处卡住了,另一个解读后来居上。

“这是卖女孩的小火柴,不卖男孩。”

“卖”的间接宾语坑也来凑热闹了。只要相谐性并无禁止,就可以激活。

李:昨天我想的反例是:“这是卖小女孩的人贩子”。

白:无所谓反例,就是前后脚的事儿。不使用常识(事理),就是歧义。谁比谁先一步都是可能的。这种优先级上的误差,是在容忍范围内的。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《一日一析:“你家的地得扫了”》

parse parse,用 PSG:“你家的地得扫了”

再 parse parse,用 DG:“打倒罪有应得的地主”

李:都是中规中矩的句子,没有难点。

白:分好词再玩这个游戏就看不出热闹了。要看就看怎么分词,分错了怎么找补回来。的地得,都有其他词性标注。在哪里、依据什么原则排除的。

李:不是特地分好词,词典分词的本来面目就是如此啊。不查词典,如何解析呢。到了的地得这种极高频小词,主要靠的也不是词性标注了,就是直接量。用法各个不同,量体裁衣。

李:“一句话用的地得太简单了,毫无挑战”。热闹来了,还真是挑战呢:

“的地得”三元组进词典,当然可以。刚才拼音输入 dedide,还真就出来了“的地得”,可见这个三元组入词典也算是理所当然的。咱们词典不够大而已。

“那就不好玩了”。可如果坚持不走词典化道路,还有啥好招吗?

“做大事不必考虑一城一地的得与失”。

这里的难点不在的地得,是条件紧缩句(NX)费点琢磨: if 做大事 then 不必考虑一城一地的得与失

(if) (you) VP1 (NX:then) (you) VP2

零形式,条件太不清晰。嗯,有点难,有点难。


@王伟DL: 三兄弟若是独立为词的话,可靠句法来分拨;三兄弟若是其中几个掛了某个强力词的一角的话,不太好办,保不准有把高强度词扯开的情况。

白:
白硕SH
3月3日 22:12 独立成词的“地”和“得”都不好伺候。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录