【李白86:这是最后的斗争?】

宋:
“严正指出”中,“严正”有歧义;“严正说”中,“严正”无歧义,一定是人名。

李:
宋老师观察真切。这里面有什么说法 怎样实现?

“说” 挖了个 【human】 的坑,人名就跳进去。“指出”也挖了个 【human】的坑, 所以,“严正”作为可能的人名也可以跳进去,是为歧义。

但作为副词的 “严正” 为什么可以修饰 “指出” 不可以修饰 “说”呢,虽然二者是同一个动词子类。通常的说法是,搭配使然。搭配说的是比类别(包括子类)颗粒度还要细微的词汇之间的语义相谐。“严正” 就是喜欢修饰 “指出”, “指出” 就是喜欢被 “严正” 修饰,对上眼了,之间有化学。这个倒也不罕见 也有词驱动的实现方式。难点(或痛点)在为什么 “严正” 不可以修饰 “说”?

相谐的事儿 一般认为是软约束,能谐自然好,不能特别谐的话,也可将就着,凑合一辈子的夫妻有的是。难道我们不仅仅要记住搭配,还要记住不搭配?实现的话, 就是有无必要,既有搭配的白名单,也要有不搭配的黑名单(谁谁与谁谁就是互相看不上 不共戴天)?开了这个黑名单的口子 无疑给电脑处理 也给人脑记忆增加了负担 到底必要性如何?

当然 还是大数据好说。如果大数据玩得转 容易无缝连接的话,大数据中 “严正指出” 就是个 4 gram 出现频次很高,而 “严正说” 频次很低。但怎么知道 前者是歧义 后者不歧义?

“严正指出” 频次高 因为副动组合出现多,外加少量的主谓组合。“严正说” 频次低 是因为副动组合在这里遭遇不搭配陷阱,只剩下少量的主谓组合了。这些东西不是没有统计根据 但要理清这些 感觉好难。

白:
这里的搭配是词对词的,而不是特征对特征的。比如“老实讲”就没有办法为“严正说”的可接受性做任何贡献。虽然前者在大数据中频次不低。

李:
是 搭配说词对词。
词与词搭配 背后的关系怎么解?无监督大数据看得见搭配,看不见关系,除非变成有监督 让人标注。如果 a 与 b 搭配 只有一种可能的关系,当然就无需标注。有两种 单看统计就难。

白:
有词典就可以看得见subcat,用不用subcat,(词对subcat或者subcat对subcat)由什么决定。

弹钢琴、弹琵琶、弹三弦、弹吉他、弹曼陀林

李:
打-酱油,吃-亏,...... 这些都是搭配,不用讲道理。

白:
这又离合词了。离合词不需要subcat。但是系统性的词对标签或者标签对标签,不一样。你词典里都有了,就是个拿来用的问题,也不用讲道理。

李:
所有词对词搭配 离合不论 都是词典绑架,要不要一个不搭配词典?里面全是例外 是黑名单。好比两人结婚前请八卦先生算命,看相克不克 如果克夫或克妻,坚决不能成婚。

标签对标签 就是抽象语法条例。我们都知道那种东西就跟筛子一样 到处是眼,但没有它也不行。要鲁棒 要召回 就要靠它。

白:
不要人来写

李:
于是可以把颗粒度变细,在抽象条例周围 ,前堵后补。也可以在条例里面 做黑名单约束 用逻辑与加逻辑非, 难看一点 但管用。词对标签同理,如果引入黑名单,也可以。这样来看 似乎没有必要单单来个 词对词的黑名单(不搭配词典)?

白:
否定的统计判断,是排除歧义用的。当没有歧义可以排除,这种东东还应不应该起作用,值得怀疑。

李:
我也怀疑。回到原问题:问题1,是 要不要考虑加一个不搭配词典。问题2是,无监督情况下 统计上相谐的词 如果有歧义 统计本身如何消歧?理论上 后者也不是非监督就束手无策了。理论上,通过对类似的但不歧义的词与词的统计数据作为参照,可以计算出歧义词的歧义程度和歧义偏向,甚至不排除可以通过某种 propagation 来无监督地消歧。

白:
就算没标记,还可以根据embedding干点啥,还可以协同推荐。

李:
哈 正是我想说的。
现如今 embedding 就好像上帝之手,啥事儿都可能,什么戏法都难保变不出来。

今天路上与郭老师还在说这些神奇事儿,翻译如今也不需要平行语料了,就在两个独立的语言语料里面训练,然后把句子一 embedding,二者就相互翻译了。(据说,一个双语的儿童就是这么学会两种语言,并自然切换或翻译两种语言的,儿童并不需要有翻译样板才学会翻译。)

更神奇的是 翻译两端也不一定是自然语言, source 可以是语言,target 可以是图片,反之亦然。根据啥 ? embedding。这么神奇的媒介语表达 难怪人看不懂,人脑只能看懂 symbolic 的东西。

embedding 到底是不是真的这么神奇美妙 先放一边,问题是其不可解释性 看不懂 怎么办 怎么掌控 怎么纠错。郭说 谁让你看懂了?看懂了的东西怎么可能神奇?蚂蚁看得懂人类语言吗?人类读得懂上帝旨意吗?

也许我们天天鼓捣这些看得懂的符号逻辑,算计来 算计去,全部是瞎操心,最多也就是过家家 儿戏一样。

想想怪悲凉的。

白:
咋改抒情诗了?

李:
30年前入行的时候 我们语言所有三拨搞 AI 相关的,每一拨都是中国AI的开山人物(现如今的中国AI史似乎抹去了这一页,其实这些老教授都是让人景仰的大师):

第一拨是我的导师 两位刘先生 搞规则mt的,第二拨是范继淹先生的自然语言理解,是传统 AI 那套常识推理的符号逻辑,第三拨是语音合成,吴老先生和杨顺安。 当年听马老师同学杨国文学姐介绍范先生小组的那套AI符号逻辑,心里很不以为然,觉得常识和推理很不协调,推理链条又显得太小儿科了,太脆弱(fragile)。无法与我们同属符号逻辑派的mt规则路线比,我们这边不用常识用语言学,接地气多了,而且分析语言也深入多了。那种 AI 果然没成气候 几乎绝迹(很长时间 AI 成了一个笑话),规则派苟延残喘 算是活下来了,但退一步想 我们当年诟病试图利用常识推理的AI符号逻辑,也许就是(或者还不如)50步笑百步呢。符号也许根本就不是必要的手段,更不必谈什么两派大团结大融合。国际歌很悲壮 说这是最后的斗争,等价的说法就是 这是垂死的挣扎—— 如果世界的本质根本就不是符号的话。

白:
世界本质是波粒二象性

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【李白刘董85:汉字优越吗?】

李:
想到一个事儿,关涉词素这个议题,语言学基础课里面已经说得清清白白。但在大众认知中,甚至在专业人士的讨论中,还是常常概念不清。表现在那些流行的“汉字优越论”的各种演讲中。

汉字优越论因为与文化自信和民族自豪感搅合在一起,天然政治正确,因此无论怎样拔高、夸赞,无论符合不符合语言学基本原理,都容易大行其道 深入人心。其中最流行的说法是,几千个汉字可以表达的概念,比几万个英文词汇表达的概念,还要丰富。

这种说法不能说完全没有道理,但本质上似是而非,经不起语言学基本面的推敲。

要害在,这是苹果与梨子在比较。

汉字是语言材料的最小单位,是词素(又叫语素,morphome)。英文词汇表中的词不一定是最小单位,里面也有复合词(compound:black-board),也有派生词(work-er)。如果是词素与词素比较(这才是 apple to apple comparison),语言之间在数量上的差别绝不会如此悬殊。上面的 blackbooard(黑板)和 worker (工人)就不是两个单独的单位,而是跟汉字一样,一一对应,应该分解为四个语素。

正确的符合语言学常识的说法是,几千个常用的汉字对应西方语言几千个词素(词根或词缀),它们可以合成几万个常用词汇,代表了日常语言中所需表达的概念的绝大部分。

这样一来不就是半斤八两了吗。显现不出汉字的优越性,还是心有不甘。

其实,真要深究,还是可以更加合理地为汉字优越找到一些语言学的根据,而不是人云亦云地拿自家的“字典”(词素表)与人家的“词典”做粗暴比较。

虽然世界上演化这么多年到今天的主要语言,无论东方西方,无论汉藏还是印欧,在这个信息飞速流转的地球村,都有足够的语言材料来表达所需要的概念了,但是汉字为词素的中文还是有一些额外的方便。这额外的方便可以算在汉字优越头上,只是要表达清楚这个优越性,需要一些语言学。

比较英语的词素(词根 词缀),汉字为词素的中文,其造词法更具有产生性。

换句话说,国人可以更轻易地“造词”。这也可能是缺点,反正语文老师对小学生“生造词”一直是很不以为然的,过犹不及。他们的责任就是约束学生的造词能力,怕学生没必要地造出太多的词出来,行文不规范。但是,原理上说,这是语言的灵活性和适应性的体现,应该算是优越的语言学特点。

今天听中文网络广播,听到一个超出我的词汇范围的词(术语叫OOV,Out of Vocabulary,其边界因人而异,我的OOV词对于我来说就是“生造”词)“区隔”(后来查了万能的互联网,发现是一个被共同体已经接受的词),因为这词于我是第一次听到,我愣了一下,但很快就从汉字及其关联词汇(“区分”、“分隔”)意会到其语义。这说明什么,说明汉字组词有很强的随意性(明明有常用词“区分”,也不妨再造一个几乎完全等价 的词来),对于听者和说者的顺畅交流通常不构成障碍。增加的是灵活性、多样性,以及从灵活性而来的新鲜感(谁愿意老“墨守陈词”)和从多样性逐渐带来的细微差别(nuance)。

为什么同为语素,汉字组合成词,比起英语语素组合成词,更加能产呢?

要起床了。先停下,以后再聊(老话说,且听下回分解……)。

刘:
@wei 我对汉字优越论也持怀疑态度。不仅仅是你说的原因。我觉得汉字的表义性对词义的理解有好处也有坏处。好处当然是可以减轻学习新词的负担,看到新词也容易猜测意思(如你所说英语词素也有类似作用)。但从另一方面来说也会带来坏处,就是容易望文生义。有些词义仅从字面解释容易造成误导,另外一个坏处我觉得是带来翻译的困难,这一定程度上阻碍了外语新词的传入。

白:
“电脑”的命名跟汉字的优越性不知道有没有关系。

刘:
前不久还见周志华在微博上吐槽把Robot翻译成机器人使得这个词在中文里面的意思发生了变化

白:
还有,intelligent和smart都翻译成智能,中国凑AI热闹的人群一下子大了好多。

魯:
嗯嗯,Robot建议翻译成“若博”,信达雅.... 哈哈哈哈

白:
“肉薄”貌似也可以。

董:
把翻译中出现的瑕疵或缺陷,都算在汉字的“不优越”头上,欠公平。别人也许会举出“可口可乐”、“出水芙蓉”等来说“优越论”。其实,一种语言都有自己的特点,有好的地方,也会有不足的地方。汉语重义,英语重形。在思考和研究语义时也许可以更多地借重汉语。

姜:
有个机构试图把“Internet”翻译成“因特网”并强力推广,但大家都不认,都觉得叫“互联网”好。“互联网”易于理解,不必另造新词,民间其实也早就一直这么说了。

李:
@刘群 很同意,这正是我想要说的。

构词的灵活是很大的优点,也有副作用。不过,正反比较,我还是觉得,好处大于缺点。我这么说,除了源于汉字这个现象的思考,还源于我对世界语构词法的观察和研究。柴门霍夫对于构词法的设计,与汉字构词非常贴近,但更加“优越”。其结果是,学会几千个语素以后的世界语者,都可以随心所欲造词。副作用是,每一个造了新词的人,都留下了争论的空间。

根子在:新词所对应的概念到底是黑色的(必须最终通过词典注册来绑架),白色(透明)的(完全是compositional),还是灰色的(介于二者之间)?

譬如,电脑不叫 komputero,可以临时造一个词 叫 kalkul-ilo(calculator),留下的争论空间就是,你到底是指的 “电脑” 还是 “计算器”?

再如 筷子不叫 kuaizio,可以生造为 “mangh-ilo”(用餐工具),留下的争论空间就是,到底是 “筷子” 还是 “刀叉” ?

白:
我觉得望文生义出现误差是免不了的。

李:
对啊。
好在在说话的现场,这些误差和副作用会自然消解,所以,富有造词法灵活性的语言 譬如汉语和世界语,还是长处大于短处。对于严谨的场合,譬如学科论文 专利文书,这种灵活的透明造词法,常常让位于黑箱的新词,所以专业术语最好是音译(等价于生词)或直接用外文,或者起码在透明翻译后面再括号里注明外语的等价物,凸显其黑箱子特性。因为是黑箱子,留下的争论空间没有了。必须先给这个新词做一个定义,杜绝了望文生义的可能性。

白:
临时词就没有是否“地道”一说了。比如“马桶抽子”,是不是一定叫“抽子”不重要了,指出是疏通工具,就够了。

李:
所以,我同意董老师,汉字的表意性,及其汉语的自由度很大的造词法,大面上看是一个很大的长处。不求甚解,一般比两眼一抹黑好,至少对于人这点可怜的脑记忆量。到了电脑,再大的词汇都不是问题了,但词典是要“绑架”才有定义的,这个绑架的工作就不得了。好在最近有个深度神经的好东西,word embedding,有点神奇,可以在定义绑架这件事儿上发力。前提是那些个生词要有足够的大数据垫底。

白:
辅助望文生义的话,战斗机器人叫“肉搏”,对话机器人叫“若博”,那啥机器人………、

李:
需要的不是带标大数据,本质就是 clustering ,非监督的,所以还不真正构成太大的知识瓶颈。原理上属于 propagation,自动从有知推展到无知。

白:
非监督是正解

董:
说到翻译,还有“马桶”。一个不好的翻译例子是“抽水马桶”(flush toilet)--别误解为用来抽水的、像抽水机那样的用具。因为V+Nde结构,多数可以是用来V的N.

白:
往里抽不是往外抽

李:
马桶幸好是常用登录词,每个人的词典都内在绑架了,所以看上去透明的,其实是黑箱子。万一一个老外新学汉语,或者一个儿童第一次接触,就糊涂了,这与 马 这个词素有什么关系呢?

白:
@wei 跟“扎马步”不知道有多少关系。

李:
马桶为什么不给马用 而是给人用呢?好处是半透明,即便老外不懂为什么有马在里面,起码能蒙对这是一个桶一样的物件。

沙发 和 软椅 也是如此。后者黑箱子,必须扩大词汇量。前者不用,但。。。

白:
从“马拉松”到“半马”“全马”“北马”“厦马”,洋词儿变地道的土词儿了。
不是捆绑那么简单,有内生的能产性最恐怖了。

李:
“半马”“全马”“北马”“厦马”等,对于我还是要登录(记忆)捆绑才能理解。大概谁开始说 大半马,也许我们不用捆绑也悟出来了。

白:
捆绑+派生+简化.

有了例子,后面就是泛化了。京巴,也有点这个感觉,其实“大巴、中巴、小巴”究其根源也是这种类型。

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【语言学随笔:汉字优越吗(1)?】

想到一个事儿,关涉词素这个议题,语言学基础课里面已经说得清清白白。但在大众认知中,甚至在专业人士的讨论中,还是常常概念不清。表现在那些流行的“汉字优越论”的各种演讲中。

汉字优越论因为与文化自信和民族自豪感搅合在一起,天然政治正确,因此无论怎样拔高、夸赞,无论符合不符合语言学基本原理,都容易大行其道 深入人心。其中最流行的说法是,几千个汉字可以表达的概念,比几万个英文词汇表达的概念,还要丰富。

这种说法不能说完全没有道理,但本质上似是而非,经不起语言学基本面的推敲。

要害在,这是苹果与梨子在比较。

汉字是语言材料的最小单位,是词素(又叫语素,morphome)。英文词汇表中的词不一定是最小单位,里面也有复合词(compound:black-board),也有派生词(work-er)。如果是词素与词素比较(这才是 apple to apple comparison),语言之间在数量上的差别绝不会如此悬殊。上面的 blackbooard(黑板)和 worker (工人)就不是两个单独的单位,而是跟汉字一样,一一对应,应该分解为四个语素。

正确的符合语言学常识的说法是,几千个常用的汉字对应西方语言几千个词素(词根或词缀),它们可以合成几万个常用词汇,代表了日常语言中所需表达的概念的绝大部分。

这样一来不就是半斤八两了吗。显现不出汉字的优越性,还是心有不甘。

其实,真要深究,还是可以更加合理地为汉字优越找到一些语言学的根据,而不是人云亦云地拿自家的“字典”(词素表)与人家的“词典”做粗暴比较。

虽然世界上演化这么多年到今天的主要语言,无论东方西方,无论汉藏还是印欧,在这个信息飞速流转的地球村,都有足够的语言材料来表达所需要的概念了,但是汉字为词素的中文还是有一些额外的方便。这额外的方便可以算在汉字优越头上,只是要表达清楚这个优越性,需要一些语言学。

比较英语的词素(词根 词缀),汉字为词素的中文,其造词法更具有产生性。

换句话说,国人可以更轻易地“造词”。这也可能是缺点,反正语文老师对小学生“生造词”一直是很不以为然的,过犹不及。他们的责任就是约束学生的造词能力,怕学生没必要地造出太多的词出来,行文不规范。但是,原理上说,这是语言的灵活性和适应性的体现,应该算是优越的语言学特点。

今天听中文网络广播,听到一个超出我的词汇范围的词(术语叫OOV,Out of Vocabulary,其边界因人而异,我的OOV词对于我来说就是“生造”词)“区隔”(后来查了万能的互联网,发现是一个被共同体已经接受的词),因为这词于我是第一次听到,我愣了一下,但很快就从汉字及其关联词汇(“区分”、“分隔”)意会到其语义。这说明什么,说明汉字组词有很强的随意性(明明有常用词“区分”,也不妨再造一个几乎完全等价 的词来),对于听者和说者的顺畅交流通常不构成障碍。增加的是灵活性、多样性,以及从灵活性而来的新鲜感(谁愿意老“墨守陈词”)和从多样性逐渐带来的细微差别(nuance)。

为什么同为语素,汉字组合成词,比起英语语素组合成词,更加能产呢?

要起床了。先停下,以后再聊(老话说,且听下回分解......)。

 

【李白王董84:再谈POS迷思,兼论 PennTree 的误导】

王:
动词名化确实不好处理的难办事,以前做词性标注,准确辛率不高,就栽在这,n,v,vN上了,还有区别词b。当然现在语法理论,一个小小助词“的“就有管住核心谓词的能力,使之由V变N。

白:
A、“粉红凤凰”,B、“红绿色盲”,C、“真假和尚”。
A、粉修饰红,粉红修饰凤凰。
B、红绿并列,但并不是用本意的叠加修饰“色盲”,而是用不能区分这两种颜色来定义色盲的具体类型。
C、真假并列,通过分配律把共享中心词“和尚”送给二词修饰,表示“真和尚、假和尚”。
修饰成分间的关系很不简单呢。

李:
我对 b 的第一解读是 c 的并列
看了讲解才悟出来 也许还有 nuance
感觉差异已经细微 微妙到很少需要在意区分的程度了

@wei wang 中文中的所谓动词名物化 nominalization
很大程度上是一个伪问题 一个语言学迷思
强加到 POS 模块 作为其难点 更是一个自找的麻烦
工作 学习 睡眠 吃饭 下雨 打雷
这些词 类别很清晰

王:
@wei,对此我也迷惑

李:
(逻辑)动词 万变不离其宗 没有 POS 区分的必要性

Wang:
这点我同意李老师。所以,我说现代语法理论,是否需要调整一下?只是不敢妄论。
如果都能走对,倒无妨,就怕转得有对有不对,就确实是问题了

李:
在 POS 先于句法的通常架构里
把句法的不同用场 强加到 POS 标签去 是真实世界的天下本无事 x人自扰之。
真有好好的路 硬是自己挖个坑 然后就自己跳进去 然后抱怨路不平。

王:
当然,我现在已经跨越POS这个,不使用POS而直接走句法了。不过对别人而言,这词性标注依然存在。即便标注,我也认为动词体征的,就一直动词体征走向去,比较好。

李:
汉语语法学界上世纪50年代的词类大争论,大争论当年没争出结果来,是时代的局限。

王:
我的看法是,也不去争论。

李:
词无定类(“词无定类 入句而后定”)走向一个极端,无法服人,但其思想有闪光之处。

王:
而是拿到系统中去跑,能跑得好的,自然就是好的,至少这正是我们所需要的

白:
结构强制在技术上一点不复杂,问题是算句法还是算词法,但这都不是技术问题,是旗号问题。旗号与我何干?

王:
至于语言学方面,那是另外的一回事

李:
对于具有 consistent ambiguity 的词,
本体上就是无定类,但是一说“词无定类”就扩大化了,以为所有词都是必须要句法,要上下文,这就陷入了鸡和蛋的死循环,当然不能服人。
这个迷思从哲学上不难看穿。可是实践中却坑了人太多 太久 而且还继续在坑人。

王:
@白硕 说的是,确实不是技术问题

李:
如果一个东西 在有些场景下看着是 红色 有的场景下看着是 黑色
自然的结论就是给个 X 的本体标签,让 X 统辖 红 黑 两个标签,至少这个信息的外延是清晰的,是红黑的区域,不是蓝 不是绿 不是紫 等等,这才符合事实 恰如其分。

王:
这是否分两种情况?
1)本来是多义词,兼有多种词性的;2)已经定了就一种(比如纯动词),走着走着,变了,

李:
不说多义词。多义词(细微差别不算)那是两个词,凑巧长得一样了,其归属自然也可能不同。

王:

李:
只说 2)
2) 没有 POS 半毛钱的关系。
汉语中的 POS 任务中 纠缠了几十年,原来一开始就把任务定义错了。

王:
请问,那么怎么“ X 统辖 红 黑 两个标签”

李:
对于我们讨论的动词名物化,这个 X 就是 V,可以读成逻辑动词。这个 V 是词典给的,没有歧义,何用区分?

王:

李:
到了结构里面做了主语或者宾语,它没有改变 V 的本性:词义没变,归属自然也没变。所改变的是句法 role。

王:
同意

白:
没有X统辖那么简单。以“出版”为例,被赋予了动词特有的零碎,比如加“不”,仍然可以再通过“的”强制为名词;但是反过来,已经被名词特有的零碎强制过的,不可能再被强制回动词。
本性是动词,强制为名词,然后就凝固了,不接受变回动词的再次强制。

李:
没问题啊。
这些个细节 与标签没大关系,标签还是 X。只要词义不变,标签就没有道理变,这是本体 taxonomy 决定的。词义变了,标签有可能变。在同一个词义下给不同的POS标签,对于汉语这样缺乏形态的语言,是不合理的。

王:
我的看法是,不去改变词性
这本书的出版,----出版依然是动词,---可以看作是一个成句中谓词
这个成句,是一个小句(子句),可以做主语,或宾语,这样,句法上也顺上了,而且,词性也没去改变

李:
换句话说,汉语这样的语言,POS 应该用的是逻辑类

白:
问题是啥叫词义变。“真孙子”里面的“孙子”,我感觉词义变了。

李:
世界上所有的语言的词汇,都有逻辑类。这是语言共性。但是形态语言 在逻辑类之上,经常使用形态变换,把逻辑类穿上不同的衣裳。穿得好的话,可以脱离场景做句法。例如 俄语,morphology 很大,句法就简单了。极端来说,别说 POS 标签,就是本质上是上下文结构决定的 role,也可以脱离上下文 在词上反映:宾格就是宾语 role。

王:
同意@wei 在同一个词义下给不同的POS标签,对于汉语这样缺乏形态的语言,是不合理的。

白:
填坑使用的不应该是逻辑类,应该是角色。比如“这本书的出版怎么没通知我”当中,“这本书的出版”填坑时就是N。“这本书出版怎么没通知我”当中,“这本书出版”填坑时就是S。

王:
这本书的出版----看作一个小句 ,小句也相当于名词作用。出版--作为一个事件出现
事件--->没通知我。

李:
填坑不外两点:
1. 句法上要的是什么形式(包括标签或子类,或直接量),这是输入条件;2. 语义上是什么 role,这是输出角色,是“理解”的形式化。不能混淆输入和输出。输入条件用逻辑类,没有问题。句法的工作,起点就是词典信息。逻辑类是词典信息的重要方面,是词典本体信息体系里面层级最高的那几个标签。

白:
但,“通知”的内容那个坑,就必须是个X,混儿。见人说人话见鬼说鬼话。

李:
“出版”的坑:
(1)第一个坑
输入条件:publication (本体链条属于逻辑名词)
输出角色:【受事】

(2)第二个坑:
输入条件:human_or_organization
输出角色:【施事】

这才是 “出版” 的真实面貌。至于语言应用中,上述类似 HowNet 定义出来的 subcat pattern, 应该如何松绑输入条件 来应对鲁棒与活用,那是另一层面的勾当。

王:
就是说,不能因为一个“的”字,把本来清晰骨架,垫走了样。

李:
“通知”的坑:

(1)
输入条件:thing_or_event

(这就是白老师所谓变色龙,其实本体链条上,不过是在逻辑n与逻辑v上,再抽象一个统辖的 n_or_v,thing 就是逻辑名词的通俗表述,event 就是逻辑动词的通俗表述)

输出角色:【content】

(2)第二个坑是施事【谁】
输入条件:human (具体语言还有格、词序、介词类的条件制约)
输出角色:【施事】

(3)第三个坑是对象【向谁】
输入条件:human (具体语言还有介词、格、词序类的条件制约)
输出角色:【对象】

回来总结一下:坑里面使用逻辑类或者逻辑类下辖的子类 甚至 直接量(等价于具体词义搭配)是天经地义的。至于这些条件的松绑,所谓 preference semantics 那是语言应用中的窍门。为了鲁棒必须松绑,松绑会一步步从具体逻辑子类,向高层的逻辑类去。

王:
同意李老师

李:
HowNet 是独立于语言设计的,它的最上层 top 节点 其实就是逻辑类,event 就是 v
thing 就是 n。其实还应该再往上走一步,thing_or_event,但反正有 OR 算符,所以走不走也无所谓了。

白:
可以看成一个lattice,and就低不就高,or就高不就低。

李:
HowNet 其实是两个东西在里面。第一个是本体,董老师对人类认知和常识体系的总结和设计。第二个是语言落地(汉语,英语,......)。这第二步是通过给汉语词汇标注 HowNet 本体标签的方式实现的。这时候的本体已经落地到具体语言了。

白:
修饰语隐含的被修饰语和真实的被修饰语做or

李:
PennTree 在英语NLP中已经很多缺陷,时代的局限,误导了很多人。

白:
总感觉HowNet不完全满足这个架构

李:
PennTree 的那一套标准用到汉语更是误导,不如直接用 HowNet 来作为标准。

白:
想都不要想,肯定不会用PennTree

李:
至于选取 HowNet 顶层或者中上层的哪些标签作为中文 POS 的任务,可以再议。POS 选得细了,就几乎等价于 WSD 任务了(事实上,白老师很多时候在讨论中就是把二者看成同一回事儿,道理很显然,WSD 说的是词义区分,词义的taxonomy 链条就是逻辑词类)。

王:
现在很多评测都是以宾州树库来做基准的。我也想过,就算那个F值即便很高,那么真实应用就是那么高的吗。

李:
HowNet 在语义领域可以独树一帜,能够站得住,相信也能够经受时间,其中原因之一,是由于董老师是中国人,讲的是“裸奔”的汉语。裸奔的汉语与逻辑最贴近,有自然的亲密关系。这对排除语言的干扰,从逻辑的高度审视语义,有天然的好处。如果要讲中国人对世界文明作出自己的独特贡献,HowNet 可以是一个代表。

王:
李老师对其他语义词典是如何评价?

李:
哪些?

王:
比如wordnet ,同义词词林

李:
早就不用 WordNet 了,麻烦比好处多。擦不完的屁股,以至于用了两年后,不得不全部推翻,宁肯自己零敲碎打,不完备,增量积累做语义标签,也不愿意陷入 WordNet 泥坑。

王:
主要是想说直接是树状,而非网状的这类

白:
标签体系必须是DAG

王:
分类体系做得不好,还是后期建设不好,比如冲突出现?

李:
其实 WordNet 是可以改造得好一点的 好用一点的,但只听说有人说改造,但没见到有人愿意坐冷板凳去真地改造它。

白:
标签体系的数学基础,一是type theory,一是lattice。lattice解决单类型的上下位问题,type解决复合类型的构造问题。

王:
上下位好理解,这复合类型就不好理解了,请白老师讲解

白:
@wei wang 带坑呗

王:
明白了,我还以为复合类型,穿插把不同上下位的分支。又结成了网

白:
上下位是为不带坑的type准备的,带坑的都是复合type。

王:
@白硕 带坑是一个词带n个坑,这几个坑是另外的词

白:
@wei wang 对的

王:
是否有的词,本身就自己萝卜和都带了,这样的词如何分类?比如一些成语

白:
标签也分层。微结构,比如“扫地”,合起来是一个坑,微结构又可析出一个萝卜一个坑。

李:
subcat 既是子类(atomic 的标签),也蕴含了潜在的结构pattern,说 vt 其实是说有这类动词子类 挖了个宾语的坑。

白:
地不扫,何以扫天下

王:
@白硕 那看成一个整体,仍在统一分类体系,

李:
HowNet 开始用的时候也有问题(有些问题与 WordNet 类似,没那么严重),给董老师反映过。问题的根源在 董老师需要一个逻辑完备自足的义元体系,为了这个自足和完备,标注的时候就务求细而全。

HowNet 中的一个个单字的标签特别丰富,特别细,把这个字(词素)各种可能语义都反映了,甚至包括只存在于 idiom或合成词 中的词义。这其实给使用带来很多噪音。我一开始是试图 删减。后来发现对于单字的标签,删不胜删,最后决定索性单字的标签不用。要用的自己临时增量式加入,宁肯 under labeling,不能 over

王:
@wei “后来发现对于单字的标签,删不胜删,最后决定索性单字的标签不用。”
单字,是义原的核心,就是不用单字最基本的,而直接使用信息能独立的,更有代表性?更便于处理?

李:
不好用啊。很多汉字 看上去不过一两个词义,结果里面标了五六个词义,仔细想 确实都存在。但是用起来就是眉毛胡子一把抓了。

王:
嗯,我觉得建造体系可以这样建,想怎么用就是应用来选了

李:
如果这五六个词义的确都是自由语素的词义,虽然统计上出现频率不同,但逻辑上这样标注没有问题。但有些词义从来不作为自由语素的语义出现,只存在于合成词中,那就没有理由标注了。这个问题,董老师后期版本有了 config,可以筛选。做了弥补。这个问题在 WordNet 中更严重。

王:
嗯,谢谢李老师,白老师的解答。时间不早,明天上班,我先拜拜。

李:
晚安 @wei wang

王:
晚安!真的我还没聊够的感觉,特别是,语义分到什么类别,很关键,对系统有很大影响,也深有体会

白:
据我的经验,先别说具体类别,先说长什么样,更容易把握。数学上什么样,计算机里什么样。实体、属性、关系、值,这是一个层面。事件是另一个层面。时间空间因果模态,又是一个层面。知网中很先知先觉地引入了“变关系、变属性、变状态”等事件子范畴,相当高明。真的很赞.

董:
讲一个真实的故事。1988年由日本发起的五国机器翻译项目正在进行。在一次饭桌上,日方的项目负责人内田裕士谈起该项目的语义研究落实问题是说:"这个项目的语义研究,是不是请中方负责,具有中华文化背景的人对于语义有更高的敏感性。"
只是觉得只要由中方来负责,总归是好事情。我就表示同意了。可是对他的那句有关“中华文化背景”的断语,还真没有完全理解,但饭桌上也不适合讨论下去。后来时隔近20年,内田先生来北京,那次我们只是几个人一起吃饭。我问他:“你还记得20多年前,我们在讨论MMT的语义研究时,你说过一句话。你说'具有中华文化背景的人更适合做语义研究吗?我一直想问你你为什么会这么说呢?'”
他说的很简单:"因为是你们有汉字"。那时候我已基本完成了HowNet的研究和开发。HowNet正是以汉字为理念依据的。前两天我跟李维讨论。说到洋人不懂汉语,跟他们讲深了他们不理解。

白:
这些要是落在知识图谱里,不得了。

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白宋83:点评 “人工智能的诗与远方”】

Me:

NLP:人工智能的诗与远方
好像是白老师的最新指示。刚在微博看到。金句连珠,隆重推荐。行文如流水,简洁 干净 深刻。

无论使用什么样的句法分析技术,有一点必须明确,就是句法本身是不自足的。细粒度描述的句法不具备鲁棒性和可行性,而粗粒度描述的句法往往必然带有伪歧义。

“粗粒度描述的句法往往必然带有伪歧义”没疑问,为什么“细粒度描述的句法不具备鲁棒性和可行性”?是的,细粒度描述的句法不具备完备性,但鲁棒性与细不细的关系何在呢,可行性就更可以商榷了。

细颗粒的极致就是“词专家”,没有看到不鲁棒或不可行的问题,就是琐碎,劳动量大,概括性弱。

“句法本身是不自足的”,是反乔姆斯基的论点,反得好。但与鲁棒和可行不是一类概念。白老师自己给的简要定义是:鲁棒性(对灵活语序和修辞性失配的适应性)。

鲁棒与规则层级体系(hierarchy)关系大,与规则本身的颗粒度关系小。语序说到底是(显性)形式条件,语义适配(语义相谐)也是(隐性)形式条件, 所有的形式条件都有弹性(优选语义),可松可紧,这就是层级安排因而鲁棒的根本原因:紧的条件精确但不鲁棒,松的条件鲁棒但不精确,配合得好,就可以又鲁棒又精确,或者至少维持在一个兼顾鲁棒和精准的准入门槛之上。

白老师的《NLP:人工智能的诗与远方》值得咀嚼。标题好文科、浪漫。但这是一篇严肃的高阶科普。一如既往,白老师的文字,举重若轻,高屋建瓴。

wang:
在我看来,李老师最后这一段描述,和白老师对句法所描述的,是一致的,并不矛盾。只是选的视角不一样罢了。完全同意李老师的弹性适应,这一点我也是这样做到

白:
1、琐碎到不合算就是不可行;2、一头扎进细粒度,一定会失去对灵活语序和修辞性失配的宏观把握;3、分层就是在粒度方面保持弹性的good approach之一。顺便说一句,这个是节选版本,原稿比这干货多得多。

李:
原稿在哪?

wang:
期待白老师,合适时机放出

李:
1. 琐碎到不合算其实很少存在:
如果是狭窄domain(譬如天气预报),琐碎是可行的,也就谈不上合算不合算。

白:
狭窄 domain甚至不需要deep parsing

李:
如果是 open domain,几乎没有琐碎单打一的。总是在一个大的框架下(better,层级体系的设计中),利用琐碎(细颗粒度)做增量修补。

白:
这就是分层了

李:
换句话说,琐碎不可行,最多是一个吃饱了不饿的真理。这也就回答了第2个问题:一头扎进去,单打一,做系统没人这么做。

白:
不是人人如伟哥般真理在握的。从外面搬来开源系统就想比划的不知道有多少,伟哥这是高处不胜寒。

李:
“3、分层就是在粒度方面保持弹性的good approach之一”, I cannot agree more

期待看原稿:这篇稿子太过简洁,很多地方真地是点到即止。

好,再精读一遍,摘录一些当面请教白老师,摘录可classify 为:1. 可圈可点;2. 可商榷;3. 没看懂

鉴于自然语言丰富地表现了人类的认知、情感和意志,潜在地使用了大量常识和大数据,自身在算法和模型上也多采用各种启发式线索,目前一般均把自然语言处理作为人工智能的一个分支

“算法和模型上也多采用各种启发式线索”:heuristics?

白:

李:
这个总结直感上很精到:无论什么模型,规则也好,统计也好,联结也好,其实都是反映 heuristics,英语没问题,汉语读者大概搞不清“启发式线索”的不在少数,这个术语以前论过,从来就没有好的译法。

白:
启发式这个翻译,在中国大陆的大学里正式的人工智能课程里应该是比较通行了的。

李:
第一张图,机器翻译和人机接口作为NLP的现实代表,很合适。但什么叫“纯人机对话”?

白:
就是没有任何grounding的人机对话。

李:
哦,以前是玩具 bot,现在是聊天机器人,将来可以落地(grounding)到老人陪护或心理疏导。

落地艰难:非良定义

什么样叫非良定义?点解?
不能完备定义,只能例举,或就事论事?

白:
说不清标准,说得清答案。ill-defined
知道输入对应什么输出,但不知道依据什么得到输出。

李:
我其实想问:这里想说明什么?是说NLP落地很难,主要是因为目标不明确吗?

白:
非良定义和落地艰难是并列关系不是因果关系。

李:
这句赞 赞:对于各种自然语言来说,大体上占到2型的很少但很不规则的一部分,但部分现象呈现上下文相关性,会在局部对2型有所突破。这就是笔者所说的“毛毛虫”现象。

其实2以降“很少”到几乎可以忽略(或绕道而行)。“突破”一般不必是着力点。

0型语言是翻译为“递归语言”吗?文法上,0 型是短语结构文法。这个其实也很 confusing,因为层级体系是蕴含关系的:3 也属于2,1和0,但窄义或另义的 PSG或短语结构图,是相对于 DG 而言,PS 是 constituency 的同义词,讲的是“兔子吃窝边草”的路数,而不是 DG 的兔子不必吃窝边草的逻辑跳跃的路数。

白:
PSG的原始定义就是0型。窝边草是对的,但窝边草怎么来的有玄机。把一堆窝边草重写为另一堆草,这就是0型。

李:
从语言类型学角度,一般而言,PSG 适用语序相对固定的语言,英语、汉语等;DG 适用自由语序的语言(如 俄语)。0 型 从复杂度角度,不是没有章法么?爱怎么整都行。因此,最有章法的正则自然也属于0型,有限制的一定落在没有限制之内。

白:
只是对重写有不同的限制,依据都是窝边草

李:
但学习这个层级体系的不少人,可能本能地把层与层隔绝在互不包含的院墙里(也许只是文科生容易这样陷入?)

白:
这篇文章不是讲给没学过类型分层体系的人的。计算机专业学过形式语言与自动机或编译原理的都应该不陌生。

李:
不懂:“实际上,鉴于欧氏空间具有良好和丰富的数学工具可用,语言/文本的向量化努力是跨越统计和联结两大阵营的”。

不过,这不是行文的问题,应该是受体的知识缺陷,可能讲解了还是不懂。

白:
欧氏空间这段,详解被删了。统计的典型是LSI,联结的典型是词嵌入。

李:
word embedding 最近体验了一点,是有点神奇。

可圈可点:这段时期之所以NLP既远离“人工智能”的招牌,也远离“计算语言学”招牌,是因为人工智能招牌在当时并无正面贡献,而语言学家在经验主义范式下不得施展甚至每每成为负担。

这是对历史的精确描述。AI 曾经像个丑小鸭(或瘟神),人人避之不及。计算语言学名不副实或有名无实,久矣。

白:
原来这杆旗下的人还要继续混日子啊

李:
后面一段是革命乐观主义和浪漫主义,蛮鼓舞人心的:

深度学习技术以摧枯拉朽之势横扫语音、图像识别和浅层自然语言处理各类任务,知识图谱技术为语义知识处理走向各行各业做好技术栈和工具箱的铺垫,人工智能招牌强势的王者归来已经在所难免,自然语言处理技术也自然地成为了这王者头上的王冠。这是因为,语音和图像识别大局已定。自然语言处理已经成为一种应用赋能技术,随着实体知识库的构建、知识抽取和自动写作在特定领域的实用化和对话机器人从对接语料到对接知识图谱的换代,正通过新一代人工智能创新创业团队,全面渗透到人工智能应用的各个角落。

其中强调两个支柱:(i)深度学习的算法;(ii)知识图谱的表示。
其实有点格格不入:前者是经验主义的极致,后者是理性主义的表现;前者显得高大上,后者显得平庸但实在。

白:
所以波粒二象性啊

李:
by the way, “对话机器人从对接语料到对接知识图谱的换代”这是在下目前的重点课题或挑战。

知识图谱的概念被谷歌炒热以后,其实稍微拔高一点看,没有多少“新意”。不过就是“结构化”的具象而已,结构的图示(visualization)化、大众化而已。图谱早就植根在乔姆斯基符号体系以及其他种种语义流派的传统里,通过MUC的信息抽取的语用落地,导致谷歌利用搜索把它活生生展示给亿万受众,激发了大家的想象。

白:
而且只是一小部分。被删掉的部分讲了哪些地方是“一小部分”不能涵盖的。

李:
对的,被炒热的知识图谱就是结构化中的一小部分。也是最简单的一部分。知识图谱是很平民化的东西,讲到底就是一个烧钱烧资源的知识工程。典型代表就是一个多少亿的三元组,还不如 tree bank,从数据结构看。更不如各种规则 formalism,最简单的产生式规则也有 if then。

白:
挑战性的东西不少,看不到就没办法了。不能光看表达力,还要看技术栈、工具箱。后者丰富前者贫乏,仍可以做大事情;前者丰富后者贫乏,只能做玩具。

李:
是 是:“后者丰富前者贫乏,仍可以做大事情;前者丰富后者贫乏,只能做玩具。”

自然语言处理从浅层到深层面临范式转换,还处在对接情感计算与常识计算的战略性要地的关键位置。谁能拔得头筹,谁就能在当下的人工智能“军备竞赛”中处于有利地位。

深层解析需要常识计算我们在本群讨论中见过无数例证了。需要情感计算也见过一些。

基于统计的范式繁荣了近二十年,终于在2010年前后被同为“经验主义”学派的基于联结的范式所全面取代。这是深度学习算法显现的巨大威力,也是数据和算力积累到临界点的一次综合性的爆发。

据说,有一代人有失落感,他们当年横扫千军如卷席,各种算法花样翻新,从朴素贝叶斯,HMM,CRF,MaxEnt,。。。各种参数设计身怀绝技,突然九九归一,以前的绝技似乎不再闪光。这种失落不亚于语言学家面对统计学家长驱直入而带来的边缘化的失落感。历史循环还是报应?真是 30 年河东,20 年河西。

白:
没那么不堪吧,有啥用啥,干嘛一定站队。

李:
目前,基于联结的范式风头正盛,但“深度”自然语言处理的需求压力之下,“理性主义”学派以某种方式再度回归,实现“波粒二象性”的有机结合,也是可期待的。

这个有机结合,NLP老司机呼吁较多,新一代的联结主义者似乎无暇他顾。当然,无暇不仅仅是“攻城掠地忙”(毛委员打土豪那阵,农民革命就曾“分田分地忙”),也因为这种“有机”结合,真心不容易。

看今后10年吧。

词法分析领域绝非基于词典的分词这么简单,这个领域还有大量有待攻克的难关,有些难题已经与句法分析搅在一起,非统筹考虑是无法单独推进的

这个观察到位,但真认识到的人不多。特别是汉语,在进入句子结构之前,基本分词之后,还有一个广阔的地带。其中不乏难题。有些是致命的。领域化在这个方面也有很大的挑战。譬如,看电商的标题,那种 sub language 简直就不是汉语。

白:
这一节删掉甚多。提到了词性标注、命名实体识别、形态还原、构词法。形态还原中特别提到了离合词。

李:
的确删太多了。

还有一个可以探讨的事儿:觉得 DG 和 CFG不好相提并论。DG 本身不是算法,只是表达法。

白:
都不是算法

李:
CFG 比较直接地蕴含了算法,譬如 chart parsing,DG 不蕴含任何方法,也许隐隐蕴含了自由语序的匹配方式。从表达法(representations)角度,DG与PSG并列,是两套表达体系。声称 DG parsing 的人,其实用的 formalism 与做 PSG parsing 的人无异,逃不过乔姆斯基的佛掌。anyway,只是感觉大家在讨论中这方面有时候似乎容易概念混淆。从表达法来看,也没有单单的 CFG,CFG 属于 PSG,所以表达法只有 PSG 与 DG 之别。

Nick:
白老师这篇要认真学习

李:
@Nick 咱有样学样啊。。。

最后要说明,即使语言的结构表示模型是基于理性主义(符号或规则)路线的,但语言解析过程本身仍可以采用基于统计的或基于联结的方法。比如PCFG就是基于规则的结构表示与基于统计的过程控制的有机结合。

PCFG 是有机结合的先行,但不算成功,文章似乎不少,但没见多少实效。今后几年看白老师的了。

词典化(免规则)、单子性(免复杂层次)、局域化(免跨成分关联)和鲁棒性(对灵活语序和修辞性失配的适应性),是自然语言句法分析技术未来的发展趋势。

“局域化(免跨成分关联)”不大明白,其他几方面可说是有相当共识,所见略同。

知识图谱的技术栈里算力充足工具齐全”:这个需要检阅一番。

白:
PCFG不见实效的关键原因,一是CFG先天不足,二是标注成本过高。如果不能变为非监督或弱监督,必死。

李:
对,P 要到位就要超大数据,否则怎么个概率法?可是结构标注根本就不是人做的的活儿(PennTree 这么多年成长也很有限,增长部分大概是语言学研究生的苦力)。

quote 此外,人类的语义解析过程充满了所谓“脑补”。可见,借助知识图谱,智能化地完成这类需要“脑补”的语义理解过程,是语义分析技术走向实用和深化的必然要求。

这段话群里的人 可能会理解,但对于大众,无异天书,必须要有相当的 illustrations,脑补的是常识,专业知识?是常识中的默认选项,etc. etc.

白:
这里也删去几百字。

李:
知识图谱的好处是为结构化张目。很久以来,没人尿结构化这壶,一草包词 多厉害啊,鲁棒到极致。用于搜索,不仅鲁棒,还特擅长长尾,tf-idf,越长尾 关键词越灵 要什么结构劳什子。连词序都可以舍弃,何况结构?

到了 ngram,词序带入考量了,算是对语言结构的一个看上去拙劣粗鄙 但实践中颇有效的模拟近似,因此也不用着急蹚结构这个浑水了,来个 bigram or trigram model,还有个 viterbi 的高效算法。

现在好了,趁着图谱热,结构化的旗帜高高飘扬。终于可以理直气壮、名正言顺地大谈结构化乃是自然语言理解的正道,乃是人类智能的基石。为这一点,要感谢谷歌。就好比我们应该感谢苹果,通过 Siri 把自然语言接口送到千家万户,教育培养了用户。

下面这些都是字字真理:
自然语言处理能力以平台化方式提供服务,是广大自然语言处理技术提供者求之不得的事情,但目前还受到一些因素的限制。现实中,更多的自然语言处理技术是融合于一个更大的行业应用场景中,作为其中一项核心技术来发挥自己的作用的。

NLP平台化迄今没有大规模成功案例。趋势上是必由之路,但今后何时真地可以平台化广泛赋能,真地是一个未知数,我们从业人员都在努力 。。。。

除了法律、医疗、教育等先行行业之外,金融证券行业对自然语言处理技术业有很迫切的落地需求,但往往必须结合专业领域知识和私有数据才能构建有价值的场景

就是。

熬了一夜,精读了白老师最高指示。
两个等待:一是等着看原文(非删节版);二是等着看白老师的系统。

宋:
读白硕的文章,的确高屋建瓴,分析得透彻。我觉得还应该补充一点(也许是简本删掉了的),就是语言学研究的必要性。具体来说,就是语素、词、词组、小句、句子(小句复合体)的定义,以及相关属性(如词性)及关系的定义。对于英语等西方语言,似乎一切都很清楚,不言自明,无需当回事儿去研究,但是论及到汉语一切就都糊涂了。不能适用于汉语的语言学概念的归纳,都是偏置的。基本对象及其属性、关系的概念不清楚,相应的模型和计算就不可能完全适用。

白老师的全本中会讲离合词,这个概念就是其他多数语言中没有的。但是,如何从人类语言的高度看待离合词,期待看白老师的全本。

白:
@宋柔 我感觉语言学并没闲着,只是节奏慢了点,在NLP这边是没人理睬,而不是挑出很多毛病。挑拣的才是买主。挑拣才能让语言学加速。

宋:
语言学方面的问题是没有照着机械化的可操作的要求去做研究。

白:
@宋柔 光算法层面的机械化,语言学家或可手工模仿;扯进大数据,连手工模仿都不可能了。

宋:
基本概念的定义,比如词的定义,应当适用于大数据中的所有样本,语言学应当做这件事。

白:
只要承认运用中可拆解,词的定义不难。@宋柔

宋:
不仅是运用中拆解的问题,还有一个粘着性的问题。

白:
粘着性倒是真的可以大数据说话

宋:
你说的有道理。语言学的基本概念的定义。真的不能是静态的,需要在大数据的环境中定义。基本原则是这样。定义的结果,哪个是词哪个不是,要看参照哪一堆文本。

白:
“以国防部长的身份”当中的“以”,可以是介词,也可以是名词的拆解物(“以色列”的简称)。这个拆解物当名词用。

宋:
即使数据集定了,也还有模糊性、两可性。那又是另一个问题,即符号的歧义问题。

白:
承认可拆解的另一面就是承认微结构。宋老师说的粘着性,可以从词根与词缀结合的微结构角度来考虑。

宋:
微结构的节点应当有波粒二象性,既是词,又不是词。

白:
拆解出来当词用,封在里面就是词素。

宋:
微结构可能会有相当大的跨度:这个澡啊,从来没洗得这样舒服过。语言学理论必须把这些现象包容进去。

白:
必须的

宋:
这样的澡我从小到大,再到老,还没洗过。

李:
离合词是可以解决到很完美的不再是问题的问题,关键就在词典与句法的接口上。大规模验证过的。

【相关】

白硕:知识图谱,就是场景的骨架和灵魂

【语义计算:李白对话录系列】

《朝华午拾》总目录

新年新发现:微信开恩允许改错,但仍美中不足

提一句微信最近的新功能:我呼吁这个功能已经两年了,最近的更新终于基本实现:

发微信常常有错别字 覆水难收 对于有文字洁癖者 那是一个巨大的折磨 早就呼吁在限定时间内 应该允许 edit。道理也很简单,既然允许撤回,就没有道理不让人改错。 呼吁两年了 没动静。遇到必须改错的 post,不得不先

(1)select all
(2)然后 copy
(3)然后撤回
(4)然后 confirm
(5)然后 paste
(6)然后 edit
(7)最后 repost

为了改个错,不得不走7步,该死的微信,皇帝女儿不愁嫁,硬是不理不睬人民呼声。最近不知道张小龙怎么一高兴,还真开恩了。虽然姗姗来迟,还是应该庆幸。

本来以为,直接点击刚写的post,然后就能进去 edit,然后 repost,这多 intuitive 啊。结果产品经理不是这么实现的,它仍然需要你先撤回,相当于自动帮你复制了,留个 button 允许编辑。如此这般,7个步骤,只需要 (3)(4)(6)(7),变成了四个步骤,省了3步,将尽一半的力气。

既然撤回了还可以更改,还可以再发,这原先就有的第(4)步 confirm,就没有存在的理由了,这样只需要3步即可,省了一多半功夫。堂堂微信的产品经理,也是这样榆木脑袋吗?以前需要 confirm 是有道理的,如今还要 confirm 纯粹是增加负担。Eat your own dog food, 怀疑产品经理不吃狗粮,没治。

以前听过一个微信产品经理谈产品设计,说得那叫一个好,让人叹服。伟大的产品果然背后有伟大的产品老总。如今,这样的产品经理都走人了吗?

 

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白82:汉语重叠式再议】

【立委按】
我稀罕死她:是我喜欢她

她稀罕死我:既可以是 她喜欢我,也可以是 我喜欢她。
汉语鬼不鬼?
虽然鬼,语言学家有解读,明镜似的。2018了,不要看不起语言学家。世界上怕就怕认真二字,我们共和党人就最讲认真。一切都讲大数据,我们语言学家就最讲数据。
你知道吃饺子过年有几种说法吗?

 

白:
“逆回购逆了好几笔了。”
副词词素用作重复

李:
这是汉语动词用前缀重叠(reduplication)回指(coreference)的现象:

“abc 都 a 了这么久”

动词 reduplication 是汉语常见的手段,用起来有说法:

【1】 一般只重叠一个词素(单音节),但不排除整词重叠:

“学习学了这么久”
“学习学习了这么久”

(说话说了一半,打了个叉就打这半天:咱接着练,把动词重叠的话说完。)

动词重叠有两个语义:

(1)表示回指(可以看作是有unification的并列):就是说的同一个动作事件,所带的成分不同,信息需要融合(fusion)。这是汉语句法的一个趋向,同一个动词后带成分不宜多,最好分开来说,分开说就用重叠手段。

(2)表示动词的 short duration,这不是句法现象,而是词法手段:如,休息休息;看看书;说说话。

【2】. 绝大多数多音节动词的重叠都是只重叠第一个音节

背后的原因可能是绝大多数双音节(或三音节)的动词的内部结构都是动词词素打头
结果语言共同体就形成了这个习惯,然后就泛化了,以致于甚至V不打头的(合成)动词也可以使用第一个音节重叠来做回指,这就是白老师举的例子,合成动词里面的副词甚至也就可以重叠来代指整个合成动词(把合成动词当成一个黑箱子了):

“ab 就 a 了这么久啊”
“abc a得我是灰土土脸”

不管ab 或 abc 里面是啥结构了,就用第一个音节 a 代指 ab(abc)。

但是,汉语的词法很多时候是半透明的,所以还是有人做动词重叠深入到词法内部,把其中不打头的v词素,外化到句法来重叠,这样就形成了这么个等价的 minimal pair:

“逆回购逆了好几笔了”
“逆回购购了好几笔了”

(by the way,“逆回购”这个合成词里面有合成嵌套。词典动词 “回购” 的内部结构是【副词+headV】;到了“逆回购”,结构还是 【副+headV】)。

再举几个有趣的例子:

“望风而逃也逃不过如来佛的手掌。”

“你金屋藏娇藏了几年了?”
“金屋藏娇藏了几个娇?”

不能说:* 金屋藏娇金了几年了
(所以黑箱子用第一个音节重叠的接受程度,很难延伸到3音节以上的成语)

“你金屋藏娇藏了几年了?” 这句,“你” 既可能是逻辑主语,也可能是逻辑宾语,貌似做宾语可等价于: “你被金屋藏娇藏了几年了?”

如果是 “她” 几乎就定死在宾语角色了:

“她金屋藏娇藏了几年了?”

另外,汉语合成动词的大多数是v打头,这很显然,因为汉语合成动词的词法结构不外是:

1 动宾: 洗澡
2 动补:打碎
3 并列:打击
4. 状谓:狠批
5. 主谓:头疼

123 都是 v 打头,5 成词的数量不多,主要就是 4 是副词打头。

白:
狠不狠批是态度问题

李:
“狠批谁也不敢(狠)批你呀”
* “狠批谁也不敢狠你呀”

可见 “狠” 回指 “狠批” 是有诸多限制的。至于 “x 不 x” 这种重叠式,x 既可以是动词 也可以是形容词/副词。“狠不狠” 这种选择疑问的焦点在 “狠” 上,不必解释为 “狠” 代指 “狠批”。

严打:“严不严打 全看老邓一句话。”
重判:“重不重判 要看平民组成的陪审团。”

后退:
1 后退不后退
2 后不后退
3 ? 后退不退
4 * 后退不后

总结一下,全重复永远不错,重复v词素基本不错,前重叠可重复第一音节,后重叠如果想重复第一个音节,要小心了。

白:
小心,3和4都不灵

李:
@白硕 3 “后退不退” 个人语感上不是完全不可接受。麻烦出在 “不退” 也可能是句法谓语, “后退” 成了话题主语,而不一定是 【x不x】的词法重叠式来表示“选择疑问”了。

“前进不进 后退不退 你这是唱的哪出戏?”

“后退不退 ?总司令一直在纠结中 难以决策。”
“后退不后退 ?总司令一直在纠结中 难以决策。”
“后不后退 ?总司令一直在纠结中 难以决策。”

显然后两种说法更地道 但 “后退不退” 不是不可以,至少与 *“后退不后” 不可同日而语。

白:
其实我说的“小心,3和4都不灵”的意思是:“小心不小”和“小心不心”都不灵。
后来讨论淹没了,没顾得上掰扯。同理还有:“遗憾不遗”和“遗憾不憾”也都不灵。

总感觉“ab不a”/“ab不b”格式有一种“ab可为,为不为?”的意思在里面。如果ab的到来是不受控的, 那么“ab可为”的预设就不对劲了。

李:
小心 的同义词是 “当心”,“当不当心” 你懂的。“考不考虑” 你也是懂的。“重不重叠” 我们都知其然,不一定知其所以然。还好 做 parsing 即便 over generate 也关系不大,做生成要小心了 保守一些为好。

白:
12都ok,关键是34。

李:
?“当心不当”
“担心不担”

白:
小心、当心,担心,语义差别小,34准入性差别大。

李:
说话就过年了,看到一个“绝妙中文”的段子:

可以 parse 看看:

想到:“好喝不?不好喝。喝不好 不喝好。”

“喝不好” 歧义:述补结构 or 主谓结构。again 前者偏词法 后者属于句法。

白:
喝不好,其实还有述宾结构一个选项,但很隐晦地被压制(喝读第四声)。参考一下:平行的“说不对”三个选项就都灵光了。
1: 述补结构,不能正确地说;2、主谓结构,“说”这件事是错误的;3、述宾结构,说的内容是“不对”。

之前郭维德师兄还举出过:说了算,算了说,说算了,算说了……

李:
语文老师布置作业:请用“好”、“过”、“年”三字在“吃了饺子”后面造句,谁造得快,发给谁新年红包。

小明数来宝似地一口气说下去:

吃了饺子好过年
吃了饺子好年过
吃了饺子过好年
吃了饺子过年好
吃了饺子年过好
吃了饺子年好过

学过概率又学过语言学的人就是不同:6 种排列 全顺!

【小明,这里有红包.......】

提出你知道“吃饺子好过年”有几种说法吗,结果我的朋友圈有一个学生留言道:

1. 吃饺子好过年
2. 吃饺子过好年
3.吃饺子过年好
4. 吃饺子好年过
5. 吃饺子年过好
6. 吃饺子年好过
7. 过年好吃饺子
8. 过好年吃饺子
9. 年好过吃饺子
10. 年过好吃饺子
11 过好年吃饺子
12 过年好吃饺子
13 过吃饺子年好
14 过好吃饺子年
15. 吃好过年饺子
16. 过好吃饺子年
..........

罢了 罢了 不做排列练习了

白:
还有很多:
过年吃好饺子
过年饺子好吃

李:
原因:

1.  汉语很灵活,词序比想象的要灵活许多
2. 常用词有多义或多用法 (汉语说:我裸奔我怕谁)
3. 动宾离合词“过-年”很厉害,与句法动宾“吃-饺子”一样自由,造成何种合理合法的组合

换个话题,自然还是中文计算:

“牛顿稀罕死我。” 领导回家,见牛顿(Nutan,我家的猫)在门口迎上来撒娇,不由说道,然后就是奖励它,给它 treats。


Xander左白,牛顿右黄,和平安详

经常在日常生活中听到一些自己作为南方人不会说但可以听懂的话。上面的话其实是说:我稀罕死牛顿了。可北方话为什么要倒过来说呢?

语言学讲稿中常举逻辑SVO倒置的例子有,英语的“like” vs. 法语的 "plaisir"(please),核心谓词的语义相同,但所要求的S和O正好倒置:

NP1 "like" NP2 == NP2 "plaisir" NP1
(“喜欢牛顿” 等价于 “被牛顿取悦”)

感觉 “牛顿稀罕死我”是使动用法:“牛顿让我稀罕死(它)了”。现代汉语中的这种转换必须有补语才成。一个单纯的及物动词是不成的:“我稀罕猫” 与 “猫稀罕我” 完全不同。
但 “我稀罕死猫” 与 “猫稀罕死我” 完全等价。

汉语鬼着呢。

(当然等价的前提是知道牛顿是猫,否则【human】对【human】可能产生结构二义,麻烦大了。)

“我稀罕死她”:是我喜欢她
“她稀罕死我”:既可以是她喜欢我,也可以是我喜欢她。

汉语鬼不鬼?

虽然鬼,语言学家有解读,明镜似的。2018了,不要看不起语言学家。世界上怕就怕认真二字,我们共和党人就最讲认真。一切都讲大数据,我们语言学家就最讲数据。

“我稀罕死她”也是【human】“我”对【human】“她”,为什么没有二义呢?大概是因为子非鱼,吾非她,无法知道她是不是被取悦,干脆潜意识排除这种解读。“她稀罕死我”,有所不同,虽然吾非她,但她的主语位置隐含了标配的逻辑语义解读,不好轻易排除“她喜欢我”这种默认解读。至于第二种解读,我了解我的心,自然更不能排除。这说明,一种句法结构哪怕是二义的,共同体的语言认知心理往往有一个标配(默认)的逻辑语义映射。

中文处理,没完没了,语义计算,妙趣横生,李白对话,对到年终,祝白老师和群友新年快乐,2018 咱接着说。

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【新年新决心:追求喝好酒,不求酒好喝,祝你新年快乐】


左牵白,右擎黄,老夫聊发少年狂。料理日本平安夜,鬓霜圣诞又何妨。

Merry Xmas and Happy New Year to all!


Xander(白)敏捷,牛顿(Nutan 黄)安闲,平时打闹不断,难得和气一团。

哈,那位说了,好奇妙好诡异的中文!快跨年了,咱来分析分析:

因此上,新年新决心 New Year Resolution:坚持喝好酒,不问酒好喝,向 Xander 学敏捷,向牛顿学安闲。拥抱人智学图谱,挖掘知识看语言。祝各位快乐新年!

Note:敏捷指 agile software development;人智乃AI;图谱是knowledge graph(KG);挖掘是 text mining

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【与董老师对话:什么是知识图谱?】

【立委按】非常荣幸能与董振东前辈于2018年圣诞前夕恳谈知识图谱的话题,并分享给各位。面对层出不穷的新生术语和流派,董老师谦逊为怀,不耻下问,让我受宠若惊。我的来自实践的一些粗浅见解,岂及知识大师董老师学问之万一,不胜惶惶。董老师是我一辈子最仰慕的前辈导师,他的逻辑语义学说(逻辑语义及其在机译中的应用)是我入行的导航,他的《知网》(HowNet)是探索人类知识体系结构和常识表达的一个丰碑,其价值必将超越时间和流派( 参见我写的《语义三巨人》)。在很长的时期,董老师是中国计算语言学界的旗帜和对外交流的大使,是中国第一个把机器翻译系统推向大规模实用的先驱(“译星”)。30年前在中关村高立公司兼职搞MT研发的时候,我就有幸与董老师在一起半年左右,当面聆听教诲,受惠终身。董老师鉴于自然语言系统知识资源的匮乏和不成体系,开始酝酿《知网(HowNet)》,酝酿阶段就给我讲述过其设计思想。这一做就是几十年的锲而不舍,终成正果。我出国前不久,那是1989年风波前夕,中国自然语言界在香山开了个研讨会(年会?),我的导师刘倬先生与董老师在会上就NLP所做的对话,人称“刘董对话”,成为大会热议的主题,此段掌故仍记忆犹新,【立委小传】中有记叙。如今董老师80高龄,离而不休,依然在自己家里亲自上线做系统,深入探索自然语言句法和语义解析,其精神令晚辈高山仰止。


91年出国前在高立合影留念(右下1是董老师,2是我,3是刘倬老师,4是高立CEO)

董:
请给我点启蒙:为何叫”gragh“了?不叫”KB“或”ontology“了。why Google called it "graph"? What does it mean by "graph"?

李:
Google brought it to the public eyes. Also seemingly because of the underlying data structure they used for naming their project at Google.  Knowledge base or knowledge network are too commom, and sound nothing special.

董:
接着昨天的话题--知识图谱。哪位能帮我有更多的理解。是否可以举出一个真的应用实例,来说明:在什么情况下必须用到知识图谱了,然后该系统就调用了只是图谱,于是就解决了那个难题了。这样我也许能理解了,也试试在我们的分析器里学着应用知识图谱。谢谢。

李:
可以举谷歌的例子 他是怎么炒热这个概念的。

搜索每个人都用,你给一个关键词,它回给你一系列文章的链接,这些文章与之相关,用户仍然需要浏览文章来最终满足信息需求。搜索引擎最大的优势是可以应对长尾,实际上,越是长尾罕见的关键词query,效果往往越好,这是谷歌的关键词法宝。

后来谷歌发现有一类搜索特别多,搜索的是实体名,譬如明星,VIP,好莱坞大片或世界500强。对于这类搜索,返回相关文章序列让人看,实在太粗糙了。

于是,他们事先把相关信息结构化、组织好,相互链接,存在某个地方,起了个名字 叫知识图谱。然后一旦查中,就把这整合浓缩了的,比较全面完整,并且充满相关链接的实体信息,和盘托出。结果大家都知道了,无人不说好。这就是谷歌知识图谱扬名的起点。但同样的设计理念,早谷歌十几年我们就提出,而且也实现了,实现在国防部的反恐情报分析挖掘系统中,也实现到我们的b2b品牌情报的商业产品中(参见《知识图谱的先行:从Julian Hill 说起》)。不过当时起名 Entity Profile(EP),而不是 KG (Knowledge Graph)而已。

@董振东 这应该是回答了 非知识图谱不可的真实应用的举例问题。可以去谷歌试试就知道了,然后想象当年的没有图谱的搜索结果来做比照,说是图谱的 killer app 也不为过。

这种应用只是观念上相对简单的存贮和检索,然后可视化展示。其他的图谱应用可以是回答问题,再进一步可以是通过图谱关联做一些推理。理论上,信息组织成图谱了,结构化了,就可以做很多事。

董:
谢谢,李维。再多问一句:这种种图谱,是机器自己做呢,还是人手工做呢?

李:
谷歌是购买 freebase 做为基础,基本上是手工。后来大家都说应该而且可以自动挖掘出图谱。我们当年的图谱是nlp全自动抽取挖掘的。

董:
我差不多明白了,怪不得不叫“Ontology”了。你们当年的那个如果就叫“graph”,也许今天就不是“图谱”了。而是“图解”之类了。

李:
我当年给国防部起的名叫 Entity Profile(刚开始叫 Correlated Entity,CE,也是反映了实体互相关联的本质),简称 EP,我自己不知道怎么翻译好,就译成“实体概览”。后来这个术语也还是流行了,不过到了中文,一般翻译成了“画像”,而不是“概览”。譬如,电商领域大家都谈“商品画像”、“用户画像”,约定俗成。

画像比图解还俗一点,可大家都用,也习惯了。Note 这是图谱的实体名词为中心的一个信息角度,还有另一个以事件动词为中心的图谱角度,目前还没有约定俗成的统一术语命名。MUC (Message Understanding Conference)的信息抽取共同体里面,一般称事件图谱为为 Scenario Template(ST),我归类为 Predefined Event (PE),为的是与 SVO (Subject Verb Object)为核心的 open ended General Event (GE) 比照。把 events 序列串成一个story的结果,叫做 scenario 更合适。这背后有一套概念哲学和 schema 的设计思想,我叫它信息体理论(Theory of information Objects, 参见 《科学网—前知识图谱钩沉: 信息体理论》),成型在我给国防部项目的最后报告里,此不赘述。当然人微言轻,这些思想在今后的知识图谱的发展中,肯定会被别的等价或类似的术语替代,有话语权又能让共同体接受的 往往是巨头。可以拭目以待。

董:
说得好!

李:
近年哈尔滨刘挺老师那里,开始宣扬一个“事理图谱”,似乎闹出一些动静,这就是沿着 event 这条线,概念上非常接近 scenario。事件图谱(or 事理图谱)与实体图谱,虽然二者交叉,你中有我,但事件图谱比实体图谱更难构建,应用起来也更具挑战性。一切还在 evolve。

然而,万变不离其宗。其实这一套所谓知识图谱背后的概念体系,并没有超越《知网》(HowNet)的设计哲学。董老师应该感觉欣慰,语义知识终于深入人心。主要的差别就是对于知识体系的角度有所不同,术语名词不过是皮囊。HowNet 是打语义结构体系基础的,是元知识(meta knowledge)体系,面对万事万物的本体(ontology)。 而当我们一旦进入问题领域,我们面对的不再是本体概念,而是一个个实体(individual entity)。 于是实体名(Named Entity,NE)成为情报类知识图谱的基石。但是这类图谱的背后还是 ontology,来作为其 schema 的定义和软约束:这在定义图谱的时候需要用到。

董:
很多年前,刘挺他们曾让我去他们团队,他们跟我讨论过如何建立,例如夫妻关系,在网上搜索相关的事件。这跟实体类相关一样,不从底层来,怕是不好做的。如果是就事论事,那还好,不然可没那么简单了。

我是真的不了解“知识图谱”。我想象那是更加贴近应用的东西。经你这么清楚的解释,我知道更多了。

李:
确实更加贴近应用,是应用驱动的。美国 DARPA 启动 MUC 的伟大功绩就是,把我们在NLU (NaturalN Language Understanding)做无边无沿自动句法解析(parsing)的 SVO(主谓宾)类的语义表达放在一边,重新定义了领域应用驱动的实体抽取和事件抽取(领域事件的例子有“高管变动”事件,CXO上台下台的情报)。这就把语言技术与应用场景一下子拉近了。我觉得MUC是一个里程碑。它推动了语言技术的大数据应用,创立了信息抽取(Information Extraction,IE)这个领域,也改变了我个人的职业生涯与看事物的角度。虽然主流因此不再依赖SVO做领域定义的抽取挖掘,但我们其实可以继续SVO的解析而做得更精准,更具有领域普适性,增强快速领域化的能力。这一点(以parsing支持IE)已经经历十几年的反复实践,其有效性和高质量早已证实。

董:
董强他们现在开发的“智慧判案系统”、“文本相似度系统”、“问答系统”中做的事情,是在我们的分析基础上的再开发。例如:“从轻”的根据之一是“共同犯罪”,而“共同犯罪”将是从原文分析中的“张某与范某”、“张姓嫌犯当时伙同...”等等提取的。

李:
实体图谱个人画像(很像履历表)中的一类重要关系就是人与人之间的关系,包括夫妻关系,上下级关系,其他家庭关系等。这就是一个事实的挖掘(公司里面叫 org chart),应该是数据驱动的。

董强做的也是领域数据抽取和挖掘,结果也属于知识图谱。HowNet 和 parsing 是领域情报抽取和挖掘的很好的支持。

大多数人用端到端学习来做抽取挖掘,绕过了 parsing 和本体知识库。一般来说也是可行的,前提是必须有人对这些领域情报做大规模的标注。大公司的标注团队现在可以动员成千上万的人力了(有利白领就业,应予鼓励)。尽管如此,人工标注总是一个极大的知识瓶颈(knowledge bottleneck),除非要标注的任务是单一不变,或像机器翻译(MT)那样是自然形成的(人译从来就有,因此永远有积累的海量标注在)。

董:
是的,在服务于那些搜索引擎的情报系统。其实人工标注就更好。可惜我遇到过的常常是用户不可能提供给你标注的原始数据。

李维领我入门,受益匪浅。

李:
不敢。祝董老师和全家,平安夜平安喜乐,圣诞节幸福吉祥!

1989年在荷兰,与董老师及BSO多语机器翻译项目组长合影

 

【相关】

【语义网笔记:本体与知识图谱之辨】 – 立委NLP频道

科学网—前知识图谱钩沉: 信息体理论

《知识图谱的先行:从Julian Hill 说起》

《语义三巨人》

【董振东:逻辑语义及其在机译中的应用】

【立委小传】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【尼沙龙笔记:从AI那点事儿聊到知识图谱】

洪:
老尼八卦真是勤快:
红利扑克:王劲其人-好色、背信、拍马屁

陈:
到了百度,他带去了得意手下Alex(新加坡人),某丽(美籍华人),还有旧部某栋,还接管了金牌得主大牛戴某渊。他咋啥都知道。还好没说洪爷。

洪:
的确道听途说,许多因果都颠倒了。某栋是我拉进去做凤巢,老王来了就跑路了

陈:
你也是坏淫啊

洪:
老尼八卦忒勤奋,
道听途说扒某劲。
天地或真显冥冥,
有绳有网施报应。

行:
老尼看来就主要对x劲来劲

李:
老尼不是尼克吗?
AI那点事儿,非尼老莫属,有道是:

尼老老尼拧不清,
AI 八卦两争雄。
一神一鬼一冰冰,
老道洪爷说分明。

洪:
我以前跟人总结说,某栋来助一臂之力做凤巢(其实他原来是edward chang下面做social network机器学习推荐算法的,也不是做广告的),某度尝到了招谷里人的技术甜头。过了一年凤巢都上线了。隔壁老王带俩管理的人他们才来,本来老王允诺要来的技术专家某Paul被腾讯截胡抢走了。就这样,技术甜头成了管理毒药。

“尼”真是好字,谁粘谁

李:
洪爷不出山写本英雄传,正本清源,可惜了。看尼克形单影只孤身奋战,谣言比八卦远行 ---- 唯冰冰永存。

洪:
都是江湖破事,不值得写书。悠悠万事,唯此为大,还是AI为重。

李:
认真说,我对历史八卦兴趣不大,倒是非常好奇这一波AI热如何收场,我们都是不同程度的吹鼓手。泼冷水偶尔为之,但总体大多推波助澜,可三年、五年、八年之后究竟如何呢?有点害怕。“谨慎乐观”感觉上甚至都太乐观了一点。万一历史循环,AI 打入冷宫,不受人待见,我们这拨人要想等下一波的AI热,是没戏了。到时候,我们人人都可以学个星座,做八卦家,把酒话桑麻,对着资深女神冰老太,哼着AI小曲儿:商女不知亡国恨,隔江犹唱后庭花. .....

唐:
以中国干大跃进的精神,这次AI肯定吹过了。

李:
问题是:这次大跃进可以不可以软着陆?省得鸡飞蛋打,大家伙儿都成了殉葬品。

张:
现在政府把AI作为政绩,如果谁谁引进国际知名专家(比如太湖洗澡蟹从阳澄湖捞出来)然后成立一个联合研究中心,各大园区可以给几千万到一个亿。各位大咖赶脚的,过这村没这店了。

洪:
AI落到实处就跟数据库似的,休要担惊少要害怕@wei

唐:
AI都经历过两次寒冬了,第三次来了也不怕。尤其是打算做AI芯片的,寒冬时做才能踏在前人的血迹上前进。

洪:
年轻人挣房钱奶粉钱,院士们挣名利,政客挣中国梦,……,各得其所

尼:
@唐 寒冬时也没见你做啊。

唐:
我上次做的也是NPU。

洪:
NP了您啊。

李:
@洪 AI落到实处就是知识图谱,可不就跟数据库似的。我心戚戚呀。洪爷火眼。

董:
@洪 真正的明白人,深刻、看得透。

唐:
知识图谱不是很难表达有条件的知识吗?要想快速落地,我觉得还是规则库靠谱。

李:
那就结合呗,横竖都是库。 库啊、谱啊就是个筐,啥 AI 都可以往里装。

唐:
关键还是几个数据库之间的join比较难做?在工程实践当中还是有点难度处理的。

李:
现如今图谱好听,就叫图谱,里面可以有 unigram 知识,bigram 的关系,if then productions (所谓产生式),甚至 prolog backtracking,......

董:
如今流行的“知识图谱”是怎么告诉计算机:“什么是‘有/‘have’’?

唐:
Prolog缺的是现在大数据最擅长的统计学知识。很多知识是动态的。例如:过去五天工作日的平均值,这个知识图谱无法表示,需要动态地计算。

李:
唐老师的视角还是太技术细节,太工程,技术上的实现与打通终归是可行的,只要哲学不错,实现上有的是能人。认真说,从万米高空俯瞰知识表达,没结构的知识就是传统词典,里面除了入口词,output就是各种features,那是通向ontology的门票。有结构的知识统统可以叫图谱(graph,广义),包括 svo(open domain 的碎片事件),包括 ontology,里面分常识 (HowNet,cyc)与领域知识(譬如“产品目录手册”),再里面可以区分简单知识,与经验型推理知识,后者也可以涵盖从大数据挖掘出来的 if then scenario,以及 hidden links,它们不再是碎片化情报,也不是大数据显性表达的事实(已知信息),而是蕴含在千千万万事实里面的 correlations,是 derived 出来的新知识,积淀为领域场景经验的形式化,这是对领域本体知识的一个动态补充,可算是图谱事业最前沿的研究了。大数据挖掘出来的过往trends,可以是对未来预测的很好的输入。

最后,也是最核心最基础的,就是情报类知识(知识图谱的本义,或窄义),也是静态语汇为基础,不过入口词大多为实体名(named entities),里面就是实体间关系(relationships),然后就是事件(events),事件串起来就成了story ......

唐:
大体上就是这些知识。 综合起来是一项复杂的工程实践。

李:
有了story 就好说事儿了。有句名言(到处都是这大标语),云:抬头讲故事,低头思故乡 ......
oops 低头干实事儿。

唐:
我们现在就在做。领域知识+安全情报的结合。 发现这主要是数据清理的活。

李:
清理极端重要。不过听上去不够高大上,给人感觉就是个扫大街的。唐老师是实干家。

唐:
被逼无奈,以解决问题为主。

李:
知识(图谱)的事儿 的确是一个巨大的系统工程。这方面 还真应该赞佩一下 IBM,他们懂得怎么把混杂的知识捏在一起,成就一个计算机博物馆里的里程碑事件(博物馆有几个AI里程碑展厅,其中一个就是IBM花生系统在知识问答TV竞赛中击败人类)。当然 人家也有那个财力和底气。

洪:
@wei 这两天我献给你一个打油偈子。

李:
打油在哪儿?我不怕打油 ..... or 被打油。

洪:
@wei 我还在酝酿啊,从你翻译的ken church的钟摆开始说起。

李:
从来没有耐性做翻译,但那篇太经典,是@董振东老师给我特别推荐的,最后下定决心翻译出来。以对经典的虔敬心理,字斟句酌,旬月踯躅,有些细节反复与 Church 电邮请教商榷。董老师也做了审阅 ,终于成篇。【计算机通讯】发了后,貌似没有动静,毕竟与主流的调子不合拍。后来被一个叫《机器之心》的转载,才似乎传播开一点。人智八卦大师尼克也点了赞,NLP 的钟摆,就是 AI 起落的实例。

NLP主流反思的扛鼎之作: 立委译《Church:钟摆摆得太远》(全)

郭:
@wei 这篇现在看,写的早了些,缺乏对深度神经的洞察,因而现如今不容易触动人心,还不如一句“炼丹术”激起千层浪。

李:
天不变道不变,天变了道亦不变,是为经典。

其实 Church 写完后颇落寞,根本没啥动静呀。新锐不理他(机器学习老一辈不吃香了,新一代深度学习小牛成长起来,此一时彼一时,长江后浪推前浪啊)。他是统计派老革命家,我写信问他深度神经与AI钟摆的关系,他回说:看样子钟摆的理性主义回摆还要延宕10年,这波深度神经热潮够他们忙一阵子了。

是啊,人类本性,不触礁,不回船。现在呼吁两派革命大团结的,大多是老司机了。他们辉煌过,也触过礁,知道AI和NLP的深浅,而且忧国忧民,不像初生牛犊那样高歌猛进无暇他看。

写这句结语的时候,在我心中,老司机就是李航这样的,而初生牛犊 我也见过几个 那真是满满正能量,AI 乐观主义,很感染人:新锐AI技术领军,单气势就招人喜爱。在他们面前,老朽不知道说啥好了,先道天凉好个冬,再道冬至饺子香(南湾有个同同手工水饺,昨晚去那叫一个门庭若市)。

在最近的中文信息学会年会上,李航和我都被特邀做了报告,我谈中文NLP的迷思及其化解之道,顺带批判乔姆斯基搞砸了符号逻辑和规则系统,李航强调的是知识记忆,觉得这是AI的未来,因为目前AI主流大多是端到端,老熊掰棒子,没有知识积累,知识都是从带标大数据现学的,换一个项目,一切重来。李航 argue 说,这不是人类的知识学习方式。我问他,难道知识图谱不是知识积累和记忆吗?他说,也许我说没有记忆和积累是 overstatement,知识图谱的确是积累并且可以跨项目重复使用的。但他又 added 说,但大多数系统是不用知识图谱的。他说得对,知识图谱作为话题虽然很热,但真正用知识图谱做系统应用的人目前很少。但我个人认为,未来应该是个大方向。

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

 

【李白81:某些人的讽刺与挖苦】

白:
比如“他可不像某些人,吃着碗里的还惦记着锅里的。”逗号后面那一串的逻辑主语是“他”还是“某些人”,通过sentiment的撮合就知道。
“他可不像某些人,对待大是大非问题还是很清醒的。”这时,逻辑主语就反过来了。
“不像某些人”引发了一个同时给逻辑主语贴正面标签并给“某些人”贴负面标签的操作。

李:
语感上,“某些人”一用,就有影射的嫌疑,就隐含了被批判和作为反面教材的负面sentiment,即便“某些人”被确定 associate 到点赞的语境,很可能是一种讽刺,其实质就是高级黑。因此,词典里面可能就要给“某些人”绑架某种原罪的负面种子。因为原罪,如果正面描述有两个可能 associate 的实体,“某些人”应该让位(白老师上例2);如果负面描述有两个可能 associate 的实体,“某些人”则难逃其咎(白老师上例1)。结构歧义因此消解。

白:
当萝卜填坑没有头绪时,天边飞来的sentiment就是救命的稻草。

李:
其实心里是要吐槽张三或李四的,但人的话术使得“某些人”成为代指性替死鬼。

我做过多次的 sentiment 讲演 几乎每次QA时,都有人提问,你们怎么对付讽刺挖苦和说反话?

白:
坑是“角色提供者(role provider)”,萝卜是“角色扮演者(role player)”。词典也好,分析的动态过程也好,都会给二者各自加载一些标签。标签无矛盾地互通有无,就是“合一”。合一背后的逻辑设定就是“奥卡姆剃刀原理”,即“如无必要,勿增实体,勿减标配”。甚至,强语境下,有矛盾地互通有无也是可以接受的,矛盾转化为反讽。

李:
电脑可识别反话正说吗?我的回答是:

1 很难。甚至“木”一点的人 遇到精明人的讽刺挖苦也识别不了,反而觉得受宠若惊,这种事例并不鲜见。

2 但某些反话是有迹可循 可以形式化捕捉的。上面这个“某些人”就是一种蛛丝马迹。还有 感谢+负面描述的pattern 也是一种讽刺:

“谢谢你坑了我半辈子!”

这是感情破裂心怀怨恨的女人分手时候常说的讽刺急愤的话。对比正常的感激赞美的话: “谢谢你的爱”。

白:
当然可以。“屠戮妇婴的伟绩”,一虚一实,虚的中心语,实的修饰语,中心语正面,修饰语负面。实际上修饰语是带预设的,“v的n”预设“v的发生是板上钉钉的。
“感谢你八辈祖宗”是一种“移花接木”,把正面的头载在负面的桩上。谢谢你v,这v也是预设事实。预设事实为负的话,任你前面的帽子怎么正,都是枉然。presupposition决定基调,帽子决定色彩。

李:
关键还是虚实。thanks 这种感激是 emotion category,属于情感分析中 subjective 的正面情绪,主观的属性为虚。v 在sentiment 分析中是具体的 objective 的负面行为,客观属性为实。实充当虚的依据,客观信息是主观情绪背后的理由,回答我什么喜欢(高兴)或不喜欢(不高兴)。因此二者的正负指向通常是一致的。当二者不一致的时候 就构成了讽刺,虚让位于实。

白:
有时“实”体现在语境中,见诸语言的都是“虚”。比如某电影里,“皇军好,不杀人不放火不抢粮食,你看这有多好!” 台词里没有说到杀人放火抢粮食的“实”,这些“实”都是在电影情节里体现的。

李:
顺便一提,标题这种语境很各别,往往故作歧义或疑问,所谓标题党就是其极端表现。本文标题【某些人的讽刺与挖苦】里的“某些人”已经不是代指的词了,“某些人”实际上是 meta token,指的就是这三个字构成的语词,语义为:关于该词的讽刺与挖苦,而“讽刺挖苦”的主语宾语两个坑虽然都要求的是【human】(“谁”讽刺挖苦“谁”),但“某些人”却既不是主语,也不是宾语,而只是关联成分。当然,不读文章是很难明白的。

梁:
@wei  若我是编辑,就将标题改成 【“某些人”的讽刺与挖苦】,是语言学家讨论说“某些人”时的情绪,对吧? meta 了一下。

白:
伟哥故意的。

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白毛洪80:驯兽散记】

李:
@毛德操 说点做开放系统的真实体会,这个体会你可能有呼应。

毛:
我一直都赞同你的呀。所以我劝你写成书,经验之谈,加上理论上的洞见,对后进学子将大有帮助。特别是,当钟摆又摆回来的时候(见【立委译《Church:钟摆摆得太远》(全)】),你这个就宝贵了。

李:
先说针对封闭系统做模型,因为对象是封闭集,可以做到逻辑的完整性,现象 cover 的完备。面对开放集,尤其是自然语言这样的monster, 情况有所不同。大的思路框架和方法论是需要讲究的,但架子里面填血填肉就无法“搞计划经济”。不说摸着石头过河,也差不了太多。很多时候就跟拼图游戏似的,拼拼凑凑,蚕食桑叶一样试图分而解之。

今天从方法论上认真想了一想,觉得拼图或蚕食的路数还不是很确切的比喻,因为二者都没有“厚度”和冗余,只是把一个二维空间填满。实际的情形还有一个pipieline的时间维度,一个“数据流”的顺序在内。

毛:
好啊,要是把数据流的思想和技术结合进去,咱俩就更有话可谈了。

白:
RNN比较体现这个“流”

毛:
有道理。而且RNN不是那种DAG形式的简单数据流。

李:
为了把自然语言这个其貌不扬的毛毛虫(参见【白硕- 穿越乔家大院寻找“毛毛虫”】),模型出个比较逼真贴近的人模狗样来,实际上的工作更像是用橡皮泥在“流”里面一层一层贴面。

每贴一块,重复无用功居多,有用的就是那么一小块儿。可是不能因为有无用功在,就不做这个重复面很大的活儿。换句话说,从方法论上,面对一个 monster,斩不了他的胳臂,就剁他的手,剁手不成先伤其一指也好,活不厌细,活不厌早,最终才能征服他。

在一个pipeline中,条件总是慢慢具备的。不能因为条件只有越到后面越完备,前期就碌碌无为,因为在有限条件下做活儿本身,不仅是完成了部分任务,也同时贡献了条件。因此勿以善小而不为。

白:
i-1肯定不是也不如i,但是i-1不作为就肯定没有i。

李:
正是。具体说就是,如果一个现象在早期可以处置,但是因为条件不好,需要严格限制其范围才不至于 overkill,同样的现象在后期条件好的时候,可以放开一点,做得漂亮一些,做得更具备逻辑完整性和完备性。经验告诉我们,不能因为后期的工作貌似可以涵盖前期的limited的同类工作,因此就不做。面对一个不复杂的对象,当然不必做这种重复而且也做不全的前期工作。但是面对魔鬼,我们还是尽早能做多少就做多少,机不可失,即使时可再来。因为这个貌似重复的小工作也许的确是涵盖在后期的工作中,但是我们其实不知道:(1)在前期到后期的过程中有没有什么幺蛾子出来;(2)即使这本身是完全的重复工作,几乎肯定会在下一步或下几步被涵盖,这件工作对其他相关的周边的事儿可能是有用的,起码增加了确定性(规整性,行话说减少了系统的内熵)。

人有一种精简和概括的冲动,人也总是希望自己不被看成傻瓜,避免重复就是精明的一个表现。但是,面对魔鬼,用力上傻瓜一点其实有好处。当然前提是,那个傻气的活儿是增加了确定性。换句话说,早期工作只要心里觉得是 high precision,不管 recall 多低,都值得去做。high precision 最简单的办法就是把条件收紧,在早期说白了就是一个 local ngram 的拿捏。爱吃红烧肉的毛老最清楚,虽然吃一点肉末不如吃一块完整的红烧肉那样鲜美,但肉末也一样解馋和营养。关键是肉末就好比开胃前菜,吃了它为后来的红烧肉大宴做好了前期试点。

总结一下,能做多少做多少,能早做不晚做,不怕重复,不怕冗余,不厌其烦。毛毛虫就好比一个窟窿,可以用橡胶泥反复去补,层层叠叠,最后把这个窟窿补得严严实实(recall 最大化,但不损伤 precision),虽然窟窿的有些地方是补丁摞补丁,不知道被泥了多少遍。这看上去绝对不是一个漂亮的系统,但却是现实的鲁棒的,敢于面对复杂对象的。

毛:
毛毛虫模型的核心,就在于虫子的长度大于乔姆斯基的直径,即使把它盘起来也容纳不下,总归会露头露尾。所以,问题在于怎样分而治之,乔姆斯基的归乔姆斯基,露在外面的就归别的方法(深度学习是其中之一)。但是我认为抛弃乔姆斯基肯定是不对的,关键在于如何补上用来对付露在外面那部分的方法,并与乔姆斯基整合。@wei 的深度解析就是走在这条道上(白老师也是),我认为很有价值。

李:
@毛德操 其实我的体会是,毛毛虫模型的核心是毛毛虫的扁度超出乔姆斯基及其追随者的想象。乔老爷挥舞大刀,风驰电掣,貌似凭空垒了这么个大院,实际的效果是让许多人画地为牢,以为自然语言就是牢的模样。那太粗线条了,而且院子显得空荡荡的,就好比一个瘦子穿上了宽大的衣服,怎么看怎么不像。

白:
慈禧穿的衣服也没型

洪:
语言工程不唯美,
泥瓦工匠汗水挥。
修补老乔也不累,
茅庐破屋别递归。

毛:
我认为,纯粹的深度学习只能训练出文盲老太太,阅人无数,也知道一些新名词,但没上过学,不懂推理。人总得上学,而学校教的就是符号推理。老太太再是阅人无数,也不会懂 f=ma。

白:
伟哥说的这个时间,是针对开发而言的时间,具体体现就是版本。其实针对运行,也同样有时间维度和流进行迭代的“微版本”。

李:
应邀到北大做了个纯学术的演讲。北大在我们小时候的心目中是何等高贵,从来都是仰望。年轻时进去拍照留念过,羡慕死里面的才子佳人了。进了社科院,貌似与北大近了些,同学同事中北大人越来越多,开始沾上仙气。进象牙塔论道,入乡随俗,就西装革履一些散发点书香味道吧,绝不敢拿大数据忽悠。大数据可以忽悠哈佛(几年前曾应邀去哈佛医学院讲过大数据),却不能忽悠我心中的圣地北大。还有北大的三角地。

【内容提要】
乔姆斯基1950年代末提出的形式语言理论及其层级体系是计算语言学的基石。然而,长期以来,计算语言学界的自然语言处理(NLP)践行者,越来越远离乔姆斯基学派。演讲回顾计算语言学的历史,分析该领域一分为二渐行渐远的足迹。过去30年是NLP主流学界以经验主义取代乔氏理性主义的一代。乔姆斯基对于 n-grams 的批判,没能阻止统计学派利用 n-gram 模型在自然语言领域取得的巨大成功。另一方面,学界的理性主义符号学派日渐式微,究其原因,这与乔姆斯基理论的负面影响有关。乔姆斯基对于自然语言的所谓递归本性的论述,以及对有限状态机制的鄙视,深深影响、束缚并牵累了一代学人。在深入梳理乔姆斯基体系对于自然语言模型的关系之后,演讲最后论述并展示了符号规则学派对于自然语言深度解析和理解的创新和实践。

毛:
最好能有个录音,这样我们也可听听。不行的话退而求其次,整理一个文字稿。

李:
毛老知道,一个演讲哪里会深过两年的恳谈?对于您,这都是立法委员的陈词滥调了。说话已经在尼克群和白老师群促膝整两年了。

毛:
我刚才出门了没看见。立委你真的应该好好整理出一份东西来(叫什么并不重要,讲稿/讲义/概论/指南/导论),系统地讲讲你的见解,然后找个出版社。@立委 你上面的内容提要就很好啊

李:
不知不觉就讲了两个小时,结果只有时间回答一个问题。我本来是要留半小时以上做答问的,想让讲座 interactive,结果一开了话匣子,就忘了时间,很对不起听众。卫东老师主持,也没好意思打断我或提示我。下次类似讲座要小心了,其实还是答问更有意思,也更容易发挥,或借题发挥。很多年不上讲台了,还是经验不足。

邓:
你干货太多。现在这么讲的人不多了。

马:
@立委 你讲座太有激情了。

白:
伟哥讲的一定比发出来的多多了。

李:
@白硕 借用推介了白老师的毛毛虫理论。

Nuva:
内容太多了,每张slide都需要细读

郭:
@立委 你讲座太有激情了。+++
你一定又觉得“我没讲几分钟啊”。

李:
尼克的书我最爱读,尤其是冰冰助理过的。

好多年不读纸质书了,但尼克的《哲学评书》和《人智简史》除外:那是可以一边品茗,一边遐思的。

尼:
@wei 多谢捧场。此冰非彼冰。

施:
为了突出冰冰把白老师和吾等一概屏蔽

李:
羡慕啊。有样学样,哪一天我要是撞了狗屎运出书了,也要来这么一桌酒宴。就怕到时没人捧场,我就拉@毛德操 做炮灰。毛老是本本主义的信奉者。

马:
先预定一个位置

李:
马老师不可食言,这可是动力之源。

马:
@wei 绝对的

李:
山不在高,有仙则灵。酒不在醇,有书则赢。一本书主义与一杯水主义,有的一比。当然,尼克和毛老都是n本书主义了。

毛:
@wei 早就劝你动笔,你这扭扭捏捏的。到时候,席上必得有红烧肉伺候,俺连干三杯。书名都给你想好了: 《Ruminations on NLP》

虎:
我给伟哥定个书名:tame of NLP 驯服自然语言处理,俗称你老婆驯火记

毛:
本本主义不能一概而论,这有两种不同的情况。第一种是功成名就意气风发,于是嬉笑怒骂皆成文章。我二师兄就属于这一种,伟哥当然也是如此。第二种是穷极无聊,看着别人发财的发财,成名的成名(也有升官的升官,但是较少),自己却什么也干不了,唯独在自己电脑上打几个字还是可以的。我就是这种情况。

洪:
伟爷驯服NLP,
狮吼河东至河西。
Deep Parsing深见底,
看破老乔卖手艺。

李:
洪爷好诗,句句受用,飘飘然也。

 

【相关】

【NLP主流反思的扛鼎之作: 立委译《Church:钟摆摆得太远》(全)】

【白硕- 穿越乔家大院寻找“毛毛虫”】

【李白之39:探究自然语言的毛毛虫机制】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白79:中文深度解析的地基是词法分析器】

白:
“我电话费用不完”谁家分词系统强?

李:
这不仅仅是“分词”问题,而是词法分析(morphology analysis)问题,对比:


Note: M=Modifier, S=Subject, H = Head;
N=Noun, NP=Noun Phrase, AP=Adjective Phrase, CL = CLause

这里,“不”(还有“得”)是现代汉语的中缀(infix),派生词构词法如下:

用完 --》 用得完
用完 --》 用不完

而三元组“用不菲”却不成词:

“用不菲的价格购得”。


Note:M=Modifier, R=Adverbial, X=Functional, H = Head;
N=Noun, NP=Noun Phrase, AP=Adjective Phrase, VG=Verb Group, PP = Prepositional Phrase

白:
不菲 应该成词吧,不完 不该成词。

李:
对。但是 “用不完”成词,是派生词。上述词法分析除了派生(derive)了这个词,而且得到了这个派生词的分析结果:

(i)原词:“用完”
(ii)原词词典“绑架”的词法结构:述补
(iii)词法特征:【否定】【结果(述补结构)】【可能(情态)】

这不是切词,这是以派生的方式做词法分析,对比同为情态的等价表达“不能用完”:

(i)头词(Head):“用完”
(ii)句法短语:VG(动词组)
(iii)词法特征:【否定】【可能(情态)】

特别有意思的是,“用不完”的构成不是 “用” 与 “不完” 的拼接(concatenation),而是 “用完” 与 中缀“不”的派生式构建。这不是语言学上的合成构词法(compounding),而是派生构词法(derivation)。由于汉语被普遍地粗线条指认为缺乏构词法手段的所谓孤立语,大众一股脑把所有的构词都叫作 compounding(也叫“小句法”),但是现代汉语其实不是这么单纯。欧洲语言的构词手段大多在现代汉语也有体现,包括 类词尾(quasi-inflection)如表达完成体的“了”,也包括利用类缀(quasi-affix 如前缀。中缀、后缀)的派生(derivation),以及大量使用的重叠(duplication)构词手段(如:高兴--》高高兴兴)。我的博士论文对这些现代汉语的词法(morphology)现象及其计算机处理,有详尽论述,语言学味道浓一些(见:Ph.D. Thesis: THE MORPHO-SYNTACTIC INTERFACE IN A CHINESE PHRASE STRUCTURE GRAMMAR)。

现在已经清楚,为了中文自动分析,所谓中文分词,不仅仅是把要词“切分”出来, 而是应该输出白老师所说的微结构及其词法特征(时、体、态等)和句法特征(如类别、子类等) ,除此之外 还要通过“词典绑架”输出语义特征(叫 lexical semantic features)及其背后的本体知识层级体系(类似于董老师的HowNet,内含常识)。这样的词法分析器(lexical analyser)才算是完成了词法任务,为下一步的句法分析和语义分析打下基础,从而为汉语的深度理解开辟了道路。

所谓实体识别 (NER),属于合成词范畴,也是题中应有之义。还有 Data Entity 的合成,譬如各种度量表达法(长度、体积等)也是合成词。当然也要包括与句法纠缠的离合词(“洗澡”)的识别和绑定。

中文深度解析(deep parsing)的大楼不是凭空可以建造起来的,词法阶段就要夯实。

白:
“用不完”搞成词没啥意义

李:
这个没的争的。根本不是什么“搞成”词的问题,而是词法分析的问题。说到底,这个中缀的词法意义必须抠出来,因为它是 open-ended,绑架不全。最终系统要知道 “不能用完” 与 “用不完” 不过是用不同的词法句法形式,表达相同或相近的语义。否则何谈语言理解(NLU)?

白:
“用不完”在句法层次一样处理。放到构词法层次,难不成就是为了凑一个长词优先?

李:
句法与词法本来就是一伙的,从万米高空俯瞰,都是形式分析。句法如果能分析出词法分析同样的结果,亦无不可。以结果论英雄。但语言学上,它就是一个派生词,这个没有多少疑问。其实,“凑成一个长词优先”不仅是词法的“凑”,背后有其所以为词的原因在。词法句法在中文纠缠,并不说明二者没有顺序。顺序的一个体现就是长词优先。

白:
好的分词系统,即使“用不完”分成三个词,总体得分还是占优的才对。

李:
如果较真的话,中缀现象在通常的句法里面还真不好处理妥善。我们可以用近似、逼近的句法去处理中缀,但派生词的处理在词法是一个常规的过程,是词法里面避不开的一类。

白:
“我电话费用也用不完”

李:
这与沙滩望远镜看女孩有点异曲同工(自注:这是NLP领域最著名的代表结构歧义的例句:I saw a girl with telescope.  句末介词短语做 girl 定语,与做 saw 的状语,二者都说得通,是为“真歧义”)。这种人为的真歧义(1. 我电话费,用也用不完; 2. 我电话费用, 也用不完),系统怎么做都不能算错。理想的情况是输出两个结果,但人脑理解貌似也是先绑定一个结果(不同的人可能绑定不同的路径),有时间咀嚼的话,再想到另一个结果。人际交流和理解中,多数人不拘小节,根本不在乎这种歧义区分,除非是遇到较真的人,或在段子里。问题是,就算一个高明的系统可以区分这种较少出现的“真歧义”与大量存在的“伪歧义”,下一步接不上还不是白费。还不如就绑定一个。

“v 也 v 不完” 这种重叠手段与派生手段纠缠的汉语现象,不是应该把 “用不完” 置于句法的充分理由。首先,这种纠缠现象非常局限,基本上还在词法范畴内部,不像离合词“洗澡”,已经明显溢出到句法了,经常是“远距离”离合,那才真地需要词法(包括词典)与句法有一个灵活的接口。

白:
“电话费用不用得完成任务了再说。”

允许“用也用不完”成词,那就得允许“用不用得完”也成词吧?其后果是,即使“完成任务”算一个词也压不住了。

李:
压不住就不压呗。弯不过三。压不住的,基本上是长尾的尾端。

白:
这不是自然的压不住,是人为的压不住。不把那东东搞进词法就没这事儿。不是天灾,是人祸。拿解释天灾的逻辑解释人祸,欠妥。

李:
关于词法、句法,对于多层系统,就是一个连续体,有顺序,但没有一个黑白分界线,这与教科书里面的词典、词法、句法、语义等组件的各自完全独立不是一回事儿。
譬如说 1层到10层是黑色的词法,20层到40层是黑色的句法,但11层到19层呢,那就是灰色地带。可以说是词法后期,也可以说是句法前期,安排什么现象到灰色地带,是根据现象的特性来决定。因此争论某某是扔进词法还是句法这样的问题,前提的假设就是两个前后模块,而不是离散又连续的多层系统。

撇开抽象的模块分界,真正有意义的问题是,“凑成一个长词”(并参加分词大餐)是好处大于坏处还是相反?其实,答案是相当清楚的,利大于弊太多。与其指望一个“聪明”的分词程序来应对 “v -也(都)-v-不-完”这个五元组,不如把“长词”做出来心里踏实:这样再“笨”的分词程序也不至于出乱子。五元组分散开来进入分词所可能造成的副作用,较之合成了五元组长词(并同时做了词法分析)可能引起的后续的切分问题,前者比后者严重得多,也频繁得多,根本不是一个数量级上的问题严重程度和频繁程度。因此,恕我直言,白老师的“人祸vs天灾论”或者是唯心的,或者是误导的。

白:
关键是长词是什么时候做出来的,我很赞赏前面说的灰色地带的说法。长词是句法分析介入以后做出来的。做出来以后就可以反悔分词方案。这样分词和句法两方面就都是可控的。走的路线类似分词1-句法1-分词2-句法2………这种。

李:
有道理。不过白老师举例来说的人祸论实在不能让人心服。事实上,分词系统免不了要用 heuristics,对于每一个heuristic,无论如何表达,也无论如何安排先后次序及权重永远可以找出反例来,这是 heuristic 的本性。但我们最好不用(罕见的)反例来结论某种安排是人祸。如果不那样安排,这个人祸是避免了,另外一个更大的人祸很可能就在身边,因为所谓“没有了人祸的更高明的方案”其实并不能保证周全。这不是说方案与方案之间没有优劣,而是说,门户之见很容易让我们看到别人方案的缺点,忽视了自己方案的副作用。

白:
可以有一些另外的表述,比如结构冻结,比如分词永远在进行时,都能让人更好地理解所说方案的建设性。人贵在举一反三。如果从反例中只能看到个别、长尾、噪音乃至门户之见,那很可能就忽略了真正有意义有价值的问题。

李:
对,道理是这样的。不过,直觉还是很担心五元组进入分词程序的。晚上睡不好觉。汉语是二字词为主,五元散列的情况让人心慌,老觉得会当成外国人名给打入了另册。如果v是二字词,则另当别论,可以句法处之:“反正学习也学习不完”。换句话说,不是不知道这个现象可能需要句法:即便五元组参加了分词,同样的组合在句法还是要重复一遍,否则上面的7字组就不能做统一的分析和处置。这算是支持句法处置的一个可以接受的 argument,但是,词法结构规则在句法重复,听上去不经济,实践中个人认为并不是问题。多层系统的框架下,重复的不止这一项,否则也解不了乔老爷的递归魔咒。

刚开始入行的时候,老想着 generalizations(语言系学生的通病,被教授洗脑了,一直以 generalization 为语言学家天职),总是避免规则的冗余和重复。后来有几次看到了机器学习出来的符号规则,重复冗余简单到无语,反而受了启发。如今对重复冗余的耐受强多了:只要简单,何妨啰嗦,完全抛弃了铁路警察各管一段的理念。现在是词法做了句法做,句法做了到语义也不妨再做,螺旋式上升,相互照应,只要为了一个共同的目标就好。

 

【相关】

Ph.D. Thesis: THE MORPHO-SYNTACTIC INTERFACE IN A CHINESE PHRASE STRUCTURE GRAMMAR

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白78:毛主席保证】

李:
“毛主席保证。”
这句口头禅是到北京后学会的。

白:
至少40年前就有这话

李:
我范进中举进了京城,可不就是三四十年前嘛。

以前在外省的时候,我们偶然也说:

“(我)向毛主席保证”

“我”有时候省略,但从来不省略“向”。进了京城,乍一听诧异,再一听别扭,久而久之 反而觉得别致有味道:京片子“裸奔”(参见【汉语就是一种“裸奔” 的语言】),还是比咱乡下人放得开。连对神一样的毛主席, 也照样裸奔。不明不白,把毛陷于非施事非对象的模糊尴尬地位。

毛主席保证,上面这个对毛主席裸奔的故事,句句是真。但为什么不索性省略说:

“毛主席保证,上面这个毛主席裸奔的故事,句句是真。”

因为即便裸奔 也还是要达到交流的目的。所有的内衣都脱掉是不行的。如果省掉了介词 “对”,毛主席就是裸奔的人(【施事】)了。造谣污蔑伟大领袖搁文革那会儿,是要杀头的。

毛主席没保证,我们可以说毛主席保证。毛主席没裸奔,我们不能说毛主席裸奔。说到底就是习惯表达法的绑架原理,这就是约定俗成的真意。名无固宜,俗成了,任何记忆住的符号串就可以表达任何意义,不顾文法,不要逻辑,不讲道理。

为什么NLP闹了这么多年,各派各路不可开交,但有一点是大家心知肚明的共识,就是 词典主义 (lexicalist approach) ,不管以一袋子词统计模式的形式,还是以词专家 (expert lexicon)的符号形式。总之,词典主义高于(抽象)文法,词典王国就是那花和尚,完全可以无法无天。

白:
其实不是没结构、不讲结构,而是固定用法捆绑了一个微结构。微结构不需要讲逻辑,是因为它的逻辑不需要分析,只需要呈现。而且不光在词汇和构词法的独立王国里活动,其能量经常外溢。

李:
外溢的例子,离合词算一个:绑架的词义,外溢到句法了:

“洗tm什么破澡?不洗!连个喷头都没有。要洗 就洗星级饭店的澡,这不带星的澡,真心没法洗。”

 

【相关】

科学网—【泥沙龙笔记:汉语就是一种“裸奔” 的语言】

【语义计算:李白对话录系列】

《朝华午拾》总目录

《朝华午拾:外婆的回忆》

我的外婆去世已经34年了,可她老人家的慈祥音容仍时常浮现在眼前。

作为医生的父母工作太忙,所以第一个孩子一出生外婆就来帮忙,从此看顾我们三个孩子15年,直到她去世。据说我哥哥小时候不老实,外婆只好摇着摇篮,哼着催眠曲,不敢稍有懈怠,有时候一个瞌睡过去,摇篮牵绳的手一停,他便大哭大闹。外婆说,这孩子带得太辛苦,到两年后我出生的时候,她还后怕。没想到,我小时候乖极了,从不哭闹。就是可怜兮兮的,老害病,每病必吐,常伴有高烧。还有夜盲症,最要命的是脱肛的毛病,每次入厕十分痛苦,一片狼藉,外婆要小心翼翼把脱肛顶回去。外婆一辈子生养过10个儿女,夭折过半,看我这样子,老担心我活不长。还好,因为是医生家庭,有病能及时处理,加上外婆的悉心照看,我慢慢度过了病孱的童年。有外婆照顾的孩子是幸福的,外婆总是把家整理得井井有条,热饭热菜,我们的童年无忧无虑,父母也因此可以没日没夜全力扑在工作上。

外婆是旧式妇女,小脚,没念过书,少言寡语,性情温和,从来没见过她发脾气。外婆的生活十几年如一日,足不出户,刻苦本分,与世无争,街坊邻居无不夸赞。每天一大早,天还没亮,外婆就起床,开始梳洗,她总是把自己收拾得干干净净,开始一天的劳作。看孩子,做饭菜,一刻不停。稍有空闲,她就坐在门前纳鞋底。她把碎布条用浆糊黏上晒干,一针一线纳成结结实实的鞋底,我们全家大小的布鞋都是她老人家做的。一直到她去世,留下的一大箱鞋底,我们还穿了好几年,后来才开始买塑料底的成品鞋穿。

父母每个月给外婆三块钱,作为我们孩子的零用钱。外婆手很紧,因为她要保证这零用钱维持三个孩子到月底。记得每天可以从外婆那里讨来两三分钱,我常常到街头买来一个热腾腾的小红薯头,回家跟小妹分享。这个故事我跟女儿讲,她很爱听,不时拿出来说笑一番:when you were my age, sweet patato was only two cents a piece and you always asked Granny, that is my Great Granny, for two cents to buy one and share with my antie GuGu, but never with my uncle DaBai.

记得文革初期大串联的时候,爸爸妈妈也随大流去上海杭州串联了一个多星期,由于交通堵塞不能按时回家。外婆带我们三个孩子在家,每天听高音喇叭传出各种消息,给人兵荒马乱的感觉。当年通讯不便,行踪无从打听,一家大小望眼欲穿久等父母不回。外婆急了,开始垂泪,我们孩子看见外婆哭了,也都哭了,一家老小怕失去依靠而哭成一团,连邻居也陪着掉泪。

文革第二年,外婆由于地主成分,被医院造反派勒令每天挂“反革命地主婆子”的牌子站街示众。可怜外婆小脚,哆哆嗦嗦,却要受此羞辱。这对我们孩子刺激很大,我们无论如何也无法把慈祥的外婆跟可恶的地主婆联系起来。还好,父母感觉形势不对,很快决定送外婆回乡下老家躲避,特地请我们家的至交三代老贫农的徐叔叔一路护送。徐叔叔回来说,外婆无法理解发生的一切,又舍不得三个孙儿,委屈伤心,走一路哭一路。乘汽车,过轮渡,转火车,再乘小轮穿过巢湖,最后要步行10里才到老家。最后那步行,走了一整天,人几乎瘫软。

幸亏送外婆回了老家,后来的情势越来越遭,武斗开始了。先是两派小将(“批联部”和“扫黑线”)拿钢钎匕首在街头械斗。有一场械斗就在我家门前,还记得我们又害怕又好奇,几个孩子爬到院子里一家的二楼上,透过临街的窗户观战。我胆子小,只瞄了一眼,看见双方手拿钢钎对峙的样子,然后听到口号声和厮杀声。这还是武斗初期,后来双方割据,拿起了真枪真炮,常常夜里听到枪响。我们全家也被秘密转移到批联部的司令部去了,我父母因此成了批派战时医院的核心医生(见(见《风雨春秋专栏》​;《老爸-风雨几春秋》)。

革命大联合的时候,武斗停止,妈妈把外婆接回来了,我们恢复了跟外婆朝夕相处的日子。外婆没来的时候,我们放学回家,家里总是锁着门,我们脖子上挂着钥匙,常常要到手术室去找父母,等父母手术完回家。外婆来了,家才象个家,生活安定而有秩序。


1969(?)全家包括外婆和老姨,以及邻居至友何妈妈小慧姐在家门前合影

我13岁那年,外婆患口腔癌,右腮长出鹅蛋大一个瘤子。记得瘤子刚起的时候,我们经常用小手抚摸,希望它慢慢消失。可是,那瘤子还是越长越大,外婆自己也说:这是个毒瘤子,怕好不了了。外婆临终前,舅舅和表哥都从老家赶来,最后几天主要是舅舅在床前伺候。我听外婆喃喃说,儿女都在身边,该走了。

外婆去世那年说是71岁,可实际年龄应该是69。我记得外婆生前跟我说过,她虚报了两岁,用的是外公的年龄,为的是做个纪念。外公在我出生的1960年,在老家饿死,跟我爷爷和姑姑一样成为大跃进的殉葬品。外婆虽然从来没有提过外公的故事,可以看出她一直默默在心中纪念着他。

记于2007年九月二十二日中秋节前夕

原载 科学网—《朝华午拾:外婆的回忆》

【李白77:基本短语是浅层和深层parsing的重要接口】

白:
句法的作用,第一是把远距离相关的成分拉到一个滑动窗口里来,第二才是在同一个滑动窗口里有多选的话,考虑语序因素来进一步缩小范围。

李:
说得好。第一个作用一多半是由 phrase chunking 完成的,这被认为是 shallow parsing,相当靠谱的一种操作。

白:
问题出在,如果在phrase chunking过程中出现多种可能性,混乱到chunk的边界都有分歧,这时候带着不确定性跑会很累。又回到休眠反悔的话题。边界不一致倒也罢了,中心词都不一致,更不好对付。

李:
问题不严重。关键是 chunking 基本上针对 basic XP (baseNP etc),只要具有前后条件查询的机制,搞定 boundary 一般没有问题。对于所谓 right-branching 递归,譬如 PP 的后修饰,等,shallow parsing 一般把这个问题推后,不去牵扯。

白:
形容词副词介词限定词这些都不担心,担心的是从句。从句递归以后,边界和中心词混乱的概率明显增加。

李:
shallow parsing 绝对不要管从句,连稍微复杂一点的多层 phrase 都被排除在外。这样一来,虽然理论上,窗口聚焦的任务不可能完成,但实践中,其实问题也不大,因为特别复杂和嵌套的句子,并不是语言事实的大多数,这是其一。其二,窗口的大小除了 chunking 把前后的修饰成分吃掉以外,系统还可以选择性跳过挡道的东西。事实上,deep parsing 其所以可以在 shallow parsing 的基础上进行,正是这个理由,不过做的时候小心一点罢了。这样来看,chunking 的核心就是搞定 boundary 和 确定 head。这两个都不难。一旦搞定这两点,结构的基础就打牢了。至于结构歧义,它被自然地推后了。

白:
另外就是NN结构,经常是伪歧义,所以N+N这种,最好是白名单管理,条件不满足是断开的,有罪推定。而A+N,就应该是无罪推定。条件不满足就应结合。

李:
N+N 统计上看,就是合成词为主。A+N 就是合成词以后的短语层内部修饰,大体如此。

歧义分两种。短语内部的结构歧义可以休眠唤醒,不影响分析向深度进行。因为短语对于句法已经包裹得严严实实,里面藏一些搞不清的关系,属于人民内部矛盾。

白:
嗯,比如“两个英雄的母亲”你管他几个母亲几个英雄呢,反正对外的全权代表就是“母亲”。剩下的慢慢来。

李:
清官难断家务事,句子层的语法关系,一般没必要进入短语内部去参合(当然可以找到例证,短语内外的关系是有相关性的,别说短语,甚至句法的东西也有需要进入词法内部去协调的,但是统计上可以忽略这种 interaction)。

白:
远距离相关,要拉近的就是“母亲”,“英雄”无所谓。

梁:
人民内部矛盾,家里家外有别。

李:
第二个结构歧义是basic短语之间的,这个问题比较大。典型的譬如 pp-attachment,汉语中的“的”所涵盖的 scope 问题。deep parsing 的主要难点就是与这些短语之间的歧义战斗。但是可以设想一个简单的 deep parser 绕过这些问题,遵循休眠政策,就是一切关联一律就近原则。这样 parse 出来的句法树,不能直接对应逻辑语义和理解,但是作为一个结构基础,还是能起很大作用。

白:
这个是权宜之计,只不过有休眠兜底,不怕。

李:
原因是,理论上,这样一颗全树贯穿了所有节点,从任一个节点到任意的另一个句素节点,都有路径可达,不过是直接还是间接而已,道路是畅通的。譬如 PP-attachment,如果从VG未达想要check的PP,不过就是通过NP间接达到PP,一样可以找到你想要找到的某种PP。如果语用或产品是建立在这样 pseudo-deep-parsing 的基础上,完全可以考虑把 domain 的知识,ontology,heuristics 等等带进来,去求解想要的信息目标,这比关键词不知道要强多少倍。

白:
可以“句法制导”地去做。

李:
而且,到了这个地步,也可以根据情形,重新做局部 re-parsing,这个 re-parser 可以设计成特地为了休眠唤醒而制作的。

白:
休眠的数据结构设计好了,re-parsing可以很有章法。

李:
它有两个以前没有的有利条件:(1)量上,聚焦了。面对的不是大海,而是其中一个子集。面对的甚至不是全句,而是句子的某个部分。(2)语义限制条件可以放开手用,除了 domain 知识可以引入外,其他语义条件也可以用,因为这里求的是精准,而recall已经有娄底的了。

白:
最近也可以换成其他条件,比如统计上最般配之类。

李:
对,这个很有意思,不过实现起来有一定难度。理论上没有问题。最般配是有大数据基础的。怎么用好,看功力了(更多的是工程的功力)。

剑桥有一个老学者,以前很熟,他做过类似 Preference Semantics 的 Subact 语义条件的统计工作。有非常有意义的结果,可惜那个方向的结果,距离工程上应用还有一些实现上的挑战。但是,这些都是具体的细节问题,宏观上,这一路一定会大幅度提高 deep parsing 和 理解的能力。没有疑问。

传统 parser 的一个致命的问题是内外不分,CFG 的 chart parser 是从词到短语到从句到所有的句法结构,一锅端。这个大大地限制了其 parsing 的深度、广度、鲁棒和效率。

白:
基本三条路:全息,带着所有选择跑;回溯,带着一个选择,备着所有其他选择;休眠,带着一个选择或一组一致对外的选择在主战场上分析,其他选择也不闲着,在另一个战场上以一定概率梦游。我看好休眠。

李:
phrase 这一刀很关键。实际上,phrase 是一个极其重要的层面。phrase 可以看成是有三妻五妾的大红灯笼的乔家大院。甭管内部争风吃醋你死我活。大院只有一个院子主人对外,就是老爷。其他的妻妾佣人宠物财物统统不作数。国家大事只在老爷之间进行。小家内部的矛盾可以无视,只在需要的时候用到。

白:
个别老爷之间有些扯不清楚,先用某种规则糊弄鬼子。

李:
休眠和梦游(唤醒)一般不在一个时间区间,所以一般没有瓶瓶罐罐的牵累。

白:
不清不楚的只能通过梦游获得扶正的机会。大院的边界是武断的,而这武断如果有大数据支持,就更胆儿肥了些。

李:
base-phrase 的边界不是挑战,不用大数据。倒是院子之间的关系, PP-attachement,等,大数据可以派上用场。

白:
我说的就是后一种。

李:
那个我验证过,绝对可以用上,也非常有效。就是在线实现非我所能。本质是 offline knowledge,real time use, 还不能 pre-computing,需要工程好手,也许有戏。

首发科学网 《新智元笔记:基本短语是浅层和深层parsing的重要接口
 

 

【相关】

《泥沙龙笔记:parsing 的休眠反悔机制》 

《泥沙龙笔记:连续、离散,模块化和接口》 

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白76:跨层次结构歧义的识别表达痛点】

李:
一个困扰我的问题是跨层次结构歧义的表达:“他要整个高大上的节目献给全国人民”:

“整个”分析成定语。但口语中,它还有动词谓语的可能:“整个”=“整出(创制)一个”。上面示意了一下,为表达识别出来的歧义,这里需要打破 base XP 的框框。第二条依存关系路径是:“要”是谓语“整个”的儿子(情态),“节目”也是“整个”的儿子,是其宾语(O)。值得注意的是,这个歧义表达要求短语内部的定语跳出来做句子的谓语。

白:
其实,有了从句,树已经成了DAG。既做得初一,索性做十五,大面积地画DAG好了。

李:
如上图所示,加上这两条路径,基本就算在同一颗树里面表达了两个 parses 的路径。昨天一直在想这事,感觉与白老师初一十五一样,可以做。不就是需要一个表达手段么?也不影响 formalism 本体。

白:
还是有点两张皮,不是个一贯的东东。

李:
层次纠缠的结构歧义的表达,如果不生成多颗全树,而是表达在一颗树里面,的确不是一个一贯的东西,是两张皮。但是好处也是明显的,经济实惠,共享了句中大部分与歧义无关的依存关系。句法识别这样的结构歧义原则上不难。有“整个”这个词去drive的话,总是可以识别的。

白: O前是表示生产、制作、呈现意义的动词,O后是双宾动词的情况,可以激活“整个”的分解语义。

李:
先不说排歧,因为排歧很多时候人也有难处。咱们先讨论清楚结构歧义的表达。识别完了,怎么表达?需要一点斟酌。因为只有表达合适了,后去才可以用(无论是后去的排歧,或者不排歧提供给人去互动或干预)。关键是,这个表达要好用。后去觉得不好用,那就白表达了。因为大多数其他的依存关系是可以共用的,所以结构歧义,是可以在同一颗依存树里面表达的。

结构歧义在不牵涉 base XP 层次纠缠的案例中,我们已经常用。PP-attachment 就可以把PP既连接到前面的NP也连接到前面的VG谓语。因为所谓的base NP, 这个base是把后面的PP定语排除在边界之外。这样一来,表达起来完全没有层次(xbar)的纠缠问题。还有我以前显示的一个NP既接成VG的S,也连接为O,这些都好办。汉语的兼语也可以表达为前面VG的宾语(O)和后面VG的主语(S)。

在多年的实践中,发现在依存表达中,加入 base XP 的短语结构,会带来很多很多便利。结果就人为地在本来应该没有非终结节点的纯粹的以词为基础的依存树里面,强加了这个 XP 的表达。这样一来,就出现了结构歧义的层次纠缠问题。如果当时决定从base XP更进一步,允许XP的短语结构有嵌套,那么PP-attachement中的PP就可能成为一个扩展的NP里面的成分。这时候,PP再拿出来做谓语的状语,就同样面临层次纠缠问题。这表明,这一切都是人为的。是我们为了方便做了权衡的一种表达方法。关于这种baseXP 短语结构与依存关系的 hybrid 的好处,新来的朋友参见:《新智元笔记:基本短语是浅层和深层parsing的重要接口》。在多数时候,它的确是方便的,短语这一刀给我们带来了极大的便利,但在层次纠缠的结构歧义表达时候也给我们带来一些不便。不便之处,花点功夫可以克服。人为的东西都是可以人为克服的。

对于结构歧义在同一颗依存关系树上的表达,后续的应用,需要专门为这种表达写一个歧义检索程序,用起来就没有问题了。这个检索算法,我昨天想了一下,也不难。你从任一个节点出发,一路遍历它的子子孙孙。如果其结果是树上的所有节点都访问到了,那么这个节点就是天王老爷。如果有多个天王老爷,就说明有结构歧义。就这么简单。因为依存关系的结构原则是,有且仅有一个天王老爷。多了,就是歧义。在我们的“整个”的那句案例中,从“要”出发可以遍历。从“整个”出发,也可以遍历。其他的所有节点都不具有这个遍历终结节点的可能。白老师,这样有问题么?

这个方案纯粹是一个所谓 side effect 的工程,不牵扯 formalism 本体。只要想做,找一个不笨的工程师就可以做:歧义结构的依存关系表达,以及歧义结构的依存关系检索。至于检索后的应用,那是下一个系统(IE或其他语用模块)的问题,不是句法的问题了。句法合适地识别了歧义,又提供了检索接口,可以说是仁至义尽了。

这一讲的题目可以叫做NLP中“跨层次结构歧义的识别表达痛点”。

其实,也不算太痛。就是messy一点,做总是可以做的。Note:这里讨论的问题与传统 parser 生成了许多个伪 parses,鱼目混珠、沙多珠少的情形不一样,这里说的是具有相当确定性的结构歧义。不是伪 parses 成堆的传统 parser 里的那些 false alarms。这些歧义的识别大多是细颗粒度或词驱动的句法都可以预示和搞定的任务。如果上述方案实施了,就引导句法开发者多在识别上下功夫,而不要浪费资源做那些搞不定的排歧任务。前者是 tractable 的任务。

前几天提到的“一张嘴”的词启动歧义识别也是如此:

后一个 parsing 由于词驱动的 hidden ambiguity 没有表达,现在是错的。 但是如果照上面的方案解决了歧义识别表达的问题,就可以把另一个可能挖出来。

刘:
我是一只特立独行的猪,这个结果会是咋样呢?

李:

“结果”取了副词的用法,也说得过去,但错过了其名词的用法,虽然总体语义无大碍。

这个也有一个错,“树”应该做定语的,可是分析成“看”的宾语了,大局没错。

这些漏掉的歧义结构,从道理上都可以识别,如果歧义表达和检索按照今天说的方案那样到位的话。不过做起来还是有些繁难,以后再说吧。要点就是,对于一个已经基本对于 false parses 免疫了的细颗粒 parser 而言,与其追求不大切合实际的结构排歧,不如把下一步的重点放在歧义识别、表达和检索上。

首发科学网 《新智元笔记:跨层次结构歧义的识别表达痛点

【相关】

Chomsky’s Negative Impact

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【李白洪毛75:乔姆斯基批判】

【原立委按:微信泥沙龙,谈笑鸿儒,高朋满座,信马由缰,言无所忌,摘之与同仁分享。】

李:
今儿个咱要吐槽乔老爷,不吐不快。

开题:乔姆斯基,对领域的误导,或负面影响,与他对语言学的革命性贡献,一样大。

他的hierarchy,是天才绝顶的理论,是不可泄露的天机,从而奠定了形式语言的基础,用来创造、解释,或编译计算机语言,是完美的指导。可是,完美往上走一步,就成谬误。乔姆斯基拿这套理论,硬往自然语言套,导致整个领域,在所谓自然语言是free,还是sensitive,还是 mildly sensitive等不靠谱的争论中,陷入泥潭。太多的人被引入歧途,理所当然地认定,因为自然语言复杂,因此需要 powerful的文法。这个 “powerful”,是世界上用的最误导的词。

工程师发现,有限状态好用,但经不起理论家的批判:你那玩意儿太低级,不够 powerful,只能拿来凑合事儿。实际上,做过大工程的人都明白,对象的复杂,并不是使用复杂机制的理由,有本事使用简单机制对付复杂的对象,才是高手。

乔姆斯基最大的误导就是,用所谓自然语言的center递归性,一杆子打死有限状态,他所举的center递归的英语实例,牵强和罕见到了几乎可笑的地步,绝非自然语言的本性。结果一代人还是信服他了,彻底地被洗脑,理所当然以为必须超越有限状态才可以做自然语言深度分析。

为了所谓语言的递归性,人脑,或电脑,必须有个堆栈的结构才好,这离语言事实太远,也违背了人脑短期记忆的限制。世界上哪里有人说话,只管开门而不关门,只加左括号不加右括号,一直悬着吊着的?最多三重门吧,一般人就受不了了。就算你是超人,你受得了,你的受众也受不了,无法 parse 啊。说话不是为了交流,难道是故意难为人,为了人不懂你而说话?不 make sense 嘛。

既然如此,为什么要把不超过三层的center循环,硬要归结成似乎是无限层的递归?

毛:
递归成了他的宗教。

李:
不错。乔老爷的递归误导语言学,坑了NLP太久。我对他的语言学不感冒,对他对NLP的误导,更感觉痛心。一个如此聪明强大的人,他一旦误导就可以耽误一代人。被耽误的这一代是我的前辈一代(上个世纪70年代80年代),他们在自然语言理解上的工作几乎一律为玩具系统,在实际应用上无所作为,从而直接导致了下一代人的反叛。老一代被打得稀里哗啦,逐渐退出主流舞台。

在过去30年中,统计NLP的所有成就,都是对乔姆斯基的实际批判,因为几乎所有这些模型,都是建立在ngram的有限状态模式的基础之上。

洪:
从乔姆斯基的所作所为,就能分出构造机器智能和解构人类智能难度上的差异。他五十年代略施小计就把形式语言夯成了计算机的Cornerstone,可是穷毕生精力,总是在重构其语言学理论。

毛:
如果没有乔老的那些理论,人们能做出计算机语言编译吗?)

洪:
语法mapping到语义,总是要做的,不必须用形式语言,就像现在做nlp的人也不必须懂语言学。还是 David Marr,David Rumelhart 等立意高远,总想找到人机等不同智能实现上的共通计算机制。

刘:
Marr 也是人神级别的

毛:
跟上面问题类似的是:如果没有图灵和冯诺依曼的理论,人们会造出计算机么?

洪:
Babbage的分析机可行,Ada的程序/算法也早可行。其实,问题不在于出冯诺依曼还是马诺依曼,问题在于,不管他们的理论表面上如何不同,可能都受同样的约束,能力上可都能都等价。而Chomsky 研究的是这些约束能力。

毛:
那图灵不是更加么?

洪:
Turing 从机器一侧,Chomsky从人一侧。)

李:
洪爷说的是事实,过去三十年不懂语言学做NLP的占压倒多数。但那不是健康状态。不过,语言学里面也很混杂,进来的人很容易迷糊。但是,语言学里面确实有一些指导性的东西,了解与不了解大不一样。比如索绪尔,就值得琢磨。索绪尔说的大多是原则性的,有哲学的意味,是传统的非科学性的语言学,特别具有宏观指导意义,可以提醒自己不至于陷入细节的纠缠,而忘记了方向。他谈的是共性与个性的关系,语言和言语,规则与习惯,共时与现时,都很洞察、到位。

白:
我觉得线速、柔性很关键,多层次递归和远距离相关必须搞定。方法不限,八仙过海。

李:
那些已经搞定了,伪歧义也不是问题,都搞定了。有一种叫做cascaded FSA的方法,与软件工程的做法极其类似,就能搞定这些。前提是指挥者架构者不能失去全局,要胸怀索绪尔,而不是乔姆斯基。架构和interfaces设计好,下面就是模块的开发,匠人的干活,可以做到很深,接近逻辑表达,比典型的chomsky CFG文法深透。传统规则系统受乔姆斯基CFG影响太大,很不好用,而且也无线性算法,所陷入的困境与当年神经网络以及一切单层的统计系统类似。正如多层的深度学习被认为是AI的突破一样,有限状态一多层,一 cascade,以前天大的困难,递归啊远距离啊伪歧义啊,就消解于无形。

白:
数学上的函数复合。

李:
就这么一个简单的道理,结果至今批判规则系统的人,还在打稻草人,以为规则系统都是CFG那么愚蠢和单层。

乔姆斯基对nlp的误导,还在于它的短语结构的表达法。那个phrase structure破树,叠床架屋,为了追求所谓语言共性,太多的assumptions,既不经济也不好用,却长期成为 community standards,误导了不知多少人。起码误导了 PennTree,通过它误导了整个领域。,

白:
某种意义上,nlp是应用驱动的。与应用匹配,Ngram也不算误导。与应用不匹配,HPSG也算误导。抽象的误导不误导,让语言学家掐去吧。一个topic问题,扯了这么多年。)

李:
语言学家打烂仗的事儿多了,说起来这与乔老爷也有很大关系。有个 self,相关的所谓 Binding Theory也是论文无数,大多垃圾,这与老乔的负面影响直接相关。为追求 universal grammar,和脱离语义的generalizations,走火入魔,大多是无谓的口水战争,既不能推进科学,也不能推进应用,唯一的好处是帮助了很多语言学博士的选题,培养出一茬接一茬的语言学博士。可是,毕业了还是找不到工作。老乔由于其超凡的智力和名气,帮助提升了语言学的地位,但他没有能力影响市场,结果是全世界语言学家过剩,懂得茴字五种写法的落魄腐儒,如过江之鲫,谁能给他们就业机会?

这里面的要害在,所有的语言分析,不可能为分析而分析,都是为了求解语义的某种需要,可老乔强调的语法纯粹性,要脱离语义才好研究终极的机制,这个argument有历史的革命意义,有某种学术价值,但非常容易形而上学和片面化,结果是语言学家脱离了目的,脱离了需要,在争论一种分析,或一个模型与另一种的优劣。其实这些相争的方案,只要系统内部相谐,都大同小异,根本就没什么本质区别,而且没有客观的可量度的评判标准,那还不打成一锅粥。

刘:
摆脱语义,直接进入语用?

李:
哪里,乔老爷是要直接进入共产主义,要世界大同。他对语义不感兴趣,更甭提语用。语义在他属于逻辑,不属于严格意义的语言学。句法语义是分割开来的两个范畴,句法必须自制。

白:
句法自制是错误的。

李:
对传统语言学完全不分家的那种分析,老乔有革命意义,也确实推进了结构研究,但凡事都是过犹不及。句法自制推向极端,就是本末倒置,失去方向。

我做博士的时候,在一个小组会上,举一些汉语的例子,作为证据反对一刀切的句法自制,说老乔有偏差,看到的语言事实不够,结果被我导师劈头盖脸批了一通,言下之意,不知天高地厚。我当然口服心不服。问题是,我一辈子只思考一个问题,只要醒着,头脑里除了语言,就是文法,除了词汇,就是结构,突然有一天觉得自己通达了,看穿了语言学上帝,乔姆斯基。原来,智商高,不见得离真理近,智者乔老爷,也不例外。有人说老乔外语不大行,看到的现象大多局限于英语,偏见难免。的确,懂汉语的人很难完全信服什么句法自制:句法形式的约束和语义的约束很难截然分开,否则连“我鸡吃了”和“鸡我吃了”都搞不定。

说起外语,到了我们的年代,俄语退居其后了,所以我本科的二外选的是法语,到研究生才选了俄语做三外,不过全还给老师了。虽然语言是还给老师,体悟到的语言学却长存,所以也不冤。到 30 年后的今天主持 multilingual program,带着参考书,我还一样可以指导法语和俄语的 NLP 研发,语言的不同,换汤不换药也。

洪:
老乔不是上帝,他只是让咱看到来自造物主的理性之光。

李:
形式语言理论,非人力可为,绝对属于天机,单凭这,乔就是人神。吐槽乔老爷,一次抱怨完,明儿依旧是偶像。

不管我怎么批判乔姆斯基,我还是服他到不行:他老人家的威望可以把 Universal Grammar 这种乍听很荒唐的观念,转化成一个让人仰视的语言哲学理念。UG 的真理之光由此不被遮蔽。当然最厉害的还是他的 hierarchy 形式语言理论,那几乎不可能是人的理论,那是上帝之光,尽管乔老爷在描述的时候,不免机械主义,hence 造成了极大的误导。

话说回来,没有自然语言的数学化研究和启示,他老人家也提不出形式语言理论来。至少从形式上,他能把人类语言和电脑语言统一起来,达到一种人力难以企及的高度。如果没有乔姆斯基,电脑理呆们打死也不会对词法分析,句法分析,语义求解,parsing 等感兴趣,并如数家珍地谈论这些语言学的概念。这是其一。

其二,正因为乔老爷自己也知道他的形式语言理论的抽象过头了,难以回到自然语言的地面,才有他穷其一生在自然语言的语言学方面的继续革命,革自己的命,花样翻新,试图找到一个终极的普遍文法的自然语言解构。这次他就没有那么幸运了,虽然在学界依然所向披靡,无人能敌,但却与电脑科学渐行渐远,被连接语言学和电脑应用的计算语言学领域所抛弃。也许不该说抛弃,但是自然语言领域大多把他当菩萨供起来,敬神鬼而远之,没多少人愿意跟他走。

首发科学网 【泥沙龙笔记:乔姆斯基批判

【相关】

Chomsky’s Negative Impact

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【李白雷宋74:乔老爷的递归陷阱】

李:
咱们可以聊聊为什么叫 center 递归,很多人不做区分。自然语言中,right branching 递归很常见,也常可以超过三层。说的人,听的人,都不感觉是负担。道理就在,虽然“左括号”在不确定的位置,但他们都归于统一的右边界。这样一来就不需要栈(该死的栈!)结构的机制来对付它,有限状态就可以了。乔姆斯基没法拿这个常见的所谓递归来批判有限状态,因此他不得不举 center 递归作为杀手锏。可问题是,自然语言几乎没有什么center 递归。

雷:
The man who the woman who had lost all the keys was calling all day finally came

白:
关于印发关于学习落实关于进一步深化改革的决定的若干意见的通知…… center recursion的中文例子

李:
这些是人话吗?亏老乔是语言学祖师爷!乔老爷反复给我们洗脑:这不仅是人话,而且是人话的本质。

这就是牵强附会,登峰造极地牵强附会。

雷:
right branching 递归是线性的,而center embedding不是线性的

李:
这里面就形成了这么个trap,信服他的人,一个是源于他的权威性, 另一方面是把常见的右递归当成了支持乔老爷的证据。乔形式上没有误导,因为他是严谨的、聪明的,但实际上达到了误导的效果。这就是“递归教”的 fallacy.

雷:
这个是right branching sentence:
The dog slept on the doorstep of the house in which it lived.

李:
右递归太常见了,听上去也不牵强。典型的句式是 vp 的嵌套:
to ask sb to beg sb to order sb to …

雷:
我来理解一下你的意思:center embedding recursive sentences 不存在,或不出三层,所以是finate state的?

李:
不是不存在,是如此罕见与牵强,而且也从来不超过三层,除非你是恶作剧,因此它绝非语言本性。

雷:
不足为道,本来就是线性的。CFG的parsing在理论上是cubic,就是因为这个center embedding

白:
这么多计算手段怎么会被center recursion憋死,自动机加几个计数器就可以线性了,只要计数器不爆表。

李:
拿恶作剧和语言游戏作为语言能力的证据,是乔老爷的最大忽悠。

雷:
我觉得这是数学家和哲学家的通例:形式上的完美。而我们做NLU的,从来就不把这个当真,是不是?

李:
既然最多不过三层, 那么多层有限状态即可轻松应对,三层就是 3x,当然还是线性

雷:
语言学系的人不到计算机系串门

李:
世界上有人把简单的问题复杂化,递归便是一例。

雷:
呵呵,因为我们不是数学家出身?我同意你的说法:就只有几层,有方法可以对付,不必搬出递归来。

李:
他那些理论真地是折磨人,云山雾罩的。有时候感觉,全世界语言学家被他玩得够苦。我还算幸运,我们系比较开通,学句法的时候躲开了乔姆斯基,拿hpsg来充数。hpsg 至少比 gb 接地气,尽管它像个要争宠的小妾,每一个分析都要以乔老爷的主流作为假想对象,反复辩白,妾身清白。

雷:
加州那边不受什么影响吧,走的是另一个路子,如, cognitive grammar, Fillmore

李:
Fillmore 了不起,但过分细琐. Framenet 很好的概念但不实用,以前写【语义三巨人】专门论过。因为它处于语义和语用之间,不尴不尬。

雷:
我专门研究过framenet,觉得还是不够细,同你的琐碎不是一回事。是每个动词的用法还不够全,还有就是Verbnet。感觉是虎头蛇尾,后面都是学生做的,真正要用起来还不够全面。

李:
我看法正相反。我也仔细研究过它。以后找机会展开与你辩论。

白:
伟哥看过来,你的中递归

QJ:
咋了,堆栈溢出了?

雷:
呵呵,一山一寺酒一壶,三层。

李:
还真有这么狗血的不是人话的东西存在。服了我党苏州委员会。

另,再看里面的括号的中递归形式:《 ..<...<...《...》...>...>...》,凭什么这样用括号呢?双单单双......。如果双单都用,应该是交错而行,否则索性一双到底或者一单到底。

wiki 上给的英文中递归(center recursion)的狗血例子是:

A man that a woman loves
A man that a woman that a child knows loves
A man that a woman that a child that a bird saw knows loves
A man that a woman that a child that a bird that I heard saw knows loves

An interesting theoretical point is that sentences with multiple center embedding are grammatical, but unacceptable. Such examples are behind Noam Chomsky's comment that, “Languages are not 'designed for parsability' … we may say that languages, as such, are not usable.” (Chomsky, 1991)

from https://en.wikipedia.org/wiki/Center_embedding

乔老爷的 grammaticality 论,unacceptable 还 grammatical,如此偏执,也只有乔老爷这样的人神才敢了。还有这个 languages are not designed for parsability 的论点,直接与语言的交际通讯本质相抵触。

The linguist Fred Karlsson provided empirical evidence in 2007 that the maximal degree of multiple center-embedding of clauses is exactly 3 in written language. He provided thirteen genuine examples of this type from various Indo-European languages (Danish, English, German, Latin, Swedish). No real examples of degree 4 have been recorded. In spoken language, multiple center-embeddings even of degree 2 are so rare as to be practically non-existing (Karlsson 2007).

也就是说,这种东西统计上是不存在的。是臆想出来的语言学问题,然后把整个 parsing community 给绕进去。雷司令为此搭进去好几年时光,试图去求解它,终于发现只要有中递归就不存在线性算法。

白:
去掉中递归,计算复杂性从接近立方级一下子变成了线性。吃水不忘挖井人啊……

云:
不过计算机语言里这种递归比比皆是啊,尤其是 recursive decedent parser。

白:
人的短时记忆不允许。7加减2,常委数量,也就是三到四对括号,再多了就晕菜。这个可以佐证伟哥的统计结论。

雷:
不怕一万,就怕万一,冷不丁的来

白:
嗯,那就反刍呗。in memory不要搞

李:
还有一个狗血的语言学问题,也是乔老爷造的孽:所谓 binding theory。本来是语言中很小的一个现象,结果被无限夸大,引发了无数论文和论战。由 Binding theory 的三条原则而来的有那么点实践意义的规则,我15年前指导一个实习生,用了不到两个小时就实现并调试完成,后来一直没遇到什么有统计意义的挑战。

可见,一个简单的工程问题,可以怎样地被理论家无限复杂化,烦琐哲学害死人。伟大的理论家害死一代学人。

白:
学人仍然是学人,谁也没被害死,只是又想当学人又想搞工程的被害死而已。这是两种不同的打开方式,老乔根本就当另一种打开方式不存在。

宋:
自然语言规则必须受到人类认知能力的约束,否则就称不上自然语言了。

白:
认知能力有个体差异,也有亚文化差异。

宋:
7加减2应该就是人类共同的认知约束。

白:
内存不够就拿笔作记号呗。

李:
有意思的是,谁创造的标点符号,三层括号:

{ ... [ ...(...)...] ...}

怎么就明白大中小三层就足够了?

白:
摆明了就常委的菜下饭。
多一层也不该憋死人,难受一点而已。艺术一点,难受的程度可以小一点。

李:
已经有人做过大数据调查,多一层也不行,没有超过三层的。

白:
我还是坚持分析要更鲁棒,生成坚决不说。

宋:
自然语言一般来说应该是能听懂的话。如果线形的语音流无法使一般人听明白,非得要落到文字上,左右来回扫描,甚至要用笔做记号,就不自然了。

白:
公文不一定。公文是官场亚文化催生出来的东东。

宋:
非自然语言的确切信息的表达,表格是一例,图形也是一例,再复杂就要用数学公式,必须有足够的数学修养才能看明白。

白:
人能意识到的“回文”,可绝不止7加减2。“上海自来水来自海上”轻轻松松就打到上限。

李:
9-gram,还在 7+2 的极限内。来个 19-gram 的回文,就真服了。人脑就是块豆腐,这方面说过大天去,也无补。人成为万物之灵,绝对不是因为有个记忆能力,或以记忆机制做底的语言递归能力。

 

首发科学网 【泥沙龙笔记:再聊乔老爷的递归陷阱】 & 《泥沙龙笔记:狗血的语言学》 

 

【相关】

乔姆斯基批判

Chomsky's Negative Impact

《立委随笔:自然语言是递归的么?》

语义三巨人

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【李白73:汉语parsing的合成词痛点】

李:
半夜醒来,一看有好例子,白老师给的三个作业,精神头就来了。这些结果是在没有利用量词搭配的情况下的parsing,不久会加上搭配的。

最后这句笑话闹大了。
有意思的是,加了一个新词 “停落” 没做其他任何改变,就成这样了:

白:
这个很powerful

李:
量词搭配没利用,但 “颗”和“树”还是连上了,“候鸟”和“停落”的主谓也连上了。定语从句也对了,但逻辑关系却错了:“大树”不应该是“经常停落”的逻辑宾语。

finally:
那个图是程序自动生成的,还是用手现画的啊?

白:
显然自动的

李:
开玩笑,这是NLP群,要是手画那还了得。
Wait, 再一想 其实也不错: 候鸟停落大树。 “停落”的确是及物的,“大树”是表示地点的逻辑宾语。那就全对了?白老师。 这就是我说的 parser 开发,越到后来越多让创造者惊喜的地方。用句白老师的话说,“我窃喜”。

白:
O的标签是句法的,映射到语义,有若干种逻辑角色,取决于动词的实例。比如“贴”、“盖”、“钉”,都有条件携带一个表示处所的坑,叫啥随便。

李:
那是,O 具体要映射到哪一个更细更合理的逻辑语义,决定于什么动词。只要 O 对了,这个映射在后一步极为简单。就是一个简单的映射词表或词驱动规则:停落:O(物体) --》地点。事实上,抽取(IE)的完成就是类似上面的映射。所以我说,parsing 靠谱了,IE 就是个玩儿。

白:
所以基本满分了

李:
暴露了一个问题:OOV(生词问题):“停落”不在词典的时候,表现不好。汉语构词法太灵活。本来某个合成词的规则应该把 停+落 合成的,可是这是一个痛点,火候不好掌握。

这一讲可以叫汉语parsing的“合成词痛点”。

这方面我们在系统也做了一些工作,但很不全,而且动力不足: OOV 是长尾,silent majority,花了功夫,可测试集里面见效不会大。如果统计把汉字词素的语义距离都弄出来了(这对统计不难),然后凡是落单的bigram汉字都合成为一个双音节合成词(汉语文法界有很多讨论现代汉语双音化构词趋势的文章)。这个法子可以对付一多半“合成词痛点”,估计。

白:
你看看“证券资金交收处理办法”能有几个收进合成词。

李:
还是OOV问题:“交收”不认识

白: 这个不懂业务是很难做对的。“交收”是一个业务术语,既包括交券也包括交钱,就是说“证券资金”是联合结构。类似这种,在我们的业务文件中不知道有多少,交给句法做没道理,不交给句法,句法在这里的接口又是什么?

李:
加了合成词“交收”以后的parse如下:

记得中学时代入迷冰心的文字。她最善于“生造”合成词。虽然生造,汉字被她用得行云流水一般。不克服合成词痛点,是没法 parse 冰心的。就是语义距离计算为主,“交”与“收”应该在距离阈值之内。

白: 生造的接续感觉,用机器学习似乎可行。规则看样子搞不定。

我:
oov合成词痛点 更多表现在领域化过程中 普通词汇以及普通合成词油水不大。生词习得(lexicon acquisition) 是领域化基石和重要一环。

首发科学网 《新智元笔记:汉语parsing的合成词痛点》

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

《甜甜花絮:我觉得爱因斯坦比牛顿伟大》

【立委按】

一语成谶,10年前就为牛顿爱因斯坦这哥俩抓狂,如今索性全收养了。先是收了哲学家样子的牛顿,还是怕他寂寞,不久又收养了斯坦。哥俩倒算是能和平相处,但个性禀赋迥异。牛顿比较粘人 你把手伸过去 他就拿脸来蹭 明明自己有床 偏要睡在你床上 。斯坦则更加独立 他不回避人的亲热 但也可以长时间自己跟自己玩儿 。斯坦沉默是金。但不说则已 一说天惊 喵声尖利刺耳。好在人家每日在高维空间思维 难得回到牛顿世界来喵。总之 牛顿更接地气 斯坦则有些莫测高深。最近斯坦开始了一个疑似诡异的行为 常常把袋装食品叼走 藏到自己的床后。甜甜为此很生气 说窃书不为偷不适用于米国 偷了就是偷了。我说 拿去人家也打不开 物质不灭 最终既物归原主 end result counts 自然不能算偷。算什么咱不知道 反正不是偷。

《甜甜花絮:我觉得爱因斯坦比牛顿伟大》

《甜甜花絮:我觉得爱因斯坦比牛顿伟大》 (4131 bytes)
Posted by: 立委
Date: January 07, 2007 11:21AM

 

立委按:甜甜在老友客栈向叔叔阿姨请教了一个问题:爱因斯坦比牛顿谁更伟大?饱学五车的长辈对这个问题给了详细的解析,甜甜看得一头雾水。说了半天,到底谁伟大呀?我告诉甜甜,你应该谢谢叔叔们的解答,并写一下你的体会。孩子也有意思,面对没有简单结论的论述,她来个删繁就简,总结如下: 

甜甜:我觉得爱因斯坦比牛顿伟大 
因为爱因斯坦发明一个很难的theory。牛顿发明的theory不难也不是全对。Besides,爱因斯坦更好玩。 

谢谢Uncle Wu and Uncle Happy. 

甜甜:I want to ask you people of Old Buddies (17132) 
Posted by: liwei999 
Date: August 05, 2006 02:06AM 

one of you people tell me who is better EINSTEIN OR NEWTON, this question has been haunting my every waking moment for ages!!!!! It's driving me nuts!!!!!!!! 

甜甜, that's a great question! (17137) 
Posted by: 吴礼 
Date: August 05, 2006 05:20AM 

Both Newton and Einstein are great scientists. Note that I said scientists, not physicists. This is because their work impacts not only physics, which is where they do their researches, but the whole science. From a layman’s point of view, Einstein is cooler, because his relativity theories really stretches our power of imagination, and challenges a lot of common wisdom that we take for granted. But remember he is several hundred years later than Newton. I would imagine that in Newton’s years, it would also be fascinating to think that the same force that makes an apple fall would hold our solar system together, and in fact keep our whole universe turning like clockwork! 

Philosophically, Newton is considered as the father of modern science. He showed people that the whole universe is predictable from a simple set of equations, and all we need from the God is the first push. After that, we don’t need any external management to keep everything working. This predictability and the belief that nature’s rules can be understood are pillars of modern science. In fact, people took it to the extreme and try to model human body as a machine, a much elaborated one. 

Einstein also changed our view of the world. He showed that time and space are not separated. Instead, they are like two sides of a cube. If you turn the cube, time and space mix and change with each other. This is very hard to understand, but it solves some major difficulties that people had with physics at that time. Einstein’s success also shows that great theories like Newton’s laws are not absolutely correct. They are only approximations under certain conditions. This encouraged people to keep searching for new laws of the nature. 

Newton once said that he could make great discoveries because he was standing on the shoulders of giants. This meant that he was building on the work of people before him. This is true for all the scientists, including Einstein, as well. So, although Einstein’s theory is far more advanced than Newton’s, and far closer to the truth, he was building on top of many other great works, including Newton’s. Now you can see that it is hard to say who is greater. But if I have to pick, I’d say Newton. If God took away Einstein, science will suffer a lot. But people would more or less still think the same way. If God took away Newton, we would probably live in a very different world. 

It’s a long answer, and it is probably not easy to understand by a young girl. But I know you are a very smart girl and probably this is helpful. If you are really interested about Newton and Einstein, I recommend the book “A Brief History of Time” by Stephen Hawking. You can skip the parts about physics that you don’t understand. But the way he talks about Newton and Einstein is very interesting, and I think you can understand it. 

Have a great weekend! 

In the history of science, Newton happened to be more (17155) 
Posted by: habpi 
Date: August 05, 2006 10:19AM 

important. As a human being, Einstein was more interesting. After all, one is a citizen before a scientist. Professional achievements are a result of many social and historical factors on top of personal efforts. But one can always have his/her way to make the world a better place. That is how, I think, one is truly measured.

http://blog.sciencenet.cn/blog-362400-349954.html

 

11月25号在深圳12月8号在北京,我分别有个NLP的特邀报告

本月底(11月25号)在深圳给个中文NLP的学术主题演讲

 

 

报告题目:中文自动句法解析的迷思和痛点报告人:   李维(京东硅谷研究院)

报告摘要:深度中文信息处理的核心是自动句法语义解析(deep parsing)。长期以来,由于中文文法缺乏显性形式手段,没有形态,功能小词常常省略,中文深度自动解析显得举步维艰,很容易陷入中文分词和短语抱团的浅层漩涡难以自拔。迄今为止的中文NLP应用大多局限于浅层分析或者端对端的系统,并没有做到语言的深度结构分析和语义理解,而后者才是自然语言万变不离其中的奥秘所在,也是中文NLP快速领域化的一条根本出路。本次演讲从通向中文深度解析之路的迷思入手,梳理中文自动处理的痛点并提出和展示可行的对策。主题涉及:中文分词(含切词、合词)与解析的关系,词类识别(POS)与句法角色的关系,离合词(如“洗澡”)带来的词典与句法的接口问题,针对结构伪歧义的细线条词典化道路,以及针对错误放大的休眠唤醒机制(负负得正)。

个人介绍:李维博士,现任京东硅谷研究院主任研究员,领导Y事业部硅谷NLP团队,研发自然语言深度解析平台及其NLP应用,目前聚焦于中英文大数据情报和舆情挖掘,以及智慧供应链应用。李维NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索、机器翻译等等。 加入京东前,李维在硅谷社交舆情公司Netbase任首席科学家,Cymfony任研发副总。Cymforny期间荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个美国国防部的信息抽取创新研究项目(PI for 17 SBIRs)。Netbase期间,设计并指挥团队研发了精准高效的20种自然语言的理解和应用系统(英、汉、日、法、德、俄、西班牙、葡萄牙、意大利、土耳其、阿拉伯、菲律宾、韩、越等),产品服务财富500强。特别是汉语和英语,具有世界一流的分析精度,并且做到鲁棒、线速,scale up to 社会媒体全网大数据。李维是Simon Fraser University计算语言学博士,中国社会科学院研究生院机器翻译硕士,在国际学术刊物和大会上发表论文约30篇。2015年,李维被评为SFU 杰出校友(建校历史上50名之一)。

from

http://conference.cipsc.org.cn/annual2017/

下月初(12月8号)在北京的架构师峰会上也要给个talk

专题演讲嘉宾:李维(博士)

京东硅谷研究院 主任研究员

李维博士,现任京东硅谷研究院主任研究员,领导Y事业部硅谷NLP团队,研发自然语言深度分析平台及其NLP应用,目前聚焦于大数据情报和舆情挖掘,以及智慧供应链应用。NLP深度分析平台具有广阔的应用前景,方向还包括客户情报、信息抽取、知识图谱、问答系统、智能搜索、智能客服、自动文摘等。

加入京东前,李维在硅谷社交舆情公司Netbase任首席科学家,Cymfony任研发副总。Cymforny期间荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个美国国防部的信息抽取创新研究项目(PI for 17 SBIRs)。Netbase期间,指挥团队研发了精准高效的20种自然语言的理解和应用系统(英、汉、日、法、德、俄、西班牙、葡萄牙、意大利、土耳其、阿拉伯、菲律宾、韩、越等),产品服务财富500强。特别是汉语和英语,具有世界一流的分析精度,并且做到鲁棒、线速,scale up to 大数据,系统质量有第三方评测认定大幅度领先竞争对手(”best of class” by Forrester,Pivot Labs Analytics)。他领导研发或参与的各类NLP应用产品获多项工业界奖项,早期包括INFORMATICS’92 (新加坡) 银奖,近十年包括企业社煤平台行业领先者(A LEADER IN THE FORRESTER WAVE),消费者商品技术(CGT)首选奖等共计17 项工业奖项,多次被主流媒体报道,包括《华尔街日报》《纽约时报》《华盛顿邮报》《财富》MSN,CBS,NBC等等。

李维是Simon Fraser University计算语言学博士,中国社会科学院研究生院机器翻译硕士,发表论文二十余篇,美国专利三项,并多次受特邀就NLP自动分析和大数据挖掘做主题演讲,近年的演讲活动包括哈佛大学医学院,台湾中研院,中国科学院和中文信息学会。2015年,李维被评为SFU 杰出校友(建校历史上50名最杰出校友之一)。

演讲:自动深度语法分析是自然语言应用的核武器

文本自然语言处理(NLP)是人工智能的重要方向,是继图像和语音处理技术(感知技术)突破之后的一个令人期待的关涉认知技术的核心环节。

大数据文本给自然语言处理提供了广阔的场地。本次演讲通过深入介绍自然语言自动分析的历史和现状,勾画出自然语言技术的应用前景。重点在展示和论证深度自然语言自动分析对于自然语言技术应用的革命性作用,这些应用包括智能搜索,情感分析,数据挖掘,问答系统和智能助理等。迄今为止的自然语言应用大多局限于浅层分析或者端对端的系统,并没有做到语言的结构分析和语义理解,而后者才是自然语言表达信息的奥秘所在。自然语言深度分析的技术正在成熟,已经到了显示威力的前夕。

演讲过程中将结合知识图谱和大数据舆情挖掘,来展示深度语法分析(deep parsing)的原理和威力。

演讲提纲:

  1. 人工智能的历史和现状简介:从感知到认知
  2. 自然语言技术的历史和现状:端对端的突破,大数据和深度学习的革命,知识瓶颈的困境,深度分析的对策
  3. 深度分析是什么?非结构的结构化
  4. 什么样的深度法分析是自然语言技术应用的核武器
  5. 应用举例:知识图谱
  6. 应用举例:舆情挖掘
  7. 应用举例:智能搜索和问答系统
  8. 结语

听众受益:

  • 对于人工智能与自然语言的从业人员,以及对自然语言技术感兴趣的人士(学者、学生、投资人、企业家、IT人士)开阔眼界,了解动态以及促进技术的产品化有益。

from http://bj2017.archsummit.com/presentation/123

专访李维:NLP助力电商智能化的台前幕后 - InfoQ

随着深度学习在图像识别、语音识别及其他感知智能领域大放异彩,人们对深度学习在自然语言处理(NLP) 的价值也寄予了厚望。再加上 AlphaGo 的成功,人工智能的自然语言研究和应用变得炙手可热。NLP 作为人工智能领域的认知智能,成为目前大家关注的焦点。

李维博士是 Simon Fraser University 计算语言学博士,中国社会科学院研究生院机器翻译硕士,现任京东硅谷研究院主任研究员,领导 Y 事业部硅谷 NLP 团队,研发自然语言深度解析(deep parsing)平台及其 NLP 应用,目前聚焦于大数据情报和舆情挖掘,以及电商智慧供应链的应用。加入京东前,李维在硅谷社交舆情公司 Netbase 任首席科学家,Cymfony 任研发副总。在 NLP数据挖掘领域有丰富的经验。

我们很荣幸能邀请李维博士到 12 月 8-9 日在北京国际会议中心举办的 ArchSummit 全球架构师峰会上就NLP做主题演讲。在此之前,我们对李维博士进行专访,一起聊聊他在 NLP 上的研究和应用成果。

NLP入门

自然语言很复杂,自然语言处理(NLP)没有捷径。所谓NLP 技能速成训练,除非指的是浅尝辄止,或所面对的是浅层的粗线条任务,否则基本上是自欺欺人。我有一个五万小时成精的定律,是这样说的:

“NLP 这玩意儿要做好(精准达到接近人的分析能力,鲁棒达到可以对付社会媒体这样的 monster,高效达到线性实现,real time 应用),确实不是一蹴而就能成的。这里有个 N 万小时定律。大体是:

  • NLP 入门需要一万小时(大约五年工龄);
  • 找到感觉需要两万小时;
  • 栽几个有意义的跟头需要三万小时;
  • 得心应手需要四万小时;
  • 等你做到五万小时(入行 25 年)还没被淘汰的话,就可以成精了。”

摘自我的博客《聊聊 NLP 工业研发的掌故》:http://t.cn/RW5nxq4

对于急功近利的人,这仿佛天方夜谭,但我想说的是,这是一条非常漫长的道路,然而并非深不见底。作为“励志”故事,《梦想成真》描述了我的真实经历和心路历程。我曾自嘲说:“不知道多少次电脑输入 NLP,出来的都是‘你老婆’。难怪 NLP 跟了我一辈子,or 我跟了 NLP 一辈子。不离不弃。” 其他关于我自己与 NLP 的故事,我有个专门系列,可以在【立委 NLP 频道】查看《关于我与 NLP》。那里还有 NLP 历史上的一些有趣掌故,有兴趣的同学也可以浏览。

立委 NLP 频道

梦想成真》:http://t.cn/RW5n5bl
立委 NLP 频道》:https://liweinlp.com/
关于我与 NLP》:http://t.cn/R5E62tn
关于 NLP 掌故》:http://t.cn/R5E6USF

NLP 要做深做透,要接近或达到类似人的深度解析和理解是一个艰难但并非不可能的历程,但我并不否定速成培训的功效和可能。毕竟并不是每一位想做点 NLP 的 AI 后学或同好,都有那个时间条件和需要去成为 NLP 的资深专家,很多时候就是要解决一个具体的浅层任务,譬如粗线条的分类(classification)和聚类(clustering)。

这时候,通过开源资源和标准测试集自我培训的方法至少可以训练一个人使用开源工具的能力,如果赶上面对的任务相对简单,而且不乏大量带标数据(labeled data),也可能会很快做出可用的结果。典型的例子有对于影评做舆情分类,这种限定在狭窄领域的任务,利用开源工具也可以做得很好。

事实上,18 年前我的两位实习生,现在也都是业界非常有成就的人物了,他们的暑期实习项目就做到了非常漂亮的影评舆情分类结果,当时用的就是基本的贝叶斯机器学习算法。对于后学,除了拿开源练手外,也不妨浏览一下我开设的 《NLP 网上大学》,或可开阔一点眼界,看到一些潮流以外的 NLP 风景。

NLP 网上大学》:http://t.cn/R4ys9Jp

NLP 架构

这次大会是全球架构师峰会,咱们可以多从 NLP 架构角度说说。

对于自然语言处理及其应用,系统架构是核心问题,我在《立委科普:NLP 联络图》里面给了四个 NLP 系统的体系结构的框架图,从核心引擎直到应用。

立委科普:NLP 联络图 》:http://t.cn/zjPxKKp

最底层最核心的是 deep parsing,就是对自然语言的自底而上层层推进的自动解析器,这个工作最繁难,但是它是 NLP 系统的基础赋能技术。解析的关键是把 非结构的语言结构化。面对千变万化的语言表达,只有结构化了,句型(patterns)才容易抓住,信息才好抽取,语义才好求解。这个道理早在乔姆斯基 1957 年语言学革命提出表层结构到深层结构转换的时候,就开始成为(计算)语言学的共识了。

接下来的一层是抽取层(extraction),这一层已经从原先的开放领域的 parser 进入面向领域应用和产品需求的任务了。值得强调的是,抽取层是面向领域语义聚焦的,而前面的解析层则是领域独立的。因此,一个好的架构是把解析做得很深入很逻辑,以便减轻抽取的负担, 为领域转移创造条件。

有两大类抽取,一类是传统的信息抽取(IE),抽取的是事实或客观情报:实体、实体之间的关系、事件等,可以回答 who did what when and where (谁在何时何地做了什么)之类的问题。这个客观情报的抽取就是如今火得不能再火的知识图谱(knowledge graph)的技术基础,IE 完了以后再加上下一层挖掘里面的整合(业内叫 IF: Information Fusion),就可以构建知识图谱了。

另一类抽取是关于主观情报,舆情挖掘就是基于这一种抽取。细线条的舆情抽取不仅仅是褒贬分类,竖大拇指还是中指,还要挖掘舆情背后的理由来为决策提供依据。这是 NLP 中最难的任务之一,比客观情报的抽取要难得多。抽取出来的信息通常是存到某种数据库去。这就为下面的挖掘层提供了碎片情报。

很多人混淆了抽取(information extraction) 和下一层的挖掘(text mining),但实际上这是两个层面的任务。抽取面对的是一颗颗语言的树,从一个个句子里面去找所要的情报。而挖掘面对的是一个 corpus,或数据源的整体,是从语言大数据的森林里面挖掘提炼有统计价值的情报。

挖掘最早针对的是交易记录这样的结构数据,容易挖掘出那些隐含的关联(如,买尿片的人常常也买啤酒,原来是新为人父的人的惯常行为,这类情报挖掘出来可以帮助优化商品摆放和销售)。如今,自然语言也结构化为抽取的碎片情报在数据库了,当然也就可以做隐含关联的挖掘来提升情报的价值,这也是我们京东 NLP 在电商领域着力要做的任务之一。

第四张架构图是 NLP 应用(Apps)层。在这一层,解析、抽取、挖掘出来的种种情报可以支持不同 NLP 产品和服务。从问答系统到知识图谱(包括对于电商领域具有核心价值的产品图谱和用户画像及其之间的关联),从自动民调到客户情报,从智能助理到自动文摘等,这些都是 NLP 可以发力的地方。

摘自《立委科普:自然语言系统架构简说》:http://t.cn/RW53AH0

NLP 团队

具体到目前的工作,我领导的京东硅谷 NLP 团队还是有很多与众不同的特色。

我们的主核是把语言结构化然后支持应用,而不是主流 NLP 的绕过显性结构解析来做的端到端深度学习。为此我们结合了人工智能领域的两大流派,以创新的多层符号逻辑(包括利用本体知识和常识的 ontology)和语言学模块作为精准分析的基础,以统计学习作为 backoff,使得两种方法互补,取长补短。

这样设计的好处不仅照顾了 NLP 的精准(precision)和召回(recall)两方面的需求,而且使得系统调控变得比较透明,容易 debug。相较端对端系统,结构化的最大优势是不依赖海量的带标数据,因为深度解析的 NLP 应用是在知识和结构理解的基础上进行的知识工程项目,而不是从表层的标注好的冗余案例中学出来的模型。

这对于京东的一些场景有特别的意义。京东不乏业务场景和 各种NLP 应用的领域需求,这些场景和领域往往没有现成的带标数据,为这些多方面的场景组织人力进行深度学习所需要的海量标注,常常不是一件现实的事情。我们的目的就是打造具有核武器威力的 NLP 深度解析平台,克服这个带标数据的知识瓶颈,为 NLP 多方面的电商场景的应用落地开辟道路,尤其是京东智慧供应链对市场需求客户情报的洞察挖掘以及产品舆情的意图挖掘,构建对于电商智能化至关重要的商品图谱(product knowledge graph)和用户画像(user profile)的知识引擎。

这条道路初期比较艰辛,需要深厚的计算语言学的功力和大数据驱动的研发,但 NLP 深度核心引擎打造出来以后就是另一番天地,这是一个赋能的核心技术(enabling technology)。你想想,千变万化的语言表达一旦有规模的结构化以后,那会是一种什么情形:各种 NLP 任务在结构的显微镜下变得有迹可循,模式清晰并逻辑化,无论是情报挖掘还是其他应用都可以做到以不变应万变,以有限的句型把握无穷的语言现象。这就是我说的 “深度解析是 NLP 应用的核武器” 的本意。我在演讲中会通过多方面的 NLP 应用场景来展示和论证这一主题。

深度解析

所谓深度解析(deep parsing),就是把非结构的文本语句(unstructured text)自动解析成为深层的结构化数据(学界也称为 logical form),就是在自然语言与数据库之间建立自然语言理解(natural language understanding)的桥梁。

主流的文本情报挖掘(text mining)是绕过结构和理解的,依靠的是端对端的自动抽取挖掘的机器学习和深度神经。在具有海量带标大数据的情况下,由于数据的丰富和冗余,端对端的有监督学习系统也可以达成很好的挖掘效果。然而,一旦领域挖掘任务变了,必须重新标注和重新学习,这里面临一个巨大的知识瓶颈,就是说,领域带标数据往往严重不足,为每一个领域的每一个挖掘任务组织人力标注一个大数据训练集来克服稀疏数据的困难往往是不现实的。这是当前 AI 和 NLP 主流面临的一个巨大挑战。

我们的对策就是融合深度解析(deep parsing)和深度学习(deep learning),结合人工智能的理性主义和经验主义方法论,各取所长,利用深度解析来保证数据挖掘的精准度(precision),利用深度学习来提高数据挖掘召回率(recall)。

以社会媒体舆情挖掘为例,面对以短消息作为压倒多数的开放领域(open domain)社媒大数据,缺乏结构分析的主流舆情分类方法面临一个精准度瓶颈(业界公认 65% 是难以逾越的天花板),而利用深度解析的结构化舆情挖掘,我们可以达到 85% 以上的精准度,整整 20 个百分点的差距,这样的精度才真正能为舆情挖掘基础上的决策和智能化应用提供可靠的保障。

在智慧供应链的选品环节,从全网数据挖掘出可靠的用户需求及其对于产品的舆情反馈(点赞抱怨及其背后的理由)是非常重要的决策情报。这是我们目前的深度分析平台落地的主要目标之一。

NLP 作用

语言的奥秘在于,语句的呈现是线性的,我们人类说话或写文章,都是一个词接着一个词表达出一个一个的语句;但语言学的研究揭示,语句背后是有语法结构的。我们之所以能够理解语句的意思,是因为我们的大脑语言处理中枢能够把线性语句下意识解构(decode)成二维的结构:语法学家常常用上下颠倒的树形图来表达解构的结果,这个过程就是深度解析(deep parsing)。

深度解析被公认为是自然语言处理和理解的核心任务,但长期以来大多是科学家实验室的玩具系统(toy systems),其速度(speed)、精准度(precision)、覆盖面(recall)和鲁棒性(robustness)都不足以在真实语料的大数据场景应用。而这一切已经不再是梦想,高精准度和高召回率(作为指标,精准召回的综合指标 F-score 要达到 90% 以上,接近语言学专家的分析水平)、符合线速要求的鲁棒的深度自动解析已经得到验证和实现,这是大数据时代的 NLP 技术福音。

再强调一遍,语言为什么要结构化?盖因语言是无限的,但结构是有限的,只有结构化,有限的模式才能捕捉变化多端的语言。话句话说,结构化是语言理解应用之本,现代的 deep parser 就是结构化的核武器。

总体而言,我们面对的是不断变化的 NLP 任务,变化中的不同业务场景和情报需求。靠谱的深度解析结果反映在语法语义的结构图上,它离领域的信息抽取和情报挖掘只有一步之遥,离情感分析或舆情挖掘可以说是两步之遥(深度舆情的确需要一些苦功夫,舆情语言的复杂多变和模糊不确定,使得舆情挖掘比起传统的以事实作为抽取对象的情报挖掘要困难)。

结构化信息抽取的作用是巨大的,有多少产品的想法,就可以定义多少种不同的抽取任务。但万变不离其宗,只要抽取面对的是自然语言,它就必然总体上服从这个语言的文法,因此深度解析成为核心引擎的系统就顺风顺水。知识瓶颈因此被很大程度地克服了,不再需要那么多的带标数据。有了 parser,只要一些示意性的带标数据就够了,开发者可以根据示意举一反三。大多数信息抽取的开发任务,在有靠谱 parser 的支持下,可以在 2-4 周内开发完成,满足应用的基本需要,后面就是维护和根据反馈的 bugs 报告,做增量修补而已。

所以说 deep parser 打开了通向应用的大门和无限可能性。对于京东的智慧供应链和电商平台的业务场景,我们的愿景是让深度解析落地开花在多个 NLP 方向上,包括提升自动客服的语言理解水平,构建商品的知识图谱和用户画像,这当然也包括客户需求和商品舆情的挖掘和应用。

中文与 NLP

比起英语和其他欧洲语言,中文的语法具有相当程度的灵活性,成为自动分析的难题。与业界同仁的交流中,我们把中文叫做“裸奔”的语言,就是说中文的表达缺乏显性的形式标志,因为中文没有形态(词尾),常常省略功能词(譬如介词),而且词序其实也相当灵活。

这些语言学的特点,加上不同地区的人的不同语言习惯,再加上社会媒体中反映出来的大量别字以及语言不规范,使得很多人对中文自动分析有很深的怀疑。这是好事儿,正因为它看上去如此复杂多变,才更需要对语言学的深刻认识和对语言工程的架构和方法有独特的创新。中文自动处理和理解提高了技术竞争的门槛。

这对我们而言,就意味着要突破乔姆斯基理论为基础的传统流行的上下文自由文法(CFG)的单层 chart-parsing,代之以自底而上的多层管式语言处理系统,从而穿越乔姆斯基层级体系(Chomsky hierarchy)的围墙,在机制上有所创新(formalism innovation)。这一切需要深厚的计算语言学的素养和积累,才有希望。这方面的理论和实践,可参见白硕老师的《白硕 – 穿越乔家大院寻找“毛毛虫”》以及我的《乔姆斯基批判》和《语言创造简史》。

白硕 – 穿越乔家大院寻找“毛毛虫”》:http://t.cn/RW5BfvW
乔姆斯基批判》:http://t.cn/R2HCmtg
语言创造简史》:http://t.cn/RAVTyiu

举例就举老友转来挑战我的所谓“2016 年最佳语文组词能力”,他给我发微信说:“钱是没有问题”,就这六个字的组词成句,可以变成不同意思的句子!哈哈,伟大的语文能力!parsing 请:

钱是没有问题;问题是没有钱;有钱是没问题;没有钱是问题;问题是钱没有;钱没有是问题;钱有没有问题;是有钱没问题;是没钱有问题;是钱没有问题;有问题是没钱;没问题是有钱;没钱是有问题。

老友说的是中文词的不同的组合产生不同的意义,给人感觉是如此微妙,机器如何识别?其实仔细研究可以发现,这样的语言事实(现象)并非想象的那样玄妙不可捉摸。先看一下机器全自动分析出的样子吧!

这里面的 know-how 的细节就不赘述了,总之结果虽然仍有少数不尽如意尚有改进空间的结构分析,但几乎每个 parse 都可以站得住,说得出道理。作为设计者,我自己都有点吓倒了。(摘自《一日一 parsing:”钱是没有问题”》,更多参见【立委科普:自动分析《伟大的中文》】,关于中文自动分析的很多有意思的案例和深入的讨论,也可参看白硕老师与我就中文NLP的华山论剑似的《李白对话录系列》)。

一日一 parsing:”钱是没有问题”》:http://t.cn/RW5rADs
立委科普:自动分析《伟大的中文》http://t.cn/RW5rJhE
李白对话录》:http://t.cn/RW5rNLM

NLP 场景与未来

有问是技术驱动业务,还是业务来驱动技术?我们坚持业务驱动,毕竟 NLP 是一个应用学科,再深的分析研究最终还是要落实到业务场景,解决业务痛点才能显示其价值。

在这个基础上,我们尝试从业务场景的点开始,逐渐借助深度解析的 NLP 平台技术,扩展到多项业务场景,发挥结构化技术的跨领域核武器的作用,帮助克服领域数据的不足,以期快速领域化。

我这个小组的成员在业界有多年的 NLP 和机器学习专业经验,但成立迄今才刚半年,一切还是刚刚开始。随着深度解析平台的建立和打磨,在京东电商的各个场景只要找准 NLP 的切入点和大数据的场景,就会有实际的效益,对这一点我们充满信心。

大数据时代的信息过载,使得人类个体消化和利用信息的能力受到严重限制,只有借助电脑的自动分析和挖掘,情报才能从噪音的海洋中被有效挖掘和利用。

那么 10 年后 NLP 会怎样呢?

回顾 NLP 的历史,语言技术真正落地开花结果还局限于少数几个方向,如机器翻译、语音系统和文本分类。今后的 10 年才真正是 NLP 的黄金时代,全面开花结果可以期待,尤其在情报挖掘、知识图谱、人机交互和智能搜索方面。NLP 是人工智能从感知全面进入认知的桥梁。

我这么说不是廉价迎合多少已经带有泡沫的 AI 现状,而是作为第一线 AI 从业人员的真实的有感而发。为什么这么说?我的根据主要有四点:

  • 深度解析技术业已成熟,接近或达到人的水平;
  • 深度解析与深度学习的融合和合力可以取长补短;
  • 大数据可以弥补 NLP 技术的不够完善之处。
  • 信息过载的大数据时代,不缺乏NLP的用武之地。

我的观点是,NLP 面对大数据时代,想不乐观都不成。深度解析是 NLP 应用的核武器。

from
专访李维:NLP助力电商智能化的台前幕后 - InfoQ

《立委随笔:做一条程序狗,外加哲学猫》

最近脑海里老浮现卓别林的摩登时代的镜头。软件工程的摩登时代就是大数据迭代。我就迷信这个迭代。

自从工程架构师把 pipeline 转起来以后 我就可劲儿往里面填数据(raw data),填鸭似的 反正是 raw 的,领域数据不嫌多。 结果就造成摩登时代的再现。Server 不用吃喝 连油都不用加,24 小时在那儿转呀,人停机不停。人就被赶着去看结果 做 regressions 测试呀。人的本性,眼里揉不得沙子。只要醒着,看到毛病就冲动,忍不住会动系统,就好像是本能迭代。气还没喘匀 新一波结果又出来了。好奇心杀不死科学家 ,但能杀伤码农呀,赶紧去看结果。real world 大数据嘛 啥都有 结果肯定是喜忧参半。看到高兴处 可以得意片刻,更新 baseline,让进步消失在数据海洋中。不高兴呢,就本能要改进系统,于是陷入人机交互的迭代“死循环”。

人被数据赶着走 等于是被 bug reports 赶着走,只不过缩短了 reporting 的过程 把客户的可能抱怨化为开发者自我的反省。只要数据真实对路(来自应用领域),量足够大不怕 over-fitting,bugs 至少是扎眼的 bugs 就会消灭在萌芽中,消灭在摩登时代的开发工程流程中。在如此流动型连续迭代中提升品质,多么爽,时时刻刻都有成就感。

只不过累得成了狗。程序猿成了程序狗。


但累,并且快乐着。

聪明的 AI 科学家希望这个迭代过程是全自动的。这边只要不断喂粗饲料 (raw big data),那边就无数次迭代出来一个智能理解系统,多么美丽的神话。据说机器认识猫 就是这么出来的,的确非常激动人心。希望某一天机器理解语言也能这么给整出来,比儿童学语言,效率高亿万倍。在那一天到来之前 我就做条狗 跟摩登时代拼了。

胡乱感慨一句。

昨天跟老搭档聊天谈做研究的人与做产品的人的不同。他非常感慨 特别是年轻人 说这些年轻人大多名校毕业 特别聪明 做 AI 大数据 算法玩的很溜。可就是不懂工程迭代的必要性 也没那个耐心。老以为 AI 产品可以一蹴而就。


大哲牛顿(Nutan)啊 在深思。

猫和狗很有比照 懒猫勤犬。但一个埋头拉车;一个老在深思,做哲学家,路都不屑看,可脑袋并没闲着。

哲学,尤其是对体系架构以及机制(formalism)的设计哲学(design philosophy),其实是极端重要的,否则程序狗再勤奋,也成不了大事。哲学猫架构好了话,程序狗多多益善。否则就可能叠床架屋,知识越多越不堪重负,最终导致系统报废,这是有前车之鉴的。

记得某年某月有个面试官问过我,假如经费没有限制,你希望做什么?这种所谓考验想象力和创造力的题目听上去很弱智:你说老实话吧,显得没高度,说大话吧,譬如学着谷歌说要解决人类长生不老的终极问题,或者学着扎根伯格的口气说要彻底根除人类疾病,或学 Elon Musk 说要帮助地球人移民外太空的话,又有些痴人说梦,因为这个世界只有不到10个超牛才有说梦而不被视为白痴的资格和本钱。其实心里的答案也是有的,就是:假如经费没有限制,我就做个50% AI 哲学猫和50%的 NLP 驯兽师,然后雇佣并培训 1001 条程序狗,买断天下的领域大数据,每天就指挥程序狗做各个领域的语言理解的迭代,扫平语言障碍,建成世界大同的巴比伦通天塔。

 

【相关】

[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】

【李白之39:探究自然语言的毛毛虫机制】

【科研笔记:NLP “毛毛虫” 笔记,从一维到二维】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【李白宋毛72:NLP的测不准与追求完美】

李:
这两天琢磨中文词的扩展中的交叉现象,很有意思:

1. 选择疑问句谓词(P)模式 【P 不 P】: 学不学; 能不能;好不好
2. 动补(V-Buyu)词的可能态模式 【V 得 B】:学得会;可能态否定式【V 不 B】:学不会

12交叉: 学不学得会 ?
回答是:学得会 / 学不会 (或者:能学会 / 不能学会)

上述两个扩展模式也可以倒过来交叉,于是我们有 21 交叉:

学好
--> 学得好; 学不好
--> 学得好不好?

回答是:
学得好,学得不好,而不是 学得好, 学不好

后一种交叉,实际上用的 更多的不是“得”而是“的”:

学的好不好?

谓语重心落在“好”上,而不是“学”上。这与前一种交叉不同。很有意思的现象。

白:
得字后面的补语,有定性定量之分。“接不接得住”可以,“接得住不住”不行;“打不打得倒”可以,“打得倒不倒”不行。所以“住”、“倒”是专司“定性”的,是一个二值的状态,没有程度之分。另一方面,“扎不扎得紧/扎得紧不紧”“拴不栓得牢/拴得牢不牢”都能说,但补语“紧、牢”对应的是一个连续度量,但又有一个预期的极化状态阈值。所以,面临可能补语与程度补语的句式竞争时,可能补语占优势。第三种情况是“长不长得高/长得高不高”,补语“高”并不见得一定是预期的极化状态,“高不高”只是一种关于程度的中性的疑问,这时,程度补语就反过来压制了可能补语。第一种,纯定性,只能是可能补语;第二种,强定性弱定量,可以是程度补语但是与可能补语紧耦合;第三种,弱定性强定量,程度补语与可能补语松耦合。

长不长得高,和长得高不高,完全两回事。

李:
长没长高
== 长高了没长高
== 长高了没有

但是: * 长没长得高

白:
长高,相对于自己;长得高,相对于平均水准。程度补语。

可能补语的“长得高”,对成年人是梦想,对小孩是废话,除非侏儒症。所以可能补语义微弱。否定形式“长不高”则信息量大。对小孩,形同诅咒。或者,是成人身份的一种变相认同。

“没”是现时的未然,程度补语无论肯定否定,都是现实的已然,语义上也不相谐。可能补语与“没”结合,参照时点一定移到了过去,如:“谈没谈得拢”。现时已经出结果了,只有过去某时点上这还属“潜在”。

所以,“学得好不好”本来是关于程度补语的疑问,到了“学没学得好”,就变成了关于可能补语的疑问了。

李:
分析得好 细致入理。

谈没谈得拢 只有天知道
谈不谈得拢 就看你本事了。

上次白老师说分词 (大意):分词不仅是切 还要粘。至理名言。
句子就跟西瓜似的 可以拿着刀?来切;但字就跟珍珠似的 也可以拿串子来粘它、串它(concatenation)。结果都是 词,我们建筑语言大厦的砖瓦。这砖瓦必须有来路出身 有档案背景,因此目标也算是明确,即,所谓词应该是“词典的词”。词典就是档案 背景全部可在其中绑架,才能支持语言理解。

最有意思的是离合词,因为离合词不仅要串,而且还要跳着串。“谈不谈得拢”, 这个 5-gram,需要分词分出 “谈拢” 来 才算分词到家。

谈不谈得拢 == 谈得拢谈不拢 == 能谈拢不能谈拢 == 能谈拢 还是 不能谈拢

说到底 都是围绕着动补词 “谈拢”。 其他的小词(function words)或重叠(reduplication)手段,不过是给这个核心谓词语义添加语法意义而已: 诸如 疑问(选择问句)、时体、情态。

宋:
年满18岁,具有本地户籍,在本地居住满十年者

汉语的现象说明,词不一定是单向连续的短字符串,不一定边界清楚。非词语素和词的界限并不是绝对的。

李:
这个quasi-后缀“者”, 以前论过,它要求的是 VP,而不是 V。严格说不是 VP,而是 谓语 Pred。如果主语 NP 后面接谓语 VP 的话,那么总可以把主语去掉,加上这个“后缀”,来构成一个带有定语从句的 NP:VP者 == VP的人,这个 “的” 带的是定语从句 VP 。

当然实际语料的分布中,会发现 80%(?) 以上的“者”之前的 VP 其实就是一个 V ,所以把它当成英语的 -er (-or)一样看成是词的后缀,可能会带来一些便利,但必须留个 VP 的后门,来对付 定语从句的 VP 很长很复杂的状况。

宋:
手工业者

李:
“手工业者” 算是 另一个用法 看扩展性决定是细线条的规则 还是直接枚举入词典。

白:
者---N/S
关键是辖域、分配律。

李:
“者” 翻译成英语应该是 whoever+VP,不是简单成为 V-er 就可以顾全的。Whoever 是主语的形式,放在谓语前,与中文的结构关系类同,“者” 不过是放在谓语后而已:

年满18岁,具有本地户籍,在本地居住满十年者有资格报名。
--》
Whoever VP(年满18岁,具有本地户籍,在本地居住满十年) is qualified to sign on

白:
“子女不服管教者,配偶不在本地者”

不是主语,是领项,反填至N/N的残坑。

李:
fun,then,those who/whose

汉语的大主语(或 Topic 或“领项”)是一个中文里蛮独特的句法语用混杂的现象,对应英语的结构,错综复杂一些。

白:
其实从填坑角度看就是一个纯句法现象:一坨,有个坑,萝卜可填。至于这个坑怎么来的,最初长在谁身上,不重要。其实就是一个纯结构现象,无关语用。只要摆对解读结构的正确姿势,它就自然浮现。

李:
“子女不服管教”,这话听上去感觉不完整 虽然主谓齐全 因为有个坑没填萝卜:“【谁(的)】 子女不服管教?”

“心脏病不好治。”这话听上去感觉是完整的,虽然也可以问,【谁的】心脏病不好治?

白:
有隐含的logical quantifier

李:
“心脏病” 有坑没坑?还是说 这坑有强弱之别?
“子女”对 【human】 的坑,强过 “心脏病” 对 【human】 的坑,后者信息量也更大,更需要满足。

宋:
老王的子女不服管教。老王的子女不服管教者被老王打了一顿。

李:
这里,“老王的子女”是全集,“【其中】不服管教者”应该是个子集。

“子女都是不服管教的。” 这话就显得完整了: 因为全称小词“都”虽然 mod 的是 VP,但却作用于 NP“子女”,使得其坑显得没有必要填了,因为隐含的坑就是 “【所有人的】子女”,与 “心脏病” 同:“心脏病”的坑隐含的默认萝卜也是“所有人”。

老年人的心脏病不好治。
心脏病其实不难治,但老年人的心脏病除外。

上句的第一个分句,默认萝卜是 for all human;第二个分句 做了显式的限定,修改了默认值。

回到原问题:到底坑有没有必要区分强弱?

作为对照:及物动词肯定是有强弱的。有的必须要宾语(“善于”,“赢得”),有的最好有宾语(“喜欢”,“看见”),有的可有可无(“呼吸”,“诊断”),没有的话,大众心理就补足了一个默认值,从本体(ontology)来的默认: “呼吸【空气】”,“诊断【疾病】”。

白:
“心脏病不好治。心脏病不会治。心脏病不去治。” 谓语不同,对“心脏病”的坑有影响。第三个例子,最不完整。

李:
心脏病不去治,【你】不想活了? == 【你】心脏病不去治,不想活了?
心脏病不去治,【你】治啥?== 【你】心脏病不去治,治啥?

第一个【你】应该是病人,第二个【你】可以是医生。第一个【你】直接填“心脏病”的坑。第二个【你】作为医生,与“心脏病”的坑没一毛钱关系。

白:
是。对举可以削弱“萝卜的坑”。本来有一毛钱的入账,又有了两毛钱的债务。结果欠了一毛钱。成了别人家的坑

李:
最近想,退一步才好进两步,可谓真理。一辈子能够退一步的时机不多,总是忙忙碌碌,随波逐流,人在江湖,身不由己。如果因缘巧合遇到了退一步的机会,那么一定要惜缘。追求完美,不留遗憾,其实是常态生活的奢侈,但也可以是退一步的境界和机会。

为什么退一步反而可以追求完美不留遗憾呢?因为在高歌猛进的人生中,没有时间喘息和反思,难有机会从根子上改造,肩负的是历史的负担。只有在退一步的时机,才有可能重起炉灶,把历史负担当成经验教训的积淀。虽然慢了一拍,但磨刀不误砍柴工,最终可以更加完满。历史上,苹果公司的操作系统就在乔布斯的指挥下重起炉灶大放异彩。可怜的微软就总没有这样的机会,补丁摞补丁过了一辈子。

胡乱感叹一哈。

量子力学有个测不准哲学,其实对于语言学很适用。语言作为交流的工具,宏观上的可理解性是没有问题的。但是,测不准原理表明:从本质上来讲语言学不能做出超越统计学范围的预测。语言理解系统无论怎样逼近,永远也不可能在微观上 capture everything。那天白老师给了一个很妙的例句,是:“马可波罗的海上旅行”,让通常认为非常坚固的 4-gram 词 “波罗的海” 被另一个 4-gram “马可波罗” 遮盖了。可以设想一个分词系统的第一版本是 assume 4-gram 词以上就是正确的(实践中,匹配上 tri-gram词就相当靠谱了,这可算是一个分词的经验公式 heuristic),可以 identify 词及其概念。但对于上例,这个系统从最左向右匹配,赶巧就对了;若从右向左走,就错了。

毛:
有道理。这个例子确实巧妙。

李:
咱们进一步扩大疆界来逼近真实,就算搞定了 6-gram “马可波罗/的/海" (Note: 前一篇李白对话【李白71:“上交所有不义之财!”】中说过,其实搞定 5-gram 就可以认为是搞定了汉语分词,因为 5-gram 几乎是 local context 的极限了),咱们这就突破这个极限看看......。我要说的是,我们总可以找到一个context,使得以前的任何分词(及其分析)无效。

“我的朋友生了个双胞胎,绰号很奇葩,先生出来的叫千里马,后出来的叫波罗的海。我告诉他绰号也是有讲究的,有的可有的断断不可。千里马可波罗的海不可!(Note: 千里马/可/波罗的海/不可)。”

“朋友问为什么,我说因为有个测不准原理。千里马本体毕竟是动物,与人不远,可用。波罗的海本体自然物体,无法联想到人,故不可用。”

“马可波罗”乍看何其强大,甚至大过“波罗的海”(毕竟里面藏了一个万能小词“的”,是它的硬伤),也逃不过测不准的限制。最后大胆假设一下,立委牌中文深度分析器(deep parser)神奇地利用 long distance 句法或 休眠唤醒机制 帮助突破 local context,搞定了“千里马/可/波罗的海/不可” 的分析理解,so what?总还是会有“测不准”在,譬如:

“我舰/日航千里/马可波罗/的/海/不可/阻挡。(或曰:固有波罗的海,哪里有什么马可波罗的海?曰:先生一叶障目,知其一不知其二。马可波罗的海,乃印度洋别称也。)”

牵强?然而场景合理,语句合法,概率不是0。

想一想测不准,咱们搞AI,搞NLP的,怪丧气的:系统完美,只在梦中。但反过来想,其实是对完美主义者的有益警示:追求系统的完美和静态高指标从来不(应该)是核心目标,领域化能力和动态指标才是系统打遍天下的硬通货。不要想完美的事儿,只是要问:给你领域大数据,你多快可以让系统进入角色,让它上线转起来服务业务,然后对于 bug reports 的反应和修复速度有多快,系统在使用中日臻完善,虽然永远不会完备。

所谓追求完美不留遗憾,正解应该是对于架构和formalism的近乎受虐的追求,为的是到用的时候,到领域化的时候,到修复 bugs 的时候,可以庖丁解牛游刃有余。

毛:
你这个事情的性质不属于测不准,而属于词法/句法的不完备。测不准是对每个粒子而言的,每个粒子的位置和速度都有测不准的问题。而你讲的这个情况,是说不管什么样的词法/句法都有对付不了的特例,这就是不完备的问题。

李:
资源的不完备(不可能完备),在我就是系统的测不准,貌似也就是原观测对象的不确定性。

白:
@毛 是进出不同层次没有违和感导致的。一个字当作一个字,和一个字当作语言中的词的部件,是处在不同层次的。人偏偏要搅和在一起玩。这样会闹出悖论的,不过,NLPer似乎并不关心。

【相关】

【李白71:“上交所有不义之财!”】

【立委科普:歧义parsing的休眠唤醒机制再探】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白71:“上交所有不义之财!”】

聊一聊中文切词的 heuristics

李:
NLP 论文中常出现的一个术语 heuristics 怎么翻译好呢?想了 30 年了,用到的时候还是夹杂这个英文词,因为想不到一个合适的译法。最近想,大概是翻译成 “倾向性” 比较好。说的是某种统计上的趋向,而不是规律。

白:
启发式

李:
30年前,我有个同门学长乔毅常常鼓捣一些专业翻译,有一天他来跟我商量,问:“这篇说的是 heuristic 方法的 NLP,查了一下词典,是启发式,可这启发式翻译出来,等于没翻译,没人懂怎么启发的。到底 heuristics 是个什么方法?”

魯:
有些时候是ad hoc的意思

白:
翻俗了就是“偏方”。有例外的标配。

李:
当时我们琢磨半天,觉得所谓启发式,就是某种条件 (constraints),有时候甚至叫原则(note:原则都是有例外的),不是通常的 rule,因为 rule 隐含的意思是铁律,而这个“启发式”说的就是一种有漏洞的条件,经验总结出来的某个东西,模模糊糊是有统计支持的。明知有漏洞,但还挺实用。就这么个东西,困扰了我机器翻译专家30年。不是不明白,是明白了也还是不知道该怎么翻译。岂止一名之立旬月踟蹰,这是一辈踟蹰一名不立。

以上算是开场白。今天就来说说切词中总结出来的一些 heuristics。咱们倒过来说这事儿。把 input 想象成一个 ngram。首先说一条总的:切词中最大的 heuristic 是最大匹配原则,这是天则。

咱们来具体看看 ngram 的情形:

(1) 如果 input 是一个汉字 (unigram),当然就是一个词:因为无词可切。这是废话,但也不失为一个 heuristic,因为切词算法的最后一招就是 把字(语言学上术语是“词素”)当成词,可以保障100%召回率(recall)。因为汉字是非常有限的集合(【康熙字典】多少字来着?),可以枚举。所以废话(或常识)背后也有深刻的道理的。显然这个 heuristic 是有漏洞的,但是我们总可以用它来兜底。漏洞譬如那些所谓 bound morphemes:蝴,尴,它们理论上是不能成词的,如果万一被切词程序输出为词了,很可能是一个 bug(譬如原文在 “尴尬” 之间夹杂了空格或其他符号造成这种结果,或者原文说的就是这个汉字,不是指这个概念词素,那算是 legit 的 meta-word)。无论如何,切词模块在工程上和算法上几乎没有人不用这个 heuristic。

(2) 如果 input 是两个字(bigram) AB,而 AB 在词典里面,heuristic 告诉我们 AB 就是应该切出来的词。这个heuristic 是直接从最大匹配原则来的,几乎每个系统都这么办,尽管它当然有漏洞。漏洞就是所谓 hidden ambiguity, 理论上的 exhaustive tokenizations 中不能排除的 A/B 这种切词法。以前我们举过关于 hidden ambiguity “难过” 的 minimmal pair 的例子(见【立委科普:歧义parsing的休眠唤醒机制再探】):

这/个/孩子/很/难过
这/条/河/很/难/过。

其实,利用汉字作为 meta-words 的语用情形的话,一切的 ngram 都可以有一个违反最大匹配原则揭示 hidden ambiguity 的通例模式,是:

【ngram 】是n个汉字。

尴/是/一/个/汉字/。
尴/尬/是/两/个/汉字/。(尴/是/其一/,/尬/是/其二/。)
不/尴/尬/是/三/个/汉字/。
尴/不/尴/尬/是/四/个/汉字/。
尴/尬/不/尴/尬/是/五/个/汉字/。
.........

虽然 100 个系统有 99 个半都明知这个 heuristic 有理论上的漏洞,而且也有实践中的反例,但是都心知肚明地 follow 这个最大趋势。因为好汉不吃眼前亏啊。在切词这种早期阶段,不 follow 这条带来的麻烦太大。识时务者为俊杰,英雄狗熊在这一点其实所见皆同,说明世界上傻子并没有那么多,除了“傻得像博士”。譬如我博士论文中就倡导过用 exhaustive tokenizations 的结果来 feed a Chinese HPSG chart parser, 有意违反这一原则,把 hidden ambiguity 从一开始就暴露出来,来证明句法或更大的 上下文 对于完美切词的重要作用。理论上没有问题,实践中也弄出了个可以应付博士学位的玩具系统(【钩沉:博士阶段的汉语HPSG研究】),但到了工业应用,立马就精明起来,随大流,从了 最大匹配的 heuristic。

白:
“马可波罗的海外奇遇”

李:
哈, “马可波罗”, “波罗的海”,4-grams 哎,人名和地名打起来了,也是奇例 。

回头说 hidden ambiguity,N多年后,我们还是高明了一些,退了一步,说,好好好,好汉不吃眼前亏,咱们还是 follow 这个最大匹配原则,但可以留个后门啊。后门就取名为休眠唤醒,《李白对话录》中多篇有论,有方法,有例示(【结构歧义的休眠唤醒演义】 )。这算是在理论和实践中找到了一个比较合适的折中,不至于面对 hidden ambiguity 的“切词命门”完全不作为。

白:
谁说切词的结果一定是流,不能是图?谁说即便是流,切的时候啥样,用的时候也必须啥样?谁说即便是流、即便用的时候跟切的时候也一样,但在更大上下文范围内发现用错了的时候必须不能反悔?

李:
白老师说的几点都对。但很长时间很多人并没有认识这么清。

接着练,(3)  如果input是三个字(trigram) ABC,heuristic 是怎么体现的呢?首先根据最大匹配heuristic,排除了 A/B/C,先踢出局。剩下有 AB 与 BC 的较量,如果二者都在词典的话。这时候,heuristic 说,汉语的二字词并不是都有相同的紧密度,即便用最粗线条的二分法,也可以给一些二字词比其他二字词更大的权重来解决这场三角关系(triangle)的危机。忘了说了,如果 ABC 在词典的话,AB 和 BC 都出局了,毫无疑问,因为最大匹配永远是切词阶段最大的原则。例外怎么办?后期休眠唤醒。

(4) 如果是四个字的 input(4-gram)ABCD,hueristic 又是怎样实施的呢?(别急,这么论事貌似进入了死循环,但其实胜利曙光已经在望,bear with me a bit)。根据最大匹配这个最高原则,ABCD 如果在词典(譬如成语),句号。ABCD 中任何一个连续的 bigram 如果在词典成词的话,A/B/C/D 也出局了,根据的还是最大匹配的 heuristic(或其变种,最少词数原则)。那么还剩下什么?如果是 ABC 和 CD 在词典,两家打架, heuristic 说,两家人家打架,人多者胜, ABC 胜过 CD(就是说,可以假定权重 heuristic 让位给词长 heuristic)。同理, AB 败于 BCD,其他的情形都是显而易见的,AB/CD instead of A/B/CD, AB/C/D and A/B/C/D,不赘述。

白:
如果ML,满大街都是heuristic。

李:
所以说 heuristic 应该翻译为 (有统计基础的)趋向性。学习也好,根据 heuristics 硬编码实现也好,总之是要 follow,不要与潮流作对,除了傻博士。

(5) 如果 input 是 5个字(5-gram)ABCDE,ABC and CDE can fight: if ABC is considered to carry more weight, then ABC wins.  后面的话不用说了。到了 5-gram,可以收网了。

其实迄今绝大多数切词算法,大多依据的是 local evidence,5-gram 几乎是 local 的最大跨度了。因此搞定了 5-gram 以内的 heuristics 的相互作用的原理,也就搞定了切词,虽然理论上所有的 heuristics 都是筛子一样,漏洞百出。这一点儿不影响我们前行和做 real life 系统。

金:
@wei 老师,想请教一下您对于深度学习做分词的观点:训练语料为手工分词文本,将文字按单字逐个输入,输出是结合输入语境对文字进行分词的结果。

李:
据说深度学习分词,精准度有突破。有突破我也不会用。除非有谁教会我如何简单地 debug,如何快速领域化。何况早就过了这一村了,工具架构算法齐全,不再需要与它纠缠了。

金:
如何领域化?在特定领域操作?

白:
让领域的人再标注领域的文本,不就领域化了

李:
不愿标注呢?或 cannot afford 标注呢?错了怎么 debug?再加大标注量,重新来过?重新训练可以保证对症下药解决我面对的 bug reports 吗?

金:
嗯,看过之前您的文章,关于统计和规则之间的渊源。如果就用深度学习一个模型,是这样。最大匹配的话,错误如何修正呢?

白:
都已经是锦上添花了,再错能错哪儿去

李:
明明就是个词典打架的事儿,非要标注文本。词典是有限的,而文本是无限的。

白:
领域会突破词典。

李:
那是领域词典的习得问题(lexicon/term acuqisition),是个更实惠的活计。相比之下,领域标注分词不是个划算的事儿。

白:
未登录词也得分。领域会引进新的heuristic,使得通用成问题的地方不是问题。做减法。

李:
手工标注海量数据是一种不讲效率的办法,人类举一反三,标注反着来,是举三返一,不对,其实是举30也很难返一,隔靴搔痒。幸亏它有几个优点。一个是提高就业率,简单劳动,而且白领,有利于维稳和安定团结。另一个是为不愿意进入领域的人做自封的领域专家铺路。管它什么领域,管它什么任务,只要你给我标注,我就用三板斧进入领域。

白:
不利于语言学家的就业率,也是罪过

金:
二位老师的观点有深度,

李:
不仅是语言、语言学和语言学家,所有领域专家都有遭遇。不求甚解于是风行。天上掉下一块鸟屎,都会砸到一个速成的领域专家头上,譬如不懂语言学的计算语言学专家。

白:
背后的逻辑是不与虎谋皮。没那么简单这事儿。

金:
数据标注得有领域专家来做标准呢。

李:
要是可以选择的话,不自由毋宁死。可惜领域专家没有这个气节。乐不颠颠地为精算师去制定标准,然后让他们成为高高在上的超领域专家。

白:
“孙国峰硕士毕业于著名的清华五道口,后师从社科院金融研究所李扬成为金融学博士。他硕士毕业后便参与了中国外汇交易中心及公开市场的建设,并从此肩负起货币政策的实施、制定、监管之责,与中国金融市场及市场中的一代一代的交易们一起成长。”

看看这段话,“硕士”极容易被当成“孙国峰”的称呼性同位语。

金:
这个就是环境的作用了,不是我们能左右的。

吕:
孙国峰,硕士毕业于著名的清华五道口 ....

金:
我想到一个和目前情况类似的人,最早著书的人,是不是大部分是领域专家,因为国家,因为文化,因为其他原因投身著书行业,把知识标准化,流传下去?

白:
@金 这样的是例外吧。

金:
我只是想到这个情况,而且更极端的是这群人因为生存因素,去著书,还有可能从谷底爬上巅峰(可能故事听多了)

白:
@金 楼歪了,言归正传吧

所有的交叉歧义、组合歧义,其实在词典定好以后就是铁案了,一定能仅从词典就机械地自动遍历枚举所有情况,这是学术界早有的定论。

问题之一在概率分布。领域无关相当于先验分布,领域相关相当于后验分布。后验分布如果明显不同于先验分布,领域知识就有优势,否则就没优势。

阮:
比如说医疗领域,会有一些特殊的词,也会有特殊实体,句法的话,应该也是符合自然语言句法的,但分布应该不太一样。 我需要重新完全标注语料呢,还是标注一部分?标数据这事,谁来做,也确实很头疼。语言学家觉得和他们没关系,也看不太懂。而医学更加不知道标语料为何物。

白:
问题之二在未登录词。你说再多词典没定义都是扯,只要影响应用,没人会听你的。所以做好构词法,应付未登录词是刚需。神经是不分登录词未登录词的,就是说如果ABC、ABD都没见过,语料里标注了ABC,神经是有可能学会ABD的。并不是说要分词只有词典化一条路。而构词法是里,分词是表。学会构词法可能首先是通过分词体现出来的。神经不是“仅”学分词,而是“同时”在学构词法。比如“中证协”标注了,“中保协”没标注。神经可以学会“中保协”正确分词,但并不说明“中保协”一定在词典里。

李:
学构词法有个悖论。学会不在词典的词可能对于粗线条的任务有好处,但对于分析和理解自然语言没有什么好处,你必须同时学会这些不在词典的词的可计算的信息部件才算数,譬如句法 features,概念语义及其在本体链条上的位置,等。对于自然语言 parsing 和 understanding,切词的目的就是要获取关于该词的词典信息,作为进一步分析的基础。现在分了词了,却没有对应的词典词条,那不是白分?这就是我说的悖论。

今天遇到一个好玩的:上交所有 ...,分词为 上交所/有。

白:
交叉歧义。长词优先。

李:
我实习生说 错了,她坚持改过来:上交/所有
原来她心里想的是:上交 所有 不义之财。我说难道你不知道,上交所 有 个 大名鼎鼎 的 白老师?

白:
严正声明:上交所没有不义之财。

李:
此地无银啊?
“上交所”在90后的头脑里是个未登录词,未登录的或可免责。如一不留神道破天机,纯属意外。明儿让她进来给白老师赔罪。

吕:
哈哈哈

金:
有趣

巴:
学生菜鸟一枚,特来给白老师赔罪。
请各位老师多多指教啦~

白:
@巴拉巴拉 应该找上交所的CFO,我前CTO不管这段。

巴:
哈哈哈哈,总之是妄言了,先赔罪总是对的。

白:
@巴拉巴拉 这群有意思,可以偷到很多艺

讨论NLP居然如此欢乐,也是醉了

唐:
Heuristic=educated guess, or sub-optimum solution, 这个在算法界没有歧异呀!
ngram取5就能处理大多数问题。 我们在网络安全上学习domain name也是这么用的。

李:
唐老师给个权威标准译法吧。
启发式 不中。

洪:
“上交所有不义财!“
如何正确词划开?
分词若有人使坏,
上交所的脸吓白。

李:
今年是金融反腐年,据说金融腐败和金融政变是关系到党国生死存亡的。

唐:
个人认为: heuristic 翻译成“次优解“更好。

李:
问题是 很多时候 必须遵循。次优的言下之意是不要遵循,应该追求更优的。除了傻博士 大家都明白,次优往往就是最优。

唐:
次优的意思是,大多数要用因为找不到最优。

李:
在给定时间空间 次优就是最优。

唐:
5-ngram对中、英文分词有效,对其他主要语种是否也有效?

李:
很多浅层的任务,如分词和POS,都是主要靠 local evidence,5-gram 基本上就是 local 的一个比较恰当的定义上限。

唐:
你今天的博文解答了我的一个问题: 为什么dns domain name分析只要5-ngram就行了!真是他山之玉可以攻石

 

 

【相关】

【立委科普:歧义parsing的休眠唤醒机制再探】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白70:计算语言学界最“浪漫”的事儿】

白:

根据什么知道“他人”不是三个动词共享的逻辑宾语?----相谐性!

李:
【human】vs【physical-object】?丢失【physical-object】vs 丢失【human】?
丢失“孩子”呢?假如是直接量相谐的统计对比,“丢失-设备”与“丢失-他人”,前者完胜。
如果是上升到类别上去做对比,丢失-【physical】与丢失【human】就有可能会势均力敌,假如 “丢失-孩子” 的说法在语料里面特别高频的话。

直接量对比最好,可是总有数据稀疏不足为据的担心。类别对比克服了稀疏数据,也可能走偏。“申领”类似,似乎也可能申领【human】? “ 损坏”好像比较单纯,很难“损坏人类”(人类够皮实的?)。到了“转借”问题复杂了,是个双宾词,大数据里面,跟 【human】与跟【physical】的都很多。当然,现场已经让【human】(“他人”)占了坑,只剩下【physical】的可能,如果要把这一套符号逻辑加入大数据相谐的统计里面去,貌似也不是很好整,虽然琢磨起来总是头头是道的。

白:
三个动词共享的话,备选坑的subcat取最小公共上位。
损坏的坑不是human,甚至不是animate,看来只能是physical
大家都从它。

李:
最小公共上位,实现起来又多了一层,而且预设了 并列结构的正确识别。看看这个问题的完满解决牵涉了多少不同层面的预设:

(1)预设并列结构识别
(2)预设最小公共上位
(3)预设排除已经占据的坑的类别

这里面的每个预设,说起来都很合理,但揉进一个算法里面就感觉有相当挑战。这只是就这一个案例的应对思路所做的抽象。遇到其他案例,也会出现其他听上去合理的应对。然后把这些合理应对整合起来成为一套相谐性checking的算法,感觉上不是一点点的挑战。

白:
显然这时候就看出来中间件分离的好处。相谐性检查也好,求最小公共上位也好,都是matcher向中间件请求,中间件回应matcher的关系,中间件并不介入matcher自身的逻辑,不介入待分析文本的结构性判断。

梁:
两个词的相谐性,可以计算出来么?或统计出来吗?

白:

李:
处得久了 粘在一起 chemistry 就确定了。大数据可以。就是如何实施的 know how 了。

白:
“避免了一个十亿人口数量级的核大国彻底倒向美国和日本成为死敌”
和谁成为死敌?谁和谁成为死敌?

1、十亿人口的核大国和日本
2、美国和日本
3、十亿人口的核大国和缺省主语
4、十亿人口的核大国和美国

李:
我昨天下午也搞定了一个痛点: 就是 “学习材料” 类。完满解决这个问题 其实有几个坎儿。凑合事儿也可以,但总觉得对于这么普遍的现象,还是形成一个一致的比较完美的解决才好,类比以前对于离合词“洗澡”的解决方案那样。

说个有趣的汉语缩略现象:

南美北美 --> 南北美
上位下位 --》 上下位
进口出口 --》进出口
AxBx --> ABx

some more examples: 红白喜事,冷热风,高低端,东南向,南北向,软硬件,中青年,中老年,黑白道,大小布什 ......

这些个玩意儿说是一个开放集(合成词)吧,也没有那么地开放;说封闭吧,词典也很难全部枚举。它对切词和parsing都构成一些挑战。这是词素省略构成合成词的汉语语言现象,还原以后是 conjoin 的关系 (Ax conj Bx),至于 ABx --> AxBx 的逻辑语义,还真说不定,因词而异,可以是:(1) and:南北美 --> 南美 and 北美;大小布什 -->大布什 and 小布什;(2)or:冷热风 --> 冷风 or 热风;正负能量 --> 正能量 or 负能量;(3)range:中青年 --> from 中年 to 青年,中老年 --> from 中年 to 老年;(4)and/or: 进出口 --> 进口 and/or 出口;(5)一锅粥(and/or/ranging): 高低端 --> 高端 and/or 低端 or from 高端 to 低端。

白:
小微银行;三五度

李:
逻辑语义解析先放一边(很可能说话的人自己就一笔糊涂账,不要勉强听话人或机器去解析 and、or 还是 ranging),就说切词和parsing的挑战怎么应对就好。冷热风 在传统切词中是个拉锯战:【冷热】风 vs 冷【热风】;“南北美”:【南北】美 vs 南【北美】。

看官说了,还是 南【北美】 似乎对路。可那个撂单的“南”怎么整呢?

白:
词不都是切出来的,也可以是捏出来的

李:
【国骂】,切词切词,只让我切,不让我补,这不是憋死我吗?不具体说雕虫小技了,要达到的目标是:Input:南北美;output:【南美 conj 北美】。

问,难道切词或 parser 还能补语言材料?当然能。不能的话,bank 怎么成的 bank1 (as in bank of a river)和 bank2(as in a com李rcial bank)?举个更明显所谓 coreference 的例子:John Smith gave a talk yesterday. Prof Smith (== John Smith), or John (== John Smith)as most people call him, is an old linguist with new tricks.

白:
高低杠、南北朝、推拉门、父母官……

李:
This last example below demonstrates the need for recovering the missing language material:

A: Recently the interest rate remains low.
B: How low is the rate (== interest rate)?  // 不补的话,就不是利率了,而是速率。

所以 parsing 中适当补充语言材料,重构人类偷懒省去的成分,也是题中应有之义,虽然迄今绝大多数系统都不做,也不会做,或没有机制或相应的数据结构做。

白:
不该补的也要那个。反方向的还不普遍?比如“海内外”

李:
听上去好像我的系统做了似的。必须说句老实话,目前还没做。虽然没做,这些个东西老在心里绕。绕老绕去问题清晰了,candidate 策略s 也有了,就是等一个时间点,去 implement。做实用系统有一个毛病,千头万绪,大多是跟林彪似的,急用先做。不急用的,甭管心里绕了多少回,往往是一等再等,几十年等一回,那一回有时候似乎永远不来似的,有时都就等到白头了。其中一个办法描述如下:假如 “南北韩” 不在词典里,但“南韩”和“北韩”都在,“南北”也许在,也许不在,不管他。切词的结果不外是:南/北韩 or 南北/韩。“揉”词的算法可以放在切词之后。最简单的算法就是再查两次词典,如成功,就把切词结果加以改造,爱怎么揉怎么揉。

(1) Input: A/Bx
Is Ax in lexicon? If yes, then
output: Ax conj Bx

(2) Input: AB/x
Are Ax and Bx both in the lexicon? If yes, then
output: Ax conj Bx

(3) Input: 海内/外:
Is 海外 in the lexicon? If yes, then
output: 海内 conj 海外

张:
李白对话将载入计算语言学历史

李:
前些时候,还真有个出版商寻求合作,要出版个啥 NLP 系列。旁门左道,从来没想要出书的,甚至写了也不管有没有读者。总之没拿读者当上帝。自媒体时代,写已经不仅仅为了读,写主要是为了写,日记疑似。与其读者做上帝,不如自己做上帝。反正也不指读者养活自己,完全是共产主义义务劳动,而且是高级劳动。此所谓,说给世界听,可并不在乎世界听不听。后来想起《对话录》,我说,也许你应该去找白老师。如果白老师愿意,倒是可以选辑修订成册。里面不乏精品,譬如最近的这篇:【李白69:“蛋要是能炒饭,要厨师干啥用?”】。

张:
计算语言学界最浪漫的事就是不忙的时候(坐在摇椅上)看李白悠悠地“怼”,慢慢地“坑”

白:
如果前缀两个字,就比较容易接受:大江南北、长城内外

李:
“大江南北、长城内外” 不同,“大江南” 、“大江北” 不在词典,而是句法组合。“大江-南” 是句法,“大江-南北” 也是句法,没有必然的必要性去补足构词材料。

白:
但是相比共享后缀,语义并无结构上的特别之处。所以补足只是针对同类现象的部分解决方案。按构词规则捏出一个有微结构的合成词才是根本。

“欧洲一体化已死,何须中国分裂?”  有个“它”或者“之”,关系会更明确。

李:
那就有点不伦不类了。“欧洲一体化已死 何须中国分裂之”,听上去成诗句了,好比
“花开花落两由之”。

白:
多好。如果像我引用的那样,就比较麻烦,总得有些关于统一和分裂相对关系的铺垫才能正确理解“中国”在其中的使动角色。

李:
想起个故事 在我知道胡适之是胡适之前,我写了句 “胡适之名句”,那还是高中的时候。高中同班一个公认的秀才,老夫子,读书巨多,平时颇孤傲,会背诵古文观止。 他马上对我刮目相看,他没料到我居然知道胡适乃是胡适之。别小看一个之,知道不知道它当年被认为是有学问与孤陋寡闻的重要区别。天地良心 我的确不知道胡适还有个之。后来知道了,不禁哑笑,哈,被学问了。秀才最后成了一辈子最铁的朋友,现在也在米国,做大学教授 系主任多年。

白:
英语“xxx specific”怎么翻译才地道?直译为“yyy特定的”读起来很不爽。比如“language specific”我宁愿麻烦点翻译成“针对特定语言的”。见到“语言特定的”这样的翻译,总感觉不舒服。但是,汉语处理已经必须处理这种因为直译导致的语言现象了。因为我们左右不了人家的翻译质量。

昨天徒步时看到的“旅游厕所”让我对降格又深入了一步。简单地看,这是动词“旅游”降格做定语修饰“厕所”。但是,1、“厕所”无法反填“旅游”的坑,这和“打火机”不同。2、“厕所”并不是与“旅游”的坑完全隔绝,它是给旅游者上的厕所。构词的微结构里面虽然没有直接出现“上”,但是这个“上”却是连接“旅游”和“厕所”的枢轴。跟前些天讨论的“孟姜女哭倒长城”里面那个没出现的“修”,有的一比。述语动词“哭”和结果补语“倒”没有相谐的共享坑,但是深层次通过“修”和“丈夫”的坑,延展开来实现了共享。

王:
我感觉是“旅游(用)厕所“,这样绑定是否可行。“上“有点窄,但“用”面大,覆盖广,只要没有反例就好。类似英语动词+ing。traveling toilet。学英语时,v+ing,分词和动名词,用来旅游的厕所 or 旅行着的厕所(移动厕所)。不知对构造新词是否有帮助。

白:
直觉“旅游”和“厕所”也是通过“上”实现了回填。等下我画个图验证一下。“用”也还是意犹未尽,不是严格用填坑关系串起来的,是一个虚动词,“上”是一个实例。

梁:
我有点忘了,“孟姜女哭倒长城”是孟姜女晕倒了,还是长城倒下了?好像两种理解都可以。

白:
长城倒了。
旅游[的](上、用……)[的]厕所

双线是“旅游”成为“厕所”定语的路径。简化一下:

把phi_1、phi_2缩并到“旅游”,形成虚拟节点“旅游'[S/N]”的话,上图就进一步简化为:

回填结构昭然若揭。phi_1是“旅游者”,phi_2是“上、用……”。

王:
第一个图好理解,简化后自己有点跟不上了,呵呵!当然白老师心中是门清的,只要可操作就是好的。

李:
为了一个定语 弄出两个无中生有的节点 才把这根线搭上,够绕的。某人 v 了厕所
此人 旅游,因此 旅游厕所就是为某些旅游的人所v的厕所。萝卜坑貌似搭上了,不过绕了这么一大圈搭上了又有啥好处呢?

白:
1,如果对不能反填置之不理,这一步大可不必。2,深层语义结构本来如此,顺藤摸瓜找到相谐的反填路径,看起来是句法任务,实际已经是语义任务。所以parser只做到降格就可以收工了。

李:
对于 “v (的)n”,知道 v 是 n 的修饰语 是根本,v 的坑 对于语言理解不重要,或无关系,因为语言中的谓词,填不上坑或不值得填坑的,是常态 是多数。需要填坑的(处于clause里面的)谓语动词是少数,多数是非谓语动词。即便谓语动词 一来也常省略萝卜
二来可填的坑 句法痕迹也比较明显直白,不会那么绕,少数远距离例外。

白:
对句法不重要,对语言理解不能说不重要。无中生有只是假装,其实联想到的实例都是有的。旅游厕所真的就是那个意思啊…… 难不成碰到了那个意思还要过河拆桥,告诉别人不存在这个桥。

王:
我觉得白老师对新词的剖解挺好,词生有根,把根找到是件有意义事情。当然在有些处理新词场合,可能不需要处于隐形的中介出场。一旦需要时,能有套路可找到,那么这价值就体现了。这也是机器搜刮了词典中的多种关联后得到吧。不排除有些情况可能找不到,也有可能找出了多个。这可能更大视野来考虑相协。

白:
刚才用“坑论”试了一票英语例句,巨爽。

李:
Man 填了万能词 is 又填 fat 中间还来个 +N  看上去有点复杂 (N+ 是定语,+N 应该是后补同位语)。/N 在身边没找到萝卜 就进休息室了 +N 守株待兔 等待左边来客,这一套蛮绕。

白:
@wei 别看man填了那么多坑,除了一个花了额度,其他都是免费的,而且都说得清来由。这个免费额度的机制,看来真的是universal 。

“自从有了智能移动电话,我的智能、移动和电话都在减少......” 这段子,又涉及微结构了。

宋:
“制裁没起作用,朝鲜又爆炸了氢弹。”其中,“制裁”的受事是“朝鲜”。机器没有相关的背景知识,能发现这种论元关系吗?

李:
“制裁没起作用 美国只有先发制人一途了。”

白:
“制裁没起作用,中国躺枪。”

李:
对于 hidden 论元 既然说者都不愿显性表达出来,为什么要挖出来?在哪些应用场景 需要挖出 hidden roles 哪些场景不需要?机器翻译基本不需要,信息抽取和大数据挖掘的应用也基本不需要,explicit 论元都成山成海冗余无度呢。自动文摘的场景不需要。阅读理解的场景似乎是需要的,但这也看哪一种level 的阅读理解,四级阅读与六级阅读 要求不同。总之 感觉多数场景不需要。实用主义来看 做了也白做 何况做也难做好。

白:
这根本不是个别词的问题,而是场景的问题。在先行的大场景中各自什么角色,决定了填“制裁”坑的萝卜是谁。向后找萝卜,方向反了。

“耳朵聋了,莫扎特的音乐照样演奏。”
“耳朵聋了,贝多芬的音乐照样演奏。”

吕:
这个需要接入外界知识了

白:
第二句有歧义,第一句没有。原因,就是大家知道莫扎特和贝多芬谁耳朵聋了。可以把“贝多芬耳朵聋了”看成一个先行场景,“联立地”决定后续空白坑的填充。重要的事情说三遍,只要语言不要常识不要常识不要常识。Simultaneous anaphor

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白69:“蛋要是能炒饭,要厨师干啥用?”】

李:
“炒饭” 默认是合成名词,但也可能是动宾结构的 VP,与 “烤红薯”、“学习材料”,甚至“已成事实” 类似,汉语中极为普遍的现象。今天想,从“炒饭”到“蛋炒饭”、“酱油炒饭”,后者的名词性增强,动词性的可能减弱, 但其实也不是不可能翻案:

A: 我很笨,我不会炒饭,我炒饭不好吃。
B: 你蛋炒饭呀,酱油炒饭呀。你如果蛋炒饭,就不会不好吃了。

“蛋炒饭” 里面的微结构是 clause 不是 VP,“蛋” 是【instrument】or【material(ingredient)】做主语。这不影响它可以从词法(morphology)上带有clause微结构的合成词转化成句法(syntax)中的VP,理所当然地再要一个主语:

“蛋能炒饭,肉也能炒饭,菜也能炒饭,没有不能炒饭的。”

白:
S降格为N+,需要统计支持,需要字数等条件。

“蛋要是能炒饭,要厨师干啥用?”

S自带的S+,先跟S搞定,回头S再降格。微结构分原始结构和定型结构。原始结构没有降格处理,定型结构加上了降格处理。即使降格,仍然存在填坑关系,但是呈环状,降格--修饰--填坑关系呈环状。颠覆,不仅仅是打开微结构,而且要“去降格化”,全面复辟到原始结构。

李:
白老师高大上的思路,隐隐约约似乎看到了端倪,但不敢说真 follow 了。主要是白氏术语多,但没有术语工具书或密电码,譬如: S, S+, 降格,原始结构,定型结构,填坑关系,呈环状,去降格化 ......

“蛋要是不能炒饭,啥子能呢?”
“蛋不仅能炒饭,蛋黄还能做月饼,蛋清还能美颜,连蛋壳都能做工艺品。”

蛋能着呢,一身是宝。相比之下,厨师最多就是做个饭,厨师不会美颜,也做不了工艺品。蛋与厨师,谁高谁下,不是一目了然吗?这是大学生辩论乙方的辩路。白老师代表甲方,立论是:“蛋要是能炒饭,要厨师干啥用?”

白:
按构词规则捏出一个有微结构的合成词才是根本。

李:
秀一下 捏出啥样子较好。

白:
上午徒步……方便时画几个图上来。

白天徒步时,多处看到“旅游厕所”的牌子。“旅游厕所”的微结构是啥?与“蛋炒饭”不同,“旅游厕所”并不存在翻盘的可能。

旅游只有一个标配坑,而且subcat是human类型。厕所无法填入。

李:
蛋炒饭的图示,pos 是 N,词法内部微结构就是个【主谓宾】。白老师图示的微结构没看出做主语的痕迹,不知道为什么。是因为主语要查chemistry,蛋不是 human 不够格吗?那个 with 降格 没看懂。

白:
说的对,蛋不是核心成分,是外围成分。用一个虚拟介词拉到动词势力范围来,不够格作主语。

李:
去降格化 回到了这个合成名词的动词 subcat 的潜在能力,it is a candidate 2-arg verb:/2N, 这就为翻盘成为 VP 谓语造就了可能。 翻盘还留有一个 human 主语的坑给句法。

白:
但 蛋还是不够萝卜资格。谁炒?所以那个段子,蛋要是能炒饭,要厨师干啥,之所以好笑,就在于,把蛋和厨师相提并论,

李:
“蛋” 在 “蛋炒饭” 里不够格,在 “蛋能炒饭” 里够吗?

白 :
也不能,是穿透的,能用蛋炒饭 的意思。
不够格的和够格的相提并论,核心成分让步,只能是修辞,不能是其他非核心成分。

李:
这是句法主语与逻辑语义错位造成的幽默。的的确确是句法主语 ,符合主语的一切分布,甚至可以放在(状语)从句的分布模式里:如果 S Pred,S 如果 Pred:

“如果蛋能炒饭”
“蛋如果能炒饭”

【工具】和【材料】 做句法主语在汉语是天经地义,仅次于【施事】做主语,比【受事】做主语还常见。其实英语亦然。

白:
问题是我这没有形式主语标签,句法主语标签毫无意义。我不想沾它,而且不沾也不影响。

李:
句法主语的独立性 总之是有依据的。什么叫 “核心成分让步,只能是修辞,不能是其他非核心成分”?

白:
就是那个角色不是human了,至少也是拟人化的。这才可以当作修辞用法。

李:
哦 那是修辞 ,修辞很常见的。

白:
蛋不是修辞用法,不在此列。

李:
“蛋” 从主语坑让一步,自己降格为PP,作状语?

“蛋炒饭” 里面, 既然在 v 前有 n,鲁棒的系统默认不降格的,因为选无可选 滥竽充数了。人的语言理解过程感觉也是这样的。

白:
鲁棒的系统应该在语义层面无计可施时,把它加回核心角色,不降格,修辞用法。句法层面作状语,并没走远。

李:
不降格, 到不得已时再让位(主语的交椅),而不是先降格 留个坑,等还不见影子的萝卜。

白:
怕甚?无非是句法功劳少点,语义功劳多点而已。

李:
不太合节省原则。句法存在的认知基础,就是给语义省力。

白:
又没到位,没看出省力了

李:
默认涵盖了多数情形 不费力 不用常识。不得已再用。遇到 n v n 就默认svo,当然省力了。

“鸡蛋拌番茄”,“鸡蛋” 也是降格?

白:
当然。翻译成英文,不也得降格么

李:
鸡蛋用番茄,鸭蛋用土豆 ...
(as for eggs please use tomato ...)
谁用?也是降格。

白:
谁会用谁用。反正鸡蛋鸭蛋不会,除非修辞。但修辞也不是as for的意思。

李:
哈 鸡蛋“能”用 鸡蛋不“会”用。就如乔老爷批判人工智能说 “潜艇不会游泳”。

图中 N+ 怎么回事?S+ 是N因为不够格而降格为状语,哦 N+ 是做了定语,动词委屈降格做了定语。父子翻转。

白:
N+是动词不经由定语从句,直接做了定语。

李:
经不经 【定从】 关系不大,为什么又“去降格化”?
其实微结构所谓降格都是做给人看的,讲究一个事出有因,但既然在词典里面 其实不必讲这个合成词内部的故事。就是绑架 洗脑即可。关键在微结构的V的潜在翻盘性。

白:
去降格是源头,降格是过程,N是结果。要想翻盘,就要回到源头,而不是回到过程

李:
那你那图示次序反了,源头弄在中间了。降格那一节 不提也罢。降不降 都是 N 了, 词典规定的默认。汉语词法句法道理相通,但词典词法不必讲理。 句法不讲理就不行。

白:
我没有次序含义,就是一个个罗列出来。
词法捏出未登录的合成词,还是有法可依的。

李:
对 对于open词法 需要捏,open morphology 必须有法 讲理。

降格者何时升格?修辞何时实现?修辞实现用标记吗?
green ideas 能 sleep 吗?“小红帽发了一顿牢骚” 怎么弄?还有很多很多灰色地带,资格不好认定的地带。要 【human】 的,【org】 不行吗,【animal】 不行吗?

白:
顺杆儿爬,顺杆儿滑。

李:
不过那个降格而捏的图示 真 implement 还有一些沟沟坎坎。 不过是给了个捏的道理罢了。道路依然不明。

白:
句法上承认不相谐的依存关系,语义上就只有修辞一条退路。但句法上到底承认不承认,有很多策略选择。

李:
但的确有灰色地带 介于修辞和正解之间的。坑与萝卜的 chemistry 是一个 spectrum,不是一个死条件,跟找对象一个德行。凑合事儿的也有过了一辈子的 还不少。

白:
这里问题不是给什么句法标签,而是最终是否碰的上。碰的上就不怕。

李:
碰不上就升格凑合?然后做个标注 这是凑合的修辞萝卜?

白:
不管在二楼碰上还是在三楼碰上都没关系。“蛋炒饭”的例子,“蛋”升格不就成了修辞萝卜了么?这是需要外力的,比如与厨师相提并论。没有外力,升格的可能性微乎其微。当然,形式的不算。既然升格,就是冲着逻辑的核心角色来的。“蛋”的工具主语的解释和修辞解释的不同就说明了问题。

李:
工具解释是临时职称,修辞解释是代理主任。临时是没办法 先凑合。乔老爷的名句 都不应该升格。因为没有纯句法以外的外力。“绿色思想今夜无眠”。“绿色思想”只能看成是“今夜无眠”的某种状语?

白:
还有另一种可能性,就是“绿色思想”看成专名。比如酒吧的招牌。酒吧再无眠,就是修辞了。同样拟人,以酒吧拟人就比以抽象事物拟人更靠谱点。

李:
是啊 这是spectrum, 讲的是本体资格距离。 其实还是三角恋力量对比的策略最实用,二元匹配不好对付灰色 三角就容易了。脚踩两只船 不得长久。最后当事人必须选择 是“他” 还是 “他”?凭着感觉就行了 选择通常不难。没有比较的选择就太难了。

王:
蛋炒饭,蛋能炒饭,真是够研究的。看了李白老师关于“蛋炒饭”这菜名讨论,感觉有些菜名无不用其奇,不考虑NLPer的辛苦,NLP很多性能不高,就坏在这“菜”上了,只要能解决就好,本来NLP大山就多,可这零碎的泥坑也不少。

白:
“蛋炒饭”其实是两个问题。一个是通用能产的构词法问题,一个是特定语境下的反悔问题。通用能产的构词法,就算没有,也可以通过“词典硬性定义+原始微结构”给反悔留出线索。通用能产的构词法怎么才能有?各种在句法层面使用的不太多的“降格”手段,在构词法层面可以有。这是关于“蛋炒饭”讨论的核心。

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白之68:NLP扯着扯着还是扯到萝卜填坑】

李:
发现 “引进” 与 “引入” 可能方向不同 虽然应该是同义词。读【李白之29】(“依存关系图引入短语结构的百利一弊” ),突然觉得不对劲 这不是我的原意。原来想说的是,“依存关系图引进短语结构的百利一弊”,或者,“短语结构引入依存关系图的百利一弊”。a 引进 b,语义主体是 a 而 b 是逻辑修饰成分;b 引入 a,a is semantic head while b is modifying element。不知道这个语感对不对 是不是语言共同体的 还是语言学家的走火入魔?

另 并列排比的力量很大 汉语为最 英语也有:

“One in the morning and one afternoon”

力量大到了可以生生把 one afternoon 拆散,棒打鸳鸯 可 NLP 界对这种现象研究和应对却远远不够。排比句式的自动处理及其与parsing 的无缝连接 可以做一些博士课题 排比是并列的延伸,而并列现象早就公认为是nlp的拦路虎之一。

白:
何以见得?程序员会首先说,编译通不过

李:
万一编译器鲁棒通过了呢。

两个什么?论最近原则 是两个西红柿。但还有一个更大的力量,就是前面说过的排比的力量:一个x ……两个【 】。

白:
通过的那种编译不叫鲁棒叫自作多情。如果论排比,那“一个啥啥”前面也得加“如果啥啥”。

李:
排比的力量真地很大 感觉强过距离 虽然这几句不 make sense.

白:
“孩子”是称呼对方还是指称对方子女,这是个问题:

白:
“拍的一手好照”……第一次见到这个说法。

李:
洗的一把好澡
吃的一桌好饭
拍的一屁股好马
吃的哪门子醋
吃的一坛好醋 双关 嘲讽

白:
你那些统计频率够高,这个不行

李:
露一手
拍一手好照片
踢一脚好球
踢的一脚好球
想一脑门心思?

“脑门” 与 “心思” 搭配,“一手” 却与 “照片” 并不怎么搭,“一手” 与 “拍” 似乎搭。

白:

如果“所”负载“他所说”,那么“他所说的”就是“所”填“的”坑。交叉了不说,感觉有点怪。
“所”是个纯粹的逻辑宾语提取算子,“的”则广谱一些,既能提取逻辑宾语,也能提取逻辑主语,而且接名词能构成定语,不接名词自己就升格而名词化。

李:
小词负载结构 也负载语义吗?我想请问的是 白老师系统如何区别 “所” 提取宾语的标配,与 “的” 既可提取宾语 也可以提取主语?这个区别如何在语义上实现?体现
在 pattern rules 里面的话,这个区分很容易实现。

白:
词负载语义结构,使用的是subcat类型演算。也就是说,“所”和“的”的提取对象,在cat层面不做区分,在subcat层面做区分。“的”提取“剩下的那个不饱和坑”所携带的subcat,“所”提取“代表逻辑宾语的那个不饱和坑”所携带的subcat。如果两个以上坑不饱和,如“卖的”,则取两个坑的subcat的最小公共上位(上确界):sup(human,human,object)=object。等待一旦其他成分做出更加specific的限定,比如“买的不如卖的精”或者“卖的都是假货”,再图改变。

李:
那是 unification 的本来意义:unspecified until more specific

两个小词提取(代表)的不同,在 subcat 演算上实现。这个 subcat
是谁的 subcat,又是怎么做 subcat 演算的?对于实词,cat 决定句法(萝卜与坑 以及 mods),subcat 决定语义(semantic lebaling 解析逻辑语义),我们可以想见。
对于小词呢?

白:
小词要具体分析

李:
从哪里看出来 “所” 指的是宾语。

我的所爱在高山。
我所爱的在高山
我所爱在高山
我所爱的人在高山。
我所爱的东西在高山。
我爱的在高山。
爱我的在高山
*所爱我在高山

白:
上面讲的“所”和“的”,我们用的词是“提取”,意思就是说它的subcat是copy来的,在copy之前,它是一个指针变量。说清楚了,谁填你的坑,你提取谁的哪个坑所要求的subcat

李:
“爱我” 只剩下一个萝卜 所以 “爱我的” 就是那个萝卜(代表)。为什么 “所爱我” 不成立?“所我爱” 其实也不成立,只有 “我所爱” 才成立,这个体现在哪里?

白:
我不管什么不成立啊,又不做生成只做理解。做生成也不这么做

李:
哈 这总是少了一个 leverage。赶巧了 词序不对的序列 不会出现 因此把词序 leverage 从 parsing 中扔开 貌似多数时候可行。但总是会遇到某种时候,词序的条件恰好就起到了帮助 parsing 的作用。

白:
subcat完全相同才会考虑次序,这时逻辑宾语右侧填坑优先。但是“所”提取逻辑宾语是硬性的,比只是“优先”来得更加强大。所以有了“所”,就轮不上这些右侧优先了。

李:
这种优先度的调整 听上去是宏观算法的考量,而句型subcat里面所规定的词序(如果词典规定的话)则是微观的。后者比前者更加精准。

白:
前者更加robust。我之所以放弃pattern,就是因为它管了不该管的事儿。

李:
动词句型的subcat,管得恰到好处呀,句型里面说在左边,那就一定在左边。

白:
好好说话是生成该管的事儿。而在各种糟糕语序下尽可能猜测对方意思是分析的事儿。

李:
句型里面的词序规定,与对小词的规定,以及对实词的规定(强搭配规定实词本身,弱搭配规定实词的本体)。所有这些规定都是一以贯之的。不管是分析还是生成,一个句型长什么样子 是植根在句型 subcat 的词典里面的。这是词典内语言知识。至于这个知识用于分析,可以适当放宽而鲁棒,或者用于生成,适当收紧而顺溜,那是知识的实用层面的考量,而不是知识本性发生了变化。

譬如 “邮寄” 带三个坑,其句型就是:

1. [human] 邮寄 [human] [object]
2. [human] 把 [object] 邮寄 (给) [human]

白:
理想的词负载结构,是可以100%把句型语序再现出来的。使用刚性方式(override)还是柔性方式(优先级),只不过是实施当中的工程选择,与理论无关。如果我愿意,也可以都采用刚性方式。但是我不愿意。比如及物动词六种组合语序,双宾动词24种组合语序,其中有多少种是合法的,我不需要关心。也不会用罗列的方式去挑出合法的组合。

李:
不同策略的选择 如果信息无损 当然无所谓。说的就是,在采用优先级柔性方式对付词序的时候,至少在词典化的句型信息方面,条件是受损的,词序这个显性形式没有得到充分利用。弥补它的手段包括中间件的查询。但是中间件的查询,其本性是隐性形式的使用,而词序是显性形式。

白:
没看出来受损。

李:
受损在:本来是由谓词本身来决定萝卜的词序,作为条件之一来填坑,现在却交给了谓词以外的东西。交给了算法中的优先级 and/or 中间件的查询。这个损失蛮显然的,对于所有把谓词本身与其句型的词序规定分开的算法。

白:
搞混了吧,这是谓词自带的,不是交给了算法。

李:
谓词自带词序??

白:
第一个坑、第二个坑谓词自己是有指针的,自带优先序。

李:
NP1 eat NP2:NP1 NP2的词序是词典决定还是......?至少 S/2N 貌似没反映词序。这个2N 里面没看出词序信息。

白:
说的就是第一个坑优先左侧结合,第二个以后的坑优先右侧结合。句法不管而已,subcat管。但是句法和subcat是时时刻刻互通的啊。不相谐时看后续选择。

李:
第一个坑优先左侧结合,这个东西,是对于所有 2-arg 的谓词有效,还是可以对于不同谓词有不同?如果是前者,就不能说是词典信息决定词序。

for another example:

1. translation of NP1 by NP2
2. translation by NP2 of NP1

这类词序原则上都是谓词 translation 在词典就决定好的,到了具体句子坐实其中之一而已。

白:
比如“饭我吃了”,1、吃是S/2N。2、“我”最先从左侧遇到“吃”。3、“我”与其中一个坑相谐。4、锁定human,留下food。

“我饭吃了”:1、同上。2、“饭”最先从左侧遇到“吃”。3、查相谐性,发现是第二个坑subcat相谐。4、锁定food,留下human。

至于查相谐是否必须从左到右遍历,这纯粹是一个算法问题。数据库还允许做索引呢,我为什么一定要遍历?“饭”都有了,跟“吃”的第二个坑匹配为什么必须先查第一个坑。

李:
句型规定词序的做法有下列特点:
1 在词序占压倒优势的句型里面,根本不用查语义和谐。就是词序绑架。
2. 在词序不能决定语义的时候,可以明确提出是哪两对发生冲突:然后让语义在这两对中去比较力量来求解(消歧)。白老师的上述做法貌似在情形1的时候,不必要地查询了中间件,多做了功来锁定。

白:
总而言之,在部分分析树上匹配目标句型,是我N年前使用的方法,现在已经放弃了。放弃的道理是在分析环节追求更好的鲁棒性。在生成环节,有另外的做法。

李:
在情形2的时候,不知道是不是也是查询中间件的力量对比(牵涉两个可能的二元关系),还是只查询一个关系?

白:
没有。一步到位。 说的就是没有使用遍历的方法。只有一个匹配结果就是第二个坑,第一个不用出现都。

李:
遍历也不是“遍”历,n个元素并没有理论上的所有词序排列,而是句型决定了哪些词序排列是可能的,哪些排列根本就不可能。而这些决定都是那个词的知识。

白:
白名单制。
有点对不上频道,我说的遍历是查询时对坑的遍历,不是对可能语序的遍历。我的结论就是,不需要遍历。

李:
这二者在句型实现或坐实中是相交的。譬如两个坑加一个谓词,句型的所有排列是:

1. 谓词【1】【2】
2. 谓词【2】【1】
3. 【1】谓词【2】
4. 【1】【2】谓词
5. 【2】谓词【1】
6. 【2】【1】谓词

当然对于一个特定的谓词,其句型就是这里面的一个子集。

白:
3!

李:
对。如果牵涉小词,上述句型还要扩展。

白:
我现在是一个句型都不写。

李:
然后加上省略,也要扩展:

7. 谓词【1】
8. 谓词【2】
9. 【1】谓词
10. 【2】谓词

白:
嗯,你这充分说明了我不写句型的优越性。

李:
看上去很多,但第一很清晰,第二具体到谓词,只是一个子集,有些排列被句型一开始就抹去,第三,每一个这种句型排列都可以确定性地决定,是歧义还是不歧义,从而决定是不是要求助或留给后面的语义模块。所谓文法,主体也就是这些句型。没了句型,文法也就差不多消失了。

白:
专制的文法消失了,民主的文法还在。中心化的文法消失了,去中心化的文法还在。拉郎配的文法消失了,自由恋爱的文法还在。

李:
很多年前我们的英文文法大体稳定在 600 条规则左右,其中大约有 400 条就是这些句型排列。400 条还在可以掌控的尺度之内。为什么 400 条就可以包揽呢?这是因为上帝造语言有个仁慈的设计:args 不过三。以前说过这个。args要是过了三,排列就至少是5!,必然引起句型爆炸。自然语言的谓词绝大多是是 2 args or 1 arg,只有少量的 3 args or 0 arg。决定了机器人通天塔并非不可能建造。如果当年设计语言的上帝忘了人脑的有限,弄出不少 4-args or 5-args,就傻眼了。一个事件往往关涉很多成分。但人在描述这个事件的时候,总是碎片化描述,每个句子遵循 args不过三去描述,然后利用冗余和合一,最后在篇章中才拼凑出完整的语义图谱出来。这就是自然语言简约有效、与人类脑容量相匹配的奥秘之一。

白:
这就是老话说的,一碗豆腐豆腐一碗,本来不需要区分的,语序一成刚需,得,不区分也得区分了。

一碗豆腐和豆腐一碗,语义上没差别,差别在语用上。数量词后置,是“报账”场景专用,可以让人联想到饭馆里跑堂的。如果将来都用移动终端触摸点菜,“二者的语用差别”就会成为历史。跟自称“奴婢、在下”一样,只能在文艺作品里看到听到了。用于分析的句法,不适合画“毛毛虫”的边界,画出毛毛虫的“包络”就很好了。

 

【相关】

【立委科普:及物、不及物与动词subcat 及句型】

【李白董之51:说不完的subcat和逻辑语义】

【Parsing 的命根子是subcat,逻辑的和语言的】

【语义计算:李白对话录系列】

《朝华午拾》总目录