【李白宋毛72:NLP的测不准与追求完美】

李:
这两天琢磨中文词的扩展中的交叉现象,很有意思:

1. 选择疑问句谓词(P)模式 【P 不 P】: 学不学; 能不能;好不好
2. 动补(V-Buyu)词的可能态模式 【V 得 B】:学得会;可能态否定式【V 不 B】:学不会

12交叉: 学不学得会 ?
回答是:学得会 / 学不会 (或者:能学会 / 不能学会)

上述两个扩展模式也可以倒过来交叉,于是我们有 21 交叉:

学好
–> 学得好; 学不好
–> 学得好不好?

回答是:
学得好,学得不好,而不是 学得好, 学不好

后一种交叉,实际上用的 更多的不是“得”而是“的”:

学的好不好?

谓语重心落在“好”上,而不是“学”上。这与前一种交叉不同。很有意思的现象。

白:
得字后面的补语,有定性定量之分。“接不接得住”可以,“接得住不住”不行;“打不打得倒”可以,“打得倒不倒”不行。所以“住”、“倒”是专司“定性”的,是一个二值的状态,没有程度之分。另一方面,“扎不扎得紧/扎得紧不紧”“拴不栓得牢/拴得牢不牢”都能说,但补语“紧、牢”对应的是一个连续度量,但又有一个预期的极化状态阈值。所以,面临可能补语与程度补语的句式竞争时,可能补语占优势。第三种情况是“长不长得高/长得高不高”,补语“高”并不见得一定是预期的极化状态,“高不高”只是一种关于程度的中性的疑问,这时,程度补语就反过来压制了可能补语。第一种,纯定性,只能是可能补语;第二种,强定性弱定量,可以是程度补语但是与可能补语紧耦合;第三种,弱定性强定量,程度补语与可能补语松耦合。

长不长得高,和长得高不高,完全两回事。

李:
长没长高
== 长高了没长高
== 长高了没有

但是: * 长没长得高

白:
长高,相对于自己;长得高,相对于平均水准。程度补语。

可能补语的“长得高”,对成年人是梦想,对小孩是废话,除非侏儒症。所以可能补语义微弱。否定形式“长不高”则信息量大。对小孩,形同诅咒。或者,是成人身份的一种变相认同。

“没”是现时的未然,程度补语无论肯定否定,都是现实的已然,语义上也不相谐。可能补语与“没”结合,参照时点一定移到了过去,如:“谈没谈得拢”。现时已经出结果了,只有过去某时点上这还属“潜在”。

所以,“学得好不好”本来是关于程度补语的疑问,到了“学没学得好”,就变成了关于可能补语的疑问了。

李:
分析得好 细致入理。

谈没谈得拢 只有天知道
谈不谈得拢 就看你本事了。

上次白老师说分词 (大意):分词不仅是切 还要粘。至理名言。
句子就跟西瓜似的 可以拿着刀🔪来切;但字就跟珍珠似的 也可以拿串子来粘它、串它(concatenation)。结果都是 词,我们建筑语言大厦的砖瓦。这砖瓦必须有来路出身 有档案背景,因此目标也算是明确,即,所谓词应该是“词典的词”。词典就是档案 背景全部可在其中绑架,才能支持语言理解。

最有意思的是离合词,因为离合词不仅要串,而且还要跳着串。“谈不谈得拢”, 这个 5-gram,需要分词分出 “谈拢” 来 才算分词到家。

谈不谈得拢 == 谈得拢谈不拢 == 能谈拢不能谈拢 == 能谈拢 还是 不能谈拢

说到底 都是围绕着动补词 “谈拢”。 其他的小词(function words)或重叠(reduplication)手段,不过是给这个核心谓词语义添加语法意义而已: 诸如 疑问(选择问句)、时体、情态。

宋:
年满18岁,具有本地户籍,在本地居住满十年者

汉语的现象说明,词不一定是单向连续的短字符串,不一定边界清楚。非词语素和词的界限并不是绝对的。

李:
这个quasi-后缀“者”, 以前论过,它要求的是 VP,而不是 V。严格说不是 VP,而是 谓语 Pred。如果主语 NP 后面接谓语 VP 的话,那么总可以把主语去掉,加上这个“后缀”,来构成一个带有定语从句的 NP:VP者 == VP的人,这个 “的” 带的是定语从句 VP 。

当然实际语料的分布中,会发现 80%(?) 以上的“者”之前的 VP 其实就是一个 V ,所以把它当成英语的 -er (-or)一样看成是词的后缀,可能会带来一些便利,但必须留个 VP 的后门,来对付 定语从句的 VP 很长很复杂的状况。

宋:
手工业者

李:
“手工业者” 算是 另一个用法 看扩展性决定是细线条的规则 还是直接枚举入词典。

白:
者—N/S
关键是辖域、分配律。

李:
“者” 翻译成英语应该是 whoever+VP,不是简单成为 V-er 就可以顾全的。Whoever 是主语的形式,放在谓语前,与中文的结构关系类同,“者” 不过是放在谓语后而已:

年满18岁,具有本地户籍,在本地居住满十年者有资格报名。
–》
Whoever VP(年满18岁,具有本地户籍,在本地居住满十年) is qualified to sign on

白:
“子女不服管教者,配偶不在本地者”

不是主语,是领项,反填至N/N的残坑。

李:
fun,then,those who/whose

汉语的大主语(或 Topic 或“领项”)是一个中文里蛮独特的句法语用混杂的现象,对应英语的结构,错综复杂一些。

白:
其实从填坑角度看就是一个纯句法现象:一坨,有个坑,萝卜可填。至于这个坑怎么来的,最初长在谁身上,不重要。其实就是一个纯结构现象,无关语用。只要摆对解读结构的正确姿势,它就自然浮现。

李:
“子女不服管教”,这话听上去感觉不完整 虽然主谓齐全 因为有个坑没填萝卜:“【谁(的)】 子女不服管教?”

“心脏病不好治。”这话听上去感觉是完整的,虽然也可以问,【谁的】心脏病不好治?

白:
有隐含的logical quantifier

李:
“心脏病” 有坑没坑?还是说 这坑有强弱之别?
“子女”对 【human】 的坑,强过 “心脏病” 对 【human】 的坑,后者信息量也更大,更需要满足。

宋:
老王的子女不服管教。老王的子女不服管教者被老王打了一顿。

李:
这里,“老王的子女”是全集,“【其中】不服管教者”应该是个子集。

“子女都是不服管教的。” 这话就显得完整了: 因为全称小词“都”虽然 mod 的是 VP,但却作用于 NP“子女”,使得其坑显得没有必要填了,因为隐含的坑就是 “【所有人的】子女”,与 “心脏病” 同:“心脏病”的坑隐含的默认萝卜也是“所有人”。

老年人的心脏病不好治。
心脏病其实不难治,但老年人的心脏病除外。

上句的第一个分句,默认萝卜是 for all human;第二个分句 做了显式的限定,修改了默认值。

回到原问题:到底坑有没有必要区分强弱?

作为对照:及物动词肯定是有强弱的。有的必须要宾语(“善于”,“赢得”),有的最好有宾语(“喜欢”,“看见”),有的可有可无(“呼吸”,“诊断”),没有的话,大众心理就补足了一个默认值,从本体(ontology)来的默认: “呼吸【空气】”,“诊断【疾病】”。

白:
“心脏病不好治。心脏病不会治。心脏病不去治。” 谓语不同,对“心脏病”的坑有影响。第三个例子,最不完整。

李:
心脏病不去治,【你】不想活了? == 【你】心脏病不去治,不想活了?
心脏病不去治,【你】治啥?== 【你】心脏病不去治,治啥?

第一个【你】应该是病人,第二个【你】可以是医生。第一个【你】直接填“心脏病”的坑。第二个【你】作为医生,与“心脏病”的坑没一毛钱关系。

白:
是。对举可以削弱“萝卜的坑”。本来有一毛钱的入账,又有了两毛钱的债务。结果欠了一毛钱。成了别人家的坑

李:
最近想,退一步才好进两步,可谓真理。一辈子能够退一步的时机不多,总是忙忙碌碌,随波逐流,人在江湖,身不由己。如果因缘巧合遇到了退一步的机会,那么一定要惜缘。追求完美,不留遗憾,其实是常态生活的奢侈,但也可以是退一步的境界和机会。

为什么退一步反而可以追求完美不留遗憾呢?因为在高歌猛进的人生中,没有时间喘息和反思,难有机会从根子上改造,肩负的是历史的负担。只有在退一步的时机,才有可能重起炉灶,把历史负担当成经验教训的积淀。虽然慢了一拍,但磨刀不误砍柴工,最终可以更加完满。历史上,苹果公司的操作系统就在乔布斯的指挥下重起炉灶大放异彩。可怜的微软就总没有这样的机会,补丁摞补丁过了一辈子。

胡乱感叹一哈。

量子力学有个测不准哲学,其实对于语言学很适用。语言作为交流的工具,宏观上的可理解性是没有问题的。但是,测不准原理表明:从本质上来讲语言学不能做出超越统计学范围的预测。语言理解系统无论怎样逼近,永远也不可能在微观上 capture everything。那天白老师给了一个很妙的例句,是:“马可波罗的海上旅行”,让通常认为非常坚固的 4-gram 词 “波罗的海” 被另一个 4-gram “马可波罗” 遮盖了。可以设想一个分词系统的第一版本是 assume 4-gram 词以上就是正确的(实践中,匹配上 tri-gram词就相当靠谱了,这可算是一个分词的经验公式 heuristic),可以 identify 词及其概念。但对于上例,这个系统从最左向右匹配,赶巧就对了;若从右向左走,就错了。

毛:
有道理。这个例子确实巧妙。

李:
咱们进一步扩大疆界来逼近真实,就算搞定了 6-gram “马可波罗/的/海” (Note: 前一篇李白对话【李白71:“上交所有不义之财!”】中说过,其实搞定 5-gram 就可以认为是搞定了汉语分词,因为 5-gram 几乎是 local context 的极限了),咱们这就突破这个极限看看……。我要说的是,我们总可以找到一个context,使得以前的任何分词(及其分析)无效。

“我的朋友生了个双胞胎,绰号很奇葩,先生出来的叫千里马,后出来的叫波罗的海。我告诉他绰号也是有讲究的,有的可有的断断不可。千里马可波罗的海不可!(Note: 千里马/可/波罗的海/不可)。”

“朋友问为什么,我说因为有个测不准原理。千里马本体毕竟是动物,与人不远,可用。波罗的海本体自然物体,无法联想到人,故不可用。”

“马可波罗”乍看何其强大,甚至大过“波罗的海”(毕竟里面藏了一个万能小词“的”,是它的硬伤),也逃不过测不准的限制。最后大胆假设一下,立委牌中文深度分析器(deep parser)神奇地利用 long distance 句法或 休眠唤醒机制 帮助突破 local context,搞定了“千里马/可/波罗的海/不可” 的分析理解,so what?总还是会有“测不准”在,譬如:

“我舰/日航千里/马可波罗/的/海/不可/阻挡。(或曰:固有波罗的海,哪里有什么马可波罗的海?曰:先生一叶障目,知其一不知其二。马可波罗的海,乃印度洋别称也。)”

牵强?然而场景合理,语句合法,概率不是0。

想一想测不准,咱们搞AI,搞NLP的,怪丧气的:系统完美,只在梦中。但反过来想,其实是对完美主义者的有益警示:追求系统的完美和静态高指标从来不(应该)是核心目标,领域化能力和动态指标才是系统打遍天下的硬通货。不要想完美的事儿,只是要问:给你领域大数据,你多快可以让系统进入角色,让它上线转起来服务业务,然后对于 bug reports 的反应和修复速度有多快,系统在使用中日臻完善,虽然永远不会完备。

所谓追求完美不留遗憾,正解应该是对于架构和formalism的近乎受虐的追求,为的是到用的时候,到领域化的时候,到修复 bugs 的时候,可以庖丁解牛游刃有余。

毛:
你这个事情的性质不属于测不准,而属于词法/句法的不完备。测不准是对每个粒子而言的,每个粒子的位置和速度都有测不准的问题。而你讲的这个情况,是说不管什么样的词法/句法都有对付不了的特例,这就是不完备的问题。

李:
资源的不完备(不可能完备),在我就是系统的测不准,貌似也就是原观测对象的不确定性。

白:
@毛 是进出不同层次没有违和感导致的。一个字当作一个字,和一个字当作语言中的词的部件,是处在不同层次的。人偏偏要搅和在一起玩。这样会闹出悖论的,不过,NLPer似乎并不关心。

【相关】

【李白71:“上交所有不义之财!”】

【立委科普:歧义parsing的休眠唤醒机制再探】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白71:“上交所有不义之财!”】

聊一聊中文切词的 heuristics

李:
NLP 论文中常出现的一个术语 heuristics 怎么翻译好呢?想了 30 年了,用到的时候还是夹杂这个英文词,因为想不到一个合适的译法。最近想,大概是翻译成 “倾向性” 比较好。说的是某种统计上的趋向,而不是规律。

白:
启发式

李:
30年前,我有个同门学长乔毅常常鼓捣一些专业翻译,有一天他来跟我商量,问:“这篇说的是 heuristic 方法的 NLP,查了一下词典,是启发式,可这启发式翻译出来,等于没翻译,没人懂怎么启发的。到底 heuristics 是个什么方法?”

魯:
有些时候是ad hoc的意思

白:
翻俗了就是“偏方”。有例外的标配。

李:
当时我们琢磨半天,觉得所谓启发式,就是某种条件 (constraints),有时候甚至叫原则(note:原则都是有例外的),不是通常的 rule,因为 rule 隐含的意思是铁律,而这个“启发式”说的就是一种有漏洞的条件,经验总结出来的某个东西,模模糊糊是有统计支持的。明知有漏洞,但还挺实用。就这么个东西,困扰了我机器翻译专家30年。不是不明白,是明白了也还是不知道该怎么翻译。岂止一名之立旬月踟蹰,这是一辈踟蹰一名不立。

以上算是开场白。今天就来说说切词中总结出来的一些 heuristics。咱们倒过来说这事儿。把 input 想象成一个 ngram。首先说一条总的:切词中最大的 heuristic 是最大匹配原则,这是天则。

咱们来具体看看 ngram 的情形:

(1) 如果 input 是一个汉字 (unigram),当然就是一个词:因为无词可切。这是废话,但也不失为一个 heuristic,因为切词算法的最后一招就是 把字(语言学上术语是“词素”)当成词,可以保障100%召回率(recall)。因为汉字是非常有限的集合(【康熙字典】多少字来着?),可以枚举。所以废话(或常识)背后也有深刻的道理的。显然这个 heuristic 是有漏洞的,但是我们总可以用它来兜底。漏洞譬如那些所谓 bound morphemes:蝴,尴,它们理论上是不能成词的,如果万一被切词程序输出为词了,很可能是一个 bug(譬如原文在 “尴尬” 之间夹杂了空格或其他符号造成这种结果,或者原文说的就是这个汉字,不是指这个概念词素,那算是 legit 的 meta-word)。无论如何,切词模块在工程上和算法上几乎没有人不用这个 heuristic。

(2) 如果 input 是两个字(bigram) AB,而 AB 在词典里面,heuristic 告诉我们 AB 就是应该切出来的词。这个heuristic 是直接从最大匹配原则来的,几乎每个系统都这么办,尽管它当然有漏洞。漏洞就是所谓 hidden ambiguity, 理论上的 exhaustive tokenizations 中不能排除的 A/B 这种切词法。以前我们举过关于 hidden ambiguity “难过” 的 minimmal pair 的例子(见【立委科普:歧义parsing的休眠唤醒机制再探】):

这/个/孩子/很/难过
这/条/河/很/难/过。

其实,利用汉字作为 meta-words 的语用情形的话,一切的 ngram 都可以有一个违反最大匹配原则揭示 hidden ambiguity 的通例模式,是:

【ngram 】是n个汉字。

尴/是/一/个/汉字/。
尴/尬/是/两/个/汉字/。(尴/是/其一/,/尬/是/其二/。)
不/尴/尬/是/三/个/汉字/。
尴/不/尴/尬/是/四/个/汉字/。
尴/尬/不/尴/尬/是/五/个/汉字/。
………

虽然 100 个系统有 99 个半都明知这个 heuristic 有理论上的漏洞,而且也有实践中的反例,但是都心知肚明地 follow 这个最大趋势。因为好汉不吃眼前亏啊。在切词这种早期阶段,不 follow 这条带来的麻烦太大。识时务者为俊杰,英雄狗熊在这一点其实所见皆同,说明世界上傻子并没有那么多,除了“傻得像博士”。譬如我博士论文中就倡导过用 exhaustive tokenizations 的结果来 feed a Chinese HPSG chart parser, 有意违反这一原则,把 hidden ambiguity 从一开始就暴露出来,来证明句法或更大的 上下文 对于完美切词的重要作用。理论上没有问题,实践中也弄出了个可以应付博士学位的玩具系统(【钩沉:博士阶段的汉语HPSG研究】),但到了工业应用,立马就精明起来,随大流,从了 最大匹配的 heuristic。

白:
“马可波罗的海外奇遇”

李:
哈, “马可波罗”, “波罗的海”,4-grams 哎,人名和地名打起来了,也是奇例 。

回头说 hidden ambiguity,N多年后,我们还是高明了一些,退了一步,说,好好好,好汉不吃眼前亏,咱们还是 follow 这个最大匹配原则,但可以留个后门啊。后门就取名为休眠唤醒,《李白对话录》中多篇有论,有方法,有例示(【结构歧义的休眠唤醒演义】 )。这算是在理论和实践中找到了一个比较合适的折中,不至于面对 hidden ambiguity 的“切词命门”完全不作为。

白:
谁说切词的结果一定是流,不能是图?谁说即便是流,切的时候啥样,用的时候也必须啥样?谁说即便是流、即便用的时候跟切的时候也一样,但在更大上下文范围内发现用错了的时候必须不能反悔?

李:
白老师说的几点都对。但很长时间很多人并没有认识这么清。

接着练,(3)  如果input是三个字(trigram) ABC,heuristic 是怎么体现的呢?首先根据最大匹配heuristic,排除了 A/B/C,先踢出局。剩下有 AB 与 BC 的较量,如果二者都在词典的话。这时候,heuristic 说,汉语的二字词并不是都有相同的紧密度,即便用最粗线条的二分法,也可以给一些二字词比其他二字词更大的权重来解决这场三角关系(triangle)的危机。忘了说了,如果 ABC 在词典的话,AB 和 BC 都出局了,毫无疑问,因为最大匹配永远是切词阶段最大的原则。例外怎么办?后期休眠唤醒。

(4) 如果是四个字的 input(4-gram)ABCD,hueristic 又是怎样实施的呢?(别急,这么论事貌似进入了死循环,但其实胜利曙光已经在望,bear with me a bit)。根据最大匹配这个最高原则,ABCD 如果在词典(譬如成语),句号。ABCD 中任何一个连续的 bigram 如果在词典成词的话,A/B/C/D 也出局了,根据的还是最大匹配的 heuristic(或其变种,最少词数原则)。那么还剩下什么?如果是 ABC 和 CD 在词典,两家打架, heuristic 说,两家人家打架,人多者胜, ABC 胜过 CD(就是说,可以假定权重 heuristic 让位给词长 heuristic)。同理, AB 败于 BCD,其他的情形都是显而易见的,AB/CD instead of A/B/CD, AB/C/D and A/B/C/D,不赘述。

白:
如果ML,满大街都是heuristic。

李:
所以说 heuristic 应该翻译为 (有统计基础的)趋向性。学习也好,根据 heuristics 硬编码实现也好,总之是要 follow,不要与潮流作对,除了傻博士。

(5) 如果 input 是 5个字(5-gram)ABCDE,ABC and CDE can fight: if ABC is considered to carry more weight, then ABC wins.  后面的话不用说了。到了 5-gram,可以收网了。

其实迄今绝大多数切词算法,大多依据的是 local evidence,5-gram 几乎是 local 的最大跨度了。因此搞定了 5-gram 以内的 heuristics 的相互作用的原理,也就搞定了切词,虽然理论上所有的 heuristics 都是筛子一样,漏洞百出。这一点儿不影响我们前行和做 real life 系统。

金:
@wei 老师,想请教一下您对于深度学习做分词的观点:训练语料为手工分词文本,将文字按单字逐个输入,输出是结合输入语境对文字进行分词的结果。

李:
据说深度学习分词,精准度有突破。有突破我也不会用。除非有谁教会我如何简单地 debug,如何快速领域化。何况早就过了这一村了,工具架构算法齐全,不再需要与它纠缠了。

金:
如何领域化?在特定领域操作?

白:
让领域的人再标注领域的文本,不就领域化了

李:
不愿标注呢?或 cannot afford 标注呢?错了怎么 debug?再加大标注量,重新来过?重新训练可以保证对症下药解决我面对的 bug reports 吗?

金:
嗯,看过之前您的文章,关于统计和规则之间的渊源。如果就用深度学习一个模型,是这样。最大匹配的话,错误如何修正呢?

白:
都已经是锦上添花了,再错能错哪儿去

李:
明明就是个词典打架的事儿,非要标注文本。词典是有限的,而文本是无限的。

白:
领域会突破词典。

李:
那是领域词典的习得问题(lexicon/term acuqisition),是个更实惠的活计。相比之下,领域标注分词不是个划算的事儿。

白:
未登录词也得分。领域会引进新的heuristic,使得通用成问题的地方不是问题。做减法。

李:
手工标注海量数据是一种不讲效率的办法,人类举一反三,标注反着来,是举三返一,不对,其实是举30也很难返一,隔靴搔痒。幸亏它有几个优点。一个是提高就业率,简单劳动,而且白领,有利于维稳和安定团结。另一个是为不愿意进入领域的人做自封的领域专家铺路。管它什么领域,管它什么任务,只要你给我标注,我就用三板斧进入领域。

白:
不利于语言学家的就业率,也是罪过

金:
二位老师的观点有深度,

李:
不仅是语言、语言学和语言学家,所有领域专家都有遭遇。不求甚解于是风行。天上掉下一块鸟屎,都会砸到一个速成的领域专家头上,譬如不懂语言学的计算语言学专家。

白:
背后的逻辑是不与虎谋皮。没那么简单这事儿。

金:
数据标注得有领域专家来做标准呢。

李:
要是可以选择的话,不自由毋宁死。可惜领域专家没有这个气节。乐不颠颠地为精算师去制定标准,然后让他们成为高高在上的超领域专家。

白:
“孙国峰硕士毕业于著名的清华五道口,后师从社科院金融研究所李扬成为金融学博士。他硕士毕业后便参与了中国外汇交易中心及公开市场的建设,并从此肩负起货币政策的实施、制定、监管之责,与中国金融市场及市场中的一代一代的交易们一起成长。”

看看这段话,“硕士”极容易被当成“孙国峰”的称呼性同位语。

金:
这个就是环境的作用了,不是我们能左右的。

吕:
孙国峰,硕士毕业于著名的清华五道口 ….

金:
我想到一个和目前情况类似的人,最早著书的人,是不是大部分是领域专家,因为国家,因为文化,因为其他原因投身著书行业,把知识标准化,流传下去?

白:
@金 这样的是例外吧。

金:
我只是想到这个情况,而且更极端的是这群人因为生存因素,去著书,还有可能从谷底爬上巅峰(可能故事听多了)

白:
@金 楼歪了,言归正传吧

所有的交叉歧义、组合歧义,其实在词典定好以后就是铁案了,一定能仅从词典就机械地自动遍历枚举所有情况,这是学术界早有的定论。

问题之一在概率分布。领域无关相当于先验分布,领域相关相当于后验分布。后验分布如果明显不同于先验分布,领域知识就有优势,否则就没优势。

阮:
比如说医疗领域,会有一些特殊的词,也会有特殊实体,句法的话,应该也是符合自然语言句法的,但分布应该不太一样。 我需要重新完全标注语料呢,还是标注一部分?标数据这事,谁来做,也确实很头疼。语言学家觉得和他们没关系,也看不太懂。而医学更加不知道标语料为何物。

白:
问题之二在未登录词。你说再多词典没定义都是扯,只要影响应用,没人会听你的。所以做好构词法,应付未登录词是刚需。神经是不分登录词未登录词的,就是说如果ABC、ABD都没见过,语料里标注了ABC,神经是有可能学会ABD的。并不是说要分词只有词典化一条路。而构词法是里,分词是表。学会构词法可能首先是通过分词体现出来的。神经不是“仅”学分词,而是“同时”在学构词法。比如“中证协”标注了,“中保协”没标注。神经可以学会“中保协”正确分词,但并不说明“中保协”一定在词典里。

李:
学构词法有个悖论。学会不在词典的词可能对于粗线条的任务有好处,但对于分析和理解自然语言没有什么好处,你必须同时学会这些不在词典的词的可计算的信息部件才算数,譬如句法 features,概念语义及其在本体链条上的位置,等。对于自然语言 parsing 和 understanding,切词的目的就是要获取关于该词的词典信息,作为进一步分析的基础。现在分了词了,却没有对应的词典词条,那不是白分?这就是我说的悖论。

今天遇到一个好玩的:上交所有 …,分词为 上交所/有。

白:
交叉歧义。长词优先。

李:
我实习生说 错了,她坚持改过来:上交/所有
原来她心里想的是:上交 所有 不义之财。我说难道你不知道,上交所 有 个 大名鼎鼎 的 白老师?

白:
严正声明:上交所没有不义之财。

李:
此地无银啊?
“上交所”在90后的头脑里是个未登录词,未登录的或可免责。如一不留神道破天机,纯属意外。明儿让她进来给白老师赔罪。

吕:
哈哈哈

金:
有趣

巴:
学生菜鸟一枚,特来给白老师赔罪。
请各位老师多多指教啦~

白:
@巴拉巴拉 应该找上交所的CFO,我前CTO不管这段。

巴:
哈哈哈哈,总之是妄言了,先赔罪总是对的。

白:
@巴拉巴拉 这群有意思,可以偷到很多艺

讨论NLP居然如此欢乐,也是醉了

唐:
Heuristic=educated guess, or sub-optimum solution, 这个在算法界没有歧异呀!
ngram取5就能处理大多数问题。 我们在网络安全上学习domain name也是这么用的。

李:
唐老师给个权威标准译法吧。
启发式 不中。

洪:
“上交所有不义财!“
如何正确词划开?
分词若有人使坏,
上交所的脸吓白。

李:
今年是金融反腐年,据说金融腐败和金融政变是关系到党国生死存亡的。

唐:
个人认为: heuristic 翻译成“次优解“更好。

李:
问题是 很多时候 必须遵循。次优的言下之意是不要遵循,应该追求更优的。除了傻博士 大家都明白,次优往往就是最优。

唐:
次优的意思是,大多数要用因为找不到最优。

李:
在给定时间空间 次优就是最优。

唐:
5-ngram对中、英文分词有效,对其他主要语种是否也有效?

李:
很多浅层的任务,如分词和POS,都是主要靠 local evidence,5-gram 基本上就是 local 的一个比较恰当的定义上限。

唐:
你今天的博文解答了我的一个问题: 为什么dns domain name分析只要5-ngram就行了!真是他山之玉可以攻石

 

 

【相关】

【立委科普:歧义parsing的休眠唤醒机制再探】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白70:计算语言学界最“浪漫”的事儿】

白:

根据什么知道“他人”不是三个动词共享的逻辑宾语?—-相谐性!

李:
【human】vs【physical-object】?丢失【physical-object】vs 丢失【human】?
丢失“孩子”呢?假如是直接量相谐的统计对比,“丢失-设备”与“丢失-他人”,前者完胜。
如果是上升到类别上去做对比,丢失-【physical】与丢失【human】就有可能会势均力敌,假如 “丢失-孩子” 的说法在语料里面特别高频的话。

直接量对比最好,可是总有数据稀疏不足为据的担心。类别对比克服了稀疏数据,也可能走偏。“申领”类似,似乎也可能申领【human】? “ 损坏”好像比较单纯,很难“损坏人类”(人类够皮实的?)。到了“转借”问题复杂了,是个双宾词,大数据里面,跟 【human】与跟【physical】的都很多。当然,现场已经让【human】(“他人”)占了坑,只剩下【physical】的可能,如果要把这一套符号逻辑加入大数据相谐的统计里面去,貌似也不是很好整,虽然琢磨起来总是头头是道的。

白:
三个动词共享的话,备选坑的subcat取最小公共上位。
损坏的坑不是human,甚至不是animate,看来只能是physical
大家都从它。

李:
最小公共上位,实现起来又多了一层,而且预设了 并列结构的正确识别。看看这个问题的完满解决牵涉了多少不同层面的预设:

(1)预设并列结构识别
(2)预设最小公共上位
(3)预设排除已经占据的坑的类别

这里面的每个预设,说起来都很合理,但揉进一个算法里面就感觉有相当挑战。这只是就这一个案例的应对思路所做的抽象。遇到其他案例,也会出现其他听上去合理的应对。然后把这些合理应对整合起来成为一套相谐性checking的算法,感觉上不是一点点的挑战。

白:
显然这时候就看出来中间件分离的好处。相谐性检查也好,求最小公共上位也好,都是matcher向中间件请求,中间件回应matcher的关系,中间件并不介入matcher自身的逻辑,不介入待分析文本的结构性判断。

梁:
两个词的相谐性,可以计算出来么?或统计出来吗?

白:

李:
处得久了 粘在一起 chemistry 就确定了。大数据可以。就是如何实施的 know how 了。

白:
“避免了一个十亿人口数量级的核大国彻底倒向美国和日本成为死敌”
和谁成为死敌?谁和谁成为死敌?

1、十亿人口的核大国和日本
2、美国和日本
3、十亿人口的核大国和缺省主语
4、十亿人口的核大国和美国

李:
我昨天下午也搞定了一个痛点: 就是 “学习材料” 类。完满解决这个问题 其实有几个坎儿。凑合事儿也可以,但总觉得对于这么普遍的现象,还是形成一个一致的比较完美的解决才好,类比以前对于离合词“洗澡”的解决方案那样。

说个有趣的汉语缩略现象:

南美北美 –> 南北美
上位下位 –》 上下位
进口出口 –》进出口
AxBx –> ABx

some more examples: 红白喜事,冷热风,高低端,东南向,南北向,软硬件,中青年,中老年,黑白道,大小布什 ……

这些个玩意儿说是一个开放集(合成词)吧,也没有那么地开放;说封闭吧,词典也很难全部枚举。它对切词和parsing都构成一些挑战。这是词素省略构成合成词的汉语语言现象,还原以后是 conjoin 的关系 (Ax conj Bx),至于 ABx –> AxBx 的逻辑语义,还真说不定,因词而异,可以是:(1) and:南北美 –> 南美 and 北美;大小布什 –>大布什 and 小布什;(2)or:冷热风 –> 冷风 or 热风;正负能量 –> 正能量 or 负能量;(3)range:中青年 –> from 中年 to 青年,中老年 –> from 中年 to 老年;(4)and/or: 进出口 –> 进口 and/or 出口;(5)一锅粥(and/or/ranging): 高低端 –> 高端 and/or 低端 or from 高端 to 低端。

白:
小微银行;三五度

李:
逻辑语义解析先放一边(很可能说话的人自己就一笔糊涂账,不要勉强听话人或机器去解析 and、or 还是 ranging),就说切词和parsing的挑战怎么应对就好。冷热风 在传统切词中是个拉锯战:【冷热】风 vs 冷【热风】;“南北美”:【南北】美 vs 南【北美】。

看官说了,还是 南【北美】 似乎对路。可那个撂单的“南”怎么整呢?

白:
词不都是切出来的,也可以是捏出来的

李:
【国骂】,切词切词,只让我切,不让我补,这不是憋死我吗?不具体说雕虫小技了,要达到的目标是:Input:南北美;output:【南美 conj 北美】。

问,难道切词或 parser 还能补语言材料?当然能。不能的话,bank 怎么成的 bank1 (as in bank of a river)和 bank2(as in a com李rcial bank)?举个更明显所谓 coreference 的例子:John Smith gave a talk yesterday. Prof Smith (== John Smith), or John (== John Smith)as most people call him, is an old linguist with new tricks.

白:
高低杠、南北朝、推拉门、父母官……

李:
This last example below demonstrates the need for recovering the missing language material:

A: Recently the interest rate remains low.
B: How low is the rate (== interest rate)?  // 不补的话,就不是利率了,而是速率。

所以 parsing 中适当补充语言材料,重构人类偷懒省去的成分,也是题中应有之义,虽然迄今绝大多数系统都不做,也不会做,或没有机制或相应的数据结构做。

白:
不该补的也要那个。反方向的还不普遍?比如“海内外”

李:
听上去好像我的系统做了似的。必须说句老实话,目前还没做。虽然没做,这些个东西老在心里绕。绕老绕去问题清晰了,candidate 策略s 也有了,就是等一个时间点,去 implement。做实用系统有一个毛病,千头万绪,大多是跟林彪似的,急用先做。不急用的,甭管心里绕了多少回,往往是一等再等,几十年等一回,那一回有时候似乎永远不来似的,有时都就等到白头了。其中一个办法描述如下:假如 “南北韩” 不在词典里,但“南韩”和“北韩”都在,“南北”也许在,也许不在,不管他。切词的结果不外是:南/北韩 or 南北/韩。“揉”词的算法可以放在切词之后。最简单的算法就是再查两次词典,如成功,就把切词结果加以改造,爱怎么揉怎么揉。

(1) Input: A/Bx
Is Ax in lexicon? If yes, then
output: Ax conj Bx

(2) Input: AB/x
Are Ax and Bx both in the lexicon? If yes, then
output: Ax conj Bx

(3) Input: 海内/外:
Is 海外 in the lexicon? If yes, then
output: 海内 conj 海外

张:
李白对话将载入计算语言学历史

李:
前些时候,还真有个出版商寻求合作,要出版个啥 NLP 系列。旁门左道,从来没想要出书的,甚至写了也不管有没有读者。总之没拿读者当上帝。自媒体时代,写已经不仅仅为了读,写主要是为了写,日记疑似。与其读者做上帝,不如自己做上帝。反正也不指读者养活自己,完全是共产主义义务劳动,而且是高级劳动。此所谓,说给世界听,可并不在乎世界听不听。后来想起《对话录》,我说,也许你应该去找白老师。如果白老师愿意,倒是可以选辑修订成册。里面不乏精品,譬如最近的这篇:【李白69:“蛋要是能炒饭,要厨师干啥用?”】。

张:
计算语言学界最浪漫的事就是不忙的时候(坐在摇椅上)看李白悠悠地“怼”,慢慢地“坑”

白:
如果前缀两个字,就比较容易接受:大江南北、长城内外

李:
“大江南北、长城内外” 不同,“大江南” 、“大江北” 不在词典,而是句法组合。“大江-南” 是句法,“大江-南北” 也是句法,没有必然的必要性去补足构词材料。

白:
但是相比共享后缀,语义并无结构上的特别之处。所以补足只是针对同类现象的部分解决方案。按构词规则捏出一个有微结构的合成词才是根本。

“欧洲一体化已死,何须中国分裂?”  有个“它”或者“之”,关系会更明确。

李:
那就有点不伦不类了。“欧洲一体化已死 何须中国分裂之”,听上去成诗句了,好比
“花开花落两由之”。

白:
多好。如果像我引用的那样,就比较麻烦,总得有些关于统一和分裂相对关系的铺垫才能正确理解“中国”在其中的使动角色。

李:
想起个故事 在我知道胡适之是胡适之前,我写了句 “胡适之名句”,那还是高中的时候。高中同班一个公认的秀才,老夫子,读书巨多,平时颇孤傲,会背诵古文观止。 他马上对我刮目相看,他没料到我居然知道胡适乃是胡适之。别小看一个之,知道不知道它当年被认为是有学问与孤陋寡闻的重要区别。天地良心 我的确不知道胡适还有个之。后来知道了,不禁哑笑,哈,被学问了。秀才最后成了一辈子最铁的朋友,现在也在米国,做大学教授 系主任多年。

白:
英语“xxx specific”怎么翻译才地道?直译为“yyy特定的”读起来很不爽。比如“language specific”我宁愿麻烦点翻译成“针对特定语言的”。见到“语言特定的”这样的翻译,总感觉不舒服。但是,汉语处理已经必须处理这种因为直译导致的语言现象了。因为我们左右不了人家的翻译质量。

昨天徒步时看到的“旅游厕所”让我对降格又深入了一步。简单地看,这是动词“旅游”降格做定语修饰“厕所”。但是,1、“厕所”无法反填“旅游”的坑,这和“打火机”不同。2、“厕所”并不是与“旅游”的坑完全隔绝,它是给旅游者上的厕所。构词的微结构里面虽然没有直接出现“上”,但是这个“上”却是连接“旅游”和“厕所”的枢轴。跟前些天讨论的“孟姜女哭倒长城”里面那个没出现的“修”,有的一比。述语动词“哭”和结果补语“倒”没有相谐的共享坑,但是深层次通过“修”和“丈夫”的坑,延展开来实现了共享。

王:
我感觉是“旅游(用)厕所“,这样绑定是否可行。“上“有点窄,但“用”面大,覆盖广,只要没有反例就好。类似英语动词+ing。traveling toilet。学英语时,v+ing,分词和动名词,用来旅游的厕所 or 旅行着的厕所(移动厕所)。不知对构造新词是否有帮助。

白:
直觉“旅游”和“厕所”也是通过“上”实现了回填。等下我画个图验证一下。“用”也还是意犹未尽,不是严格用填坑关系串起来的,是一个虚动词,“上”是一个实例。

梁:
我有点忘了,“孟姜女哭倒长城”是孟姜女晕倒了,还是长城倒下了?好像两种理解都可以。

白:
长城倒了。
旅游[的](上、用……)[的]厕所

双线是“旅游”成为“厕所”定语的路径。简化一下:

把phi_1、phi_2缩并到“旅游”,形成虚拟节点“旅游'[S/N]”的话,上图就进一步简化为:

回填结构昭然若揭。phi_1是“旅游者”,phi_2是“上、用……”。

王:
第一个图好理解,简化后自己有点跟不上了,呵呵!当然白老师心中是门清的,只要可操作就是好的。

李:
为了一个定语 弄出两个无中生有的节点 才把这根线搭上,够绕的。某人 v 了厕所
此人 旅游,因此 旅游厕所就是为某些旅游的人所v的厕所。萝卜坑貌似搭上了,不过绕了这么一大圈搭上了又有啥好处呢?

白:
1,如果对不能反填置之不理,这一步大可不必。2,深层语义结构本来如此,顺藤摸瓜找到相谐的反填路径,看起来是句法任务,实际已经是语义任务。所以parser只做到降格就可以收工了。

李:
对于 “v (的)n”,知道 v 是 n 的修饰语 是根本,v 的坑 对于语言理解不重要,或无关系,因为语言中的谓词,填不上坑或不值得填坑的,是常态 是多数。需要填坑的(处于clause里面的)谓语动词是少数,多数是非谓语动词。即便谓语动词 一来也常省略萝卜
二来可填的坑 句法痕迹也比较明显直白,不会那么绕,少数远距离例外。

白:
对句法不重要,对语言理解不能说不重要。无中生有只是假装,其实联想到的实例都是有的。旅游厕所真的就是那个意思啊…… 难不成碰到了那个意思还要过河拆桥,告诉别人不存在这个桥。

王:
我觉得白老师对新词的剖解挺好,词生有根,把根找到是件有意义事情。当然在有些处理新词场合,可能不需要处于隐形的中介出场。一旦需要时,能有套路可找到,那么这价值就体现了。这也是机器搜刮了词典中的多种关联后得到吧。不排除有些情况可能找不到,也有可能找出了多个。这可能更大视野来考虑相协。

白:
刚才用“坑论”试了一票英语例句,巨爽。

李:
Man 填了万能词 is 又填 fat 中间还来个 +N  看上去有点复杂 (N+ 是定语,+N 应该是后补同位语)。/N 在身边没找到萝卜 就进休息室了 +N 守株待兔 等待左边来客,这一套蛮绕。

白:
@wei 别看man填了那么多坑,除了一个花了额度,其他都是免费的,而且都说得清来由。这个免费额度的机制,看来真的是universal 。

“自从有了智能移动电话,我的智能、移动和电话都在减少……” 这段子,又涉及微结构了。

宋:
“制裁没起作用,朝鲜又爆炸了氢弹。”其中,“制裁”的受事是“朝鲜”。机器没有相关的背景知识,能发现这种论元关系吗?

李:
“制裁没起作用 美国只有先发制人一途了。”

白:
“制裁没起作用,中国躺枪。”

李:
对于 hidden 论元 既然说者都不愿显性表达出来,为什么要挖出来?在哪些应用场景 需要挖出 hidden roles 哪些场景不需要?机器翻译基本不需要,信息抽取和大数据挖掘的应用也基本不需要,explicit 论元都成山成海冗余无度呢。自动文摘的场景不需要。阅读理解的场景似乎是需要的,但这也看哪一种level 的阅读理解,四级阅读与六级阅读 要求不同。总之 感觉多数场景不需要。实用主义来看 做了也白做 何况做也难做好。

白:
这根本不是个别词的问题,而是场景的问题。在先行的大场景中各自什么角色,决定了填“制裁”坑的萝卜是谁。向后找萝卜,方向反了。

“耳朵聋了,莫扎特的音乐照样演奏。”
“耳朵聋了,贝多芬的音乐照样演奏。”

吕:
这个需要接入外界知识了

白:
第二句有歧义,第一句没有。原因,就是大家知道莫扎特和贝多芬谁耳朵聋了。可以把“贝多芬耳朵聋了”看成一个先行场景,“联立地”决定后续空白坑的填充。重要的事情说三遍,只要语言不要常识不要常识不要常识。Simultaneous anaphor

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白69:“蛋要是能炒饭,要厨师干啥用?”】

李:
“炒饭” 默认是合成名词,但也可能是动宾结构的 VP,与 “烤红薯”、“学习材料”,甚至“已成事实” 类似,汉语中极为普遍的现象。今天想,从“炒饭”到“蛋炒饭”、“酱油炒饭”,后者的名词性增强,动词性的可能减弱, 但其实也不是不可能翻案:

A: 我很笨,我不会炒饭,我炒饭不好吃。
B: 你蛋炒饭呀,酱油炒饭呀。你如果蛋炒饭,就不会不好吃了。

“蛋炒饭” 里面的微结构是 clause 不是 VP,“蛋” 是【instrument】or【material(ingredient)】做主语。这不影响它可以从词法(morphology)上带有clause微结构的合成词转化成句法(syntax)中的VP,理所当然地再要一个主语:

“蛋能炒饭,肉也能炒饭,菜也能炒饭,没有不能炒饭的。”

白:
S降格为N+,需要统计支持,需要字数等条件。

“蛋要是能炒饭,要厨师干啥用?”

S自带的S+,先跟S搞定,回头S再降格。微结构分原始结构和定型结构。原始结构没有降格处理,定型结构加上了降格处理。即使降格,仍然存在填坑关系,但是呈环状,降格–修饰–填坑关系呈环状。颠覆,不仅仅是打开微结构,而且要“去降格化”,全面复辟到原始结构。

李:
白老师高大上的思路,隐隐约约似乎看到了端倪,但不敢说真 follow 了。主要是白氏术语多,但没有术语工具书或密电码,譬如: S, S+, 降格,原始结构,定型结构,填坑关系,呈环状,去降格化 ……

“蛋要是不能炒饭,啥子能呢?”
“蛋不仅能炒饭,蛋黄还能做月饼,蛋清还能美颜,连蛋壳都能做工艺品。”

蛋能着呢,一身是宝。相比之下,厨师最多就是做个饭,厨师不会美颜,也做不了工艺品。蛋与厨师,谁高谁下,不是一目了然吗?这是大学生辩论乙方的辩路。白老师代表甲方,立论是:“蛋要是能炒饭,要厨师干啥用?”

白:
按构词规则捏出一个有微结构的合成词才是根本。

李:
秀一下 捏出啥样子较好。

白:
上午徒步……方便时画几个图上来。

白天徒步时,多处看到“旅游厕所”的牌子。“旅游厕所”的微结构是啥?与“蛋炒饭”不同,“旅游厕所”并不存在翻盘的可能。

旅游只有一个标配坑,而且subcat是human类型。厕所无法填入。

李:
蛋炒饭的图示,pos 是 N,词法内部微结构就是个【主谓宾】。白老师图示的微结构没看出做主语的痕迹,不知道为什么。是因为主语要查chemistry,蛋不是 human 不够格吗?那个 with 降格 没看懂。

白:
说的对,蛋不是核心成分,是外围成分。用一个虚拟介词拉到动词势力范围来,不够格作主语。

李:
去降格化 回到了这个合成名词的动词 subcat 的潜在能力,it is a candidate 2-arg verb:/2N, 这就为翻盘成为 VP 谓语造就了可能。 翻盘还留有一个 human 主语的坑给句法。

白:
但 蛋还是不够萝卜资格。谁炒?所以那个段子,蛋要是能炒饭,要厨师干啥,之所以好笑,就在于,把蛋和厨师相提并论,

李:
“蛋” 在 “蛋炒饭” 里不够格,在 “蛋能炒饭” 里够吗?

白 :
也不能,是穿透的,能用蛋炒饭 的意思。
不够格的和够格的相提并论,核心成分让步,只能是修辞,不能是其他非核心成分。

李:
这是句法主语与逻辑语义错位造成的幽默。的的确确是句法主语 ,符合主语的一切分布,甚至可以放在(状语)从句的分布模式里:如果 S Pred,S 如果 Pred:

“如果蛋能炒饭”
“蛋如果能炒饭”

【工具】和【材料】 做句法主语在汉语是天经地义,仅次于【施事】做主语,比【受事】做主语还常见。其实英语亦然。

白:
问题是我这没有形式主语标签,句法主语标签毫无意义。我不想沾它,而且不沾也不影响。

李:
句法主语的独立性 总之是有依据的。什么叫 “核心成分让步,只能是修辞,不能是其他非核心成分”?

白:
就是那个角色不是human了,至少也是拟人化的。这才可以当作修辞用法。

李:
哦 那是修辞 ,修辞很常见的。

白:
蛋不是修辞用法,不在此列。

李:
“蛋” 从主语坑让一步,自己降格为PP,作状语?

“蛋炒饭” 里面, 既然在 v 前有 n,鲁棒的系统默认不降格的,因为选无可选 滥竽充数了。人的语言理解过程感觉也是这样的。

白:
鲁棒的系统应该在语义层面无计可施时,把它加回核心角色,不降格,修辞用法。句法层面作状语,并没走远。

李:
不降格, 到不得已时再让位(主语的交椅),而不是先降格 留个坑,等还不见影子的萝卜。

白:
怕甚?无非是句法功劳少点,语义功劳多点而已。

李:
不太合节省原则。句法存在的认知基础,就是给语义省力。

白:
又没到位,没看出省力了

李:
默认涵盖了多数情形 不费力 不用常识。不得已再用。遇到 n v n 就默认svo,当然省力了。

“鸡蛋拌番茄”,“鸡蛋” 也是降格?

白:
当然。翻译成英文,不也得降格么

李:
鸡蛋用番茄,鸭蛋用土豆 …
(as for eggs please use tomato …)
谁用?也是降格。

白:
谁会用谁用。反正鸡蛋鸭蛋不会,除非修辞。但修辞也不是as for的意思。

李:
哈 鸡蛋“能”用 鸡蛋不“会”用。就如乔老爷批判人工智能说 “潜艇不会游泳”。

图中 N+ 怎么回事?S+ 是N因为不够格而降格为状语,哦 N+ 是做了定语,动词委屈降格做了定语。父子翻转。

白:
N+是动词不经由定语从句,直接做了定语。

李:
经不经 【定从】 关系不大,为什么又“去降格化”?
其实微结构所谓降格都是做给人看的,讲究一个事出有因,但既然在词典里面 其实不必讲这个合成词内部的故事。就是绑架 洗脑即可。关键在微结构的V的潜在翻盘性。

白:
去降格是源头,降格是过程,N是结果。要想翻盘,就要回到源头,而不是回到过程

李:
那你那图示次序反了,源头弄在中间了。降格那一节 不提也罢。降不降 都是 N 了, 词典规定的默认。汉语词法句法道理相通,但词典词法不必讲理。 句法不讲理就不行。

白:
我没有次序含义,就是一个个罗列出来。
词法捏出未登录的合成词,还是有法可依的。

李:
对 对于open词法 需要捏,open morphology 必须有法 讲理。

降格者何时升格?修辞何时实现?修辞实现用标记吗?
green ideas 能 sleep 吗?“小红帽发了一顿牢骚” 怎么弄?还有很多很多灰色地带,资格不好认定的地带。要 【human】 的,【org】 不行吗,【animal】 不行吗?

白:
顺杆儿爬,顺杆儿滑。

李:
不过那个降格而捏的图示 真 implement 还有一些沟沟坎坎。 不过是给了个捏的道理罢了。道路依然不明。

白:
句法上承认不相谐的依存关系,语义上就只有修辞一条退路。但句法上到底承认不承认,有很多策略选择。

李:
但的确有灰色地带 介于修辞和正解之间的。坑与萝卜的 chemistry 是一个 spectrum,不是一个死条件,跟找对象一个德行。凑合事儿的也有过了一辈子的 还不少。

白:
这里问题不是给什么句法标签,而是最终是否碰的上。碰的上就不怕。

李:
碰不上就升格凑合?然后做个标注 这是凑合的修辞萝卜?

白:
不管在二楼碰上还是在三楼碰上都没关系。“蛋炒饭”的例子,“蛋”升格不就成了修辞萝卜了么?这是需要外力的,比如与厨师相提并论。没有外力,升格的可能性微乎其微。当然,形式的不算。既然升格,就是冲着逻辑的核心角色来的。“蛋”的工具主语的解释和修辞解释的不同就说明了问题。

李:
工具解释是临时职称,修辞解释是代理主任。临时是没办法 先凑合。乔老爷的名句 都不应该升格。因为没有纯句法以外的外力。“绿色思想今夜无眠”。“绿色思想”只能看成是“今夜无眠”的某种状语?

白:
还有另一种可能性,就是“绿色思想”看成专名。比如酒吧的招牌。酒吧再无眠,就是修辞了。同样拟人,以酒吧拟人就比以抽象事物拟人更靠谱点。

李:
是啊 这是spectrum, 讲的是本体资格距离。 其实还是三角恋力量对比的策略最实用,二元匹配不好对付灰色 三角就容易了。脚踩两只船 不得长久。最后当事人必须选择 是“他” 还是 “他”?凭着感觉就行了 选择通常不难。没有比较的选择就太难了。

王:
蛋炒饭,蛋能炒饭,真是够研究的。看了李白老师关于“蛋炒饭”这菜名讨论,感觉有些菜名无不用其奇,不考虑NLPer的辛苦,NLP很多性能不高,就坏在这“菜”上了,只要能解决就好,本来NLP大山就多,可这零碎的泥坑也不少。

白:
“蛋炒饭”其实是两个问题。一个是通用能产的构词法问题,一个是特定语境下的反悔问题。通用能产的构词法,就算没有,也可以通过“词典硬性定义+原始微结构”给反悔留出线索。通用能产的构词法怎么才能有?各种在句法层面使用的不太多的“降格”手段,在构词法层面可以有。这是关于“蛋炒饭”讨论的核心。

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白之68:NLP扯着扯着还是扯到萝卜填坑】

李:
发现 “引进” 与 “引入” 可能方向不同 虽然应该是同义词。读【李白之29】(“依存关系图引入短语结构的百利一弊” ),突然觉得不对劲 这不是我的原意。原来想说的是,“依存关系图引进短语结构的百利一弊”,或者,“短语结构引入依存关系图的百利一弊”。a 引进 b,语义主体是 a 而 b 是逻辑修饰成分;b 引入 a,a is semantic head while b is modifying element。不知道这个语感对不对 是不是语言共同体的 还是语言学家的走火入魔?

另 并列排比的力量很大 汉语为最 英语也有:

“One in the morning and one afternoon”

力量大到了可以生生把 one afternoon 拆散,棒打鸳鸯 可 NLP 界对这种现象研究和应对却远远不够。排比句式的自动处理及其与parsing 的无缝连接 可以做一些博士课题 排比是并列的延伸,而并列现象早就公认为是nlp的拦路虎之一。

白:
何以见得?程序员会首先说,编译通不过

李:
万一编译器鲁棒通过了呢。

两个什么?论最近原则 是两个西红柿。但还有一个更大的力量,就是前面说过的排比的力量:一个x ……两个【 】。

白:
通过的那种编译不叫鲁棒叫自作多情。如果论排比,那“一个啥啥”前面也得加“如果啥啥”。

李:
排比的力量真地很大 感觉强过距离 虽然这几句不 make sense.

白:
“孩子”是称呼对方还是指称对方子女,这是个问题:

白:
“拍的一手好照”……第一次见到这个说法。

李:
洗的一把好澡
吃的一桌好饭
拍的一屁股好马
吃的哪门子醋
吃的一坛好醋 双关 嘲讽

白:
你那些统计频率够高,这个不行

李:
露一手
拍一手好照片
踢一脚好球
踢的一脚好球
想一脑门心思?

“脑门” 与 “心思” 搭配,“一手” 却与 “照片” 并不怎么搭,“一手” 与 “拍” 似乎搭。

白:

如果“所”负载“他所说”,那么“他所说的”就是“所”填“的”坑。交叉了不说,感觉有点怪。
“所”是个纯粹的逻辑宾语提取算子,“的”则广谱一些,既能提取逻辑宾语,也能提取逻辑主语,而且接名词能构成定语,不接名词自己就升格而名词化。

李:
小词负载结构 也负载语义吗?我想请问的是 白老师系统如何区别 “所” 提取宾语的标配,与 “的” 既可提取宾语 也可以提取主语?这个区别如何在语义上实现?体现
在 pattern rules 里面的话,这个区分很容易实现。

白:
词负载语义结构,使用的是subcat类型演算。也就是说,“所”和“的”的提取对象,在cat层面不做区分,在subcat层面做区分。“的”提取“剩下的那个不饱和坑”所携带的subcat,“所”提取“代表逻辑宾语的那个不饱和坑”所携带的subcat。如果两个以上坑不饱和,如“卖的”,则取两个坑的subcat的最小公共上位(上确界):sup(human,human,object)=object。等待一旦其他成分做出更加specific的限定,比如“买的不如卖的精”或者“卖的都是假货”,再图改变。

李:
那是 unification 的本来意义:unspecified until more specific

两个小词提取(代表)的不同,在 subcat 演算上实现。这个 subcat
是谁的 subcat,又是怎么做 subcat 演算的?对于实词,cat 决定句法(萝卜与坑 以及 mods),subcat 决定语义(semantic lebaling 解析逻辑语义),我们可以想见。
对于小词呢?

白:
小词要具体分析

李:
从哪里看出来 “所” 指的是宾语。

我的所爱在高山。
我所爱的在高山
我所爱在高山
我所爱的人在高山。
我所爱的东西在高山。
我爱的在高山。
爱我的在高山
*所爱我在高山

白:
上面讲的“所”和“的”,我们用的词是“提取”,意思就是说它的subcat是copy来的,在copy之前,它是一个指针变量。说清楚了,谁填你的坑,你提取谁的哪个坑所要求的subcat

李:
“爱我” 只剩下一个萝卜 所以 “爱我的” 就是那个萝卜(代表)。为什么 “所爱我” 不成立?“所我爱” 其实也不成立,只有 “我所爱” 才成立,这个体现在哪里?

白:
我不管什么不成立啊,又不做生成只做理解。做生成也不这么做

李:
哈 这总是少了一个 leverage。赶巧了 词序不对的序列 不会出现 因此把词序 leverage 从 parsing 中扔开 貌似多数时候可行。但总是会遇到某种时候,词序的条件恰好就起到了帮助 parsing 的作用。

白:
subcat完全相同才会考虑次序,这时逻辑宾语右侧填坑优先。但是“所”提取逻辑宾语是硬性的,比只是“优先”来得更加强大。所以有了“所”,就轮不上这些右侧优先了。

李:
这种优先度的调整 听上去是宏观算法的考量,而句型subcat里面所规定的词序(如果词典规定的话)则是微观的。后者比前者更加精准。

白:
前者更加robust。我之所以放弃pattern,就是因为它管了不该管的事儿。

李:
动词句型的subcat,管得恰到好处呀,句型里面说在左边,那就一定在左边。

白:
好好说话是生成该管的事儿。而在各种糟糕语序下尽可能猜测对方意思是分析的事儿。

李:
句型里面的词序规定,与对小词的规定,以及对实词的规定(强搭配规定实词本身,弱搭配规定实词的本体)。所有这些规定都是一以贯之的。不管是分析还是生成,一个句型长什么样子 是植根在句型 subcat 的词典里面的。这是词典内语言知识。至于这个知识用于分析,可以适当放宽而鲁棒,或者用于生成,适当收紧而顺溜,那是知识的实用层面的考量,而不是知识本性发生了变化。

譬如 “邮寄” 带三个坑,其句型就是:

1. [human] 邮寄 [human] [object]
2. [human] 把 [object] 邮寄 (给) [human]

白:
理想的词负载结构,是可以100%把句型语序再现出来的。使用刚性方式(override)还是柔性方式(优先级),只不过是实施当中的工程选择,与理论无关。如果我愿意,也可以都采用刚性方式。但是我不愿意。比如及物动词六种组合语序,双宾动词24种组合语序,其中有多少种是合法的,我不需要关心。也不会用罗列的方式去挑出合法的组合。

李:
不同策略的选择 如果信息无损 当然无所谓。说的就是,在采用优先级柔性方式对付词序的时候,至少在词典化的句型信息方面,条件是受损的,词序这个显性形式没有得到充分利用。弥补它的手段包括中间件的查询。但是中间件的查询,其本性是隐性形式的使用,而词序是显性形式。

白:
没看出来受损。

李:
受损在:本来是由谓词本身来决定萝卜的词序,作为条件之一来填坑,现在却交给了谓词以外的东西。交给了算法中的优先级 and/or 中间件的查询。这个损失蛮显然的,对于所有把谓词本身与其句型的词序规定分开的算法。

白:
搞混了吧,这是谓词自带的,不是交给了算法。

李:
谓词自带词序??

白:
第一个坑、第二个坑谓词自己是有指针的,自带优先序。

李:
NP1 eat NP2:NP1 NP2的词序是词典决定还是……?至少 S/2N 貌似没反映词序。这个2N 里面没看出词序信息。

白:
说的就是第一个坑优先左侧结合,第二个以后的坑优先右侧结合。句法不管而已,subcat管。但是句法和subcat是时时刻刻互通的啊。不相谐时看后续选择。

李:
第一个坑优先左侧结合,这个东西,是对于所有 2-arg 的谓词有效,还是可以对于不同谓词有不同?如果是前者,就不能说是词典信息决定词序。

for another example:

1. translation of NP1 by NP2
2. translation by NP2 of NP1

这类词序原则上都是谓词 translation 在词典就决定好的,到了具体句子坐实其中之一而已。

白:
比如“饭我吃了”,1、吃是S/2N。2、“我”最先从左侧遇到“吃”。3、“我”与其中一个坑相谐。4、锁定human,留下food。

“我饭吃了”:1、同上。2、“饭”最先从左侧遇到“吃”。3、查相谐性,发现是第二个坑subcat相谐。4、锁定food,留下human。

至于查相谐是否必须从左到右遍历,这纯粹是一个算法问题。数据库还允许做索引呢,我为什么一定要遍历?“饭”都有了,跟“吃”的第二个坑匹配为什么必须先查第一个坑。

李:
句型规定词序的做法有下列特点:
1 在词序占压倒优势的句型里面,根本不用查语义和谐。就是词序绑架。
2. 在词序不能决定语义的时候,可以明确提出是哪两对发生冲突:然后让语义在这两对中去比较力量来求解(消歧)。白老师的上述做法貌似在情形1的时候,不必要地查询了中间件,多做了功来锁定。

白:
总而言之,在部分分析树上匹配目标句型,是我N年前使用的方法,现在已经放弃了。放弃的道理是在分析环节追求更好的鲁棒性。在生成环节,有另外的做法。

李:
在情形2的时候,不知道是不是也是查询中间件的力量对比(牵涉两个可能的二元关系),还是只查询一个关系?

白:
没有。一步到位。 说的就是没有使用遍历的方法。只有一个匹配结果就是第二个坑,第一个不用出现都。

李:
遍历也不是“遍”历,n个元素并没有理论上的所有词序排列,而是句型决定了哪些词序排列是可能的,哪些排列根本就不可能。而这些决定都是那个词的知识。

白:
白名单制。
有点对不上频道,我说的遍历是查询时对坑的遍历,不是对可能语序的遍历。我的结论就是,不需要遍历。

李:
这二者在句型实现或坐实中是相交的。譬如两个坑加一个谓词,句型的所有排列是:

1. 谓词【1】【2】
2. 谓词【2】【1】
3. 【1】谓词【2】
4. 【1】【2】谓词
5. 【2】谓词【1】
6. 【2】【1】谓词

当然对于一个特定的谓词,其句型就是这里面的一个子集。

白:
3!

李:
对。如果牵涉小词,上述句型还要扩展。

白:
我现在是一个句型都不写。

李:
然后加上省略,也要扩展:

7. 谓词【1】
8. 谓词【2】
9. 【1】谓词
10. 【2】谓词

白:
嗯,你这充分说明了我不写句型的优越性。

李:
看上去很多,但第一很清晰,第二具体到谓词,只是一个子集,有些排列被句型一开始就抹去,第三,每一个这种句型排列都可以确定性地决定,是歧义还是不歧义,从而决定是不是要求助或留给后面的语义模块。所谓文法,主体也就是这些句型。没了句型,文法也就差不多消失了。

白:
专制的文法消失了,民主的文法还在。中心化的文法消失了,去中心化的文法还在。拉郎配的文法消失了,自由恋爱的文法还在。

李:
很多年前我们的英文文法大体稳定在 600 条规则左右,其中大约有 400 条就是这些句型排列。400 条还在可以掌控的尺度之内。为什么 400 条就可以包揽呢?这是因为上帝造语言有个仁慈的设计:args 不过三。以前说过这个。args要是过了三,排列就至少是5!,必然引起句型爆炸。自然语言的谓词绝大多是是 2 args or 1 arg,只有少量的 3 args or 0 arg。决定了机器人通天塔并非不可能建造。如果当年设计语言的上帝忘了人脑的有限,弄出不少 4-args or 5-args,就傻眼了。一个事件往往关涉很多成分。但人在描述这个事件的时候,总是碎片化描述,每个句子遵循 args不过三去描述,然后利用冗余和合一,最后在篇章中才拼凑出完整的语义图谱出来。这就是自然语言简约有效、与人类脑容量相匹配的奥秘之一。

白:
这就是老话说的,一碗豆腐豆腐一碗,本来不需要区分的,语序一成刚需,得,不区分也得区分了。

一碗豆腐和豆腐一碗,语义上没差别,差别在语用上。数量词后置,是“报账”场景专用,可以让人联想到饭馆里跑堂的。如果将来都用移动终端触摸点菜,“二者的语用差别”就会成为历史。跟自称“奴婢、在下”一样,只能在文艺作品里看到听到了。用于分析的句法,不适合画“毛毛虫”的边界,画出毛毛虫的“包络”就很好了。

 

【相关】

【立委科普:及物、不及物与动词subcat 及句型】

【李白董之51:说不完的subcat和逻辑语义】

【Parsing 的命根子是subcat,逻辑的和语言的】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白67:带结构变量的词驱动模式注定是有限的】

白:
(1)小林差点哭了。(2)小林差点没哭。(3)谁说小林哭了?(4)谁说小林没哭?(5)没有人说小林哭。(6)没有人说小林没哭。

小林哭了?没哭?小学一年级暑假作业

李:
从词驱动模式而言 这些都是小菜 谈不上挑战。其实小学生语文出此题 背后也是因为这些模式很简单 小学生下意识记住了模式:

差点 没 v == 差点 v 了
谁 说 S v 了 == 谁 说 S 没 v
谁 说 == 没有人说
没有人说 s v == s (应该)没 v

差点 v 了 == 》 【Did not v but almost did】没有人说 s v(negative)== 大家都说 s v 了

没有人说 s v(negative)== 大家都说 s v 了
==》s (应该是)v 了 【舆论推测】

That’s all. These types of oral Chinese patterns look tricky but they are short and finite. Very easy to memorize and highly tractable.   However, they are a challenge to key word systems.   Not very sure if they are a challenge to an end to end deep learning system ……

类似的现象还有:究竟好还是不好?

谁说iPod好。               【不好】
谁说iPod不好?           【好】
谁不说iPod好。           【好】
谁不说iPod不好?       【不好】
没有谁说iPod好。       【不好】
没有谁说iPod不好。   【好】
没有谁不说iPod好。   【好】
梁:

@wei 我也挺喜欢这种短语pattern, 中间夹着 Vp 或 a 之类。

李:
词驱动patterns是在“成语”的延长线上,加一些小结构的变量而已。这类现象适合词驱动的专家词典。小菜。而经典的关键词系统 一看就傻了,stop words 一去除,就是一包烂词 一锅糊粥,a bag of shitty words for BOW systems,但估计拦不倒神经系统?

Identifying and parsing these patterns are a piece of cake. The corresponding semantic representation is a little tricky, but as we all know, the semantic representation is output and is only a system internal toy for NLPers.  As long as we identify the pattern, however, we choose to represent it depends on the design of semantic compositionality and on the system internal coordination of such representation design and its semantic grounding to NLP applications.  The input matching pattern is key.  The output representation is whatever is good for the purpose.

有谁可以确定性地回答这个问题?对于这类简单的 patterns(虽然涉及到一点语言结构 但没有long distance挑战),现如今的深度神经是不是通过隐藏层、word embedding 等,可以轻易捕捉呢?能够捕捉,对于一个强大的神经 是预期中的。倘若很难捕捉 那就很尴尬了。

白:
用没有variable的词典定义绑架,剩下用什么方法都没有太多悬念。真正成问题的,一是“已定义”相对于“未定义”的高原效应问题,一是从“无变元”到“有变元”带来的泛化问题。

李:
什么叫 “没有 variable 的词典定义绑架”?那不就是成语或合成词或ngram黑箱子吗?
高原效应是什么效应?

白:
plateau:已定义效果特好,未定义效果骤降。词典定义,不必然连续。可以不连续

李:
无变元 到 有变元 是儿童学习语言的过程,道理上也是机器通过线性数据训练平面结构的过程,不管这种结构是symbolically显性表达还是某种方式隐藏地表达。

可以不连续的词典定义 白老师举例说明一下?已定义 我的理解是大脑或系统已经形成模式了,未定义 是尚未形成模式 还没学会。如果是带变量的词驱动模式 注定是有限的。小小的人类大脑都可以学会,就断断不构成数据科学家及其电脑的挑战。做一条 少一条,“而山不加增 何苦而不平”?何况数据驱动的学习或制作,总是从常见模式开始,罕见的长尾最后对付。

总而言之 言而总之,不是挑战,更像是玩儿。谈笑间灰飞烟灭的语言学游戏罢。所有这一切的信心来源于两点:一是人脑容量小得可笑,二是结构让无限变成有限。从结构看语言 NLP想不乐观都找不到理由。

很多所谓的 #自然语言太难了#,都经不起琢磨。多数所谓 NLP 难点,仔细一瞧,或者是 piece of cake, 或者是 人类自己根本就没有标准或答案的。后者是强“机”所难。

白:
静态和动态看到不同问题。捆绑定义,最没技术含量,最有所谓惊艳表现。根本就是给外行说的。问题都在捆绑定义之外。

李:
就这类问题来说,本身就很简单,老妪能解,要什么含量呢?要的就是work :if the work works then it is all fine.  我们以前常举的例子是:

The iPhone has never been good.
The iPhone has never been this good.

白:
动态看,从未定义到已定义的过程,从无变元到有变元的过程如何自动化,如何偷懒,才是真正有意义的。这里谁都能work的事儿,不说也罢。

李:
对于有限的对象 这个自动化过程没有多少实践意义。

白:
实践意义要实践的人最终判定。给实践添砖加瓦的人还是虚心点好。

李:
如果证明了所列举的现象是无限的,才有自动化的说法。至少我们现在谈论的现象 它不是无限的,而是相当有限的模式。不过是说个大白话而已,这里没有虚心的理由。当然肯定还有其他现象 性质不同,到时候碰壁了再虚心不迟。

抽象地说,一切学习,归根结底是泛化的自动化问题,因此研究这个问题才是高大上 才有真正的突破。但具体到现象 就不总是这种高级泛化的问题。也有低级泛化,譬如带变量的模式。技术含量属于不高不低,这个变量牵涉到词典与句法的接口,不是随便一个NLP新手就可以搞定的。因此有技术门槛,但的确也不是火箭技术,所以也可以说没太多的技术含量。

白:
就像某翻译系统,play piano 能翻译成弹钢琴,play mandolin 就不会翻成弹曼陀林。这里弹拨、键盘、吹管、拉弦乐器的标记体系是自动化的关键,一个一个组合去捆绑是傻瓜做法。乐器虽不是无限的,但多到一定程度就值得自动化。柳琴、琵琶、月琴、中阮、大阮、古筝、古琴,冬不拉、热瓦普、琉特、齐特、吉他、竖琴 ……

李:
subcat总是要做的。从 piano 泛化到包括长尾的曼陀林,的确是一个有意义的课题。word embedding 也好, HowNet 加 大数据 也好,都是要捕捉或搞定 nodes 的边界条件。自然语言说穿了不外是图谱中的 arcs 和 node。两路泛化 现在看来,arcs 的泛化更容易搞定,nodes 泥淖一点。当然二者还有一些互补和 overlapping,戏不够 词来凑。

白:
隐形标记体系,针对封闭的词典。不寄希望于个体词汇的低概率统计分布兑现。这就是我说的subcat embedding,

李:
subcat 为基础的泛化,当然是更高级的泛化。它与 word 为基础的泛化 构成一个 hierarchy,就好比词驱动结构与抽象文法结构构成 hierarchy 类似。前者是做工 nodes,后者是做工 arcs。这样来看自然语言可能就比较清晰了。当然 深究下去 这两个泛化还有很多交错和结合的变种。但万变不离其宗 词汇与结构总是语言的基石。subcat 泛化 比较tricky。也许 HowNet 结合大数据也是一途:拿 hownet 做 subcat 的种子。

 

【相关】

科研笔记:究竟好还是不好

【语义计算:李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白邢65:“着”字VP的处置】

【立委按】 世界上很多事物都有不同的角度,对于一个现象的处理也有不同的考量。到了NLP,这就成了不同策略的优劣之争。对于老革命,战略和战术辩论的好处是各自说明白背后的理由,多数时候并不指望谁说服谁,更非争个高下。对于看客,行内人自可各自体会,根据自己的理解择优而行。对于行外人,看热闹之余可能得到的一个启示就是,世界往往就是,公说公有理,婆说婆有理。

白:
开着窗户睡觉,开着窗户是状语吗?
“砍了一刀没死”,砍了一刀是状语吗?

邢:
我理解您的分析方法中,是不是没有主语、谓语的概念,而是以动词为核心为其填坑,填坑的萝卜与其在句子中的位置关系不是很大,而与其在语义上的搭配关系更大。

白:
@邢 是的

邢:
还有“掌声欢迎”中的“掌声”是状语修饰欢迎,那“鼓掌欢迎”是否也可以理解为“鼓掌”修饰“欢迎”呢?

白:
“掌声欢迎”是“(用)掌声欢迎”,有一个隐含介词。所以可以把掌声这个N降格为S+,做状语。“鼓掌欢迎”句法上是两个S的合并,至于语义上是什么,留给语义去处理。合并不是修饰,句法上“鼓掌”不是状语。

邢:
如何实现“降格”这个操作呢?是否也需要大语料的统计做支持

白:
不需要

邢:
那如何区分“同学欢迎”和“掌声欢迎”呢?

白:
欢迎的标配坑有human,没有sound。检查subcat相谐性可以区分。

邢:
subcat确实非常重要,谢谢您!

白:
鼓掌欢迎,列队欢迎都是合并。夹道欢迎,其中的“夹道”已经成了专用副词了,不在其列。

邢:
我理解合并是有前提的,首先合并词都是动词,同时合并词共享某个坑

白:

述补、并列、连动、兼语、某些缩合复句,都是合并关系。

邢:
很受教,谢谢您!

白:
名词和名词也可以合并

邢:
是的,至少并列结构的词语都可以合并,无论属于何种词类。

李:
为什么不说省略了“用”呢:
(用)鼓掌欢迎
(用)列队欢迎
动词也好 名词也好 都是用某种方式,核心还是 欢迎。
“鼓掌欢迎” 与 “掌声欢迎” ,看不出实质区别来。 都有大数据相谐的证据。其实已经接近合成词了。

白:
在句法层面定核心,和在语义层面定核心,是两件事情。
开着窗户睡觉,也是有核心的,但是在句法层面就定,太早了

李:
不早,至少对于这句,句法痕迹还是很明显的。

白:
早不早,这是体系问题。

李:
带“着”的动词做伴随情况的状语,修饰紧跟其后的核心动词。这是一个合适的句法和语义一致的路线。

白:
没必要

李:
英语的 ing 作为伴随情况状语也是如此:He came here running,有某种语言共通性

白:
知道他俩有关系,句法上就够了。

李:
“[笑着]走进来”
“[哭著]说”
“[带着哭腔]恳求他”

这个形式痕迹不用白不用,看不出来推后的理由。需要或必须推后给语义的,是句法上缺乏形式痕迹。句法有形式的,自然是早做强过晚做。

白:
不一样,谁带,谁恳求,这里面首先有坑的共享问题。修饰语出现坑的共享,这是给修饰语找麻烦。

李:
修饰语是第一位的,坑是第二位的。修饰语里面的坑不坑 其实无关大局。从理解和语用看,语义重点不再是补全修饰语里面的萝卜(真要补也可以补,但语用和落地需要它的情形不多)。

白:
放下筷子骂娘
拿起筷子吃肉
开着窗户睡觉
穿了衣服出门

这些都是平行的。光处理“着”,只是图一时痛快。

李:
核心突出了,哪怕只是部分现象,总是好的。

白:
不同性质

李:
其他的句子其实核心开始模糊了,但带“着”的句子,核心基本是明确无误的。

白:
共享坑在机制上要更根本,有没有核心,在其次。共同的机制先放在一起处理,到里面再分道扬镳。不存在不处理或者处理错的问题。

李:
直感上,合并这把伞太大了,罩着太多的不同结构。

白:
这才好,说明共享坑足够根本。

李:
在后一个语义模块的解析策略不太明确的时候,很难判断这样处理的 pros and cons。区分或理解这些不同结构对于多数落地,是绕不过去的。而填坑对于落地有时候反而可以绕过去。

白:
语义上具有向心性,和句法上的修饰关系,是两个概念

李:
譬如说 MT,“着”字动词做状语 可以平移到英语,不填坑也可以平移。

白:
MT能绕的不止这些
那都不是事儿

李:
这种语义落地场景就表明 坑里没有萝卜也可以的。可是核心的识别 却是不可或缺的。

白:
不是没有,是两种语言的共享坑机制一致,这不是问题的重点。

李:
一般原则还是,句法管形式,形式不充分的留给语义。为什么介词短语做状语呢?因为有介词这个形式。同理,为什么“着字VP”可以做状语呢?因为有“着”这个形式。
这并不是说,没有介词没有“着”的就不可以做状语。而是说有了这些形式,可以放松对语义相谐的要求,不需要“意合”,也不需要大数据 ,就是根据形态(包括小词)基本就可以确定。

白:
后者可以不叫状语,叫连谓结构

李:
“好”的句法,应该把这些形式用到极限。这就好比有格变的语言,要尽量通过词尾格变确定句法关系。只有在格变有歧义的时候,句法确定歧义的边界,然后才把负担留给语义模块去选择。放着形式不用,先用大数据、常识或其他的模糊条件,是舍近求远。

白:
坑也是形式

李:
对,subcat 属于隐性形式。

白:
了和着在形式上也有诸多平行性。一个地方不平行,完全可以揣在兜里,到属于它的角落,掏出来该干啥干啥。那些有平行性的,大家共用高速公路。另外,进入这个车道的“着”,状语的标签已经是鸡肋,在这个形式下可以直接定位到“背景-前景”语义关系

带上水路上喝,带着水路上喝,带了水路上喝。

真的只有第二个才有形式么?每一个都带有形式,都带有时间标签。一旦确定相应的标签,回头再看“状语”这个大而无当的筐,算个啥?

带上干粮饿了吃,带着干粮饿了吃,带了干粮饿了吃。

“墙上挂着画显得很有雅兴。” “墙上挂着画还是仿制品。” “墙上挂着画居然上下颠倒了。”

这三个例子里,“墙上挂着画”都不能说是状语。“这种场合戴着帽子不够严肃。”当中的“戴着帽子”也不是状语。

李:
这些特地选出来的例句 的确具有强烈的平行性。但这只是语言事实的一部分。当我们说 “着VP”可以做状语 指的是另一批现象。“笑着说” 与 “笑了说” 并不平行,前者是【伴随状语】(adverbial of attendant circumstance),后者是【接续】,在“笑了”与“说”之间其实有个停顿或标点。再看,“带着干粮饿了吃” 与 “带了干粮饿了吃” 的确平行。但 “带着干粮去上访” 与 “带了干粮去上访” 就不必然平行。总之,的确有相当部分的“着VP”是做伴随状语(也可以说是做核心动词的背景 都是一个意思)。而这部分现象是可以在句法阶段搞定的。 处理的重要形式依据是 “着”,但也可能需要再附加一些制约做微调。事实上,我们系统有几条带“着”做状语的规则在句法有时日了,经过长时期的考验,发现很管用, 出状况的时候很少。几乎与 PP 做状语的规则一样好用。

汉语的痛点之一就是 动词成串 难分主次 搞不清核心。这与欧洲语言对比强烈 :欧洲语言有 finite (谓语动词)和非谓动词(不定式、分词之类)的形式区分。谓语中心很容易确定 句子骨架一目了然。既然是汉语的痛点,分而治之就是解决繁难痛点的一个不错的策略:各个击破。 自然语言另一个比较普遍的痛点是并列结构,我们起初总想毕其功于一役,但总搞不定。后来探索出来的有效策略也还是分而治之各个击破。

白:
伴随关系(前景-背景关系)是时间关系的一种。接续关系是另一种。目的关系,可以看成未然的或可触发的接续关系。平行上路,平行落地。人家自己完全井然有序,用不着这个状语标签分了一块去再横插一杠子。充其量只能说,在这一批从时间内在结构角度而言从句法到语义都充满了平行性的关系当中,伴随关系“碰巧”具有了向心性。但是在这么本质的语义关系都揭示出来的情况下,坑哧吭哧跑过来宣布谁谁是状语,不觉得蛇足么。就好像从集体婚礼中拽出一对儿,然后宣布,这俩是山东人,差不多。

笑着说,笑的区间包含说的区间;笑了说,笑的始点位于说的区间左边(笑的终点不确定)。怎么不平行?

语义计算里面,时间结构是重要的一块。有些动作的时间结构不是区间而是点状的,对其不能用“着”,比如“死”“开除”,这也是一种形式上的旁证。点状的时间结构不能包含区间状的时间结构,正如0不能做分母。

 

【相关】

【语义计算:李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白雷63:做NLP也要见好就收,适可而止】

白:
“那个假流氓真流氓”
“这种做法不禁令我们大吃一惊”

李:
前一句有意思 等我回头试试,第二句没看到 catch 啊。

白:
分词和句法的相互作用,“禁令”是名词,“令”是类介词的动词。“不+名词”即使不是严格禁止的,至少也是极其低概率的。

李:
这个知识在多数切词程序里是没有容身之地。当然还有别的办法。人在伯克利 没法测 第一眼居然没看到切分歧义。刚回家第一件事就是测试白老师的句子,悲喜参半啊:

第一句出来了,第二句果然切分错了,当然前面说过,“不+名词”的规则通常在切词的时候没地方容纳。还是用更简单的ngram的头疼医疼的办法吧。于是改正如下:

不过话说回来,如果真要难为系统,总是可以的:譬如,假流氓真流氓我管不着。

果然中招:

分了真假 就做不好并列;做了并列 就难兼顾真假。

白:
按下葫芦起来瓢

李:
如果鱼与熊掌一定要兼得,就太过精巧 君子不为也。不是不可以做 但不能这样做。维持现状吧。

白:
对NLP没感觉的人很难理解是什么让顶尖高手不得不妥协。

雷: 哈哈哈。顶杆

李:
妥协是因为吃过亏 吃过自作聪明的亏 精巧的亏

白:
问题不在于你解决了什么,而在于你解决了“这一个”的同时,不影响你已经解决的“那些个”。

雷:
不可调和?not even by bribery?

李:
哈,那要看量

雷:
工程上可以

李:
没有不可以的事儿

白:
不是技术问题,是商业问题

雷:
理论上顶在那里

李:
但懂得什么时候选择不做 有时比做 更重要。见好就收吧。这是不同维度的纠缠。

白:
里维和外围的纠缠

我:
平行并列是一个维度。“真”“假”的词性和用法的不同是另一个维度。“流氓”的名词形容词歧义又增加了一个维度。事不过三原则(见【系统不能太精巧,正如人不能太聪明】) 说的就是当多维纠缠的时候 你可以随风起舞 跟着去绕 但不要绕进去太深 要有适可而止的智慧。

梅:
@wei 是啊,不必去fit noise。

李:
不仅是 noise,更主要的是要皮实,不能让系统内部相互依赖太多。“精巧”的系统今天把一个拐角处的“艰深”问题解决了,而且通过了 regressions 测试,似乎没有副作用。可是明天呢 后天呢?系统在前进过程中,一定会打破动态平衡,凡是太过精巧的地方最终会在前进中遭遇困扰。于是我们就被拖进了两难的泥潭,把注意力放到了不该放的犄角旮旯。两难是:

那个 case 是 tested case,进入了 regressions baseline,因为精巧而脆弱,因此常常成为 regressions testing 的红灯区。红灯一亮,我是去对付它呢,还是放过它呢,真地两难啊:

对付它就要耗费资源,耗费我的时间,为了维护的是一个小概率的case,不断地耗费资源,不值得。如果放过它呢,这就等价于我们一开始就不该做,不该精巧地“解决”这个问题。后一个选择是明智的,但还是不如一开始就坚持事不过三的原则来指导系统的开发。系统的鲁棒性比解决个别的长尾问题要重要。

首发 2016-06-02 【新智元笔记:做NLP也要见好就收,适可而止】-科学网

【相关】

【系统不能太精巧,正如人不能太聪明】

【立委科普:美梦成真的通俗版解说】

【立委科普:语法结构树之美(之二)】

【语义计算:李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白雷54:句法语义纠缠论】

白: @wei 微博上的讨论很有代表性。

李: 看到了,这个错误放大(error propagation)的问题,我以前也讨论过。很多人是杞人之忧,包括雷司令。@雷 你上次说到,parsing 需要准确才好做知识图谱。还说差之毫厘失之千里,其实完全不是这样子的。估计你是深陷在你的 parser 里面,还没有真正放开手做知识图谱的工作。

说句实话,所有的抽取工作,对于 twitter 和微博这样的短消息的细线条的舆情抽取是最难的,知识图谱这样的工作比起前者简直就是 piece of cake. 我们跟舆情奋斗了这么几年,比较了一下里面的复杂度和tricky的地方,也比较了里面实现的规则,可以说,最难的果子已经吃过了,剩下的大量的知识图谱类的抽取挖掘关系,在 parsing 的基础上,就是一个单纯的工作量的问题,没有门槛,没有难度。

信息抽取中的两大类,一类是客观事实类抽取(关系和事件),针对的是客观语言(objective language),这就是知识图谱的主要内容。另一类是舆情抽取,针对的是主观语言 (subjective language),情绪和评价类。后者的难度高出前者太多。

客观事实类抽取包括:专名 NE, 这是做基础的工作。下面就是在这些NE之间找关系(relationships),找事件(events)。为了抽取出来的东西可以整合(fusion),为挖掘服务,里面还有一些 CO (coreference)的工作。

雷:  知道Watson是怎么抽取相当于100万书籍的知识吗?

李:  上次我就说,如果主语宾语弄错了,那么按照错误放大的说法,抽取是不是就一定做不了呢?答案是否定的。parsing 错了,也可以支持抽取。只要错误是可以预见的,错误不是全方位的。

推向极端就是 @白 老师的“意合”系统。你看,根据词和词的 semantic coherence 的某种模板,甚至没有 parsing 都可以做。何况有了 parsing,不过是 parsing 偶然断链,或错置呢?有很多弥补 parsing 错误的手段可以在接近产品的层面施展,包括 domain knowledge 和 ontology。

雷:  我做过英文文献的药物副作用的抽取。严格的svo,结果不错。但我的感觉是,如果parsing再准确一些,结果会更好,而且事后的处理要少很多。这个仅仅是我的感觉。

李: 再准确也不能完美,主要还是思路要转变。

提高准确性是一个 incremental 的过程,而且一定会遇到 diminishing return 的两难。关键是在做抽取的时候,要知道,利用 node 的信息,可以弥补 arc 信息的不足。node 就是词,arc 就是句法。句法不够,词来补,因为词本身就是语义的最基本的载体,里面可以玩出很多名堂来,包括 ontology。

雷: NLP像地基,如果结实,可以起高楼。后续的修补要少,后面的工作就是建立FACTS,问题是战线要拉多长。

白: 意合法从来不拒绝partial parse tree,句法有什么拿什么,没有也憋不死。

李: Parsing 当然是地基,地基好了一定省力,这都没错。这么多年鼓吹 deep parsing 就是基于同样的理念,因为业界的 parsing 太 shallow, 没有地基。中文NLP 玩了那么多年的业界,谈起 NLP,默认就是切词,或者在切词上做一点啥,譬如 base  NP。

雷: 事后修补也是对的,这个在认知心理学中也有证明。但是,这种事后修补在认知中不是大量的。工程的探索和应用是一个方向,认知上探索也是一个方向。

李: 白老师,严格的说,不是句法与语义配合到怎样的比例才做好系统。我们实际上是说,显性形式和隐性形式怎样搭配(参见【立委科普:漫谈语言形式】),才能出一个高效的NLP系统来。可以简单地用句法手段来代表显性形式,语义手段来代表隐性形式,但是说句法语义容易歧义,不容易讨论清楚问题。所以上次,白老师提到 POS 有时候有害,不如语义分类好用。其实白老师说的不过是粗线条的隐性形式POS(一共就给词做10多个POS分类)和细线条的隐性形式(成百上千的语义分类),后者对于汉语分析的重要性。这个没有任何疑问,因为说的都是一家:隐性形式,都是语言里面看不见的形式,都是人必须在词典了给出的 tags,或者需要专门模块去给的 tags。所以我说,再纯粹的语义系统,只要是为工程用,就绝不可能放着显性形式不用,而去舍近求远地依靠隐性形式的语义。只有理论研究,可以放弃显性形式,因为放弃了显性形式,可以从理论上做出一个 universal parser,它可以 parse 人类任何的语言。显性形式(词序,小词,词尾和其他语缀)是 language dependent 的,只有剔除它,才可以做”纯粹语义” 的系统。

雷: 同意,不能放着有用的信息不要。我觉得模拟人的认知可能最是捷径。

白: 前提是,句法不能挡路,不能说你分析不出来了还不让语义按自己的逻辑往前走。

李: 还有,纯粹语义系统肯定不如显性形式可靠。在显性形式可以决定的时候,没有语义(隐性形式)出场的必要,它只会添乱。乔姆斯基的 Green ideas 的伟大实验就是要证明,显性形式能够做决策的地方,语义和常识都失效了。汉语中,“铅笔吃了我”,“铅笔把我吃了”,就是又一例证。绝对不会因为有了隐性的语义格框:动物-吃-食物,就可以用来解决 “铅笔吃了我” 这样句子的语义,这时候是(显性)形式的句法所决定。这样的句子就是显性形式词序或小词“把”在主导,没有语义(隐性形式)出场的空间。再举一个有力的例子,在有显性形式的格标记的语言,宾格基本对应的就是宾语。没有一个 parser 会不利用显性形式格标记,来做分析的。因为它明明告诉了“我已经标注好了,注定要做宾语”,你有什么道理要按照[动物-吃-食物] 这样的语义框格去找宾语呢?

白: 注定的话也不要说绝了。在幽默或修辞的场合,会来翻旧账的。

李: 意思你明白的。

雷: 语意是一个没有学过语言学的人可以说上一些东西的,但他很难说语法的东西

白: 你说的那不叫语义学,叫学语义。

小词本身也携带语义信息、结构信息,比如“的”。为什么我说从语义角色指派的逻辑上看“这本书的出版”和“这本书的封面”有很多共同之处甚至本质上相同,就是因为它的回环结构。

雷:  “这本书的出版”和“这本书的封面”的相似度又有什么计算方法吗?

白: “出版”有两个坑,“封面”有一个坑。“的”是提取坑,不管一个两个,不管动词名词形容词。

雷: 出版与封面在wordnet上有什么近似度吗?

李: 你那个“的”是提取坑,我搞不明白。出版是逻辑动词,封面是逻辑名词,迥异。

雷: 封面是没有坑的,有属性,封面是一个class,坑是method提供的。

白: 有坑,part-of,是什么的封面

李: 这是一个 single-arg 的坑,partof 和 wholeof 互为坑。语义面上的,不是传统句法subcat上的坑。

白: 对,一价和二价的差别,如果规定从右边的变元提取,就没差别。右边饱和了,就往左挪。及物动词填掉一个宾语,就成了不及物动词。与此类似。

李: 具体谈一下这两例。结论是?

“的”作为显性形式的小词,其提取作用,与英语小词 of 和 ‘s 类似:

translate A into B –> translation OF A into B
A’s translation into B
a book’s translation into B
a book’s title

白: “的”的定义,就是f(x1,x2,……,xn)的xn,你给我一个f,我就给你一个xn

雷: 以面向对象的模型类比,class,method,和attribute,书是class,封面也是class,但封面又是书的一个attribute。

李:  一般的关系分析并不深入到“partof”这个级别。一般遇到 “的” 或者英语的 ‘s/of ,就是粗线条分析到 Possessive 这一个包罗万象的关系为止。这本书的封面,粗线条就是,“封面”属于“这本书”。而“这本书的出版”则不用,所有的分析都指向动词的 subcat。

白: 粗线条对于汉语不行。汉语有显式的句式与part-of有关。

李: “这本书的出版”,只是利用了小词“的”,把动词名词化,与动词直接加宾语,分析同:出版加宾语,通常在右边,这是一条。变式就是:可以名词化,用“的”,宾语前置。

白: 比如 “老李把脚冻肿了”,缺省是老李的脚,不是别人的脚。

李: 那是,不过这个分析真地太细。

雷: 老李的脚是一个NP

白: 老李的脚,老李的讲演,老李的意见

李: 缺省是老李的脚是常识,否则就会显性的把别人的脚表达出来。英语 “撞了我的头” 常常是:hit me on the head,这个 the 缺省的就是 me。翻译成汉语就用显示的 possessive。

雷: 老李的人的概念,提供属性与构成结构

白: the有anaphor的功能。

李: the 不过是显性地标注了 anaphor ,汉语没有 the,默认的还是 the,而不是 a。凡是一个名词表示非限定的含义的时候,其汉语的用法和条件相对来说,比较可以找得出来。而默认的 the 的含义,不太容易找出条件来,所以默认是个好东西,不需要去定义外延,外延靠别的东西去定义。

雷: 昨天不是有一个language universal的帖子吗?相近原理。

白: 看看汉语讲故事怎么讲:从前有座(a)山,(the)山里有个(a)庙,(the)庙里有个和尚讲故事。

李: 对,我们其实有 a,但常常没有 the,于是 the 是默认。量词是 a,”某” 也是 a, 我们甚至直接用“有”来表示 a (“有人”昨天来讲课了; “有部件”坏了–》一个部件坏了), 当然还有”一“,也可以用做 a,所以汉语表示 a 的形式手段还蛮丰富,因此就不需要 the。the 是默认,实在还是不清晰,就用 ”这“、”那“ 等指示小词来强调一下限定的语义。

白: 都是不带形式标记的anaphor

雷: 细致的坑是ontologies的。parsing中动词和形容词有坑就可以了

李: 传统的 subcat 的坑是粗线条的,里面映射的可以是细线条的语义约束的坑。语义模板与 subcat 的关系。

白: anaphor 的 trigger 必须带坑。本身共指,或者 part-of 共指。记得 Winograd 讲过一个例子,一个小孩得到了一个礼物。当他打开(the)盒子,发现……。盒子就是装礼物的盒子,用the勾连起来。

李: 恩

白: 咱汉语里都是隐形的,于是“盒子”作为 “坑的 provider”,必须写到词典里。封面,也一样。

李: 恩,封面的优先主人是谁的信息在词典里,针对的是出版物。

白: 出版的受事坑,恰好也是。所以用的,一提取一个准儿。

县长派来的,比这复杂,因为”派”和”来”各自提供的坑,被一个“的”给提取了。或者说,”派”和”来”,经过了一次内部整合,统一一个坑对外,被“的”给提取了。派是兼语动词(三个坑),来是不及物动词(一个坑)。但是“派”最左的坑被“县长”填充,饱和了。“派”的另一个“事件”类型的坑,只能接受“来”。于是剩下的那个类型为human的坑,与“来”提供的类型为animate的坑,统一对外了。

李: 很有道理。填坑最好的是只有唯一的候选人,没其他可选。最麻烦的是要动用语义优先。语义优先可以作为知识,预先学出来或标出来,或半自动,先学后标(postediting)。可是在使用现场需要层层松绑,想想就头大。遇到结构歧义(不是伪歧义),还不是松绑的问题,而是对比的问题,要看三角恋的三方,哪一对最有 chemistry。松绑只是对条件按照 taxonomy 去有步骤放宽,而对比不是,对比需要动态的看随机配对的力量对比。不是不可做,是 overhead 太大。如果不考虑 overhead 和实用,力量对比的评判比层层松绑更容易,因为前者是二值的,总有一个吸引力更强,后者是趋于离散的。

原载 《铿锵三人行:句法语义纠缠论》

【相关】

【立委科普:漫谈语言形式】

【语义计算:李白对话录系列】

【李白之50:符号战壕的两条道路之辩(续)】

白:
我的思路是:句法维护纯二元关系,模式编码进subcat,直接对接语义。纯二元关系对模式既兼容又有更大的robustness,不用白不用。

李:
pos 支持句法做粗线条分析 subcat支持逻辑语义做细线条分析?

白:
必须的

李:
那倒未必。可以结合做的。显式的句法语义关系可以一起做, 没有句法关系的隐式逻辑语义可以推后。subcat 结合句法语义。

白:
模式方法中,小词的缺省和成分的倒置,只能认为是不同的模式,不穷尽则不work。二元关系方法中,缺了小词也好,倒置也好,在subcat那里都可以重构出来。输出是现成的,既可以跟着cat一起输出,也可以等语义落地了再输出。这是个简单的配置问题。

李:
缺省不怕:就是 optionality,不是模式必需的。倒置的确需要增加模式,没办法,模式也是线性。

白:
“我紧张,一见到那个人。”
省略了“就”,而且倒置。但是在二元关系方法下,这都不是问题。

李:
但n元模式,在多层系统中,并非全排列模式。模式负担完全可控。也可以类似于二元的样子,一层层做:起码动宾与主谓通常被认为是不同层次的组合,无需SVO全排列。推得极端一点,n=2,多层n元就成了2元,也是可行的策略之一。

白:
对“一”的subcat标注,已经隐含了对“就”的“脑补”。
语义frame任何语言中都不必然是二元关系,这层落地映射,本来就是缺不了的,并不是因为模式而特设的。

李:
exactly

白:
句法专注二元关系,好处多多。

李:
1 【一VP(S)就VP】
2 【一VP】
也就是两条模式捕捉的事儿。都很直观 intuitive。捕捉了,还不是要怎么玩语义怎么玩。

白:
这实际是语义直观,跟那些多元关系是同等对待的。

李:
第1个模式涉及5元,第2个模式是bigram,我说过,模式也就是以三元为峰值的正态分布。并不是想象的那样组合爆炸,完全在可掌握之中。最大特点还是其接地气,直观,容易 debug 和维护。不就是给语言结构拍照吗?所谓句型练习(pattern drills),人学语言也就是这么个事儿,我们当过外语老师的,都知道 drills 的重要。

白:
那个完全是UI的问题

李:
如果你做二元配对,我心里想的是五元模式,【一VP(S)就VP】 这样的模式,你如何把二元的过程UI到我感觉舒服的五元模式呢?

白:
双宾语结构也是一样啊
二元的过程是在机器里发生的,五元模式是结果,不在一个频道上。边加够了,五元模式就出来了,就这么简单。

李:
机器发生的过程 不是基于词典的标注吗?这个标注不需要人去做 去维护 去 debug?

白:
但过程总是一个一个边加的

李:
那是因为你的 parsing 是 PSG的 parsing 过程,虽然表达的是DG。这个 PSG 的过程,是遇到任何物件都不能跳过去,要一个一个的叠加组合。

白:
能跳,否则就无法处理交叉了

李:
从你画的图看,还是一个不跳地在叠加,只不过叠加的顺序可以不同,然后导致一些远距离二元关系的最终建立。(当然你的X见人见鬼,先加上再说,也算是一种模糊应对或“跳过”。) 换句话说,parsing 的总过程与经典的 chart parsing 没有看出大的区别。

白:
这理解是错的

李:
可能。也许我看得不够仔细。

白:
从数学上看,模式引发的步骤不是分析树的“构造”而是分析树的“映射(变换)”。这个映射环节引入PSG还是引入DG的差别是细节的差别,核心的精神都是一致的。如果你说的“跳跃”意味着“映射”的引入,我目前确实没有,但 1、这并不影响在较上层的节点上,映射的结果和非映射的结果会得到相同的语义落地。2、如果一定要引入映射,与我现在的体系也毫无违和感,可以兼容处理好的。

另外,不包含映射的技术方案并非都是一丘之貉,彼此之间可以有天壤之别。这实质上是模式驱动的“一揽子”填坑动作,可以加速分析进程(就是你说的“跳跃”),又不破坏填坑的基础架构。但是我要说的是,既然看到了这个实质,映射的触发就不必拘泥于从左到右的模式匹配,一定程度上的词袋模型一样可以触发!实际上我在subcat里面做的事情就是这种不完全信息的模式触发,只不过做在了语义层。语义层都能做,回头做句法层纯粹就是锦上添花,照顾语言学家的UI感受而已。我不看好从左到右依次匹配,但我认同通过映射实现跳跃。语言学家不应该成为排列组合匠, 更不应该为某项排列组合的缺失而背黑锅。除非该项排列组合有明显不同的语言学意义。此其一

另外一个因素就是模式在激活之前的状态一定要有一个载体,而且这个载体必须跟着分析进程动态维护。伟哥有分层的fsa做这个事情,我是用词负载的subcat(实际上就是词袋)做这个事情。词袋的好处就是对排列无感,只认组合而且允许组合缺斤短两。在某些场合,词袋的部分填充会造成激活歧义。所以要用“状态”记录这些有歧义的部分填充(套用时髦的量子话术,这就是几个候选词袋的“叠加态”)。随着分析进程的展开,叠加态会“坍缩”到确定的词袋上,完成激活。

李:
大赞。…… 先赞后辩。
没全看懂 但似乎又懂了 貌似透过做法看实质 有不少共同的观念。消化消化。

白:
“人肉”本意是名词。在“人肉搜索”这个短语中是副词(N降格为S+),意思是用活人去深挖特定对象的隐秘信息。再简化一点去掉“搜索”二字,“人肉”就成了动词了(S+升格为S)。升格降格操作的活标本啊

李:
人肉搜索 不是宾语提前?把衣服扒光 不是人肉?

白:
“这个公司的所有人都是好样的。”居然有歧义。

李:
“所有-人” 歧义(hidden ambiguity): 单数 vs 复数, 复合词 vs NP,黑箱 vs 白箱,[possessor/N] vs [All people]

白:
“发言的是我们公司的。”

李:
1[human-action 的] –> NP[human]
2. [human|organization 的] –> AP[possessive]

1 + be + 2 –> 1 belong-to 2

“发言的是我们公司的。” –> [发言的 human] belong-to [我们公司 的 possessive】

所谓句子解析及其语义落地,不过就是模式的拼接。

白:
“作业你是不是不打算做了?”

李:
1 [plan V] –> plan-V (verb compounding like)
2. [ NP VP] –> S Pred
3. [NP S Pred] –> Topic S Pred
4. Topic S Pred(/O) –> O S Pred (所谓先耍流氓后结合:有“做-作业”的可分离动词的搭配关系更是坐实了远距离勾搭)
5. Vt NP –> VP
6. Vt –> VP(/O)
7. “是不是不” can be treated as one compound 小词 whether (or whether-or-not)

白:
是你打算,还是作业打算?是你打算做作业,还是作业打算做你?由什么决定?就本例而言,语序已经完全乱套了,只有subcat能决定。好在我们知道,计划类动词具有穿透性。打算的两个坑,是human、event;做的两个坑,是human、thing。这两个human就是穿透确定的共享萝卜的坑。往前面看,能填的只有“你”。“做-作业”离合词的远距离锁定,从另一个侧面做了神助攻。所以,不管前面“作业”和“你”的顺序怎么折腾,它们的subcat如同狐狸尾巴,总会泄露真正的结合方向。我们不需要S/O/Topic这些名目,直接根据萝卜和坑的subcat相谐性,就可以选择行的,排除不行的。也不需要针对不同语序设置不同模式。跟着词条走的cat/subcat就足够确定目标了。

“你懂的。”其中的“的”就是句末助词,标记为+S。“我是不懂。”其中的“是”是表强调义的副词,标记为S+。“你是不懂的。”其中的“是”和“的”借助这两个修饰语标记完成了绿叶的使命,把红花凸显出来。但是这种做法的好处更在于,“是”或者“的”之一缺位时,句法上照样work。红花之间的关系照样不变。不需要针对几片绿叶的有或无的排列组合一个个遍历。

李:
这话说的,好像世界上就有人有直道不走,偏要走弯道似的 哈。白老师雄辩。
排列组合遍历很多时候是免不了的,除非可以证明这些绿叶红花的排列没有意义, 所有绿叶都是可有可无的。语言的最大形式特点之一就是排列,或曰线性次序。概念通过语词,关系通过小词以及词序,线性地流进我们的耳朵。小词和词序,作为显性语言形式(参见【立委科普:漫谈语言形式】),其功能本质是一样的。由于信息和形式的冗余,厚此薄彼可以作为一个可行的策略,作为一个精算师的算法之一,但拔到理论高度说,让小词负载结构,赋予重任,同时忽视词序来取得鲁棒,总是很难让人信服的。

汉语的省略小词,是如此普遍,就跟汉语的词序灵活一样,都给鲁棒提出挑战也留下空间。你可以厚此薄彼作为一个 parsing 策略,别人也可以厚彼薄此作为一个策略。更有人二者都不厚不薄,利用模式,用?(optionality) 传达鲁棒,用显性排列形式的 obligatory 出现(何时、何地)来表达精准及其语义落地。有何不可?有何不好呢?能想到的不好都是实践层面,而不是理论层面,譬如:(1)可行吗?组合爆炸,排列得过来吗?(2)即便不组合爆炸,有本事伺候排列吗?(可维护性)

可行性的问题已经有答案也有实践,就是多层。Note that 这个多层也不是单单为了可行而采纳的。多层反映的是自然语言的 configuration(参见乔老爷杆杆理论,X-bar,科学网—乔氏X 杠杠理论以及各式树形图表达法),也是语言本质之一,譬如动宾(VP)与主谓对于多数语言就天然不在一层。

多层排列的可行性,其理论基础在于人脑记忆的有限,自然语言的可学习性。如果语言本质就是排列的组合爆炸,人也无法学习语言了。我们所做的不过是瞄着人 parse 语言的样子,去模拟实现它。符号逻辑的模型透明性和可维护性在多层模式里面得到了彰显。

第(2)个问题是本事问题。的确多层排列算法不是每一个人都玩得转的,就如小词负载结构兼以隐藏知识的大数据中间件除了白老师迄今无人能玩一样(甚至无人想到了这条路,参见【李白之15:白老师的秘密武器探秘】)。两条路线都严重偏离主流,主流人才的多数或者无视或者没有历练/本事来玩转这任何一条路线。

正如尺有所长,寸亦有所长。如今是各自玩各自的。区别在于,这个战壕自认为可以对nlu挖掘更深(这一点在下确信无疑:毕竟坐井观天一辈子了,天可能还是没看清,但井的深浅是清楚的,如数家珍;而且不需要做天外比较,就可以得出结论,因为自然语言在这口井里面基本是已经见底了),主流的战壕在我们不过是摘除低枝果实(这一点无法确认,保不定哪一天主流就突然从导弹演化为核弹,也未可知,彼此祝好运吧)。

白:
小词“可”负载结构,不是“仅”小词负载结构。语言的层次性在技术上“可”通过分层fsa消化,不是“仅”通过分层fsa消化。模式也不是“仅”通过负载结构的小词消化。同样负载结构的实词、算符优先序,都在推波助澜。一个句法体系和技术体系,一些特色或许突出,但贡献是多个特色联合作出的。

我不希望受众被误导。

李:
哈 我也不希望误导,或被误导。
其实,因素比重的差别,还是构成了技术路线的不同。也许用“小词负载结构”(的因素)来概括或代表白老师的路线,就好比以“多层专家词典排列模式”来代表的立委路线(听上去好耳熟,对了,历史上有过被毛委员往死里批判的立三路线)一样,都是不准确的。但仔细看过讨论系列的会了解其中的路线之别。

二元句法在前,逻辑语义在后的策略之所以可以成功,我觉得是因为有了“大数据中间件”的助力,否则很难想象那么简单的句法操作可以应对那么复杂的语言现象。所以,让我 wonder 的主要是大数据中间件,如何训练如何使用的。而对于二元本身,特别是小词负载结构,相对于多层专家词典的模式匹配,我没看出多少优势。如果硬要评价 pros and cons,从我的角度,前者长于简洁(也许也增强了效率)和鲁棒,后者更符合语言学家的语言认知和描述习惯,可以更加从容地对语言做精细而不失鲁棒的描述。

重要的是,二者同属符号主义,同一战壕,也似乎都可以包容对方。

 

【相关】

【李白梁49:同一个战壕的两条道路之辨】

【李白之16:小词负载结构与小词只参与模式条件之辩】

【李白之15:白老师的秘密武器探秘】

【立委科普:漫谈语言形式】

科学网—乔氏X 杠杠理论以及各式树形图表达法

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白之48:依存关系不交叉原则再探】

李:
画了前面的图回头仔细一看才发现,这个例句是擦边的“交叉”:

如果DG(Dependency Grammar)揉进了浅层的短语结构及其边界,先做了合成词“学习 成绩”,那么把“他”与合成词内部的“学习”连接成主谓关系,是交叉。但是如果不引入短语结构,一切节点都是终极节点,实行彻底的原汁原味的依存关系(DG)表达,那么“他”作为主语连接给“学习”以及“学习”作为修饰语连接给“成绩”,并没有真正交叉,只是层次(configuration)显得乱了。但是DG的最大特点(或缺点)就是打破层次,只论二元。多年来我们在DG中部分引入 PHG (Phrase Structure Grammar) 短语结构表达,也是为了弥补这个缺陷。

我要说的是,这不是DG最典型的交叉关系图。不知道有没有更好的交叉而且语言逻辑仍然合理的案例。以前一直以为从逻辑上看,真正的交叉是站不住的,会引起语义的混乱。

白:
这又和“学习成绩”是在词法层面的论断矛盾了。二元关系这竿子杵到底,似乎就不管你什么层面了。“这牛吹得有点儿大”算不算交叉?

李:
盘点一下关涉到的二元关系:

吹-牛
吹-得
得-大
有点儿-大
这-牛

白:
牛-大
牛有俩爹。

李:
从 “牛” 到 “大”,从 “牛” 到 “吹”,起点同,终点不同,所以不算交叉。
n年前,刘倬老师画过图,说只有交叉站不住,不允许。其余的情形(见下图)全部是可能的,说的就是依存。

现在清楚的是,逻辑语义依存可以一个儿子多个老子,甚至互为父子。可以跨越层次,因此是图不是树。但是真正的交叉好像还是不被允许的。逻辑上,依存交叉是思维混乱。

白:
“辫子是谁给你梳歪了?” 试试看。

李:
梳-辫子
梳-歪
谁-梳
给你-梳
给-你
?是-谁(这个强调词可能进不了逻辑语义图,如果硬要进入,就挂在被强调的“谁”上)

还有哪些二元关系?

白:
辫子-歪
你-辫子
交叉了吗?

我觉得首先思维不混乱,再看看交叉了没有。

李:
没有交叉,貌似并不违反刘老师当年定下的天条。

白:
我提到的两个不算?如果讲的是“逻辑语义”,我认为要算。除非承认过继和挪移。

辫子-歪,你-辫子

李:
【辫子-歪】 与 【梳-了】 是交叉了。【辫子-歪】与【你-辫子】并不交叉。不算。因为其中一个端点重合。端点重合的,与内嵌套类似,不是严格意义的交叉。这么多的二元关系,勉强找到一对貌似违背了不交叉原则,而且这一对涉及小词“了”。涉及小词的,原则上在逻辑语义图里面没有地位,不应该进入关系。这样看来,实词概念逻辑语义不允许交叉,是可以自圆其说的。

白:
在我这里小词都有地位。

李:
小词只在句法层面有意义,进入(逻辑)语义,小词不过是给自己的主子添加了“色彩” features,并没有语义关系可言。

白:
你-辫子 与 谁-梳 交叉了,都不是小词

李:
你-辫子 和 谁-梳,的确交叉得太彰显了,掩盖不了 <:]

可能辫子根本就不该找主儿, =)

白:
“腿是谁给你打断的”,腿 也不该找主儿?

李:
这个交叉不交叉原则,可以反过来看。也许可以找到一些案例,的确产生交叉了。但是我们不能允许语句中的概念漫无边际地乱谈恋爱,导致群交的杂乱场面,显然不好。所以,必然会有某个原则在那里起规约作用。也许有某个“不允许交叉”的弱版本需要挖掘和表述。

白:
残坑挪移,可复用萝卜归栈。
技术上当然有办法。

李:
两个人要私奔,天王老子也挡不住。

白:
比如刚才说的“你-辫子”。“你”就属于可复用的萝卜。

李:
二元关系不理别人就是了,不就是一个链接吗。技术上不是问题。管它叫树还是叫图。探讨的是,有没有一个有效的原则在,它合理有效地压缩了乱交。

白:
“辫子-歪”,歪就留下了残坑,被挪移到“梳”的位置。
我认为,残坑的处理和萝卜的复用是天经地义的,是NLP的应有之义。

李:
人心不古啊。现代化摧毁了周礼。是否要克己复礼?现如今,同性都可以结婚,禁区早被突破。

白:
乱交不可能,有辖域的约束,还有subcat的约束。辖域的约束,是指必须挪移到主子的位置。subcat的约束是指必须相谐。在主子的位置看如果没有交叉,就是OK的。

李:
对。
【谁1 给谁2 梳辫子】
【你-辫子】 和 【谁2-梳】 的交叉,是因为“谁2”与“梳”勾搭上以后,把给自己找主人的要求带给了“梳(辫子)”。

白:
所以,我们昨天讲的挪移,是在很严肃、很有效地处理交叉问题,很审慎地剥离表面上貌似交叉、学理上情有可原、技术上完全可控的现象,把它们纳入正轨。绝不是鼓励任意交叉绝不是鼓励任意交叉。

李:
服。

白:
而小词纳入实质性二元关系,一点都不影响上述对交叉的控制手段,但“词负载结构”原则则被推至极致。

李:
不管小词纳入还是不纳入,小词的确没有真正的语义地位。首先,小词各个语言都不同,而语义原则上是人类共同的。在深度分析的结果图上,不同语言的色彩应该已经褪掉。一切图谱理应是实体概念之间的关系。小词负载结构最多只能算是句法层面通向语义的桥梁。过河拆桥不拆桥,桥都不登大雅之堂。大堂里面都是args或mods,围着众神(谓词)跳舞。

白:
这个难以苟同。首先,格、时态、命题连接词、逻辑量词、摹状词都是语义里面必须有的组成部分,各个语言只不过用不同的手段来达到这些组成部分而已,如果碰巧某个语言里小词做了这件事,在这个语言里小词就负载了相应的结构,不描述是不对的。过河拆桥,是一种逻辑等价的技术处理,桥是客观存在的。

李:
总结一下不交叉原则:不交叉原则适用范围要从动态交往中看,而不是去除时间维度,把不同时期的交往压缩到一个平面去看。在没有时间维度的静态平面上看上去的违反不交叉原则的二元组关系,放在时间动态的交往上看,就没有违反原则。

白:
挪移就是位置随时间变化,随分析进程变化。而有些时候,桥是拆不了的。比如“卖盐的”。这个human就负载在“的”上,升格为实词。

李:
[human-action] –> [human],不太好操作。当然,除了[human]以外,貌似其他实体很少出现在这里。

白:
N+–>N,方便得紧,而且和形容词名词化一脉相承:“行个方便”。的字结构,饱和了以后,具有形容词性,形容词能升格为名词,的字结构就能。二者是同一机制。

李:
好像,的字结构可以是主语实体,也可以是宾语实体,后者就超出了[human]:

卖电脑的最新生产的是智能手机。
==卖电脑的[human]最新生产的[product]是智能手机。

白:
那是因为“生产”的两个坑,一个human,被“买电脑的”先占据了,剩下一个“product”坑,被第二个的字结构提取出来,再升格为萝卜。

李:
然后萝卜带上了标配本体?

白:
这整套操作,都在我们提供的机制内完成。

李:
这个标配的设置,不太好处理,虽然硬做总是可以做的。

白:
的字结构是我整个理论体系最早的切入点,不说烂熟于胸,也是胸有成竹的,至少是最不怕挑战的一块。

李:
呵 的字是中文的万恶之首。不说恨不得千刀万剐它,至少也是恨得咬牙切齿。

白:
既然做NLP,就得拿万恶之首开刀

李:
它还有变种:的|地|得|滴|哒|d|de|ㄉ|之
对了,粤语里面还有,那字怎么拼都忘了,但见到认识,口旁加既。

白:

李:
对,上世纪30年代流行

白硕:

日语借来的

李:
相比之下,茴香豆的茴五种写法算个球,李白比孔乙己可学问多了。宝林大师说过,满肚子下水全是学问,不能碰,一碰就往外冒。

白:
妈妈威胁孩子“等你爸爸回来的”那个“的”,在有些方言里似有与普通助词“的”分化的情况,语音形式都不同。

李:
听不懂这个。

白:
潍坊话发音类似“着”。
大家可以内省一下自己的方言是分是合。
@wei 就是,其他语境下的“的”是一种语音形式,这个语境下的“的”是另一种语音形式,简直可以认为是两个词,在普通话里合并了。

 

【相关】

【李白之47:深度分析是图不是树,逻辑语义不怕句法交叉】

《泥沙龙笔记:漫谈自动句法分析和树形图表达》

乔氏 X 杠杠理论 以及各式树形图表达法

【语义计算群:句法语义的萝卜与坑】

语义计算沙龙:基本短语是浅层和深层parsing的重要接口》

【李白之20:得字结构的处置及其结构表达】

【李白之29:依存关系图引入短语结构的百利一弊】 

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白之47:深度分析是图不是树,逻辑语义不怕句法交叉】

白:
还是没说交叉的事情:
“他的学习成绩优秀”,要不要管“他”和“学习”之间的关联?
管了就不是树。不管,差了点什么。

李:
好,现在说交叉。

交叉在语言学课上是一个常讨论的话题。基本上语言系统的部件有一个大体的层次:词典、词法、句法、语义等。这些部件是有一个宏观层次和优先次序的,这个没问题。交叉出现在一个层次的东西,有时候想跳到另一个层次去。说白了就是,交叉就是违反了部门独立性原则。部件的层次架构是原则性的东西,通常不该违反。但自然语言的复杂性就在,有了原则,偏偏有人要违反,那么系统作为一个制度,就必须有一个应对。

“他的学习成绩优秀”:学习成绩 是词法,合成词。“他-学习”是逻辑主谓。“他”作为句法单位,硬要钻进词法(“学习成绩”)内部,这样才能构成完整的逻辑语义全图(graph, 不是严格意义的树!),才能说达成了语言理解。这就是交叉的现象。作为原则,句法词法是隔离的,语言学理论里面给这些原则起了不同的名字和术语,且不管它。总之是,句法单位没有道理进入词法。词法出来的词是句法的最小单位(atomic),所以对于句法,合成词就是一个黑箱子。论句法功能,合成词与非合成词,完全一样。但是逻辑语义不管这一套。逻辑语义是超越语言学句法词法的术语语层次的东西。交叉出现在,我们在句法关系与逻辑语义关系的表达(representation)中,为图方便或其他原因,硬要把它们归拢到一起。

白:
事情可以完全不这么处理。如果秉持句法管谁跟谁有二元关系、语义管是什么二元关系,那么一切不合语义这双脚的句法鞋子都可以动。交叉是自然语言语义表达的客观需要,因此一定会在句法中得到反映。在技术处理上,二元关系的发生位置相对于构成二元关系的词的本源位置可以有所差异或者说变化。二元关系并没有探入词法内部,而是词法本身完成了对外接口的乾坤大挪移。比如,“学习”和“成绩”结合的时候,承认“成绩”是head,同时就把自己的残坑过继给了head,也就是说,“他”找这个“学习”留下的残坑,不是找“学习”要,而是找“成绩”要,这样就消解了交叉问题。

李:
乾坤大挪移应对的是POS约束, 如何应对语义约束:
“他”与“学习”是语义和谐的,“他”与“成绩”没有同样的相谐性(当然,“成绩”也要求 【human】,但那是另一种二元关系的相谐,属于赶巧了,不是原来的主谓关系的相谐要求)。

白:
过继的时候把subcat也一并带过去,不存在这个问题。

李:
操作上不宜、不易。不宜是因为,两个subcats混杂了,“成绩”原本的本体概念与过继来的本体概念,混在一起了。

白:
我们检查相谐性看的是单子singleton。学习的一个坑有human这个subcat,这个坑过继给成绩,只是位置上过继,但是subcat并没减少或改变。

李:
不易是,一个词的本体概念及其背后的常识,是这个词的灵魂,词形不过是躯壳,没有道理轻易出卖灵魂,哪怕出卖对象是你的老板。

白:
不是这样。中心词既然负载结构就必须包容结构。不是向老板出卖灵魂,而是老板包容了你的灵魂。

李:
那就具体说说,这个灵魂怎么转移的(出卖还是包容)。“他”是【human】, “学习”是【huam-action】, 因此“他”与“学习”是(逻辑)主谓相谐的。注意,这里已经把问题简化了:[human] 只是一个相谐的代表或标志,其实主谓相谐包含各种强搭配弱搭配。也许有一个逻辑主语要求的是一个非常细线条的语义类别,不是简单的一个【human】这种层次的类别就可以包揽。

白:
成绩是【action-information】,学习成绩是【human-information】,
perfect。这又要说到unification。

李:
说具体点。action-information,怎么就表达成了 human-information,是一个本体概念节点 还是两个本体概念节点(的混合)?

白:
相谐不是两组符号字面相等。类型演算啊。 输出是information没变,输入变了,级联的整体效果。是输入human,输出information。没有类型演算的ontology,干不了这个。

李:
当“成绩”遇到“学习”,在合成词形成的时候
input is: V(human-action) + N(information) / human-action
output is ??

human-action 的坑满足了,填进去以后,这个头词“成绩”怎么过继,类型演算的结果形态是什么?从道理上,修饰语不能改变头词的本性。因此“成绩”仍然是information, 而不是human-action,尽管它吃掉了 human-action。

白:
不改变输出,改变了输入。

李:
改变了对subcat 的输入要求?

白:
学习是event(human), 成绩是information(event), 学习成绩是information(human)。

李:
我拿放大镜看看这个乾坤大转移。先下线。貌似形式化演算中规中矩。但如果subcat不是那么单纯,如果是强搭配 直接量呢?也可以大转移?

白:
游泳?当然可以。这类,泳就是action,游就是commit,所以,不需要出卖灵魂,老板会包容你的。这是subcat之间的类型演算,完全是结构制导的,残坑挪移后,位置已经没有交叉。语义那边不存在与挪移有任何违和感的东西。没有“不宜”。至于“不易”,说实话还真是有一点点小门槛的。commit太虚,简直就是可以穿透的: commit(action)=action

李:
明白了:过继的是句型信息(对坑的要求,SUBCAT),不是本体全部。

问题过继不是目的,目的还是要建立“他-学习”的主谓关系。而不是“他-学习成绩”的主谓关系,后者不make sense。换句话说,过继了input的要求,逻辑语义output却不能转移,不能张冠李戴。

白:
来源还在,并不因为挪移而抹杀。过继是现状不是历史。

李:
还是有个机制要“进入”词法,才能联系逻辑。

白:
纯二元关系看,交叉是真实发生了的。

李:
好,有理由认为总有办法最终搞定“他-学习”的逻辑语义的二元直接联系,从句法进入词法。

白:
从词负载结构的观点看,交叉这一页可以顺利翻过去,仅此而已

李:
交叉不是关键。

白:

李:
这只是一个帽子,扣帽子可以用,实际不必理他。作为语言学(内)原则,有其合理之处,因为语言学总体或主体是形式层面的理论。但逻辑层面,这个不算啥。

白:
句法不拉语义后腿,句法也不违背所谓的原则,两全其美了。关键是,挪移有了语言学上合理的解释,不仅仅是头疼医头,见招拆招。

李:
第二个相关问题是:刚才所说的演算(SUBCAT坑的挪移或过继)是典型的符号逻辑,
而不是大数据中间件的相谐性的查询。我们可以在符号逻辑操作中,把对坑的【human】要求挪过来,但是我们如何在语义中间件查询中去check非符号的条件。譬如:“他 - 学习” 如果是句法的直接二元关系,我们很容易查询中间件它们是否相谐,而不管这种相谐的符号表示是【human】还是直接量(强搭配)。但是,当“学习”淹没在“学习成绩”的组合里面,如何一致地调用大数据的相谐呢?

白:
subcat有两个作用,一个反作用于句法,辅助做出逆向选择;另一个衔接语义落地。大数据也辅助做出逆向选择,甚至大数据就是用带subcat标记的词典训练出来的。但是语义落地不可以没有subcat,只有好subcat或坏subcat之分。我们不对语料做标注,但不等于不使用带标注的词典。相谐性是原本二元关系的相谐性,不是跟stepmother的相谐性。

李:
可以想见的是: in “NP + de + V + N”, the unsaturated subject of V will still try to be paired with NP in checking the middleware based on big data even if V is eaten up by NP.

subcat 句型的原始的完整内容其实很丰富,不是简单的 vi, vt, 等可以涵盖的
从input这面,它规定了:(1)几个坑;(2)坑在哪里(位置和词序);(3)坑的句法形式(包括直接量);(4)坑的语义约束(【human】等)
从output这边,它把每一个按照上述规定的坑,都map到确定的逻语义角色去,是为语义落地。这样一套丰富的内容,在“他的学习成绩”这样的坑过继的机制中,直感上难以面面俱到。

白:
我得睡了,明天一天的会。

李:
晚安。
SUBCAT是半部语言学,而且外接语义,谈不尽的焦点话题。已经谈了n次了,还可以谈多次。

白:
坑,一经产生,就是一个独立的存在,subcat的归属是终身的,不依母体的萝卜去哪儿了为转移,也不依自身的结合位置被挪移到何处为转移。还是拿“王冕死了父亲”为例。从语义角度看,“父亲”挖了一个subcat类型为human的坑,同时对外提供一个subcat类型为human的萝卜。“死了”挖了一个subcat类型为human的坑,对外提供一个subcat类型为event的萝卜。当“父亲”和“死了”结合,“死了”的坑饱和了,“父亲”的坑还亏欠着,那么“死了父亲”这个短语作为一个整体,就还有一个subcat为human的坑对外亏欠着。“死了”既然全权代表这个短语,当然也就继承了这个短语内部对外的一切债务,于是这个亏欠的human坑,就过继到了“死了”的头上。外面的萝卜(王冕)必须找这个“死了”填坑,“死了”自身亲生的坑虽然饱和了,但是对“父亲”过继来的坑却必须负责到底。我们在句法层面,用N S/N +S N/N这个序列,很清晰地实现了结构制导。

李:
“父亲”挖了一个subcat类型为human的坑,同时对外提供一个subcat类型为human的萝卜,后者(萝卜)是本体概念,前者(坑)是句型预期。

白:
句法和语义是同步的。“了”这类萝卜皮的语义作用机制暂略,后续再说。

李:
所以 / 后面是坑,也就是 arg, +是 mod,随机的被吃掉的对象。+S就是被事件谓词S吃掉的东西。这个coding里面不包括词序?
还是没看清“死了”的逻辑主语 怎么从“王冕”转成了“父亲”。从左向右parse ,先跳进坑的是“王冕”。parse 到“父亲”的时候,S 没坑了。按照常规,这个萝卜应该降格,譬如 降格成“化外的”称呼语:王冕死了,父亲。

白:
这涉及到算符优先机制。总的说就是,单坑的动词,右侧填坑比左侧填坑优先。
“台上坐着主席团”,也类似。

李:
有理。
走了很多能人。

白:
甚至也包括形容词:春风又绿江南岸,宁可“春风”先shift,保证“江南岸”优先填“绿”的坑。

李:
这个结构制导清楚了。请教一下:根据规定的优先次序(parsing算法),在萝卜跳进坑的时候,查还是不查语义中间件?如果没有其他的竞争者,就不查了吧?就是说 human 这种东西在与N/N 或S/N结合的时候,有没有用到?也就是在决定第一个NP“王冕”是 shift 还是跳坑的时候,要不要查左边的NP“王冕”与右边的NP“父亲”,看二者的力量对比?还是不管三七二十一,就是右填坑优先。当然在这句,即便查也是力量相当。但是应该会有力量悬殊的情形,这时候右优先的决定是不是就会受到调整改变。

(1a)中文切词作为领域早已终结。
(1b)G教授终结了中文切词。

(2a)门开了
(2b)开了门
(2c)张三开了门
(2d)门张三开了。
(2e)张三门开了就驱车离去。
(2f)张三门开了就闯进来。

最后一句(2f)谁开的门?不知道。开门者不大可能是张三自己。但在“张三门开了就驱车离去”中,开门的一般认为就是张三本人。

白:
“作为”是带坑的后置定语+N/N.  “终结”如果是单坑,“中文分词”填坑恰如其分。如果是双坑,两边都有位置。“开”是双坑无疑。“就”这里涉及到合并(merge)操作的指向问题。如果按default,标配的指向是右边合并到左边。但是在有特殊标记的情况下(比如被副词“就”修饰)就反其道而行之,左边合并到右边。算符优先机制会让右边所带的坑优先选择萝卜。也就是说,先保证“闯进来”的是张三,谁开的门,可以不care。

 

【相关】

《泥沙龙笔记:漫谈自动句法分析和树形图表达》

乔氏 X 杠杠理论 以及各式树形图表达法

【语义计算群:句法语义的萝卜与坑】

语义计算沙龙:基本短语是浅层和深层parsing的重要接口》

【李白之29:依存关系图引入短语结构的百利一弊】 

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白宋53:聪明的一休与睿智的立委】

宋:
“禁止违规游泳”(1)凡游泳皆违规,禁止游泳。(估计这是标语牌的本意)(2)游泳还是可以的,但不得违反相关规定。(相关规定是什么,并不知道)

蕫:
宋老师,是的,应该是’在此处游泳均属违规”。我还见过“禁止野浴”。

李:
“禁止违规游泳”这个问题蛮典型 就是修饰语的限定性还是非限定性的问题。所有游泳违规 均在禁止之列,这个解读是非限定性的。限定性的有:

“欢迎持照游泳 禁止违规游泳。”

“以下游泳行为一律视为违规 本游泳池有权禁止入内或强制驱逐:
1 不穿泳裤者:便裤 普通内裤不得入内。裸泳绝对禁止。
2 传染病患者
3 无会员证者”

汉语句法 前修饰语默认为限定性。就是说 有修饰语 集合就变小了 成了原概念的真子集。而非限定的修饰语解读属于例外,是值得具体研究的现象。

白:
“聪明的一休”,还有不聪明的一休木有?

李:
聪明的一休很典型。再如 吾党的伟光正:伟大光荣正确的某某党。语言学认为默认为限定,吾党认为是非限定。这是自封的本性 不改变集合的外延。如果抠字眼,可以说:
“伟光正的党万岁 不伟光正的党必亡。” 搁在文革,这就是恶毒的反标,现行反革命,要坐牢的。

如果非限定性有句法形式的区分手段 那就好说。譬如英语非限定定语从句,前面加逗号 不允许用 that 作为连接小词。这些都是句法形式的规定 与语义相呼应:

限定: “I like the guy that just won the Math Olympic modal ”
非限定: “I like the guy, who just won the Math Olympic modal ”
==  “I like the guy, and he just won the Math Olympic modal ”

但是如果没有形式区分 就是一个特别值得探究的现象 究竟是如何出现的 什么因素决定了非限定。我觉得非限定修饰语的产生就是语言表达的偷懒,或discourse意义上的降格。偷懒表现在 本来应该是独立子句表达的语义 被凝缩或降格为前一句内部的修饰语了,做了小三,但表达的却是原配。除了偷懒 造成可能的困惑外 还有轻视或侮慢原来语义 顺带一提的语用或风格的因素。

白:
这个和反事实条件句有得一拼。汉语不太看重程序正义,如果你知我知没有不聪明的一休,那聪明的一休就是非限定的。

李:
“朦胧的月光”,是非限定。“火热的太阳”,却是限定性的,因为“惨淡的太阳”、“昏黄的太阳”也是存在的。”Stupid me”, 这个是非限定的。 它等价于 “I m stupid”, 虽然严格说 我应该也有 intelligent 的时候。逻辑与语言的不一致就在这儿。

白:
哲学上较真儿起来,没有绝对的同一性。上一分钟stupid,这一分钟不stupid完全可能。所以非限定就是一主观的“锁定”。让你不游动,定格在某个特定的属性上。

李:
对。
可是怎么在说者与听者之间达成这个锁定,使得理解无误呢。“伟光正”的锁定是洗脑的结果。“聪明的一休”在狭窄的domain,是新造的脸谱化人物,也是绑架的。“美丽的西施”是历史的共识,还有 “睿智的诸葛亮”。如果说 “睿智的立委”,那就是恭维 拍马 或 嘲讽了,虽然也是锁定,因为说这句话的时候 是没有假设存在一个愚笨的立委 作为对照的。但是,可以说:“睿智的立法委员肯定不会投票赞成这个法案的,少数愚蠢的立法委员除外。” 这就是限定性了 。当然,立委与立委不同,专有名词从集合论上说只是一个元素,排除时间维度可能的变化以后,这个元素是不可割裂的。普通名词常表示类别,所指是一个集合,于是给子集的限定性留下了余地。

白:
先有脸谱,锁定才成为可能。与脸谱不符,那是高级黑。

李:
这里 脸谱 就是英语的 stereotype,带有默认属性的实体,当默认属性成为修饰语 那就是非限定。默认以外的属性作为修饰语, 就是限定性 因为这增加了信息量。伟光正的信息量为零。作为修饰语 不是为了传达信息,而是为了宣传或气势压人。把默认属性提出来作为修饰语虽然没有增加信息量,但可能有强调或比照的语用效果。如果我们知道隔壁老张是个矮个子,然后说:“小个子的老张摔跤大赛中得了冠军”,这个已知内容的非限定性修饰语加强了意外成就的效果:see,大家都知道老张是个小个子,可是他虽然个子小,本应处于不利,他却赢了。

宋:
一般情况下,对于个体的修饰,通常是描述性的。对于多个体的集合的修饰,就有两种解读了。刚才说的是定语。如果是状语,则往往是描述性而非限定性的,因为通常是叙述一个特定的时刻特定对象发生的行为。如“他违规使用电器”。但是,在“禁止”、“提倡”、“要求”这类语境中,状语往往是限定性的。

白:
刚转了一篇关于陆奇的采访,用的称呼是“微软最有权势的华人”。且不说他是不是适合这顶帽子,这里涉及到定语的限定性用法和非限定性用法。如果中心语是集合,那么定语可以筛出一个子集。如果定语是一个个体,it depends。

“原来的我”,实际上把一个个体在时间维度上分片了,筛出一个时间段。而“聪明的一休”则根本没有任何限定。“假马克思主义者”则针对原来的集合在其外面构造了个集合。

李:
这个限定还是非限定的问题 在做 sentiment 时候挑战可大了。选定的定语有褒贬的话 对于被限定的实体 是直接影响。非限定则不然 根本就不存在褒贬评价 只是把对象用褒贬的维度 做了客观的分类说明而已。可惜二者的形式区分很微妙 不好区分。“道德败坏的四人帮” 是贬四人帮,”道德败坏的人 是环境使然 还是也有遗传因素呢 仍然有争议” 谈的不过是人类的一种,是在“人”这个集合里面限定一个子类,语义议论,并非针对“人”做否定性的价值判断。

白:
“道德败坏的人”两个意思。限定用法,指人类中道德败坏的那部分。非限定用法,指人这个物种就具有道德败坏的属性。

梁:
白老师是说,限定性把概念的外延限定变小了。“聪明的一休”没有”限定“一休,只是说一休有”聪明“的属性。

白:
是啊,正是。所以“丑陋的中国人”其实也有歧义的,只不过作者毫不隐讳他说的就是非限定性的意思。

宋:
英语的关系从句也有这两种(全体元素具有该属性,或抽取出具有该属性的那一部分元素),它们的区分有无形式标记?

白:
感觉:1、后置定语往往是限定性的;2。分词做定语往往是限定性的;3、有定形式(比如受定冠词管辖)往往是非限定性的。

我:
限定 非限定可讨厌了,有没有形式痕迹?有,英语中,我们尝试发现蛛丝马迹,也的确发现一些,类似白老师说的。但是非常微妙,稍不留神就 overkill,这个问题对 sentiment 非常重要,除非牺牲 recall,对定语一律不抓。如果想要那个 recall,precision 就会影响,如果这个问题不细心的话。烦死啦。

利用句法和pattern 都这么难缠,没有结构帮助,这个 sentiment 怎么弄,是不是就是瞎蒙。By the way, 英语中的术语 限定性(restrictive)与非限定性 似乎正好与白老师说的意思相反。教科书上,英语中最典型的区别和说法是,限定性定语从句前面不能有逗号,用 that 或 who、which,非限定性定语从句有逗号,不能用 that。因此,非限定性定语从句与另起一句差不多,是对NP的整体做进一步讲解,而不是对 NP 做限定性分类。但实际的情形复杂多了,这与 NP 是不是专名,NP 前面是定冠词还是不定,是不是复数,等等微妙条件的组合效应有关。

Case by case,人大致可以判断是哪一类,或是是不是歧义(或两类都有),但从这些语感中总结出一组可靠的条件,颇费功夫,要不断到数据去求证,才逐渐感觉有个眉目,这里面结构是必需但不是充分的因素(没有结构,是不是定语都不见得摸得门,就更甭提区分两种定语了)。应该算 NLP 难点之一。看哪家系统,用什么招,可以成熟一些。迄今所见所闻的学习出来的 sentiment 系统,对这个挑战似乎束手无策。

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白之43:谈谈绑定和回指】

白:

him为啥指he而不是the police officer?按照“最近提及原则”,the police officer在栈顶,“he”在次栈顶。但,语境(图片)表明,“he”在牢狱中,事理指向出狱(go)。事理决定了police officer可以决定he是否go,bribe可以左右police officer的决定。这些事理指向,一旦达到边界强度,可以压制最近提及原则的标配结果。

李:
“He bribed the police officer to let him go” is like “He requested the officer to find him”. “him” cannot refer to “the officer”, it has to be somebody else, either “He” or someone else.

cf: “He requested the officer to find himself”

“himself” refers to “the officer”.

白老师的道理是说语境(事理)可以突破 heuristic。凡是 heuristic 都只是一种趋向,一种原则,也都有例外,都有被其他因素override 的可能。这个道理是对的。但这个案例,却不需要语境出场,这是句法绑定(binding)本身就决定了的。

“bribe” 的subcat 是:bribe sb to do sth, so “sb” is the (logical) subject of “to do”,
the object of “to do” cannot refer back to the subject unless “self” is used following the Binding Theory.  So in the coreference list, “the police officer” is not even registered as a possible candidate.

句法就排除了这种可能,因此也就没有什么就近原则与语境发生冲突的故事了。这是乔姆斯基的绑定理论的一个典型表现。不确定绑定的是谁,而是确定不能绑定的是谁。

白:
穿透了

李:
显示了句法的有限但是有效的作用。

“She bribed the police officer to let him go”, now the subject is “She”, still “him” cannot refer to “the police officer”. It has to be somebody else.

白:
him就是第三者,非反身性。

“John asked Bob to wash himself.”
“John promised Bob to wash himself.”

当年德国老师讲过这两个例子

李:
right.
this diff lies in the diff in subcat patterns. “promise” is not associated with the standard subcat “promise sb to do sth” when “sb” is the logical subjecct of “to do”, it is instead associated with another subcat “promise to sb to do sth” when the logical subject of “to do” is the same as the subject of “promise”.

所以句型不仅仅是形式序列: Input 形式背后作为output的逻辑语义也是句型的一个必要成分。上述两个形式相同的序列,在句型上被认为是两个。分别用不同的subcats 在词典里面标识。可见,subcat 虽然是一个句法范畴,里面却藏着通向语义的钥匙。

语言学里的subcat 差不多是大半部句法了,是极为重要的概念。词典主义被公认为最有效的自然语言策略就是基于subcat。这是语言学隐性形式手段的最漂亮的体现,是上帝的杰作。

白:
“我答应你离开他”,“我要求你离开他”。前者是“我”离开,后者是“你”离开。在“答应”和“离开”进行“合并”操作的时候,“离开”没有饱和的坑向“答应”的逻辑主语开放复用。在“要求”和“离开”进行“合并”操作的时候,“离开”没有饱和的坑向“要求”的逻辑宾语开放复用。这种在合并时可以对复用指向提出要求的禀赋,潜藏在词典里。平时看不见,合并时露峥嵘。

李:
正是。这是语言(学)的奇妙。由于subcat是一种词典分类或标注,是隐性形式,这似乎是创造语言的上帝给人类理解语言出了一个小小的难题。在人类(语言学家)没有发现subcat或自主利用subcat机制之前,语言处理注定是混沌的、粗线条的。但无论发现还是没发现,人类千百年来一直在潜意识里利用它,无障碍地交流。

白:
“面包我答应你吃掉了,牛奶你就别逼我喝了。” 即使填后面动词坑的萝卜移位到前面,这个关系依然成立。即使“你吃掉了”这么天衣无缝也不许结合。

李:
这个句子很妙。

白:
binding在汉语里会有更广阔的发挥空间,而且和“词负载结构”的理念是如此之契合。残坑就是一种变相的指代。

李:
但是,coreference主体是discourse范畴,binding不过是想利用句法提供一点帮助,它还是局限于句法本身的范围,句内。句内能搞定的只有self, 句内不能搞定但是可以排除句内candidate的,句法也有一些助益。再多,binding 就无能为力了。Coreference在 binding 之外,仍然有很多 discourse 的挑战。是一个公认的 NLP 难题了。

白:
“你我不允许走,他么可以商量。”—如果后面的动词是不及物的,即使逻辑宾语提前了仍然受到与在原位同样的约束。

李:
什么约束?

白:
走的不是我,虽然离得近。

“一个嫌犯我们也不允许放过”,“我们”似乎要通吃呀…… 难道“允许”是个双性恋?

李:
句型纠缠? 一个也不 Vt == 一个也不【被】Vt
“一个也不(被)买”,“一个嫌犯也不(被)放过。”

“一个嫌犯我们也不允许放过”
==“我们不允许放过一个嫌犯”
== “我们不允许【human】放过一个嫌犯”
== “我们不允许一个嫌犯(被)放过”

这个【human】是谁,不知道,也不必知道。这是一种命令,常识上这个【human】可以是任何人(在domain里可能指某些“手下”)。任何人也就可以包括“我们”自己,但这不是严格的回指,而是包含。

“我们也不允许自己或任何其他人放过一个嫌犯。”
“我们也不允许任何人包括我们自己放过一个嫌犯。”

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白之42:谈谈工具格的语言形式】

白:

“张三踢李四的两脚李四一直惦记着啥时候提回来呢。”

如果“两脚”填的不是标配的坑,这定语从句的反填就成了问题。目前我是把“两脚”这种动量词先处理成N,再升格成为+S,可以理解为一个自带宾语的虚拟后置修饰语。当对“两脚”使用定语从句修饰的时候,可以认为自带的宾语“两脚”与作为其母体的虚拟后置修饰语进行了某种分离:虚拟后置修饰语“+S/N”留在了定语从句内部,而它自带的宾语“N”则被甩到定语从句的外边,被修饰且可以反填残坑“/N”。同理,在“武松打死老虎的那三拳力道大得惊人”中,“三拳”也填不了“打”的标配的坑,只能理解为自带宾语的前置虚拟修饰成分(“打死”已经是述补结构不再能后置只修饰“打”的动量修饰成分,从而必须往“打”前面放)S+/N和动量结构N分离了。就是说,被定语从句修饰的动量词N,无法简单地升格为+S或S+,而必须要还原出一个带宾语坑虚拟修饰语+S/N或S+/N,把它推入定语从句。这恰恰才是N升格为+S或S+的本质。如果不是反填定语从句的要求苦苦相逼,这个本质差点儿被掩盖了。可以理解为先有“武松(凭借)三拳打死老虎”,而后有“武松(凭借)打死老虎的那三拳”,最后变成了“武松打死老虎的那三拳”。

说到“凭借”,想到了“借以”。后者是中间抽空了介词宾语的合成词。“武松借以打死老虎的那三拳”是“武松借(那三拳)以打死老虎”的定语从句形式。反填的坑,就在“借”和“以”之间。

李:
工具格,或 所凭借。

白:
有的时候,这个坑会显性化,“借之以”。
砍、剁、刺、砸等动作,工具格是标配。打、抢,工具格不是标配。非标配又不显性带介词的工具格,必须借升格处理之。

李:
工具格有搭配性与非搭配性两种:搭配性工具 因为其搭配 常常省略显性小词 如“凭借”、“用” 等。“打 两拳” 是搭配,“两拳”是工具。“用板凳 打”,则是非搭配性工具。

白:
“他抢银行的那把玩具枪”
意思是“他(用以)抢银行的那把玩具枪”

李:
“他抢银行的那个案底”

白:
“案底”是N/X,不需要反填,是动词填X。

李:
“他抢银行的那个同伙”

白:
“同伙”是N/N

李:

“他抢银行的那幢大楼”
“他抢银行的那个时间”
“他抢银行的那个缘由”
“他抢银行的那个后果”

白:
缘由、后果也是N/X。大楼、时间不是,但内置虚拟修饰语。必要时就分离出来,塞回定语从句。同伙、缘由、后果、案底,都带坑。时间、大楼、动量,则是内置一个随时可以分离的坑。或者叫虚拟小词。

李:
“他抢银行的那个x”
对于非搭配性(标配)的工具,也分为两种,一种是这个实体本身具有比较典型和普适的工具性。算是一个名词子类吧。另一个是不在这个子类的名词。对于后者 如果想表达工具这个逻辑语义,就必须用小词。否则它就没有证据或痕迹显示自己的工具角色。“他用希特勒主义去抢银行”。这个 “用” 不能省。因为 “希特勒主义” 第一不与 “抢银行” 有搭配,第二它自己也不属于工具子类。语言必须要用显性形式,譬如次动词“用”,或者俄语的工具格的词尾形式,来标记其逻辑语义,否则心里的语义无以传达。

白:
“抢银行”换成“治理国家”,“用”就可以省了。

李:
那是因为 “主义” 与 “治理” 有某种搭配的呼应。

白:
且不说逻辑语义,统计就支持这样的搭配

李:
没有统计的搭配不存在 除非说的不是大数据。

白:
不说“主义”,就说“那一套”,也可以省掉“用”,因为“希特勒”已经是足够强的搭配因素了。

李:
“他用那一套糊弄谁呀”
“是啊 那一套糊弄谁呀”

白:
“那一套”隐含“方法/无形工具”
所以,对于从名词反推虚拟修饰语的“升格-分离-反填”机制,形式规则只提供可能性,统计搭配才提供现实性。

上面说错了,“升格”都应改为“降格”。降格虽是普适的机制,但只能紧邻被修饰语使用。分离是受统计显著性搭配条件才激活的,只有成功分离,才能在后续纳入正常的反填渠道处理。

被定语从句修饰的中心语,N/N与N/X的区别。前者从N栈依次寻找搭配的词语填坑。后者从N和S混合栈里的依次寻找搭配的词语。二者都服从“最近提及原则(last mentioned principle)”,但针对的栈不同。因为都在定语从句辖域内,这些填坑的萝卜都是使用的免费额度,无论S还是N。

李:
在我的体系里,arg 降格为 mod,【工具主语】 降格为 【工具状语】。如果 topic 是人,subject 是工具,topic 可升格为逻辑主语 arg,工具 subject 则降格为状语 mod. “他一巴掌打了她”,“他”是逻辑主语,“一巴掌”是工具状语。

总之,逻辑语义虽然放之四海而皆准,自然语言却老在升格降格、显性隐性形式中变化多端。语言世界因此诡异而多彩。

白:
话头是宋老师“达成的一致”引发的。“一致”在宋老师的例子里确实是“升格”,但后续关于动量词的例子里,讨论的都是“降格”。N+到N、S+到S是升格;N、S到N+、S+或+N、+S是降格。一个是萝卜皮变成萝卜,一个是萝卜变成萝卜皮。

李:
“达成的一致” 就是 “洗的澡”

白:
?学的习
?高的考

李:
不好
有如 * “浏的览”

白:
洗的澡是自指,达成的一致是转指。

?收获的丰硕
?贪污的巨额

最后一个接近于能说。

取得的圆满

这个就完全没问题了。“圆满”基本可以类比宋老师例子里的“一致”。

赶过的时髦

“时髦”比“圆满、一致”还顺溜。几乎不是临时借用N而是固化的N了。

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

《李白毛55: 漫谈中文NLP和数据流》

立委按:谈笑有鸿儒,泥沙龙写照也。毛白李三剑客,隔洋神交,日颠夜倒,天马行空,人生快事也。语言理解,人工智慧,软体硬件,万言不离其宗也。铿锵三人行,行迹可存,笔记于此,以飨同仁也。

白: 转:《夏洛特烦恼》我以为主角叫夏洛特 。原来男一号叫夏洛 ;接下来会不会有《郭敬明天见》《周立波很大》《吴奇隆胸记》《王宝强奸案》《郭富城会玩》《井柏然并卵》《黄秋生无可恋》《贾乃亮了》《奥巴马上来》《周润发财了》《权志龙虾壳》《金正恩仇录》。

李: 边界之争。夏洛特是词典一方 特+烦恼 是句法一方 作为一般原则 句法认输。所有的边界之争 你总可以找到一种语境 来支持任何一方,但是实际系统中 还是按原则办事(除非某特定语境出现频率大 而且可以形式化被捕捉作为原则的例外)。“郭敬明” 是词典,“明天”或“明天见”也是词典,词典与词典相争。 谁赢呢?要分不同情形。情形对应的是 heuristics。对于此情形,“明天见” 赢。因为有这么一条 heuristic:最少词数胜出。郭敬/明天见, 算两词。郭敬明/天/见 是三词。更深的理由是 音节数量的匀称的 heuristic:3 1 1 不如 2 3 匀称。

白: 无后坐力炮,经常被读成2 3节奏,按构词法,应该是1 3 1。可否不那么早定输赢,都打到上一层。

李:可,keep ambiguity untouched 的办法 也是一招,不过加大了后去 parsing 的搜索空间 也可能不妙。

白: 上层用Ngram也无所谓。看一个滑动窗口激活一个还是两个词袋。

李: 这就是拼积木,难的积木留在最后拼。拼积木ngram比cfg容易,没有爆炸的问题。

白: 正是。

李: 汉语的节奏对称还是很厉害的,举反例总会有,但是实际中发现,音节数的条件,比起其他的条件(词类、子类、语义分类)往往也很好用、可靠。另外一个相关的体会是排比句式,汉语(包括古汉语)排比句式的使用往往可以把本来占有统计劣势的 parse 变得有效起来。不过,至今没想到利用排比句式帮助消歧的好的实现办法。感觉排比的发现和使用是处于另一层,而且排比的 scope 不好事先确定。

毛: 对于汉语NLP, 二位觉得有什么好书可以推荐?不用很深,科普就行。

李: 我很多年不看书了,还是白老师推荐吧。最好的是白老师正在写的,这个无疑问,但你需要等。汉语 NLP 论文献,80% 谈的是切词,全领域走火入魔了,陷入细枝末节和烦琐哲学,很大程度上非常可惜的一种智力浪费。

毛: 等倒没关系,反正暂时也没时间看。其实我不太会有机会用到这方面的知识了,我这是“朝闻道夕死可也”。尼克,Unix的那些Utility,每个都是基于一个while主循环,这就是lambda的语义。Java8让你有一种简洁的方法来表达这种语义,然后它替你生成这样的循环。

白: 自然语言的语义,也有lambda的份儿。

毛: 是,所以我觉得数据流在 NLP 方面可以发挥一些作用。

白: 表函数、表关系、表部件的词(中点、姐夫、抽屉)都是。需要一个带坑的语义结构去定义。坑,就是约束变元。

李: semantic subcat?  Syntactic subcat specifies the form of roles in a frame,correspondingly, semantic subcat specifies the preferred semantic classes for the expected roles of a frame. 语义 subcat 都是必填的,虽然句法上还是可省略。

白: 坑有必填的和可选的两种。

李:如果加上可选的,那就超出了subcat,而进入 cat 了。因为可选的角色一般针对大类,而必填的才针对子类。

白: 这点商榷一下,时间地点等,往往不是必填的。

李: exactly,时间地点等边缘角色针对的是大类。所有的动作、行为都适用。它们都在时间与空间中存在。而一元谓词,还是二元谓词、三元谓词,甚至零元谓词,这些都是子类的区别。天气动词语义上是零元的,虽然句法上可以加一个:“It” is raining 、“老天”下雨了。世界语最接近逻辑,语义的零元,句法也是零元,就不用加这种无意义的主语:Pluvas。

毛: 我觉得最有前景的可能是并行多路的parsing。就如你们刚才说的“无后座力炮”,如果系统能立马分出两个数据流分支,按不同规则加以解析,然后由高一层的规则判断何者为优,那效率就高了。这在NLP方面不是什么新概念,问题在于能否搭出这么灵活而高效的系统。但是NLP所处理的原料不太可能是世界语的文本呀。

李: 只是说明语义和句法之间既对应,又不完全对应的情形。比较不同语言,这些不对应的部分反映了不同语言的应对策略,这是很有意思的对比。

白: 标签化的表达比函数式的表达,应对非必选的东东就灵活多了。

李: 英语用 it,谁知道这 it 是什么东西?汉语比较具体,用的是“老天”。

白: 相反吧,汉语不说。

李: 汉语也可以不说,“下雨了”。如果不说,那就与世界语一样逻辑了,躶体出境。

白: 不说不是省略,是比省略高明的模糊。

李:  这里不是省略,因为逻辑语义上没有这一元的地位。

白: 语义上就有0元谓词,但是句法上没有地位,于是搞了个貌似省略的充数。

李:”老天“ 直译过去就很可笑:The sky is raining, Mother Nature is raining, or, God is raining?

白: 比it还富有想象力.

高: 像黑格尔说的,Was ist Das.

毛: 可以用函数式的方式来处理标签,把二者结合起来。我相信在NLP这一边已经有了许多很好的概念和方法,问题在于怎样搭出好的系统来高效加以实现。所以数据流应该有用武之地。

李: 语言很有意思,可以从三层来看这种“坑”。Filmore 把这个叫做【格语法】,他写过 “Case for case”,许国璋教授翻的,叫《格辩》,得其神韵,很妙。《格辩》是与乔姆斯基唱对台戏,是反乔派中最有分量的历史文献了,高举的是语义大旗。对NLP有深远的影响。所以,“坑”(case)可以分三层来看。第一级是 morphology case,这是“格”的本来用法,主格、宾格、工具格等等的词尾形式所表达的。第二级是 syntactic case,刻画的是 subcat 对语言形式的条件要求,包括具体语言中每个 Role 的词序、介词等的要求。第三级是 semantic case,刻画的是输出框,这是各语言共同的,又叫深层格,是 Filmore 提出的概念,与乔姆斯基的逻辑形式(logical form)对应。要几个元(格)是由谓词的概念子类决定的,它反映的是自然的关系(可以包括本体常识)。可是每个语言在实现这些深层格的时候,会利用不同的句法或词法的形式,于是穿上了句法或词法的外衣。

毛: 好吧,你们先掐。

白: 毛老,函数式和标签式表达,只有一墙之隔。标签其实就是最高抽象类的里面的“准”全局变量,谁都可以继承来塞点私货。不塞也无妨。

毛: 所以,我认为应该重启五代机的研究。有人说现在神经元网络是六代机了,我认为不对,因为说到底总还是“人工智能机”。

李: AI机只是六代机的一个引擎?

毛: 至少是现在,通过图灵测试是计算机的上限,所以不应该有高于AI机的计算机了。

白: 把RNN、多层FSA、多层词袋这些东东做成硬件就是了。

毛: 神经元系统只是一种计算模型,它也要通过编程在计算机上实现。神经元网络的运转说到底还是程序的执行。

白: FPGA实现就很好,能做成NLP协处理器就更棒了,NPU。

毛: 对是对的,但是如果变化太多,硬件实现就太不经济了。另一方面,如果有很多这样的部件,那么如何灵活高效地加以调度,根据具体情况动态搭出合适的系统,这本身就是个问题,这就又要涉及数据流了。我们平时在碰到困难时说要 “换一个思路”, 实际上就是要换一种数据流。

白: 希望NLP能早日成熟到毛老可以对接上的水平。

毛: 我觉得很可能是反过来的, 搞系统的人何时能搭出适合于NLP的系统,NLP Oriented Systems。 问题是搞系统的人一般都不懂NLP。

白: 是NLP这边说不清楚。回头说格。 “把”在汉语里号称是宾格介词,但是遇到“把我累死了”这种例子,又找不到哪个谓词提供宾格的坑。实际上,“累”是“使累”,是一个使动用法。所以顺序很重要,先使动 ,后宾格,一切OK。先宾格,后使动,北都找不着。

毛: “我累” 怎么解析?

白: 主谓啊。但“我累死你”不是。

毛: 哦。那就是“我使你累死”

白:

虚线框内形成一个虚拟谓词(复合然后缩合而成),对于这个虚线框,“你”貌似它的宾语,所以也获得了使用“把”表示宾格的能力。在句法层面,“使”不见了,“把”却在横行。

毛: 那么这种“使动”的属性就作为标签加在“累”这个词上?

李: “累”和“死” 先合成,然后针对宾格的坑就出来了。“累死”这样的算是合成词,不过这种合成词是 productive 的。

白: 气糊涂,饿疯, 都一样, “忙晕”, “乐坏”.

毛: 累死 应该是 累到死 累到要死的程度 的意思,这个死是补语吧?

白: 是补语,语义上对应一个程度标签,非必选的,所以不算框的正式坑。加标签是随手做,填坑是大动静。所以正规军和游击队,待遇就是不一样。

李: 累死我了 –》 把我累死了。符合正常的位移转换(movement/transformation)方式。【累(V的某种子类)+死】就是一个造词小规则,是产生式合成词的规则。符合这个规则的合成词就带有如下特征:及物,具体说,是使动的及物,并有表示程度的结果(“死”,不是真死)在内。带“把”提前是及物的共性,不用管。只要这个规则成功的时候,subcat 标签加对了,后去就顺理成章,无需特别操作。

毛: 所以呀,面向NLP的系统应该很方便很灵活地让你动态挖个坑,而且是同时挖上好几个坑,可以并行去试试不同的坑。这样才好。

白: “这些馒头把我吃胖了”。这个复杂些,有主有宾,只是虚线框里面拧着,了的时态含义省略了。胖,有一个坑。使和吃,各有两个坑。复合后缩合的虚线框部分,只有两个坑,一主一宾。与“吃”相比,正好颠倒了。所以,这类补语不仅是表程度,而是具体表致使后果的程度。

毛: 期待白老师的科普书早日出来。你的书里会画这些图吗?

白: 会。一个框,本质上就是一个函数定义式,也就是lambda表达式。入矢代表输入(自变量),出矢代表输出(因变量)。复合的时候,正是玩lambda表达式的时候,而且都是带类型的。

毛: 对呀,我在想这些图应该能转化成DAG式的数据流。

白: 每个坑都有类型,譬如,吃,输入类型两个坑分别是有生命、食物,输出类型是事件。

李:对,坑有两个信息:一个是坑本身的类型(what role),一个是坑里面的东西的“格”条件。role 是坑的主人决定的(词典里面的 谓词 subcat 或者规则产出的 谓词 subcat),“格”其实也是  subcat 题中应有之意,规定好的。格是输入匹配条件,roles 是输出事件语义。

毛: 数据流,结合立委的多层 FSA 模型,如果能做成通用的系统,我觉得是个很好的进展。有没有统计过像这样的图大概有多少?(以复盖常用句型为度)

李: 常用句型几十个吧,10-100 的区间。

毛: 哦

李: 看定义的粗细,谓词 subcat 最多只有三元 (所谓 S【V】OC),元里面还可以细分,大体 < 100 可以搞定

毛: 这个就可以用上分层嵌套的方法。

李: 这段对话,毛老、白老师,要我整理出来么?你们定,如果要,我就整理成博文。这次是你们俩主唱,我只是敲边鼓的,纯粹语言学的边鼓。

毛: 那当然好啰,要从尼克提到lambda开始。

白: 没问题啊。

李: 我其实不懂数据流,函数式略懂皮毛。lambda 在学语义学的时候学过一点,但是一直没完全整明白过。

毛: 那是工具性的,NLP本身才是关键。

李: 不过 subcat 在产生式合成词中会有变换,是我在 Morphology 课上学过的,而且学过的案例相当多。复杂案例的变换也不少。白老师的后一个例子是复杂案例之一。语言学家很善于总结这些格框变换的模式。

毛: 尼克最喜欢搞锵锵三人行, 咱就来一下三人行。

李:毛老、白老师,想起一件可能与数据流相关的事来,先写在这里,省得忘了。信息抽取(IE)这个领域刚开创的时候(20年前,由 DARPA 主持推动的 MUC 启动了这个领域,是NLP的实用化努力,非常了不起的一个推动,把NLP从象牙塔拉了出来),主流统计派还没回过味来,因此IE领域中的规则系统并不少,因为规则简单直接好用。其中,规则系统中,比较有影响的是斯坦福研究中心(SRI)推出的所谓 Cascaded FSTs,现在想来就是毛老说的数据流了。虽然后来我领导的小组也一直做多层FSAs,有时也贴上 Cascade 的标签,二者区别是显著的,虽然本质相同。斯坦福做的 Cascaded FSTs(finite state transducers)是把每一层编译的 network 直接用“数据流”串起来的一体化流程,cascade 是编译(或运行?)内部的机制。而我们做的所谓 cascade 就是从外部叠加调用,这是传统软件项目中管式系统(pipeline)的模块化开发,然后在运行的时候,从外部来接口,是大路货的路线。

洪: 看看有没有modern Hadoop实现

李:  总之,昨天我还发懵,搞不清为什么谈多层NLP的时候,毛老非要强调数据流,今天醒过来,原来如此。不过,我个人的感觉是,那种内部数据流的 Cascaded FSTs 后来逐渐淡出视野,一定有它内在的局限或问题。而我走的外部pipeline系统的方法,却得心应手,开花结果了。尽管理论上,数据流的路线应该更容易高效,更容易固化,但是肯定是遇到了什么坎儿过不去。

白:关于数据流,一直感觉NLP涉及的比较细粒度,就算自动机的堆叠或者分层的词袋,仍然粒度过细,一个句子里就可能多次流动,更不要说RNN这种自己转着圈玩的了……把这么细粒度的流动用大数据处理的利器来玩,是不是有点高射炮打蚊子?请毛老指教。但是,自动机堆叠一个实现上重要的架构就是pipelining。底层边吃进输入,边产生阶段性的输出,又变成上一层的输入。这个pipelining的框架如何在系统层面优化实现,很有油水。还有,当数千个自动机协同工作时,它们当中一定有共享的数据结构和计算,如何进行优化,乃至硬件层面的优化,这里面大有文章可做。

毛: 白老师说的对,数据流运用于NLP有许多细节的问题,特别是粒度的问题,还要好好推敲,现在还只是个朦胧的方向。粒度的问题一方面取决于具体的业务逻辑,一方面也跟硬件有密切关系,例如有没有GPU这一点,就对数据流的粒度和形状都会有很大影响。

李: 毛老,这是 SRI 的 work,叫 FASTUS。我在找他们描述 implementation of casaced FSTs 的部分,好像言之不详。以前不求甚解,反正自己已经找到了一条顺风顺水的路子,管人家怎么实现的,用的啥数据流。

毛: 好,谢谢立委。Cascade肯定就是pipelining,这就是一维数据流。

李:这个数据流的概念上没有问题。我是想知道,他们是不是把一个模块的 network 与pipeline 线上的其他 networks 整合成一个 integrated 的 network?我想知道,是不是整个编译全系统,还是像我们一样,每个模块是单单编译,单单调用的?

白: 如果有同步的语义操作,我相信会的。

李: 我的印象是,他们是编译全系统的,所以我们一直承认自己是 external 的 cascade,我们只是外部连接。重点的重点是,里面有一个共同的数据结构,无论 Pipieline 怎么流,不外是对这个数据结构的更新而已。

毛: 所以立委和白老师得要多掐,我就在旁听着,边听边想数据流的事。

李: 唉,还是没看到实现细节,保不定他们所谓的 cascade 与我们的做法一致,不过是利用共同的数据结构作为粘合剂,一个模块一个模块的调用。早年的文献中,最原始最愚蠢的数据结构是 string 进 string 出,然后他们描述怎么在这个一维的string上加各种括号和标签。下一个模块必须在模式匹配的时候要跳过这些人为的括号与标签,才能更新信息,那个愚蠢透顶,不可思议。我还真照文献说的实现过一个prototype,一边做一边骂这帮傻老帽。那个玩意儿根本做不下去,超过两层的处理就焦头烂额了。后来有人(譬如英国著名的NLP平台 GATE)用 XML 作为模块间连接的标准接口,本质上也还是 string,不过是多了一些现成的工具,可以用来 parse 这样的数据成内部结构。当然,在不同系统对接的时候,开发者和使用者是不同的组织,XML 作为标准接口往往是最少扯皮的一种方案,因为内部的数据结构不具有这种传递性。然而对于一个系统内部的各模块,用 XML 做数据传输近乎胡闹。做个 prototype 也许可行,做应用肯定不好。

毛: 立委讲的外部连接和全编译的问题,我理解就是节点间动态局部连接的问题。全编译就是一次性把整个数据流搭好,以后就不变了。所谓外部连接,就是按需要把若干计算节点局部地临时连在一起,灵活可变。当然是后者更好,不过应该是全局框架中的局部变化。我说的要研究怎样根据NLP的特点灵活构筑合适的数据流,就是这个意思。

李: 全局框架的保证就是一个共同的丰富的可扩展的数据结构。只要保证这个数据结构的设计是合理的,一切就好办了。

毛: 昨天群主一声吆喝,立委说话的风格还真的就变了,马雅可夫斯基的调调不见了。

李: 从善如流嘛。
设计一个NLP专项平台,就包括数据结构的设计,NLP语言的设计,该语言的编译和执行,以及数据流流程的配置和优化。这几个环节都是相互联系的,没有丰富的经验根本玩不转。

毛: 在数据流、即函数式程序设计中,不会由多个节点对同一份数据结构进行修改,这就是输入是否immutable和有没有共享变量的问题。不过对于NLP来说这属于实现细节。

李: 为什么不会由多个节点对同一份数据结构进行修改?每个节点都是单向递进的,数据结构因此变得越来越丰富,分析越来越深入,是为 deep parsing。简单的设计允许数据结构信息的增量更新,不允许或者制约了对数据结构的破坏性操作。譬如,推翻一个内部结构,进行重构(因为 patching 的需要)。但是聪明的工程师在实现的时候,不认为破坏一个局部的内部结构有太严重的问题,不过就是实现费劲一点罢了,屁股总是可以擦干净的。所以我说,只有想不到的,没有做不到的,我才不管他内部怎么实现的,只要用起来顺手就好。只有在实现影响了速度的时候,我可以做让步,允许工程师对我的操作做一些限制。

毛: 如果允许,那就有同步等等的问题,不同节点之间就会互相牵制,而且这样的系统是最容易有bug的。而函数式程序设计,其基本的要求就是:每一个计算节点都是数学意义上的函数,都没有副作用,这就要求:1)没有共享变量,2)所有输入都是immutable。把数据流系统设想成一个供水系统,如果水管在一个点上分支,那么在其中的一个分支上投毒,是不会影响另一个分支的。

李: 照这么说,只允许增量式更新是管式系统开发的安全原则?一开始是增量式的,后来是我坚持要多给我一个做 patching 的手段,打破了这个限制。如果不做 patching,我就只剩下一个手段,那就是先扫除例外,后做一般规则。如果允许 patching,我就多了一条路子,先做大路货,然后遇到问题或例外,再做修补。表面上,这两个办法不过就是数据流中个性与共性操作的位置不同而已,但是实践中总是多一条路子,用起来顺手。其实,做破坏性操作,我开始是有担心的,总怕屁股擦不干净。但是,好像还是在可控范围内。

毛: 对,你所说的对工程师们的能力要求,问题就在于那种结构模式本来就是很不可靠的,得要非常高明的人才能对付,所以一般都尽量把同步、互斥这些事情移到操作系统和语言编译器中解决,因为那些都是真正的高手才玩得。但是即使如此,对于复杂的系统,如果不采用函数式即数据流的结构和方法,难度还是很大。

李: 原因可能是,破坏的结构不过是中间的局部结构,还没到要用它的时候,只要最后系统出来的结构是合理的,就似乎没有问题了。

毛: 你挺幸运,手下有几个高明的工程师,要不然恐怕还做不出那么些成果。

李: 因为我是他们的唯一顾客,顾客是上帝。我一直是这么说的。

毛: 端着人的饭碗,就得听人管。

李: 好在我不懂系统,否则可能不敢这么大手大脚。

毛: 但是,这是有限度的,问题再复杂一点,他们可能就会对付不了。这时候就得考虑模式的改变。不走邪路,也不走回头路,咱走正路。

李: 同意这里面有个度。另一方面,系统太漂亮了不顶用。上得厅堂,下得厨房,这个标准对做系统也一样。正路就是厅堂,厨房就是我这样的实用主义,以邓小平思想为指针。

【相关】

【语义计算:李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白之41:Gui冒VP的风险】

白:
“这些国家的统治者必须变革,不然就是在冒被一脚踢开的风险。”
1、“冒……风险”,离合词;
2、“风险”属于“N/S”型的名词,不反填定语从句;
3、“被”由N+升格为N,占“一脚踢开”提供的两个坑中的一个;
4、先行成分“这些国家的统治者”填“一脚踢开”提供的另一个坑。

李:

【冒VP的风险】

汉语离合词 是框式结构之一种,离合词里面的 XP 是啥 离合词本身决定。可以认为是由该词的subcat模板所规定。 这个case里面规定是要 VP。离合词“冒-险”(“冒-之|的 险|风险”)本身也是(动宾式)VP,于是我们赶上了内外两个 VPs:“Gui 冒杀头之险”。Subcat 如是说:

1 Gui 冒险。

2 Gui 杀头: 实际上是被杀头。“杀-头”本身也是离合词 里面应该是要的NP。NP外化就成了句法主语和逻辑宾语,也就是所谓隐式被动:Gui杀头 == Gui被杀头 == 把Gui杀头 == 杀Gui的头 == 对Gui杀头。这才叫语言学,微观语言学, subcat 执导。subcat 是语言个性与共性的接口

3 两个 VPs 之间的关系: 当然也由外面这个离合词“冒-险”来决定。具体说就是,内VP是外VP的同位语,是给外VP填充“冒险”的内容:冒什么险?杀头之险。这个同位语来源于内VP是外VP里宾语的定语这种形式,是随着离合词动态合成为动宾合成词,由宾语的同位语定语,捎带过来的(定语转状语,主子单位是变大了,但mod本性不变)。这个现象是动宾离合词的共性,再如:洗个痛快的澡 == 痛快洗澡.

4 剩下一些句法语义的鸡零狗碎 也仍然是外VP的subcat决定的:包括内VP是非谓语VP,因此不能用句法(或词法)的时体形式,语义上表达的是不定式。至于外VP,它当然是谓语VP, 譬如可以有进行体:“Gui正在冒杀头之险”。

总结一下:subcat 可以有很丰富的内容,很复杂的规定,它连接句法形式(模式s)与其对应的语义。好在 subcat 都是词典词条决定的,所以再复杂琐碎,在词典主义(lexicalist)看来也不难把控。

理论上 subcat 的这种复杂性最好由subcat的复杂特征结构(SUBCATT typed feature structure)来描述。上面举的例子及其相关句法语义的约束及其与逻辑语义的接口,可以非常从容、非常精细地在诸如 HPSG 的复杂特征结构里面透明地表达出来。如果是象牙塔玩符号逻辑,可说是进入了符号逻辑的天国:个性共性 词典grammar, 句法语义 燕舞莺歌,太平世界 同此凉热,在在美景 处处和谐。这就是我以前说的 玩 HPSG 可以入迷的原因。下面给几个HPSG 的复杂特征结构的图示,展现一下其叠床架屋背后的合一(unification)风采:

但我们终究还是抛弃了复杂特征结构,为了线速,为了简略,为了多层,为了模块化和易维护。总之是为了现世的便利,挥别了理想的符号天国。

 

【相关】

【语义计算:李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

大数据淹没下的冰美人: 喜欢范冰冰的理由

最近两年“忽悠”大数据,常有网友问我:OK,我看到了,热点话题你是可以从大数据中挖掘出一些东东来,做成奇奇怪怪的词云来,蛮唬人的。可这些信息有什么价值?差不多都是我耳闻过的 rumors 。

Good question,说破大天去,挖掘出来的情报如果没有信息量(e.g.人所共知),或者只是进一步传谣,所谓大数据及其挖掘不过是浮云。大数据专家?饶了我吧。不如回家种红薯,或可产生些许价值。But wait,这个问题细究起来,绝对不是简单否定,就可解决的。至少可以从下面几个方面来看:

1. 对象和目的:回顾一下,我们的对象是海量增长的社会媒体大数据,我们的目的是透过这些 人一辈子也无法尽览的大数据,挖掘民意和舆情。这些舆情都是有统计意义的现实存在,而不是存在于个别人头脑里的天才思想,只要挖掘出来的情报具有代表性,这些情报是不是新颖,不影响我们为挖掘所设立的舆情目标。

2. 信息量问题:乍看,挖掘出来的情报都似有所闻,但其实挖掘还是增加了信息的价值。似有所闻并不奇怪,本来就是流传广泛的公共信息(open sources)。所增加的信息在于,作为个体,每个人的所闻都是零碎的,不可能具有大数据挖掘的全面。更重要的是,即便你是一个 人生即网网即人生 的无可救药的网虫,多数挖掘对你都不是新闻,你对这些信息也不可能具有量化的排序能力。就说你是冰美人死心塌地的粉丝,你也不可能给我们列出大众心目中的冰冰小姐随时间曲线的形象消长,也无法量化大家喜欢她或者不喜欢她的种种理由的分布。你也许可以蒙对几项,你绝不可能给出本文给出的结果。这些排序和分布就是附加的新信息。从另一个角度看这个问题,如果 90% 的挖掘结果不具有新闻价值,而只具有印证的意义(但也间接说明大数据挖掘是靠谱的),那也不坏。作为信息消费者,我们会自然把注意力集中到意想不到的情报上去,wow,原来还有这个啊。这些 surprise info 是你不借助大数据深度挖掘工具永远无法看到的信息,它被淹没在数据的海洋中。

3.  挖掘的情报价值:这个话题太大,不同的消费者,政府、企业或个人,可以看到和用到不同的价值,你觉得没有价值的结果,在有心者眼里可能具有决定的意义。一个企业愿意花百万美元去挖掘社煤大数据中的客户情报,他们必然是看到了一般人感觉不到的挖掘价值。手工民意调查的时代即将过去,因为大数据的挖掘会更加多快好省。如果你是范冰冰团队的策划人,下述挖掘对整个团队的市场化努力以及公关策略的调整,应该具有相当的参考价值。

回到冰美人的大数据挖掘来。前面的博文已经展示了舆情概貌,总之是冰小姐现在是如日中天,压倒性地被大众喜爱,甚至迷恋。那么喜欢她的理由呢?先看褒贬云图:

理由千千万,代表性的理由归纳列表如下:

Why like her Mentions
漂亮美艳 …… 6420
霸气 2493
火, 红 1208
范冰冰的胸 686
公益项目 684
时尚女王 446
武媚娘传奇 326
底妆白皙 298
年轻 232
时尚 229
敬业 133
范爷的皮肤 164
 

成功

130
愈挫愈勇 121
低调 121
大方 118
聪明 110
精湛 92
精致 87
合拍 84
成熟 75

我个人的理由也在其列呢:看来不少人与我一样,因为《武媚娘传奇》而喜欢她。我们择其几点,drill down  看看真实数据怎样表达的:

(1) 前两项压倒性的美丽和霸气,是喜欢的最大理由。

自动化所吴同…

范爷霸气

barbiewong

范冰冰靚到

sunnynoe

范冰冰最好看

奢享时光。

范爷好看

@janiceho96  范冰冰好美好美
lingwu01

还是范爷霸气威武

THE_MIST

范冰冰幾靚

奢享时光。F

范冰冰好漂亮

caotiantian9

还是喜欢范爷, 霸气

莫欺少年穷丶楠

范冰冰, 妖艳

(2) 公益项目:原来这条公益项目的新闻大体是同一个来源,被各大网站反复转载,至少说明冰小姐团队做得很成功。

这名字真的无语

12月11日, 吴亦凡参加《我们小区艺体能》“圣诞慈善篮球赛”,慈善赛的收入将在比赛结束后以冠军队的名义捐赠给福利机构, 用于帮助困难居民。 2014年6月, 吴亦凡加入范冰冰公益项目“爱里的心”捐赠队伍, 成为继李嘉诚后第二个捐助的人。

(3) 范冰冰的胸:女星被人评头论足,不足为怪。但范小姐的胸之所以跃升为好评前五,其实有两个原因。

一是冰美人的自身条件的优越(魔鬼身材)以及形象塑造的重点所致,性感女神,是很多人的由衷赞佩。

二是在传统社会与现代化过程的急剧变革时期,她的美胸展示不仅仅是粉丝喜爱的理由,也成为争议的焦点(事实上,后面还会提到,冰美人的胸不仅是喜爱的理由,也是不喜爱的理由,尺度太大,被某些人认为是伤风败俗)。有争议就会有卫护、有赞美:

节奏大师大手子

范冰冰的胸真的好美

野猪

谈谈法制晚报中青网新华社死磕毕福剑与不道德视频的播放 范冰冰的胸没有危害, 有危害的是你龌蹉的思想意识; 毕福剑的嘴没有危害, 有危害的是僵化教条、极端政治的思维方式。

其实,以范冰冰饰演的武媚娘为代表的唐代仕女式的袒胸露背,曾经被广电局严审,视为洪水猛兽,以致片子被勒令重新剪接,曾经引起社会媒体的轩然大波, 编剧李亚玲的痛心评论传遍全网:

烟入眼而落泪

此事件造成了颇为强烈的网络热议。 著名编剧李亚玲做出评论:“《武媚娘传奇》中的胸确实剪掉了! 真没想到21世纪的人会这么保守, 甚至不如千年前的唐人开放。

自由飞翔的鸟人

在停播的四天中, 片方解决了重大技术问题, 紧锣密鼓的将原有画面全部裁成了大头贴, 斥资千万的服装造型只剩下脸上的粉底…… 著名编剧李亚玲就此事做出评论:“《武媚娘传奇》中的胸确实剪掉了! 真没想到21世纪的人会这么保守, 甚至不如千年前的唐人开放。

Unknown

由于播出方湖南卫视在一官方微博中, 对于此次停播给出的“因技术原因”这一理由过于简单, 使网友在一头雾水的同时, 也对相关部门的管理水平提出质疑。 对此, 著名编剧李亚玲做出评论:“《武媚娘传奇》中的胸确实剪掉了! 真没想到21世纪的人会这么保守, 甚至不如千年前的唐人开放。

MJ浮生若梦

昨晚复播的三集中,“武媚娘”和其他众妃子宫女们的胸部镜头全部被剪, 画面仅呈现远景和肩膀以上的近景, 网友纷纷吐槽:“现在一个屏幕全是脸”、“满屏都是大头照”。 著名编剧李亚玲也表达了自己的看法:“《武媚娘传奇》中的胸确实剪掉了! 真没想到21世纪的人会这么保守, 甚至不如千年前的唐人开放。”

光明社区

我一个女性都看不下去了, 还我们原版。” 对此, 著名编剧李亚玲做出评论:“《武媚娘传奇》中的胸确实剪掉了! 真没想到21世纪的人会这么保守, 甚至不如千年前的唐人开放。

(3) 底妆白皙:地球人都明白,冰小姐代表了化妆艺术的巅峰。她的底妆衬托了她形象的明艳绝色。有老友说,我只爱化妆的冰冰。

Unknown

蕾哈娜 (Rihanna) 的阳光感卷发, 与健康的蜜糖棕色皮肤融为一体, 浓密卷翘的假睫毛塑造出迷人电眼。 鱼草网化妆猜你喜欢的文章: 范爷搪瓷底妆白皙胜雪 女星美妆花尽心思 泫雅红唇领衔4minute 秀冷傲别样风情 赵丽颖周冬雨戏内争宠 戏外淡妆拼清纯

503247463

【范冰冰搪瓷底妆白皙胜雪彩妆花尽心思】近日, 电影《一夜惊喜》在北京召开发布会。 主演范冰冰、蒋劲夫、李治廷、导演金依萌出席, 范冰冰当天搪瓷底妆展现如雪的肌肤, 纤长浓密的假睫毛是范爷明亮双眸的利器, 加上丰盈感十足的大波浪卷发, 俨然真实版芭比娃娃

(4)皮肤:光靠化妆是做不了影后的,赞美冰美人除了酥胸外,就是她凝脂般的雪肤了(她的脸相对比之下,则争议较多,有机会可以挖掘展示一下,总之是粉丝视若桃花,爱得要死,但也有横挑鼻子竖挑眼的嫌她面相不正):

博士一年级

范爷的皮肤真好

zahara蕾儿

这时皮肤吸收最好! 范爷的皮肤为什么这么好! 就是每日坚持一片面膜!

Unknown

难怪范爷的皮肤这么棒呢

幻雨不幻风

范爷的皮肤貌似一直都挺好的

ambrosia52

不过范爷的皮肤真心好啊·羡慕! 我都是懒, 嫌麻烦不敷面膜。

糖口香糖

范爷的皮肤真是没话说, 和林志玲有的一拼

关闭

范爷的皮肤真的好好哟, 哇,坚持15年每天用面膜呀, 向她看齐。

十世轮回阴阳间

范爷的皮肤一直都很好, 人家是纯天然的

Unknown

谢霆锋与范冰冰亲密合影 范爷的皮肤白皙细腻 在《锋味》中, 范冰冰真人出镜, 与谢霆锋暧昧互动。

康婕

我想想啊… 高圆圆, 范爷的皮肤不错, 范范也可以, 春哥, AG 虽然是整的· …. 不过他们的黑眼圈

总之,喜欢女星的理由,看来还是以貌取人为主,人之常情。其他品质(敬业、低调、聪明、成熟云云)也有提及,当无法与美胸美肤相比。那么不喜欢的理由呢?大约多与娱乐界的绯闻和流言蜚语有关,这方面挖掘下去近乎传谣了,不太好写,假语村言,点到为止,留待下篇博文拿捏分寸吧。

 

【相关】

【社煤挖掘:大数据女星排行榜】

【社煤挖掘:大数据男神排行榜】

【大数据淹没下的冰美人】的系列博文链接:

大数据淹没下的冰美人(之一)

大数据淹没下的冰美人(之二) 

大数据淹没下的冰美人(之四): 流言蜚语篇(慎入)

中文处理

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

【社煤挖掘:大数据女星排行榜】

Mirror mirror on the wall, who now is the fairest one of all?

自从毛委员开启新中国,半个多世纪以来影视娱乐界历经磨难起伏,如今迎来了百花齐放星光灿烂的黄金时代。被无数粉丝奉为当今中国影视女皇的范冰冰,在众多女星中究竟排名如何?我们让大数据说话,让社会媒体告诉你。

先比较一下据说当今PK范冰冰呼声最高的张馨予。

PK

张馨予天生丽质,比范冰冰更接地气,可惜她饰演的几位角色都是刁毒的坏女人,据说连带她也受牵累。下表是过去27个月社煤大数据挖掘的概览比较:

单看这概览便知,在大家心目中,张馨予还嫩了点,无法挑战范冰冰的影后地位。从人气上看,张小姐还不及范小姐的四分之一;褒贬指标 45% 虽然算是不错的媒体形象了,但也远远不及范冰冰的 62%。粉丝的狂热度也略逊一筹(70 pk 76)。下图是时间曲线。首先是热议度比较,可见出除了 2013 年十月前后,张馨予的热议度陡升外(为什么陡升,等空来细细挖掘看),过去两年多的其余时间均不及冰小姐。

反映媒体形象的褒贬指标(net-sentiment)的曲线表明,范冰冰差不多步步领先张馨予,而且评价度一直比较平稳。张馨予则起伏较大,只在四个时间点短暂超越范冰冰。

下面的情绪指标(passion intensity)也类似,不过两位更加接近(有三个时间点馨予短暂超越冰冰),说明各自都有一批狂热死忠的粉丝,争吵起来不惧激烈。

上述挖掘比较的结果,用我们创造的同时含有人气指标(品牌大小或泡泡的大小来表示),褒贬指标(net sentiment 横轴)和激情指标(passion intensity 纵轴)的多维品牌比较一览图 (Brand Passion Index,BPI) 独特图示如下:

张馨予不在话下,那么其他红星呢?请看:

哈,论人气,范冰冰稳居第一,比第二位的章子怡还要高出一倍。可论受欢迎的程度(褒贬度)这项硬指标,美丽大方接地气的高圆圆才是普罗百姓(也是笔者)心目中真正的无冕之后,高达 74 %,比范小姐高出 12 个点。

网民心目中的真正星后 高圆圆

(可惜的是,我所喜欢的徐静蕾风光不再,逐渐淡出女星圈,步入中年的她已经更多转型为导演了。)

高圆圆 pk 范冰冰是完胜。过去两年多除了几个短暂的时间点,圆圆是一路领先:

范冰冰只能说是话题女王或眼球女王,高圆圆才是网民心目中的真正皇后:

高圆圆为什么具有如此高的口碑成为网民的偶像呢?下面是圆圆的两张云图,可以提供一点insights:

最后把调查的六位当红女星的过去两年多的比较曲线一并提供如下,供大数据爱好者们研究参照:

 

【后记】

《圆冰之战花絮:泥沙龙笔记,核武器封喉篇》

我:
这个需要较真,为大数据正名。自摸、莫衷一是、粉丝之战都是有的,根子都是缺乏大数据的nlp,有了nlp,我们就坐在大数据之上,而不是被数据淹死,看不到真像,无论真像多么残酷。你冰的脑残粉多不多,当然不少,不独你一个,有图为证

大数据淹没下的冰美人(之三): 喜欢的理由

但是,世界上怕就怕大数据nlp和但是二词,与脑残粉一样巨多的是流言蜚语:大数据淹没下的冰美人(之四): 流言蜚语篇(慎入)。而事实上,流言蜚语对你冰的buzz的贡献巨大,你懂的,国人奏好这口。这些都是舆情,但只是舆情的一个片面,大象的耳朵或大腿而已。真正决定舆情的是大数据的褒贬比例(所谓 net sentiment),为此立委洋洋洒洒写了五大篇大数据调查的总结系列,对你冰算是仁至义尽了吧。

请看结论篇: 大数据淹没下的冰美人(之五): 星光灿烂谁为最?

比没文化更可怕的是没核武器。圆冰之战,该结束了吧

 

【大数据淹没下的冰美人】的系列博文链接:

大数据淹没下的冰美人(之一)
大数据淹没下的冰美人(之二)

大数据淹没下的冰美人(之三): 喜欢的理由

大数据淹没下的冰美人(之四): 流言蜚语篇

【置顶:立委博客NLP博文一览】

 

【社煤挖掘:大数据男神排行榜】

女弟子有花痴者,为心目中的男神排名争论不休。究竟大众舆论是怎样的呢?为女生谋福利,咱们大数据挖掘一把,也好增加她们的谈资。

以前为女星排名狠狠挖掘过一次(见篇末【相关博文】),结果甚合吾意,高圆圆是众望所归当之无愧的女皇,而范冰冰不过是炒作女神。

到了男星,就麻烦了,根本就记不住谁是谁,在我眼里,他们跟你我一样,都是一坨泥巴。于是专从女生中收集候选人,做了这次社会媒体的形象排名,叫做男神榜,供女生争论和消遣用。

无数女为你痴狂:男神榜首宁泽涛

初步排名结果如下。宁泽涛高居榜首。进一步的细节挖掘待后发布。

看看这张男星图,体育圈的宁泽涛出类拔萃,卓尔不群的样子。

男神对比图(Brand Passion Index)里三个维度,褒贬度(毁誉的比例),狂热度(就是脑残度),炒作度(背后往往有推手)。

炒作由圈的大小表示,决定于媒体中提及和眼球数的多寡。另外两个维度是 XY 坐标,X 是褒贬,Y 是热度。

这够一目了然了吧,这图是有专利的。

下表是中文社会媒体大数据过去两年半对这八位男星自动舆情挖掘排列出来的男神排行榜。

男神第二名:靳东

男神第三名:钟汉良

男神第四名:王凯

男神第五名:胡歌

男神第六名:林丹

男神第八名:霍建华

 

Download

impressions 是眼球数,与炒作度mentions基本一致。最重要的是 net-sentiment 褒贬指数,喜欢与不喜欢的比例,好话多于坏话就是零度以上,坏话多于好话就是零下。男神嘛,都在零上。50% 算是相当地受欢迎了。

竖线不是零度,竖线是被比较的几位的中值。

passion 是狂热度,情绪的烈度,数字越大,脑残越多。


Download

这是炒作度排名。黄晓明为最。估计是那场婚礼闹的,虽然他的受欢迎程度其实很一般,褒贬指数才 38。但以我男生的眼光,他确实有型,五官跟雕塑刀刻似的,而且也有胸肌。可你为啥着急娶了女神 Baby 呢。世纪婚礼究竟是给你涨了粉丝,还是碎了粉丝的心,下次大数据挖掘告诉你。

男神第七名黄晓明

 

【相关博文】

【李白董57:中文字驱动patterns初探】

白:
“再有背景的小孩也还是逃不过被大人喊出来表演节目的命运 ​​。”

李:

【再 Pred1 的 N 也/都(还) Pred2】

说到底就是这么个pattern, 汉语中此类patterns不少。里面的XP(这里是谓语 Pred, 可以是VP,也可以是AP,甚至某些特殊的NP)比较适合有限的自顶而上的识别,然后插入,就比较完美了。

谁 Pred1?
小孩: (哪怕)小孩再有能力

谁 Pred2?
小孩: 小孩(也)逃不过。。。命运。

既然Pattern是固定的,这些语义关系也就确定了。“逃不过” XP “的命运”, 也是一个 pattern,嵌在里面。“逃不过”的 subcat 也允许带 VP,但是,“逃不过被大人喊出来表演节目” 敌不过 “逃不过 VP 的命运”,后者不但更长,根据最大匹配原则,而且后者是“端对端”的强搭配(或框式结构),前者的 subcate没那么强。最后可以考察一下变式,就更加明白里面的语义关系应该怎样玩才让人类满意了:

再 Pred1 的 N 也/都(还) Pred2
== N 再 Pred1(,)也/都(还) Pred2
== 哪怕 N 再 Pred1(,)N 也/都(还) Pred2

背后的逻辑语义不是昭然若揭了吗?一个让步子句的状语,一个主句,逻辑主语是相同的实体。既然这类句式非常容易通过小词呼应来枚举,里面的填充项应该可以以局部parsing来收拾。

wang:
先小词划界卡位,再在小区间内处理,这确实容易不少。

李:
记得语文老师叫我们造句:请以 “再。。。也”造句, 其实就是上面的pattern的一个drill.  既然人是这么受训去学语言的,机器也可以这么学。

白:
“再有”为什么不能结合?“背景的小孩”为什么不能结合?如果结合,让步逻辑还看得见吗?在考虑“再有”的结合可能性的时候,“也”离它多远?“有背景”处在sentiment的一极,强化了“再”的让步色彩才是关键。而“背景的小孩”语义相谐性是有条件的,就是需要谈论图片、场景一类。

李:
如果是“学习”呢?“他再学习也赶不上”。“学习”可算是勉强的 weakly positive的行为了,也许。问题是,如果不管这些语义细节,那个pattern会有啥问题?有多少反例。直觉上那个pattern应该是蛮精准的。

白:
“再有学习的机会我去” “再有学习的机会给他也是白搭”

李:
套用这个特定pattern的话,应该是:“再有学习的机会我也去”: 让步的状语语义貌似还在。说的是这个pattern的反例:再Pred1 的N 也/都(还) Pred2。

白:
不是说pattern不精准,是说它后知后觉。在前面等不到的情况下,会被拐走。

李:
说的就是不要被拐走啊。如果是用小词pattern蹲点, 而不是让小词参与local parsing搅在一起。就避免了被拐的命运。

白:
“再有学习的机会我也去”
小词都在,解读不同,没有让步义

李:
“再有学习机会的我也要去”,这个才是正宗:
== 哪怕我再有机会,我也还是要去(疯玩)

白:
这里“有……机会”风头太强劲
“再有学习机会的我也要去”貌似不通

李:
再:1.(与 也\都 呼应,表示 让步);2. again
为什么不通?这句坚定表达了一定要去的决心,不惜错过学习的机会。这就是pattern的力量。

白:
机会、去,没完结,有“去利用机会”的潜在完形,但这与让步相冲突。
的,后面可以通过容错机制,脑补一个“的时候”“的话”什么的,来达成这个完形。这样的话,pattern就落空了。有完形在勾引,脑补就会启动,不要低估脑补的力量。而“……的我”,一般只出现在歌词里。与学习机会什么的,距离甚远。

(等到)再有学习机会的(时候),我也去。
(如果)再有学习机会的(话),我也去。

李: 即便不允许“的我”,让步的可能貌似也还在:

(即使)再有学习机会的(话),我也去。

时间 条件 让步。既然都是状语,既然语言中状语语义的小词省掉了,说话者裸奔,听话者“裸听”好了。以裸对裸。Unspecified -- 怎么听上去语言学开始带色了?

白:
去哪,不自足。去学习,自足。去利用学习机会,自足。不自足不是标配,需要特定语境。完形程度,是可以度量的。

李:
裸对裸 也不是一定都不穿衣,也可以穿一件零形式的衣,也就是所谓皇帝的新衣,这就是标配的用场。标配怎么得来?大数据? 或者常识?

回到字驱动,中文不仅虚字可以驱动不少句法关系的句型(syntactic pattern),以前说过的开放式成语也是字驱动构词法的代表(morphological pattern for open compounding),譬如:非NP莫属。这个成语是动词,通常充当谓语(带一个主语的坑),其中的NP是内嵌的宾语。这个NP虽然常常是,但不仅仅是,实体名(NE):如,“非李白莫属”。它也可以是一个很长的NP:“此一战役之指挥,非久经沙场南征北战且具有黄埔军校学历者莫属。我提议林彪,主席说。” 英语的对等物大约是:have to be no one but NP。

这类开放式成语或成语的活用,给语言带来了让人惊喜的新鲜感,理应在词典解决,但其中牵涉到句法的XP,因此必须有一个字驱动的词典与句法的灵活接口,这个机制上的要求,与分离词(如 “洗-澡”)是一样的。

董:
你这两天的小文章,我都看了。可以看到其后面的数十年的心血和积累。我真的感同身受。今天你说到了“非…莫属”,很对。我还没来得及处理这一类型的结构分析。离合词已经基本完成了。刚才试了试“莫属”。你看这样的结果好吗?

我用到的主要规则是:

莫属 0000 CN[*pos==`verb`,*def=={be|是:relevant={?}}];L1[*pos==`pron`/`noun`];L2[*expr==`非`]$CN[*pos==`verb`,*def=={?},*TempInfo==`abso`];L1[*log==`relevant`]@bind(L1,L2)@chunk(CN,L1). // 重拾山河非他莫属;非马英九莫属;

DefineVVV 0124 CN[*FH==` `,*ES==` `,*pos==`verb`];RS[*FH==` `,*ES==` `,*pos==`verb`,*expr==`莫属`,*son==`relevant`];Z1[*pos==`pron`/`noun`]$Z1[*DeepLog==`agent`]@DeepLink(CN,Z1). // 他们边假装下棋边用监控相机拍照录像。他们一边假装下棋一边用监控相机拍照录像。

李:
类成语“非x莫属”翻译成白话就是:不是x不行。
== 只能是 x == x, 只有 x (“人民,只有人民才是创造历史的动力”)

董老师处理成逻辑【施事(agent)】 很好。因为这个谓语的句法主语(arg的坑)实际上是逻辑谓语,而这个谓语里面的类宾语实际上是逻辑施事:

重整山河非老邓莫属
谁重整山河?老邓。

【非x莫属/不行/不可/不能为/不足以胜任】,这些idiomatic的用法都是一个意思。强调的是x,所以作为“中缀”的句法上的类宾语,需要被提出来,其他的那些驱动字词不过是点缀的形式,表达的是强调的意味(x and only x)而已。

汉语中这类现象很多,形式痕迹明显可靠,但因为字词驱动,显得琐碎。但词典本来就是琐碎的家园。不利用白不利用。关键是要有个合适的机制,让词典与句法互动起来。

董:
谢谢你又为我列出这么多,我可以照猫画虎写规则。我现在分析的结果,就是你指出的:“他”是“重拾”的深层的agent。

李:
前置词与后置词的框式搭配,也是具有明显的形式痕迹。
语言现象中,我归纳有这么几类:

(1)是“四肢着地”走路,就是 ngram 成语。这个当然进成语词典,无需与句法互动,成语就是一个枚举的黑箱子。里面该预埋什么句法语义的种子(features),就埋下什么,包括休眠唤醒的hidden ambiguity种子,与普通词条基本无异。(当然成语不见得都是词,也可能是短语或小句,只要词典设计允许表达语言学所谓“词”以上的单位特征就可以了。)

(2)第二种是带有变量的成语(习惯表达法)或离合词,我把它叫做两条腿走路,因为这些语言材料都有一个以上的落脚点,包括,“非x莫属”;“在x领导下”;“n日不见,如隔m秋”。

(3)一条腿走路:就是具体谓词的subcat了,那个驱动的谓词就是这条腿。

(4)不要腿走路(磁悬浮?):这就是feature(包括POS)为基础的规则了,概括性强,但不是词典驱动的,没有落地的词。

所谓lexcalist文法,就是尽量排除(4)的一种规则系统。

白:
“这件事非他莫属”,这种情况下“他”填谁的坑?

李:
填坑,从句法角度没有疑问,“这件事”是句法主语,“非他莫属”是谓语。如果主语是行为,采纳董老师的上述处理,把句法主语转为逻辑谓语,把句法谓语中的“他”提出来作为其逻辑语义的施事。如果主语不是行为,那么可以相应做一些逻辑语义表达(semantic representation)的调整,其中之一是,把该名词的“标配”动词作为省略成分提出来,“事儿”的标配就是“处理”或“做”(DO)。然后逻辑施事照旧。

“这件事非他莫属”
==(只有)他(能)DO(这件事儿)

这些个鸡零狗碎的处置,说到底都是自己跟自己玩儿。这里的所谓语义表达和语义落地,在pattern确定之后,我们其实心里都明白其涵义了,只不过需要用一种容易记忆容易处理的方式把“语义”表达出来,让人类看着舒服。其实这都是小事儿,属于parsing的side effects,怎么方便怎么来,无一定之规,系统内部自足即可。关键不在作为 side effects 的 output,而在于什么样的 pattern 、什么样的条件与 input 匹配合适,匹配完了既然并无歧义,总能找到一个语义表达的出路。后面的考量也就是为了“好看”而已(就好比软件工程中很多内部数据结构表达出来要pretty print一样)。

董:
知网里”事”的框架如下:

{fact|事情} {thing|万物:CoEvent={event|事件},{happen|发生:experiencer={~},time={time|时间:modifier={specific|特定}},location={space|空间:modifier={specific|特定}}},modifier={abstract|抽象}}

说的是“事”即CoEvent={event|事件}。这样它是可以充当施事的。

 

【相关】

【语义计算:李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白之37:分层与一锅煮的parsing机制探讨】

白:
话说,分层针对的是token间的二元关系,而token本身是不长眼睛的。所以一个token理论上可以喂给多层,此其一。随着各层的动态演化,可能会临时生出之前扫描不到的新的高优先级关系,甚至这种关系会把之前已经填好坑的萝卜再连根拔起。此其二。这样,虽然还可保持“线速”,但极端场景可能就是2N,而不是N。kick off的机制是一定要的。数理不一定等距,反而可以更细微地反映不等距。

李:
白老师今天的话起了个头,可以展开看看。其一其二说了分层面对的问题。但不足以否定分层。另外,2N有啥关系?可忽略不计吧。

分层多层是法宝。法宝到我其实不应该去宣扬,更不要去argue,自个儿得了好处一边偷着乐不好吗。粗话说,属于嘴欠。唯一的 catch 是,并不是承认或向往多层好处的人,都可以几刀就切干净。这时候语言学经验开始发力。

kick off机制点解?

白:
所谓kick off,可参见一排单摆,最后一个进来,第一个出去,其他纹丝不动。
“他死去多年的战友”“他死去多年的消息”前者启动kick off,后者不启动。“他不务正业、整天游手好闲的发小”;“他生前被人深深误解、死后被人广为称道的施政方针”。根本就不用勉强一定要看多远,远到不能错。先将错就错,占住坑再说,对的来了把我踢走就是了。可万一没错呢?再厉害的播音员也有buffer overflow的时候。“他不务正业、整天游手好闲的毛病”;“他生前被人深深误解、死后被人广为称道的传奇故事”。有kick off兜底,再长也不怕了。短的如“王冕死了父亲”也照用不误。当然,稍微加点条件就少一次折腾。lookahead什么的。

李:
嗯。
听上去就是休眠唤醒之一种。

白:
不是词法级,而是句法级。不预设无限大窗口,当前有限窗口里优先级最高的先处理掉。等到动态过程中优先级更高的来到,已处理的结果可以废掉。废掉是一对一的,不是全局性的redo。被set free的成分重新等待新的结合机会。具体到一个一个pair ,语言学知识的重要性毋庸置疑。但是local犯错误必须global来纠正的情况永远是存在的。这个时候,仍然寄希望于语言学知识来纠正,一定会按下葫芦起来瓢,而某种语言学无关的算法上的安排才是真正的出路。

李:
感觉主要还是语言学,不过是远距离的结构起作用罢了。句法级的休眠唤醒说到底就是修正local的关系(注意,local指的是短距离,不等于浅层关系,它可以在浅层,也可以在深层,可以是结构图的任意局部),对应的自然是局部修正 哪里化脓哪里上紫药水。所谓“推倒重来”就是除旧布新,最多是个 subtree,不会是全局革命。 全局推倒重来不 make sense,多层分层的路线决定了每一层绝大多数的关系是对的 要远距离唤醒和改正的必定是少数。如果不是大多数是对的 这只能说明层次的刀切错了 是语言学模块化的失败。模块化照顾的是步步为营多数受益的依存关系。在多层看来是一致的。

白:
语言学对与错都是数据的问题,不需要涉及算法。远距离唤醒需要的是算法而不是数据。算法不接受多数暴政。如果不想错得太难看,即使是小概率也要兜底。

李:
所谓远距离不过是顶层或接近顶层而已。到了接近顶层,再远距离 都变成 local tree.  天涯若比邻。

白:
分层和单向是两个概念,单向是不许后悔。分层不排斥后悔。

李:
对呀。
很多问题源自单层算法。多层以后 问题就没了。每一层的算法不必变,最多是增加一些 config而已 允许以可控的不同方式去处置。那是文法的running,不是文法的编译问题。

白:
如果在被语言学知识选中的pair之间加一些虚拟运算符,这个问题就像乘法比加法优先一样自然。

李:
哈。
怎么玩都可以。

白:
分层和算符优先是多么等价啊……

李:
分层更厉害。厉害就鲁莽。好在可以悔棋。因此多层与休眠唤醒是天然合作的。维持了线性,也维持了模块化和可维护。

白:
固定长度滑动窗口的算符优先,也需要悔棋配合。这是同样道理。而悔棋是一个算法问题,独立于具体的语言学知识。语言学知识都体现在算符里了。优先窗口计算算术表达式,也是会错的。窗口之外,是加号还是乘号,结果完全不同。有限窗口,加法乘法乘幂,这是领域知识。确定了谁比谁优先,这就是一个算法问题。限定了窗口有限,改错同样是一个算法问题。不是领域知识问题。不同点是,算术表达式中的算符是输入的一部分,而作为分析器输入的token序列中,没有算符。算符是local进行前后条件匹配后动态虚拟插入的。所以,对输入的扫描遍数不一样,极端情况下就是“两遍”。昨天说的2N就是这么来的。把语言学知识隐藏在算符后面,算法就可以一锅煮了。

李:
嘿嘿
算法机制化。不是要在算法上动手术 ,而是在算法的操作层面研究灵活性。

白:
所以,分层和算符优先真的是互通表里的。一锅煮不是错,一锅煮背后没有优先机制才是错。

李:
一锅煮要是等于单层 就难以恭维。

白:
优先机制中体现领域知识也是应有之义。有优先级的一锅煮等于变相分层。

李:
还是放不开,不够伸展。

白:
规则都没有了怎么会放不开

李:
而且优先级弄多了也麻烦,跟密电码似的,加强了规则之间的纠缠。

白:
跟层一样多就够了,又不是人去读

李:
规则与规则适度分开 是很讲分寸的

白:
不在一个优先级的pair不会纠缠。我们只看见pair,看不见规则。

李:
不是人去读?总得人调试呀。没有可读性 无法调试和维护。除非是神经。

白:
人调试,只需要调试一个优先级总表。语言学家完全看得懂,完全是数据。不是程序也不是算法,把算符搬来搬去而已。算符可以理解为特定类别的pair标签,比如<N+, N>这种pair,可能有几种,分别是什么标签,什么优先级,如此而已。单音节形容词修饰的定中结构、区别词修饰的定中结构、多音节形容词修饰的定中结构、的字结构修饰的定中结构、数量短语修饰的定中结构、核心角色介词(把、被、拿、将)构成的介词短语等等。它们的优先级不尽相同。有了这些做后盾,根本就不怕一锅煮。该先做的不会后做,因为窗口所限先做做错了的,随着窗口的滑动还会被踢掉,而且踢是点对点的,不会伤及无辜。语言学家完全不用关注kick off的实现,如果发生了kick off,语言学家是完全看得懂的。

总结一下观点:1、语言学知识用在局部;2、语言学知识转化为pair优先级、可作为虚拟算符纳入算符优先机制一锅煮;3、在窗口受限场景,可以引入kick off机制,支持句法级的休眠唤醒;4、因为输入token序列并不包含虚拟算符,虚拟算符的插入在极端情况下需要多浪费一遍扫描。

李:
虚拟算符是什么东东?

白:
可以理解为给一个二元关系在语言学上定性的标签。二元关系的两端token即使一样,语言学标签仍然可能不同,需要根据优先级区分和前后条件判据的需要加以细分。

李:
句法关系细类。

白:
我的大类只有填坑、合并、修饰、升格、降格,细分是必须的。但句法层面仅限于“控制优先顺序所必须”,绝不扩大化。五大类中,二元关系只有前三类,后两类只涉及自己,
一元。

所谓“绝不扩大化”,比如逻辑主谓,是不需要分的。但是萝卜来自坑的左方还是右方,这个区分可以有。因为,右方萝卜填谓词的坑,优先级高于左方。

白:
一个算术表达式,有加减,有乘除,有乘幂,还有括号。我们怎么确定对表达式的解析是一锅煮的还是分层的?在设定优先级的时候,事实上已经分层了,叫不叫分层纯属个人爱好。

李:
这个比喻贴切。

 

【相关】

【语义计算:李白对话录系列】

【立委科普:结构歧义的休眠唤醒演义】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【语义计算:”被二奶搞成少数几个男的开会被嫌弃的车型”】

刘:
【在中国被二奶搞成少数几个男的开会被嫌弃的车型之一】哪个句法分析器能把这个长定语分析清楚我就服我自己都看了好半天才明白过来

董:
别说分析,这句子看着就已经服了。

梁:
我看了好半天也没明白。

白:
关键是“开会”分词错误会干扰。

董:
“知识图谱实际有国界说”的例子耶!我想在别处,没有那么多二奶的过度,就完全不理解了。所以是有国界的。就算没有了句法上的别扭,没有二奶的国度的人一定也会莫名其妙的。

白:
这句子的坑,一是分词错误的干扰,二是“开”与“车”的远距离强关联被紧密结合成词的“车型”所冲淡。

刘:
【在中国被二奶搞成少数几个男的开会被嫌弃的车型之一】几个陷阱:1.“开会”应该切开成两个词;2.“开“的受事是车,离得太远;3.”几个男的“,几个是指车型,跟男的没有关系;4.”被嫌弃的车型”,被嫌弃的是男的,不是车型。
太复杂了。

白:
看见了“车型”,有多少分析器还能同时看见“车”?
还有一个干扰,就是男的被谁嫌弃。“二奶”是先行词,而且是“男的”的相对词,所以产生“男的被二奶嫌弃”的短暂错觉。其实句中的意思是,买了送二奶开简直成了标配,男的自己开反而成了异类,受到其他人的嫌弃,
各种干扰,谁攒出来的,牛啊

“在中国被丈母娘搞成少数几个男的不送房就结不成婚的大城市之一。”

刘:
微博上真实的语言例子

严:
@刘 【在中国被二奶搞成少数几个男的开会被嫌弃的车型之一】,除了你说的四个陷阱,此句在“车型”之前还达到了七块临界。1搞成2少数3几个4男的开5会6被7嫌弃8的

刘:
七块临界我理解是指理解句子的时候记忆负担的一个阈值,应该只是心理学上的经验值吧,不知道有没有理论依据?这个句子如果画依存树我怀疑可能是非投射的

严:
陆丙甫教我的,发现遵循得很好。那些难懂的法律条款常有此通病。

梁:
我体会翻译或写作时,应该尽量把长句子 breakdown 成若干短句子,尽量把头重脚轻的句子变成 balance 的,尽量把一层一层嵌套的从句简单化。 语言表达的简洁清晰,应该是一种追求。数学语言,无非是表达方式之美。文化基因,如果想让它们容易传播出去,一定是简单的和自明的。做科学传播的,也许应该注意这个。

白:
@严 “被”,和“嫌弃”,是可以结合的,被,在省略介宾的情况下直接做状语。所以数目可能没超。

Me:
数目超不超 那都是一个极端的例子 离开 “不是人话” 不远了 不值得花太大力气。

白:
一顺手就灭了也未可知

Me:
遇到此类句子 我通常采这个态度:

1 看看极端例子能有什么功能性启发
可以实现新功能或加强已有功能 但不必一定要灭了它

2 现有的parser 做一遍 结果错了 但错得 “有理” 就好。

所谓有理 是按照系统设计 所走路径 是预期之内。譬如“开会”的强搭配距离近,系统就不给远距离的“开-车(型)”以机会。这类“错误”就是预期中的正常表现,如果不这样“错”,反而要警觉了。总体来说,对这两个“人也觉得很绕”的句子,分析器表现要正常。原则上不需要为这些outliers特地去“改进”:不仅是费功问题,更主要的是要严防弄巧成拙。关键是 预期之外隐藏一种危险,无论结果好坏。其实很多乍看出乎预期的好的表现,其实还是预期内的,可预期性是符号系统的本性吧。狗屎运是玩笑话 多数狗屎运 心里明白不是狗屎 也不是运。稍微思索两分钟 其实还是在预期之内的。符号主义的实质是 系统可解析。不能解析的符号主义行为 表明系统处于失控的边缘。

姜:
请教一下李老师何谓“符号主义”?

Me:
nlp 是 ai 之一种,nlp 所谓规则系统,归类到ai的符号主义,当然 ai 里面有一个重要成分是推理,nlp 系统较少需要推理。另一个重大区别是,在貌似已经没落的 ai 逻辑符号派诸流中,多层nlp规则系统是少有的最接地气和靠谱,在不少nlp关键应用领域(譬如 named entity tagging, shallow parsing, deep parsing, information extraction, sentiment analysis and question answering)可以胜过或匹敌深度学习质量的流派,虽然已经不在学界主流的视野之中。

白:
这里面有这么一个方法论:1、站在后知后觉立场上,当这个谜底揭晓,它是一个在系统所依据的句法理论下合理的解析吗?2、如果是,那么它一定会被暴力搜索出来,没搜出来一定是系统做了剪枝,可以评估剪枝策略是否合理。3、如果不是,可以评估系统所依据的句法理论是否合理。4、如果改进句法理论,系统是否要推倒重来。
好的句法框架可以容纳这种改进,坏的句法框架容纳不下这种改进。我可以肯定地说,CFG容纳不下。

句子有“不确定性过剩”和“不确定性稀缺”两种情况。过剩时好使的剪枝策略,用在稀缺的场景,很可能会栽。为了应对稀缺,过剩时又搞不定了。所以好的剪枝策略应该是随着不确定性的程度而动态自适应的。不确定性稀缺时,并不害怕暴力搜索。

Me:
白老师说的极是。不愧为山中高人。

白:
“张三的分数和李四的分数的差是李四的分数的两倍。”
只有一个正解,其余都是伪歧义。这是不确定性过剩,大胆剪枝。但到了“人话”的边缘,如果还是人话,还是暴力搜索管用。

Me:
为难之处在于百利一弊的策略。因为百利 不能轻易动它 但是那一弊就是那啥脚后跟,一旦出现了 或者容忍它 或者补救它 终归不能动大手术。此句的关键在 “开会” 这个词条 是个伪词。一切传统的词典查询都是最大匹配,这就断了补救的路子。

在应对了离合词的系统,这个 “开-会” 倒是从词典层面被当成两个词,因为有 “开什么会”、 “开个鸟会”、 “会开得一塌糊涂” 等变式。这似乎给解决这个问题留下了可能性。但是,即便是内嵌了离合词处理的系统,也难以抵制把 “开会” 提早处理的诱惑(这就是白老师说的“剪枝”,排除了远距离“开车”的可能性)。这种诱惑是实用主义的,是的的确确的百利,但难免一弊。

白:
真凶在休眠

Me:
英雄所见。对,真要补救 机制上可以是休眠唤醒。“开-会” 作为动宾合成词,从词典得来,可保留。但词典内部可以预留被唤醒拆分的种子,这从休眠唤醒机制上可以实现。

董:
一句破小编写的破句子,让我们这么讨论,太抬举他了。

Me:
哈。而且还不像人话。
借题发挥罢。

白:
还是有启发。比如“车型”这样的复合词怎么承载词素“车”的特征,跟“开”远距离搭配,这样的机制应该不是个案。

“空客380是他这么多年来坐过的最豪华的机型。”

“坐”和“机型”。前两天说的“增长率超过了联想”,是相反方向的脑补。

Me: “开会” 的问题 是早已熟知的最大匹配原则的百利一弊 以及 hidden ambiguity 的休眠唤醒机制 的体现(如果真要解决的话)。

白:
“机型”是“飞机”的属性名,“车型”是“车”的属性名,“增长率”是“指标”的属性名,“指标”是“公司”的属性名。“联想”是“公司”的instance。空客380是“机型”的instance。如果“顺杆儿爬”或者“顺杆儿滑”能够找到相谐的搭配词,也是一种广义的相谐。早有人提过使用图而不是线性序列的方式作为分词的输出。如果输入是词图,WSD结合当前已分析结果和后续待分析词语,作出动态优选,比直接分词算法说了算,会进一步。

Mo是修饰关系,Ma是填坑关系,Me是合并关系,Up是升格(修饰语提升为被修饰语),Sh是shift(移进,暂不处理)。

这个分析结果还有一点不满意的地方,就是“车型”填了“嫌弃”的坑。按说“男的”填这个坑最理想。

Me:
“坐过” 与 “380” 相谐呀 无需借助“机型”,无论大数据 还是通过本体。再者 这里还有一个 等价结构:o 是 s vt 过的 n。

白:
坐-机型 vs 搭乘-机型,无关380

Me:
380 是我坐过的。
380 是我坐过的玩意儿
这澡是我洗过的最糟的
这澡是我洗过的最糟的一次体验

“坐过” 与 “玩意儿” 很难说 谐不谐 还是要落实到380。

白:
“我坐过的最豪华的机型非空客380莫属。”

Me:
一个道理。有些词 譬如 玩意儿 机型 体验,可以作为类似指代词,它要从抽象落实到具体 然后才可以验证本体关系的 appropriateness。

白:
从结构看不能绕过,而且具体不是必然具体:“这是他坐过的最豪华的机型”

Me:
这句擦边

白:
不能说“这”的相关性比“机型”还高。

Me:
严格说这句有点犯规 除非认为是 有类似 380 的实体被省略

白:
句法没毛病。这就是,不确定性稀缺,不相谐的猴子称大王 犯不上在稀缺的时候进行严格的相谐性检查。

Me:
所谓语义犯规 本来就可以是合乎句法的,不然就没有乔老爷的绿色思想了。

白:
1、句法OK。2、本体里顺杆儿爬可以爬到相谐的节点。3、相谐的节点是真正想要的。
这比绿色思想还有意义得多,“增长率超过了联想”也是同理。

Me:
逻辑上是:这个机型是他坐过的飞机中的属于最豪华的机型。
逻辑啰嗦的时候 语言就偷懒 走捷径,语言表达偷逻辑的懒 案例比比皆是。惰性是人类的基础本性。

白:
前提是稀缺,如果伪歧义密集,再偷懒,就要自讨苦吃了

“男的”和“车型”争夺“嫌弃”仅剩的一个坑的逻辑:“车型”是基于定语从句所修饰的名词的反填;“男的”是基于“会”作为情态动词对填入自己的谓词宾语“嫌弃”的穿透。通常穿透的是逻辑主语(我之前也是这么理解的),但是这个例子里,逻辑主语已经被“被”的无名介宾所捷足先登,实际是穿透到逻辑宾语,所以穿透踩空了。

看来穿透的只是一道墙,不要绑死在墙里面的特定标签上。如果墙里面两个坑,逻辑主语可以优先;如果墙里面只有一个坑,那就逮谁算谁。

这算语义?已经是言外之力的层次了。以言行事。
语言三境界:以言指事、以言行事、以言成事。

郭:
@白【在中国被二奶搞成少数几个男的开会被嫌弃的车型之一】 ”我可以肯定地说,CFG容纳不下”,可否展开说说? 很想知道那个G在你心目中的样子。也只有知道了那个G,才能判断是不是CFG。

你以前举过一个例子: “张三、李四、王五的年龄分别是25岁、32岁、27岁,出生地分别是武汉、成都、苏州”。

我理解你心目中的G是那有名的(a^n b^n c^n)for any n, which is well known to be outside of CFG。

同样的话,在@wei 那里,我理解就是三型文法有限状态机,因为他有个“事不过三” “超过三个就不是人话”的trick。就算三步太少,那个“七块临界”限制,也把那个G带回正则文法。总之,只要那个n有个上界,就可穷举。

白:
这里面被定语从句修饰的中心语反填回定语从句中的动词所挖之坑的机制,一个成分多个爹,首先它长的样子就不是树。既然不是树,就谈不上CFG了。反填其实造成了“环”,即:名词-动词-的-名词。七块是栈的深度限制。至于放在栈里的东西怎么用,不同的G差别很大。不是说它一被常数界定,就肯定是三型文法了。这套机制的外面,还有语义中间件,把基于subcat的和基于统计的相谐性检验封装起来。面对伪歧义,这个中间件会做出筛选。这个CFG也没有。

Me:
PCFG (probabilistic CFG)是不是就带有了中间件的意味?@白
那玩意儿一度呼声很高。从我的角度看 是大锅烩的一层parsing 还是多层 parsing才是关键。

白:
@wei 有点。

Me:
一层去做cfg 不仅爆炸 没有线性算法 而且很难做深。螺蛳壳里怎么做得出一个像样的道场来。

白:
分析结果长什么样决定了格局。在这个大框架下,数据改变不了格局。

Me:
parsing 的尴尬在 自然语言现象太复杂 千丝万缕 分而治之吧 不知道这几刀怎么切。一锅烩吧 根本就顾不过来周全。

白:
太松,伪歧义就溜进来;太紧,就不robust

Me:
分而治之是显然的上策 只是没有一点经验和功力 往往不会分。我觉得。伪歧义的问题在多层系统中几乎就不是挑战,原因就是 松紧掌控也被分而治之了。每一个可能的剪枝行为可单独去调,数据驱动 假以时间 偏差就会从一个一个局部解决 ,从而获得全局最优。

白:
话说,形容词向左做补语和向右做定语,在你那里谁优先?
比如“做好男人”:

Me:
除了 定中合成词在词典外,词典的下一层是 “一字”补语,再下一层才是定语,现在是这样切的刀。因此 假如 “好男人” 不进词典,目前的分析是 【做好 男人】,但是如果一字以上 就不了。

白:
到处可见标配-例外的逻辑。
补语与时态助词呢?“哭肿了”是“哭肿-了”还是“哭-肿了”?

Me:
无所谓。爱谁谁。

白:
同级?

Me:
我是说对这种不预先特别设计,赶上哪个算哪个。

白:
分层,了总有个落脚之处吧……

Me:
目前是 “哭肿” 在先,因为 汉语有双音趋势:

白:
又不做语音合成

Me:
两个汉字的组合 看成是词典的延伸 处于非常底层

白:
照此说来,“折腾惨了”就该是“折腾-惨了”?

Me:
没问题呀,但遇到小词的时候(譬如“惨-了”的“了”),也不绝对。然而,“哭-肿” chunk 成(open)合成词了,但“折腾”-“惨”则仅仅是补语联系,而不是合成词。

白:
有点以貌取人啊……

Me:
必须滴。这个世界有完全不以貌取人的吗?何况句法乃是关于形式的系统,以貌取人,理所当然。 只是在句法语义的理解过程中,“貌”占多大比重的问题。 句法当然不仅仅追求心灵美,心灵美理应是语义的追求。当然,句法的最终目标还是语义(理解),所以句法语义接口的时候,外表美与心灵美需要一个平衡才好顺利过渡到自然语言的理解。

白:
“东西放忘了地方”,合法吗?经常有人这么说。但是“放忘”似乎没有因二字组合而产生成词的倾向。东西-放-地方,忘-地方。忘了-地方。

Me:
成词的趋向在 只是这个 bigram 的频度还不够高,用的人多了 就成词了 。

白:
这个不是大问题,皆可。吃光、用光,俨然就是词了。动结式动词

Me:
不太一样:

放x忘y
吃x x 光

动结的逻辑宾语常常出现在主语位置 不需要用显式的被动小词 “被”,这是共性。不同的是 …………

白:
“打疼了手”
别人的手疼,“打疼”是紧组合;自己的手疼,“打疼“是松组合?如果打xx疼和打xy疼能决定这个区别的话.

Me:
“打疼了手”,默认是自己的手

打他打疼了手 不是他的手。
伤透了心 是自己的心
伤透了脑筋 也是自己的脑筋

除非“操中南海的心”。把标配给冲了。

白:
这个问题在于手、心、脑筋都是部件,有坑的

郭:
“这里面被定语从句修饰的中心语反填回定语从句中的动词所挖之坑的机制,一个成分多个爹,首先它长的样子就不是树。既然不是树,就谈不上CFG了。”“反填其实造成了“环”,即:名词-动词-的-名词。”

撇开“句法制导的语义分析”,也撇开具体的句法分析过程,就纯句法描述而言,这无非就是: X -: N V 的 N

具体的“相谐”判断,用基于挖坑填坑的一致,或基于特征的合一,或基于统计的搭配,或基于经验的标配,只有分析的颗粒度和精度的差别而已,无关语言表达力。有了 X -: N V 的 N,怎样画内部的依存结构,是个“句法制导的翻译”问题。我们大可以说“在这样这样的坑/特征/统计/搭配/标配下”“V既是N的儿子又是它的老爸”,但这都不影响这个N作为X的代表一致对外。

我想探讨的是,如果把过程性的具体剖析方法从语言表达分离开,这个“描述性的”“纯”语言长什么样子。我是在找类似上面的 (a^n b^n c^n),如果这里的n是个任意值,它就是上下文相关语言,如果n是一个有界的值,它就是一个正则语言。这是一个纯描述性的语言,无关其分析方法,也无关其语义解释。

白:
先说“分别”这件事,也有粗粒度的处理方法,就是使用“列表”。不管长度,只管收拢。收拢对收拢。还有,如果描述指的是大边界。里面的小细节都归功于语义,那我指定一个全集岂不更痛快?功夫全在细节啊。我这里用的不是句法制导的方法,而是词负载结构的方法。一条显性的句法规则都没有。还有,仅就{x^ny^nz^n}这个形式语言实例而言,它的判定可以有线速算法,跟一般二型语言的判定复杂度是完全不在一个量级的。

 

 

【相关】

【语义计算:李白对话录系列】 

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

【李白之36:汉语可以裸奔,不可能无法】

白:
“他拿了你不该拿的东西。”谁不该拿?

Me: 妙句。

他拿了他不该拿的东西。
他拿了人不该拿的东西。
他拿了不该拿的东西。

默认主语是 “人”, 其次是 “他”。这个 “人” 指的是 一般的人,正常的人,有底线的人 (decent human)。当默认主语的位置出现了 “你” 字,奇异的事儿发生了:

1 按照常理 “你” 取默认主语而代之, 这就造成了 “你” 与 默认的 decent human 或 “他” 的下意识比照。言下之意可以是:他拿了你不该拿(但他可以拿)的东西。这是一解,或可以想象的场景。

2 根据法律或规章面前人人平等的普世原则 上面的解读虽然合语言学的法 但不合现代社会的法。这就迫使默认主语 继续有效,“你” 于是不能雀占鸠巢, 不得不另寻他途。 于是“你”的定语角色 instead of 主语的可能进入理解:

他拿了你(的)不该拿的东西
== 他拿了他不该拿的属于你的东西。

3 一时想不通1与2的语义落地场景的人 会觉得这是个病句。

白:
其实,“拿”有三坑。谁,拿谁的,什么。
如果“你”进入定语从句,就少了一个萝卜,坑不饱和。所以,“完形优先”的策略会倾向于使坑饱和的分析结果。

Me:
我觉得“拿” 有两坑,通常不认为作为孙子的 “谁的” 可以提上来做儿子。

【谁】 拿 【什么】

【什么】有没有定语的坑 要看是什么名词。一般专名(如人名机构名) 材料(如 石头 钢铁)或产品种类(如智能手机 数字电视等)就无坑。但产品专名(如iPhone)可以有拥有者 算是有坑:“我拿石块”。石块不能算有坑,没有预期。如果强加了定语,那个定语是随机性的,不是语义必需的:“我拿了他家的石块”。

我拿iPhone7
默认是:我拿我的iPhone7。要是拿别人的,那可能就是窃了。

白:
拿人东西手短

Me:
还是有儿孙之别,长幼有序:

[human] take [thing]
[human] ‘s [thing]

“[human] take [human] ‘s [thing]” seems a bit too flat,cf: buy

[human] buy [thing]
I bought an iPhone7

of course we can say: I bought Apple’s iPhone7,but Apple does not need to associate with “buy” directly

白:
表“取得”义有一大批动词,拿、捡、取、抢、夺、偷、窃、娶、借、买……,都有三个月坑,无需搞两层。间接宾语就是原所有者,逻辑主语就是新所有者。

Me:
定语一直很灰色(介于arg坑与随机mod之间)。如果这么说坑,也可以有四个坑五个坑:

【1 谁】 【2 从哪里】 拿 【3 谁的】 【4 什么】
【1 谁】 【2 从哪里】 拿 【3 谁的】 【4 什么】 【5 到哪里: 目标地】

白:
“所有”义由动词自带,无需借助其他手段。到哪里不是标配,谁的和哪里合并。给予类,给谁是标配。

Me:
从双宾 “给予” 开始,带两个实体的坑就逐渐处于灰色。“给予” 的 【接受者】 是公认的坑。到了另一种间接宾语 【为谁】 买 【什么】:
buy sb sth --》 buy sth for sb
就有点从arg的坑向mod的随机成分移动了。

白:
自洽、能产就好。

Me:
其他的实体角色几乎都可以或者看成是 mods,或者是孙子辈。arg struture,除了这两种间接宾语,宾语以外的坑通常是非谓语动词,也就是动词的右嵌套或者是形容词做补足语。当然这多少受欧洲语言句法框架的影响。如果超越句法,还是看 HowNet 的坑怎么定义的比较靠谱。这样一来,句法的args不过三,就需要突破了。

所谓“坑”,根子源自常识语义的本体,体现却在各个语言的句法。由于句法体系有个语言学共性,即我所谓args不过三的普世原则,结果,有些常识语义的“坑”在句法就被降格成 mods 了。这里面自有上帝造语言的玄机在,我以为。幸亏有上帝在,自然语言乱中有静,冥冥之中自有其不变之法。语言学家就是法师,可以直接与上帝对话,而普罗 native speakers 呢,只是下意识遵循,或试图不遵循:但也还是逃不过如来佛的手掌。你可以偶然违规,你不能永远违法,也不能连续不断地违规。语言可以灰色,但不可以黑色。社会媒体可以乱象丛生,但还是可以捕捉到舆情。中文可以裸奔,但不能无法。不管怎么裸奔,也还是个人形。无法的裸奔,那就成怪物了。汉语无文法论,可以休矣。无法,人如何把握,又如何能理解?

白:
怎么可能无法,最多就是一叶障目

 

【相关】

泥沙龙笔记:汉语就是一种“裸奔” 的语言
【李白之21:萝卜多坑不够咋办】 

【语义计算:李白对话录系列】 

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白王56:与上帝同在和对话的学问】

【立委按】“真心说,语言学虽然不是显学,乍看颇落寞穷酸,但的确是最有趣的学问之一,是少有的能与上帝同在和对话的“科学”。要不世界几千年美国几百年不世出的千古学霸乔老爷能以此扬名立万呢。” 当然,乔老爷的天下无敌的引用数与崇高名声,只能说最多一半是语言学的功劳,另一半是他的左派社会主义的独立知识分子情怀及其犀利的现实批判精神。

王:
这本书把我看晕了。
这本书把我砸晕了。

N1 把 N2 V1 V2 了。

V2和哪个N发生语义关系、发生什么样的语义关系好像比较好确定;但是对V1来说,如果不看具体的句子,好像就不能确定,当N1 N2与V1结合后,各自的论元角色是什么。
李:
不确定这个句法树画得对不对……

白:
要用次范畴
但是,如果句法的目的仅仅是确定“谁跟谁有关系”而不在乎“是什么关系”,是主是宾,根本无须过问。“看”和“砸”都有两个坑,“我”填一个,剩下的N填另一个。句法的任务就完成了。所以这两句的分析在我的体系里长得没差别:

王:
谢谢白老师!下一步确定哪个萝卜进哪个坑,是不是就是知识本体的工作了。
就是您说的次范畴设计,是不是就是在词库里设定一些语义相谐的规则,萝卜只能进和它语义相谐的坑。

白老师,您的体系里只有两种pos tag?

白:
利用subcat可以确定“我看书”
但“书砸我”并不典型。
“我砸书”也不是不可以。
N、S、X 三种 X意思是“可N可S”。真正排除“我砸书”需要常识或者统计,subcat并不能做出这样的区分。通常是“硬砸软”而不会“软砸硬”,人体属于“标配软”,书则“标配硬”,也不排除硬的人体(冻僵了那种)和软的书(帛书)。

王:
谢谢白老师指点!

白:
语义相谐不一定要通过规则,也可以通过统计。
subcat只对词条标注,不对短语标注。
注意到我画的图里,“我”一个萝卜填了“看/砸”“晕”两个坑。这是因为补语动词并入谓语动词,相应的坑不占同一个萝卜的额度。

王:
对,李维老师上周推的文章里好像也说了,本体是人编的,知识图谱是统计出来的,都可以用来判断语义相谐。

李:
本体(ontology)也可以从大数据统计学出来 叫习得(acquisition),但跨领域的一般性本体不值得费劲儿去学。一来有现成的高质量的本体在 如董老师的 hownet,语义大师几十年打造的。跨领域跨语言的基本放之四海而皆准,仅次于上帝的工作。二来 学了半天 也难系统化 。但是 本体自动习得还是有一席之地,主要在,习得可以对领域 对数据有自动调适能力。更主要的是 习得可以包含本体常识的相谐的程度和或然性比较,这是人工标注 哪怕是大师的工作 所难以达到的。最终 常常是二者的结合。以专家本体框架为指导 以数据为对象 学出领域本体。

白:
相对标记,并不是每个本体都有的:“你打了他不该打的朋友。” 打,二价,但“朋友”自身仍有坑。

李:
当然 玩本体 这种 元层次语义 需要一些修为 非新手可玩 玩了也不会用 。但是 玩知识图谱这种 倒是相对人人可为 基本就是个力气活,砸的是人力和计算资源,不需要一定有语义全局的高度。

白:
标注种子词条,习得种子关联,推荐更多词条,推荐更多关联。所谓bootstrap。

李:
另外 所谓相谐(semantic coherence, or, attribute-value appropriateness) 是元知识 是本体的属性和功能 与一般的知识图谱无大干系。如果硬要 argue,在碎片化信息抽取整合成知识图谱的过程中,领域概念之间的相谐蕴含在图谱中,也不是没道理。但是关键在,相谐是作为一个软条件帮助语言分析理解,从而帮助抽取挖掘图谱的。图谱是结果,达到结果了 相谐已然过去式了。过河不必拆桥,但桥是为过河而设置,过了河就没桥什么事儿了。

另,“subcat只对词条标注,不对短语标注”,白老师这话不错。不过短语也可以继承词条的 subcat,继承的时候 已经填坑的要“折算”。换句话说 短语的 subcat 坑减少了。减少为0的时候 就功德圆满了 就没有了 subcat,譬如 s,那是最高的短语。

白:
坑的subcat没了,自身作为萝卜的还有

李:
当然 譬如右嵌套:s 可以作为子句 作宾语,是VP的右嵌套。这时候不圆满还不行 不圆满就做不了所要求的宾语子句。语言学理论里面 把这种条件叫做 configurational constraints, 也就是乔老爷的 x bar 的条件。如果这个条件要求的是尚未圆满(not fully saturated, or partially saturated) 的短语,就带着未填满的坑前行,各种好玩的语言逻辑的戏就开场了。

白:
如果词负载结构,这一切都在填坑中自然完成,无需另外的句法来“制导”。

李:
譬如 【书砸我】 还是 【我砸书】 这样的公案就出现了。到了 【书看我】 还是 【我看书】,本体常识或本体统计可以发力,当然 这种强搭配也可以不劳驾本体,而是当成词法或词典与句法的交互和接口,但是不强的搭配太柔软,句法就无计可施了,只能 identify 可能性 不能确认语义的唯一性。本体或反映本体的大数据 不得不上场。如果由于数据稀疏 上场了也不能解决 ,那只能保留歧义 有可能本来的语言表达就是双关。

真心说,语言学虽然不是显学,乍看颇落寞穷酸,但的确是最有趣的学问之一,是少有的能与上帝同在和对话的“科学”。要不世界几千年美国几百年不世出的千古学霸乔老爷能以此扬名立万呢。

 

【相关】

【语义网笔记:本体与知识图谱之辨】

语义三巨人

《泥沙龙笔记:知识习得对本体知识,信息抽取对知识图谱》

【泥沙龙笔记:再谈知识图谱和知识习得】

中文处理

Parsing

【立委科普:信息抽取】

【关于知识图谱】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白之35:句法分析 bottom up 为基础,可穿插 top down】

Bai:
“老李把手不听使唤的徒弟骂了一顿。”
看点1、“把手”分词错误
看点2、“把+手”介词短语错误
看点3:谁的手?谁的徒弟?
“不听招呼”是非自主性状,和“把”天然矛盾。

Me:
这种东西没做过统计 究竟有多严重。统计性 值得不值得投入资源做 先放一边。可以从这类问题得到什么启示?有一个启示就是 也许我们可以适当地引入自顶而下(top down)的处理策略。很多年来 我们尝尽了自底而上(bottom up)的好处 以至于把它视为理所当然。Note 这里说的自底而上与教科书上的算法有所不同,教科书上的算法,无论自底还是自顶,指的是一层 parsing,我们说的是多层的自底而上处理。自底而上层层parsing 的好处包括鲁棒稳妥 靠谱接地气。层层推进有利分层和模块化 也有利打补丁。这些都是复杂系统难能可贵的重要品质。Having said that, 上面这类含有某种远距离搭配或关系的 cases 却可以设想一个 top down 的策略:

骂(一顿)【human】
–》把【human】骂(一顿)
–》把【rel-s 的 human】骂(一顿)

这个optional的定语从句 rel-s,可以自顶而下扩展为 【Subj Pred】,如此等等。这样一来,“手 不听使唤” 就中招了。

当年我们反潮流 反对 top down,根本理由是 top down 与主题先行一样 主观主义严重,隐藏的假设是说出的话都是合法的,所谓规范的句子。那么 我们从非终结节点 S  出发 根据有限的句式层层下推 就可以囊括所有句子。这种 top down parsing 是教科书上经典路数,但我们面对实际语料的时候,很快就举步维艰。后来把各种 subcat patterns 嵌入到 VP 里面,用词典主义(lexicalist) 细线条( fine-grainedness)来缓和矛盾,但仍然捉襟见肘,直到探索出多层的自底而上的 parsing 路线,才柳暗花明。
但必须承认,自底而上虽然条分缕析细致入微,却带有与生俱来的见树不见林的缺陷,对于远距离的结构把握不好。于是我们用拼拼凑凑或者打补丁,甚至休眠唤醒推倒重来的各种方法对此缺陷予以补救。

也许到了认真考虑如何“巧妙”结合两种路线的时候,bottom up为基础,适当穿插 top down。

 

【相关】

【立委科普:结构歧义的休眠唤醒演义】 

【李白对话录:从“把手”谈起】 

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【语义计算:绕开句法做语义不合适】

Jiang:
请教一下各位老师,“咱为什么不用接龙报名来招机器人班?”是否合乎语法规范?如果不合乎语法规范,为什么大家理解起来还没有问题?这个现象说明了什么?说明语法是人为的,不能用来约束鲜活的语言发展事实么?

Bai:
@姜博士 合语法呀,没看出什么问题

Jiang:
@白 嗯!我担心“招”和“班”从语法上来看搭配不妥。有您印证,我就大胆地这么说了。

Bai:
“班”是“招”的逻辑主语。

Me:
嗯!
“逻辑主语”概念挺好,和“主语”有何区别?

Bai:
就是以这个动词组成典型的、正常的、统计上占优的主谓句的话,应该在其中当主语的那个角色。

Me:
严格说来 最底层还不是逻辑主语

Jiang:
喔?

Me:
[human] [为…班级] 招 [human],“班” 是目的。第一个human是逻辑主语,第二个human是逻辑宾语。

Jiang:
您的意思“招”的宾语还是“human”!

Me:
对。”班” 是 “招” 的结果或目的,宾语表示结果在汉语不鲜见。

Jiang:
“招生”可以说,也易于理解。但“招班”虽然可以说,但理解起来要拐个弯,理解成“为班招人”!

Me:
招生成班。挖土 挖坑 挖土成坑,同理。

Jiang:
感觉引入“主谓宾定补状”等语法成分有用,可以用来分析描述语言现象。但如果为之所累,或者非要顾及合乎语法与否,会影响语言学的深入发展。

Me:
没有不合语法呀。
“挖坑” 一直存在, 没有语法规定宾语一定要是逻辑宾语。再如:吃饭 吃食堂 吃亏 …… 宾语不是逻辑宾语很常见的。

Bai:
也许是“招人成班”,一个“经办人员”为“学校”招“人”成“班”。但是,经办人员不过是学校意志的代言人,学校是班的上位整体。这个办事人不需要强调的时候就融化在学校里 甚至可以说是学校的“工具”。招这个动作,真正的决策主体是“学校”。反而,办事人员如果大言不惭地说“我招了谁谁谁”,颇有贪天之功的嫌疑了。所以,学校是大主语,班是小主语,学生是宾语,办事人员是工具。工具偶尔升格为主语,但真正主语到来时必须让位。学校在出现显性介词(如“为”)时降格为介宾,与介词一起做状语。学校与班的关系,是整体与部分的关系。

Jiangg:
嗯!这么说来,这里边的关系挺不简单的。感觉“主语”这个语法概念和“工具”这个语义项概念粒度不一样。为了说清楚其语义,可以不借助语法概念。语法概念的引入把事情弄复杂了。

Bai:
语法自己还有打不清的架,又跟语义有说不清的纠缠,所以不能驾驭的建议干脆绕道,能驾驭的,从简为妙。

Jiang:
感觉语法体系是人凭感觉硬造的,在实际的语义分析中,不应过分依赖它或在意它。

Bai:
会用的可以借力。不会用的硬要用只会添麻烦。

Gong:
我在淘宝的经验是处理语法或语义不用照搬理论,解决实际问题即可。例如了点,我会认为是一个程度副词。

Bai:
不管语法语义,要回答的就两个问题:1、谁跟谁有关系;2、是什么关系。这两个问题回答清楚了就上了三楼。至于一楼二楼怎么分,最终应用不care。但是一楼二楼分好了,上三楼就可以有“利器”。

Me:
句法存在有几个理由:

1 句法的确有一定的概括性 只是汉语句法的概括性不如欧洲语言而已。

2 概括性的表现之一就是句法角色对逻辑语义的标配(default)映射,譬如 句法主语的标配映射是施事(逻辑主语),其次是逻辑宾语,第三位的映射是工具。标配以外的所有映射 都需要特别的条件。

3 句法关系比较简单:逻辑语义非专家不能 而且不容易达成一致。简单的直接体现就是数目,句法关系不过十个;逻辑语义可以到百。差了将近一个数量级,掌控起来 难度不同。如果做语言教学,“主谓宾定状补” 的说法 虽然仍难免捉襟见肘 但的确容易解说一些, 也大体抓住了关系的概貌。

4 其实更本质的理由还是语言共性的作用:无论汉语还是欧洲语言 语言学中的 subcat patterns 中的 args 不过三,这就为句法主宾补(补足语包括间接宾语,不仅仅是所谓【补语】),做了背书。至于这些主 宾,在深层不一定标配映射到语义的逻辑主语或逻辑宾语,那是另一层面的问题 是句法语义的接口问题 不宜混为一谈。所以白老师说句法做好 可以借力。欧洲语言的句法借力是很显然的 其实汉语中也有很多借力的地方。不过确实需要一点高度 才好玩这个句法语义接口的游戏。做直升飞机上三楼 固然是好 只怕更难。

以上几点是相互联系的 是不同角度的视点和论证。我的主张是 汉语研究不宜跳过句法 但汉语句法需要更大的张力和灵活变通才好。句法的框架设计 在解决“谁与谁发生关系”中 至关重要, 在解决“发生什么关系”上, 起了一个标配和桥梁的作用。

跳过句法可行否? 这个问题可以这样理解: 如果针对特定领域 特别是特定应用, 别说跳过句法, 就是跳过语义, 都是可能的。所谓端对端就是跳过了显性的语言学。但是对于 open domain 的语言分析应用的通用引擎 哪个环节都不宜跳过。跳过了 就难以深入和坚固。
自然语言(尤其汉语)是如此复杂 。语言学的几大部分已经是最起码的分野和分工了 还想要跳过,不对路呀。模块化多层处理是深度自然语言分析和理解的正道。

语言学的几大块是语言学多年研究传承的结晶 不宜轻言跳跃或抛弃,包括
Lexicon / Morphology  / Syntax  / Semantics / Discourse / Pragmatics,这几大块处于语言研究的不同层面。不能因为它们的接口复杂(尤其是汉语的词典与句法接口,句法和语义的接口),就否定或忽略了它们的层面不同。不少人希望破除繁琐哲学 要一锅烩,深度神经的端对端算是一个成功案例,但局限似乎在对带标大数据的要求上 还有就是连带的领域移植性问题。对于通用的语言分析理解 迄今没见成功案例 也不大可能。董老师说法 上帝不可欺。

Dong:
当年在农村插队落户,老农的一句话,我记了一辈子:种庄稼,你糊弄它一时,它糊弄你一年。科学研究,你糊弄它一时,它可就糊弄你一辈子。李维说的对,别以为有了语义,就可以绕过句法。语义离了句法,还如何处理语言呢?

Guo:
@wei 跟你抬个杠。

今天,深度神经不一定是端到端,机器学习不一定要带标大数据,语言处理多不是领域专用。

今天已知的“神经翻译”,第一步是word2vec,就是把“word”(不拘泥于词典词)转换成“vector”。这一步大家常用unsupervised方法独立做,没什么“端到端”,“带标大数据”,“领域专用”。

“神经翻译”常见的第二步,是seq2vec,就是把一个源语言”sentence”从一个“sequence of word vectors”转换成单一vector。这一步,也可以单独做,不用端到端带标大数据。

“神经翻译”常见的第三步,是vec2seq。这里需要端到端带标数据,但比想象中的“大”要小很多。

上面这两个vectors,如果要说成是对词和句的“深度理解”,免不了无尽的争执。但在神经计算的圈子里,他们的“通用性”性是显而易见的。同样一个句子的vector,人们不仅用它来生成不同语言的翻译或者产生对话,还有人用它来生成一幅画或者一段音乐。那个word vector,就更是无所不在了。

Me:
好问。

第一步 第二步 是一种 representation 的转换, 还是一个相对独立的知识训练?第一步对应的是什么知识?第二步又是什么知识?如果是对应某种知识, 那么 unsupervised 的训练如何反映这种知识或目标?

貌似第一步是 lexical semantics and ontology, 这个容易达成共识,无监督学习应该是可行的。第二步是 句法的模拟或逼近,理论上讲是难以无监督学会的。

Guo:
第三步vec2seq其实也是可以独立的。这就是为什么翻译出来的句子总是很顺的原因。

Me:
很顺的另一个说法是狗胆包天。哈
上次把肯定翻译成否定, 人是万万不敢的 除非自找炒鱿鱼。很顺的秘诀来源于大数据的特性,用词不当和语法错,连带棱角和独特性的语言表达,都被过滤掉了, 飘在上面的语言表达比人类表达的平均水平要 “高”。

Dong:
@Guo 学了不少东西。我一直纳闷的是,NMT有时会漏译、过度翻译等,那是怎样造成的呢?研发者知道原因,并知道如何去改进它吗?举个例子:

(英文)There was a very serious accident on the Beijing-Tangjin highway on Tuesday morning, resulting in a brutal jam. Victims say the traffic started to slow down around 4 o’clock Monday morning.

(谷歌):北京 – 唐津高速公路上星期二上午发生了严重事故,造成了残酷的果酱。受害人说,交通开始在周一上午4点左右减速。
(百度):在北京唐津高速公路上星期二上午非常严重的事故,造成一个残酷的果酱。受害者说星期一早上四点左右交通开始减速。

他们研发者发现后知道将来应该如何修改、提高呢?

Guo:
@董 翻译中的遗漏或者添油加醋,都是已知的问题,主要就是因为,那个中间的vector表达,没有在任何地方有显式的成分表达。

简单讲,这有点像口译,你先说一句话,别人听懂了,然后他把那句话用她自己的理解转述出来。如果不做笔记,口译的人是很难保证不增加或者减少内容的。但是他一定能说得很顺。

现在已提出些补救的办法。例如在谷歌的神经翻译中,就有一个所谓的,关注模型,希望输入的句子对输出的句子,能有一些比较直接的影响。但很显然,这个效果还是没能让人满意。

Dong:
没有在任何地方有显式的成分表达。”显式”是什么样的?那么为何不让它具有这个“显式”表达呢?是疏忽,环视技术上有障碍?@Guo 这是不是跟口译的情形还有点不同。口译是理解原文意思后的翻译复述,有着难免的变通。而NMT实际上是完全不是自觉的。大概有点像图像识别、语音识别,它在技术上完成了比较后,挑选了最“像”的结果。

Guo:
@董 现在常见的深度神经,无论是机器翻译,图像识别,语音识别,还是其他的应用,基本上都是先将输入转化为一个相对通用的一个中间表达(一般就是4096个数值),然后用这个中间表达,来完成具体的不同的任务。

这个中间表达,对不少深度神经的从业者而言,就是对原文的“深度理解”。当然,机器到底“理解”了什么,我们还说不清楚,但也不是一无所知。

 

【相关】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【语义计算:“他衣服要烫得笔挺才肯穿出门”】

白:
“他蔬菜要用清水泡过的才敢吃。”

这里面,“泡”的逻辑主语是不是“他”?保险策略:不做定论,悬在那里。激进策略:是,如有必要,拓展对“逻辑主语”的解释。“他”主导了“泡”的启动或者“泡过”的选择,即便不是亲手“泡”,也算是逻辑主语了。落地时可以有个开关,决定“算是”的逻辑主语是否映射为真实的施事或当事语义角色。个人认为激进策略也是可行的。

董:
我的语感是“他”是topic。说的是他这个人。而不是一个行为动作的事件。

白:
“他衣服总是穿得笔挺。”
“他衣服总是要穿得笔挺才敢出门。”

里面的“他”也不和“穿”挂钩吗?
这里的“穿”和那里的“泡”有何不同?

李:
转了弯的逻辑主谓

白:
董老师框架下要直接确定语义角色,我和伟哥是分阶段的。

李:
解析的目的何在?
能想到的好处是可以提供更多的案例 帮助挖掘本体知识。对于语句的语义 其实没啥意义。语句要表达的语义 大多不绕大弯。这也是为什么非谓语动词 常常有坑没萝卜,或者即便有萝卜 填坑不填坑无关宏旨。事实上即便填上了,也大多不是事实,不是发生的事儿的语言表达,而只是本体的潜在逻辑关系的语义相谐的一种体现,此所谓“非谓语”。

白:
绑上了放掉很容易。放掉了再绑上有点返工的感觉。在没有竞争候选的情况下,建议绑上。这是依据封闭世界假设。如此填上的萝卜,如果语境中有其他活跃萝卜,可以override。

李:
顺手的话 当然绑上。

白:
把link标记为“可覆盖”,就可以兼得。

李:
如果知道不十分确定,绑的时候做个标记,说这是个 candidate 不是绝对的。

白:
就是这样:soft hypothesis,遇到更hard的candidate,立马让贤。

“他衣服要烫得笔挺才肯穿出门。”

fallible reasoning,“僵尸萝卜”和“鲜活萝卜”结为兄弟

李:
这句子很绝。各种坑。可以列数一下
(1)possessive:他-衣服
(2)aux-V: 要-烫
(3)动宾:烫-衣服
(4)主谓:衣服-笔挺
(5)计划类V带动词宾语(也可以看成是 aux-V):肯-穿
(6)candidate 主谓:他-烫(衣服)
(7)主谓:他-肯穿
(8)主谓:他-出(门)
(9)动宾:出-门
(10)动宾:(肯)穿-衣服
(11)述补:穿-出(门)

还漏掉啥填坑关系?总之,短短一句,各种纠缠。

最后这个【述补】好像随机性强一些,预示性弱,就好比 【得字结构】 的补语:
“烫-得(笔挺)”,它们更像 adjuncts 不像 args。

白:
parser都要做,补语不是填坑,是坑共享萝卜,是动态确定的

李:
不需要词典subcat驱动,而是一般性规则。

白:
不是词典化的。坑共享萝卜的另一个说法就是坑的合并

李:
好,parse parse:

做到一半了没有?论句法,约莫八成;论全体逻辑语义,也就做了一半吧。

今儿较真一次,列数一下,看到底做了几层关系出来:

(1)Mod (possessive): 他-衣服
(2)句法主谓(其实是逻辑动宾:算是做了一半吧):要烫-衣服
(3)aux-V(表现在 vg chunking 里了): 要-烫
(4)大主语,又名 Topic(其实是逻辑主谓,也算做了一半吧):他-要烫
(5)主谓:他-肯
(6)V带动词宾语:肯-穿
(7)Next 耍了个流氓(算是做了一小半,至少直接联系是搭上了):肯-出门
(8)补语:要烫-笔挺

白:
很牛了

李:
自评: 是八成熟的 parser 吧,差强人意。偶尔露峥嵘。
关键是,这句没做任何微调,所见即所得。隐式的逻辑语义,譬如 “衣服-笔挺” 就没顾上了。隐式逻辑语义目前在语义模块只是做了个样子,没细究。

白:
我说的僵尸萝卜和鲜活萝卜,就是分别指“穿”和“出门”。

李:
句法细化为逻辑语义,也没做全。譬如,流氓 Topic 和 Next 还没教化。

白:
坑者有其萝卜,是NLPer的共同理想,就像耕者有其田一样

李:
哈。
为顺口,可以提这个口号:坑者有其苗。 跟植树造林似的。一个坑一棵苗,终成句法森林。双音语素 “萝卜” 不知怎么个来历 居然是黑匣子 无法缩略为单音节。还不如 “蝴蝶”, “蝴蝶” 略为 “蝶” 没啥问题。

【v者有其n】,这种成语句式 要求 v 和 n 都是单音节才好:

耕者有其田。
劳者有其工。
行者有其车。
食者有其鱼。
学者有其书。
棋者有其go (不是 alpha go)
nlp者有其tree

坑者有其萝卜??
赌者有其麻将??

“麻将” 也是双音节黑匣子 不好。牌九呢,也是双音语素,但似乎可缩略为 “牌”:

赌者有其牌

共产大同了 哈。

白:
“一切不拿自己当大数据入口的端设备都是耍流氓。”

董:
AI,也是智者千虑必有一失。

白:
拿……当……,句式没搞定。把“当”翻译成“when”,后面的都失去准星了。

白:

“机器人送快递还有多远?”

怎么知道这里的“远”实际指的是时间而不是空间?

宋:
时间空间常混淆。

梁:
时空一体

李:
词汇总是有歧义,有不歧义的。

“机器人送快递还有多久?”

多久 无歧义; 多远,有歧义,但标配是空间。结构也是如此,有歧义的,有不歧义的。形态丰富的语言,结构起来,就较少歧义。汉语就显得到处都是歧义。所以那些争论语言优劣的口水仗,缺少的是一个双方公认的测量标准。常常鸡同鸭讲。如果从较少歧义,以显性形式为主要手段来避免歧义这个角度看,汉语是劣质的,这个应该没有多少疑问。但是,歧义也好不歧义也好,现存语言都达到了人类交流的工具目的。不过是,歧义多的语言,人类在交流中下意识利用了常识或领域知识的帮助而已,而这种下意识,对人类一般不构成负担。既然知识在语言理解中的引入不够成负担,那么比较优劣当然还可以有其他的标准。譬如语言表达的灵活性、丰富性、微妙性,甚至模糊性。从这些角度考量,可以 argue 说汉语是世界上最牛逼的语言。

词汇的歧义(wsd)属于 hidden ambiguity,通常不影响结构分析。wsd 真要解决的话,绝大多数都可以在句法后的语义模块或语义落地模块去做。

wsd 和 hidden 歧义 通过上下文消歧 可以利用句法结构的帮助 也可以不用。但既然绝大多数这类歧义都可以留到句法后进行 不利用白不利用 两条腿走路总是更踏实。其所以wsd 研究 利用结构不为多数 不是因为大家不愿意两条腿走路 而是因为多数研究者缺乏得心应手的 parser 的支持 我以为。另一个原因是为模型的纯粹。两条腿一起来,在学习模型中,等于增加了另一维度的 heterogeneous 的 evidence,难缠。

从休眠唤醒的角度看 wsd 的多数都休眠了 常常也不用唤醒 如果落地语义无需聚焦到那里的话。到了需要唤醒的情形 譬如某个应用需要解读 多远 可不可能是说时间的话 结构条件加语义或常识就可以出场了。

“机器人 – 送外递” 这个主谓关系的行为 是一个热炒的话题 现实中很多家在尝试 但还没有成熟。这个知识介入了,才好确定 “多远” 是指向时间的。可这个知识如何搜集、表达和恰到好处地代入,目前看来还有不少挑战。

梁:
汉语比英语更高层次,你更简洁。

李:
简洁的另一说法就是裸奔。

本来穿衣主要不是避寒 而是为了体面,为了百分之五不到的避寒需求 每天都要穿得笔挺 的确显得麻烦。譬如 欧洲语言的一致关系在形态上的表现,主谓一致、形容词与头名词的一致(agreement),性数格人称等形态,看着就眼晕。 这些一致的形式有如西装革履,百分之九十五的场景就是摆设,因为没有穿戴它们 语义的相谐也不会让我们产生误解。但的确有不到百分之五的场景 就好比坏天气来了一样 没有穿戴 就会冻坏;没有一致关系 理解就发生困难。 汉语的简洁和裸奔,是以牺牲百分之五的理解畅达性作为代价的。这就是为什么汉语不如欧洲语言严谨,突出表现在写合同和法律文书的场景。欧洲语言之间 严谨性也有不同 大致都可以用穿衣的繁琐程度来度量。国人能省就省 很多小词(功能词)说没就没了,常裸奔到无语。

梁:
Okay, 更裸奔更放任自己,更让 Wei哥难受。

詹:
我常听到这样的说法,说英语的parsing都百分之九十多了,汉语差十个百分点云云。如果方法相同,分析结果总是差着这么多,是不是可以推测,汉语的模糊度就比英语高着十个百分点呢(相当于试题难度高了十个百分点)?

白:
连parse结果长什么样都糊涂呢,说什么多少个百分点?

李:
那天在linkedin上 有人建议:你不是parsing牛吗 打败谷歌 为什么不去用标准集做大规模测试对比?我说 你要说服CEO给我资源 我不妨一做。 往标准集上靠 工作量不小。本来那集就走歪了,非得把走正的 往歪去靠 。

宋:
不止是时空混淆,其他度量空间也有问题:“机票从7折变成8折”,折扣是升了还是降了?“人民币汇率从7.0升到6.0”,居然是升。纽约时间比北京时间早13个小时还是晚13个小时?

李:
宋老师对语言 眼真毒。
回@梁 汉语裸奔对我不是难受 而是福气。太好受了 人皆可做 我如何寻找存在感呢?语言不幸语言学家幸啊。

宋:
@wei 不是我眼毒,真的是说不清楚。涉及到出国的事情,解释两地时间差别,只能具体说:北京现在是25号凌晨1点,纽约是24号中午12点。各位老师,你们如何表达这个关系?也许可以这样说:北京时间减去13个小时是纽约时间。反正不能说早晚。

梁:
真是好问题,北京和纽约时差13个小时。我有时跟朋友说,"北京在纽约前13个小时。"我真不知道怎么说。

李:
自然语言会有些莫名其妙的表达 gap 存在的。譬如 汉语是 第几 和 老几 ,在英语就没有简明的对等物。理论上 不就是序数词的wh疑问式吗?应该是 *how many-th
但就是没有。遇到这类翻译 英文总是转弯抹角:

What is your place in blah blah 这类

梁:
不可翻译,只能解释的情形挺多的。

董:
什么测试集、标准集,什么召回、精确,还没玩够呀?汉语分词现在似乎没人玩了?那个正确率是怎么算的? 语言不是可以这么玩的。看看这个分词:中国力避朝鲜遭到致命打击。

百度翻译:China in stead of North Korea was a fatal blow.
Google翻译:China’s efforts to avoid North Korea have been fatal blows.

对于这个句子,这个分词的错误率,就是100%。

汉语什么是“词”,词频统计能像英语一样吗?还要计算分词的正确率,还要测试,比赛,如何能靠谱?老外玩他们的语言,我们不一定要跟着玩。你玩扑克,我推牌九。

李:
如果没有标准集的话 可能一多半玩parsing的专家就抓瞎了。其中看不起或看不懂语言学的 不为少数。带标数据是他们的命根子,至于这个“标”合适不合适,靠谱吗,有多少用,他们不管。雾里看花,只要有个花的模样,就可以绘画比赛了。就是如此。

董:
前些日子,机译群在聊,说今年的ACL,是深度学习的一统天下。我想起了20年前,如今统计似乎已经风光不再了。30年河东,用不了30年就河西了。

张:
坚持原则的勇气是智慧的全部就是崇拜中

 

【相关】

【李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【骨灰级语言学家开讲段子小品】

走在路上瞎琢磨,突然脑中冒出句俏皮话的段子:

天下无贼 贼有看头
why
好看啊
我是问 无贼 怎么有看头呢

白老师曰 相声的段子就是这么来的。

马:
“贼有看头”,估计有人看不懂这句
想起一个段子。 一个人去东北出差,问东北人宾馆是否好找,答曰:东北宾馆贼多。于是吓得不敢去了。

哈 马老师这个更好。

今天有闲,侃侃这个即兴段子的语言学。这样的对话在语言学家眼中有些什么看点呢?

从语义计算的角度,并不是下述每一个点都那么容易形式化、模型化,但是人机对话要想逼近人类对话的高度,这些方方面面迟早要被 addressed。

看点 1. 专名与字面语义的纠缠:《天下无贼》

自从摈弃了上世纪30-40(?)年代流行过的书名号(一种括号)和专名号(下划直线或波浪线:据说后来嫌排版麻烦,就逐渐舍弃了)以后,这个纠缠就很 annoying。这是不同层次的纠缠,但没留下形式痕迹。通常的做法是指望有一部专名大辞典,搜罗进去的遵从 hidden ambiguity 的休眠原则。于是,“天下无贼”被词典识别为默认的电影专名,其内部的语义结构(小句结构)则被休眠。

2. 两个贼的纠缠

自然语言有一个广为人知的属于 discourse 范畴的 heuristic,叫做 one sense per token,说的是,一个token在同一个discourse里面重复出现,那么这个token的所指是相同的。有数据证明,这个 heuristic 的准确率非常高。于是,两个“贼”因为这个 heuristic,就埋下了一条伏线:同指(coreference)的 heuristic 一线与不同指的 heuristic 例外的一线。我们知道,凡 heuristic 一律有例外:再高的精确度,也有不灵光的时候。

其实,这个例外也有人研究过,例外里面还是有规则。规则就是,如果一个token隐藏在一个成语(计算语言学所谓成语包括术语、专名和其他的合成词)内部,那么这个token就不(必)遵循 one sense per token 的原则。

3. 贼的内部歧义

贼的标配定义就是 blah blah 的【human】。不知何时,好像是早先来自我们东北兄弟,开始用“贼”表达程度(副词),感觉贼形象、贼酷。这个用法显得别致、匪气、接地气,进而渐次推广到全国,尤其在网络用语里面。于是,贼的 hidden ambiguity 出现了,(i)默认的名词【human】和(ii) 程度副词。

4. “vt头”的语言学

(有)…. 看头、吃头、玩头

这事儿咱从头说起。汉语是孤立语,一般认为没有欧洲语言的形态(词尾等),也没有严格意义的前缀后缀。如果n个词素(morphemes)组合成了一个词典单位,通常的说法就是合成词(compounding),而不是有明显主干枝叶之分的派生词(derivatives)。但语言是发展的,从古汉语甚至合成词都极少(这是“孤立语”的本义,孤立语的典型和极致是没有 morphology的)、一切都是 syntax,逐步发展到现代汉语,汉语的孤立特性在明显降低。有些所谓类语缀(quasi-affix)的语言学材料开始出现。换句话说,汉语有朝着印欧语言的方向演变的蛛丝马迹。

“头”就是一例。

“看头”,不是句法的动宾:看(了个啥)头
也不是通常的合成词的定中套路:(所)看(的)头
而是一个特别的后缀,其派生词的构词法与句法的接口,可以这样来做形式化的描述(by the way 我的博士论文专门有一节论汉语的类语缀现象):

NP 有/没有 Vt-头 ==》有/没有 VP{Vt NP} 的【value】,VP {Vt NP} 结构自然是典型的动宾式动词短语。

细究的话,这里面还有“学问”:

其一,Vt 不仅要求及物动词,而且要求是单语素(说白了就是一个汉字),两个汉字可能吗?也许由于灰色过渡的存在,可以找到个别的例子,但感觉不是很多:

? 这本书有学习头吗
? 这个课题没有研究头。
* 这个曲子有弹奏头。

到了二字以上,那就绝对违法了。(MD 想一个三字的及物动词还真不容易:汉语的双音化太突出了。算了,不想了。)

其二,这个搭配句式中的 有/没有 不是 “拥有” 的“有” 而是“存在”的“有”,相当于英语的 (there) be or (there) exist。因此这个 V  的唯一的 arg 前置到主语的位置和后置到宾语的位置,语义关系不变:

这本书有看头 ==》
(i)有看这本书的价值
(ii)看这本书的价值有。
(后者头重脚轻,稍微有些不顺,但句法上是可以自由语序的, cf:

(的确)存在看这本书的【价值】
看这本书的【价值】(的确)存在。

其他看点还有,譬如 “why” 和 “怎么”(字面意义是 how)的逻辑语义其实是一样的,问的是【原因】而不是【方式】。累了。歇了。只是记住一点:
自然语言里面的名堂,比我们每天说话的人想象的要丰富很多。希望年轻的 NLP 后学不要小看这门语言的学问。至于老人,那就不用指望了。傲慢与偏见,爱咋咋。

 

【相关】

【NLP主流的傲慢与偏见】 

【NLP主流的反思:Church – 钟摆摆得太远(1)】

【Church – 钟摆摆得太远(5):现状与结论】 

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

 

【李白之34:汉语情态词和计划类动词的异同】

白:
“牛肉我要八分熟的。”
“他蔬菜要用清水泡过的才敢吃。”
“牛肉”和“八分熟”有subcat的相谐关系,但不是离合词。
“蔬菜”与“泡”的关系更加松散。

李:
前者主谓相谐。后者动宾相谐。“牛肉-熟”。“泡-蔬菜”。
顺便一提 先帝诗云 土豆烧熟了 再加牛肉。不知他老人家怎么想的。牛肉烧熟了 再加土豆 这是料理常识吧。反过来 土豆怕连泥都吃不着了。

白硕:
某次吃过韩风的凉拌生牛肉
@wei 做做看吧,不只是相谐那点玄机。

李:
好,先来一个难看的,等慢慢整形,看能不能成美人:

白:
水泡,名词

李:
改了。貌似好点儿:


白:
他和蔬菜没有mod关系啊
另外吃的逻辑主宾都没登场……

两句中的“要”,pos貌似是不同的。
前句向实,为动词(want之义);后句向虚,为连词(与“才”配对,表only if之义)。

李:
前者是 want+NP,后者是 want to + V,可以看成情态动词

白:
看成副词最方便,与“才”搭配,不一样。意思是,只有出现怎样的情况,才会如何如何。

李:
有些勉强。要+V 很常见。only if是 “要是”。

要用清水泡过的才敢吃。
用清水泡过的才敢吃。
要用清水泡才敢吃。
用清水泡才敢吃。
搭配性不强。

白:
“你到底要怎样才对他放手啊。”

李:
怎样 是 V 的疑问代表:

你要怎样?我又能怎样。

白:
雨要在旱天下才好。

李:
雨在旱天下才好
雨要是在旱天下才好
雨能在旱天下才好
雨得在旱天下才好

哈,原来。

白:
葛优的广告词:面要弹

雨是下的直接成分,不是“能、得、要”的直接成分,没有穿透继承关系,这种配置下的情态动词都可以当作副词。这时填坑关系少了一层,无比清爽。

It is preferred that S. S的内部填坑结构跟这个prefer一毛钱关系都没有。没有穿透,没有继承,完全就是松散的一顶帽子。用副词干这样的活儿最为顺理成章。It is possible that……同理。在逻辑上叫“模态算子”。但是,“他准备搭一个棚子”里面的“准备”不是这样。搭的过程中,“他”还要身体力行。这对谓词就是(外层)穿透(内层),对名词就是继承(施事角色)。不穿透的,当副词很好。

李:
情态词 是助动小词 与 副词 基本上是一个意思 尤其在汉语。只不过 副词 修饰 动在外 情态修饰在内 这在短语结构中 表达略有不同。从依存关系看 等价。副词总类太杂 情态单挑出来 有益。“洗个澡” 与 “【能洗】个澡”,搭配关系不变,因为“洗”是短语的 head,是 “澡” 的parent,而 “能” 实际被吃掉了。【能洗】作为 base 短语结构 与 【好书】作为名词短语,对 dg 是类似的 psg 表达的引入。x bar 理论上 前者比后者 少了一个杠。因此我们只好叫 vg (verb group)不叫 vp。后者指的是 动宾这类 saturated subcat patterns。基本短语因此是 三个p 一个g:np ap pp vg。(还有一个 rp 副词短语 有时也可以捎上, very rapidly 之类。)

白:
与副词唯一不同的是可被副词修饰:今天不会下雨吧?

李:


very 修饰的也是 副词 rapidly 呀。“不会” 就是情态词的否定式。情态词的肯定式 否定式,还有一个特别的中缀表达 在动补合成词里。

能睡着 和 不能睡着
睡得着 和 睡不着

这些统统是 vg,后者词典解决。用所谓 lexical rule 去扩展词典,把 head 确定在 “睡” 上面。

白:
我的意思是从句法上看,情态词可分两类,一类像副词没坑,另一类有坑而且有穿透性。在写pos标注的时候就是不同的:
“准备动手,进行动员……”
准备动手,head在“准备”

李:
计划 类一般不归入情态小词,而是动词的 subcat,带 vp:

当然 在汉语 情态小词 与 计划 类动词,有个模糊过渡地带。灰色地带的 靠哪边 系统内协调就好。在欧洲语言 界限是明确的。英语 plan 带不定式 加 to 的。can 后不加 to,possibly 与 can 语义同 但它是副词。到了汉语 这些界限都模糊了。

白:
准确说是带体谓两可:准备早饭,准备吃早饭

李:
一个词 有 n 个 subcat patteens,是 norm:

白:
能做,有可能做,八成做,说不定做

李:
都是封闭小词,标签或mod或adv,都差不多:

白:
“他准备唱歌”,“准备”是head,“唱歌”是宾语,“他”做“准备”和“唱歌”两个谓词的逻辑主语。“他会唱歌”,“唱歌”是谓语head,“会”是“唱歌”的修饰成分。是这样么?

李:
是的:

白:
汉语副词修饰副词的情况有合适例子吗?

李:
副词修副词 主要就是 very 类程度副词

白:
“我奇怪他们为什么要走这条路。”这里的“奇怪”是什么词性?

李:
奇怪 心理谓词,subcat 带从句,至于叫动词还是形容词 无所谓了。
英语等价物 wonder:

白:
我标注为S/N,S
“我就奇怪了,一个大活人还能被这事儿给难住?”

李:

白:
汉语,“很”能修饰副词吗?“很迅速地撤离了”里面,是“很迅速+地”还是“很+迅速地”?
“很迅速”还是形容词,加上“地”才变性。
“很+迅速地”,语感不对。

李:
无所谓。这些大多属于系统内的规定与协调 无关大局。

白:
“云不会永远不散。”这里一个变通做法就是把“不会”整体看成一个副词,避免出现副词修饰副词的问题。对于封闭集合,这是可穷尽的。

还有,多重否定与结巴,怎么区分:“你不不不不是个溜子,是个空子!”

Me:

(为了与其他的 Adv 区别开啦,有意用 X,为的是后去处理双重否定的便利,都是系统内协调啦。)

嘿嘿

白:
看不出来肯定否定

李:
当然是否定,那个 vg 就是【不是】,POLARITY: negative

只有你想不到滴,没有我做不到滴。开玩笑啦。
其实,对于重复和强调,可以单单处理。
very very very very very veryyyyyyyyyy good
这个我们在英语单单处理了,汉语还没。道理同。

 

 

【相关】

【李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录