《李白113:白老师秘密武器二瞥(2/2)》

立委按:两载设计,三载实现,白老师的自然语言秘密武器日前曝光。十载孕育,如水流年。挑开面纱,犹抱琵琶,先者为快,一睹芳颜。

李:其实语言理解过程中究竟用到哪些知识,并不难确定。难的是 这些知识如何加分减分打群架。

白:人理解时也不过是在打群架,没高明到哪儿去。

李:如果不给设计师束缚,所有的知识都特征化,不限定范围和多少。然后假定神经可以搞定这些特征,那么 符号逻辑 实际上只剩下符号特征化的工作。逻辑由神经管了,果如此 自然语言理解离开终结就不远了。

白:不对。逻辑有两部分,一部分是有限的可选择的操作或变换,另一部分是何时何地选择何操作的控制策略。控制策略特征化应该鼓励,而所选择的操作的轨迹,是充分可理解、可定点修复的。表示-对表示的操作-选择操作的策略,这三者,我认为第三种是适合特征化、向量化、神经网络化的。这不仅不是终结,更是升华。同时也并不影响前两者的可解释性、可定点修复性和容纳复杂结构的能力。

“身份证”的主人在两句中不同。

李:设想对话场景:

A: 他要求我出示身份证
B:你出示了吗
A:出示了,结果没通过。
B:为什么?
A:因为他是检疫官,要求我出示我宠物的身份证。我以为他是警察,要求出示我本人的身份证呢。
B:这才叫场景的阴错阳差!你过的哪道关都没搞明白。

再如:“监护人向我出示了身份证,是想证明这孩子不是非法移民。”

hidden links 根据常识或常理而来,这就带来两个问题:

第一是,因为是常识、常理,而不是语言明确指明的信息,这些 hidden links 即便挖掘出来,也仍然是不重要的枝节边缘信息,更谈不上情报价值,因为一般人根据已知信息都可以推算出来。

第二是,因为是常识、常理,因此肯定有例外。例外常源于场景和背景的不同。如前面的对话场景的思维实验。

白:打群架好了,神经最擅长。

李:既不十分可靠 也没有新意 也许意味着常识介入理解应该有个限度。如果常识的带入,是帮助确定了情报,那就物有所值。如果常识的带入,不过是反过来为常识增加一个案例,信息还是常识,那就没啥意义。

白:

1,情报又不是落地的唯一领域。

2,即使情报,三个link有情报价值,一个link是这三个link的常识推论,那这推论人做还是机器做大不一样。你先抓到那三个links,人聚焦了看,然后人得出推论,黄花菜都凉了。机器直接得到四个links,能一样吗?

3,推论重要还是那三个重要,这得情报人员自己说,NLP不应该越俎代庖。常识是带变量的f(),只要里面的x是新的,f(x)就是新的。新的就可能有意义。常识都知道撤职了职务属性值就该变了。但是只要张三撤职是新的,张三职务属性值就应该变化为新的。就算常识是旧的,有常识和新事实共同参与的推论也是新的。另外,疑似知识、打过折扣的知识并非就没有意义,只不过置信度稍低而已。哪有那么多百分百置信度的事儿。谣言还满天飞呢。

李:有一定道理。

@白硕 他要求我出示身份证 / 他向我出示身份证。“出示” 一般认为是 3-arg:sb “出示” sth to sb: SVOC,现在看来 这个补足语萝卜 C(嫡系) 是被当成附加语(庶出)了。这不是主要问题,问题在 hidden links 因此也漏掉了。“他要求我出示身份证” 中,“我” 连上了 “身份证”,但是 “出示” 没有连上 “他”。逻辑语义上 向谁 出示呢?是向他的。

白:改成双宾了。这情形更可预期。

李:”他 为/替 我出示身份证”,“为” 与 “向” 的区别在句法如何利用?小词不同,句法有表示吗?还是指望接盘的 一个一个小词重新 check 来做区分?

白:小词会携带算子,把动态特征贴到自己修饰的成分上。目前只能说这么多。比如,一个“的”,无所谓跟谁相谐。但是“张三吃的”就必须明确自己的subcat。

李:fair 就是说 显示出来的 what 只是个架子,不是输出的全部。这其实是自然的。如果不在 link 上细化,那就在特征上细化。反正信息需要下传。

双宾句如何处理的呢?譬如:

他送了我一本书。
他把一本书送了我。
他送了一本书给我。
他给我送了一本书。
那本书他送我了。
那本书他送了我
他送一本书给了我。

白:

双宾句式,双宾句式加明示间接宾语的介词短语的互通,我们已经做得很透彻了。

李:两个 Lma 一个 Rma,等于是三个 args 句法都不做鉴别。下面接盘的,依靠什么来区分,去做 123 与 abc 配对。

白:这个自有办法。分母上的数字只是显示

李:怕下面接盘的 还要回头做部分句法

白:不需要,句法信息都带进去了。

李:句法上 Topic 与 synS 不区分,但是偏移量有区分,也算等价了。怎么知道 “我” 不是 O,“书” 才是 O 呢?

白:书有subcat信息,还有Default位置信息。如果O的subcat跟S兼容而且相对Default有变,比如O提前做了话题,那就取决于右填坑的间接宾语的事理因素了。

这个丫鬟我送你了。

这位夫人我送那个丫鬟

取决于夫人和丫鬟在事理中的地位。这个绝不是句法单独可以做的。加上subcat也不行,所以目前我们做不了。只当default位置是O,啥时候事理做了进来,就有希望了。

李:句法为谓词选了萝卜候选人,萝卜进坑的事儿归后面的语义模块,所以 后面的任务仍然蛮繁难。因为萝卜进坑 仍然需要综合平衡,语序、小词和语义相谐,综合平衡才能基本搞定。更难的要借助事理。

白:哪个对哪个,特别是subcat也区分不了的时候,目前没有足够的资源。NLP的魅力就在这里。好在方向基本是看清楚了的,见效取决于投入。要想糊弄人,做个玩具事理图谱也能蒙一阵子。不过我们不会这么做。事理图谱一定要结合应用场景做。不见兔子不撒鹰。

李:”吃在买后“ 这样的事理,HowNet 没有:HowNet 主攻本体常识,一般不带入动态场景的形式化。真正规模做过“场景常识”的只有 cyc,“开枪” 在 “伤残” 之前 之类。但以前的教训依然存在,其数目实在太大了。

白:吃、买太具体了,模式是“消费在取得后”,消费是吃的上位,取得是买的上位。如果仅看到具体事件对具体事件的因果联系和承接联系,那还不累死。要把事件的Taxonomy像实体一样组织起来。赋予抽象度适中的标签。事件的诸多要素,都要纳入这个体系,参与者、时空特性(时-体)、事件类型的包含与继承、关联类型的包含与继承,触发条件、副作用……不一而足。这是目前聚焦事理图谱领域的各个利益相关方都极为关注的。

李:“我洗脸”,英语总是说:我洗我的脸(I wash my face)。中文解析,根据常识,可以推算出“我的脸”。感觉上 人的理解中 标配信息真地很边缘。赶巧了英语用代词把它明说出来了。但说了也跟没说差不多。情报性无论怎么定义 这个“脸”属于“我”都很难成为情报焦点。

一般而言,感觉上 possessive 的 hidden links 情报性最差,在有冠词的语言,possessor 很多时候被一个定冠词 “the” 虚指了。凡是定冠词打头的实体(语言学里面叫 anaphor) 理论上省略了所有者这类实在的 specifier。“the” 的含义是“你知我知”, 虽然有个主儿但这不重要。

白:不同源头会带上不同约束,使推论减少盲目性。比如“给”的介词宾语和非三价动词的主宾语坑就不太能共享。这是“给”所明确标记的间接宾语属性所决定的。这些约束会截断共享通道。

“张三给李四写自传”,这李四要是有什么来头,情报价值还真挺大。张三是个代笔的小人物,张三的自传不重要。所以谁的自传,不简单。

李:从性质上看 寻找这类所有者属于篇章的 coreference 范畴,而 coreference 的工作,句法有一定影响 (binding theory 说的就是句法对于 coreference)。但是句法影响对于篇章非常有限。更大因素还是语义相谐和距离。把 一个实体对于其所有者的预示 与一个谓词对于一个 arg 的期望 等量齐观,有点高抬了前者。

白:优先级不一样。

对范畴语法做了重大简化,跟依存很接近但比他更丰富。分析结果可以不是树而是图,图还可以成环。图更科学,更反映语言实际。

带加号的句法标签,可以看成是“只约分不输出”的范畴。每次完成约分,就废掉自身,以保持中心语的正统地位。

李:就是 adjunct/mod,庶出,跟私生子也差不多,投奔过来又不能不认,但上不了台面。

我的理解,DG 与 CG 性质不同,DG 是 一种结果表示法 刻画的是output what,CG 却带有 how 的味道 表示和刻画 input tokens,可以据此演算 作为 parsing 基础和驱动。最终从 CG 达成 DG 的结果。

parser 被词典化的 CG 驱动以后,在遇到叉口的时候 求助于其他知识的引入,主要是语义相谐的调用。根据一个优先原则和有限级计算的机制 做路径判断 然后完成 parsing。如果不怕伪歧义 也可以只依据 CG 词典与优先级原则 而不引入其他知识。

这条路线的搜索空间 (universe)是句子长度 n 的这样的一个函数:可以 assume n 中每两个词都必须发生7种二元关系之一。三种是实关系但是有方向(父父子子),所以“原子化”后就是6种实关系,即,是二元排列不是组合。第7种是:无关系。无关系也算关系,就一网打尽了。任意两词只允许发生7种关系之一,不能多也不能少。在 n 不大的时候,搜索空间爆炸得不算厉害。

白:ordered pairs,A跟B和B跟A可以有不同的关系标签。

李:对,有这个二元循环的可能,忘了这茬了。不过那很罕见,对于搜索空间影响不大。能想到的只有 定语从句谓词与中心词有二元循环关系,一个 mod 一个 arg 方向相反。

李:By the way,你用 subcat 正好与(很大一部分的)语言学内部用的术语相反,句法学家说 subcat (子范畴)只是针对 句型,主要是给 谓词 根据不同句型的预测 分为不同的 subcat,而一个词的本体的细分 就是 subclass(子类),所以 vt,vi 属于 subcat,到了 HPSG 等理论,这个 subcat 就真展开成句型了:

give:: SUBCAT <NP left:S>, <NP right:O>, <PP(to):C>]
give:: SUBCAT <NP left:S>, <NP right1:C>, <NP right2:O>]

第一条 SUBCAT 句型是 sb give sth to sb;第二条是 sb give sb sth

白:不管了,反正就是负载逻辑语义结构信息的标签,来自词典。标签之间的关系在本体里定义。

也不能说是“特征”,因为特征给人的印象是扁平化、向量化,缺少结构。但也绝不是曾经流行的“复杂特征”。

李:扁平化 原子化 有好处的,以前你也是赞成的。复杂特征在符号逻辑上漂亮,但不好伺候,难以承受逻辑之重:实用系统不能过分与逻辑较真(这个体会很深,以后有机会展开再论)。

白:我们只有一层除号,分子,分母。分子和分母里边都不再有除号,我称之为“单子化”。就一个成分而言,萝卜和坑都不必再有相对性。它们都是“单子”(singleton)。

李:那是因为你们的出身是 CG,算法里面就对分子分母的表示有要求,作为区分输入输出的手段。

白:把CG改造到这么实用的程度,我们应该在世界上挂个号了。

李:不知道这个 CG 还有没有个 community 和相应的 events,还是拉丁文一样被搁置了。HPSG LFG 那些人还在,有自己的圈子 不过是越来越游离于主流(两不靠:语言学主流和计算语言学主流都不是)之外了。

白:CG可能就剩下CCG还活跃。CCG的本质是带坑填坑,于是就会产生我们所说的残坑。残坑在计算上的处理非常复杂,单子化对残坑处理带来莫大好处。但是从数学观点看,引入“修饰”,就是N+、S+这种,打破了“一个运算符吃遍天下”的理论美感,理论框架变得有些dirty了。等有空了,我会梳理一下“修饰”从数学上看是个什么鬼鬼。修饰之于单纯的相除,就好像X-bar之于CFG。象牙塔里的人可能不屑为之,我们编外游侠接手没什么顾忌。

【相关】

白硕:人工智能的诗与远方,一文读懂NLP起源、流派和技术

文章来源:https://read01.com/AJGzNQN.html

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

发布者

liweinlp

立委博士,自然语言处理(NLP)资深架构师,Research Director, Beyond AI.前 Principle Scientist, jd-valley, 主攻深度解析和知识图谱及其应用。Netbase前首席科学家,期间指挥研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的解析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得联邦政府17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论