【李白对话录之八:有语义落地直通车的parser才是核武器】

bai:
“你牺牲了的战友不能瞑目。”
“张三打得李四脸都肿了。”

我:
张三打李四
...打得他脸都肿了
...打得他手都肿了
...打得脸都肿了
...打得心直哆嗦
...打得好痛快
...打得鼻青脸肿
...打得天昏地暗

这些后续与第一句的不同组合,有些可以转成白老师的句式
s v o v 得 vp --> s v 得 s2 vp

bai:
填坑角度看不一样,前面topic填名词坑还是动词坑还是与坑无关。天昏地暗可以当一个形容词。拆开来看天和地都不能成为填“打”的坑的共享萝卜。
谓词结合的不同方式,只有显式地描述坑和萝卜才说得清

我:
对,不是都可以转,必须后一个s2是前一个 o 的时候,才可以转。如果 s2 回指第一个 s, 那就是另一组了。
“天昏地暗” 是成语形容词,黑箱子词,句法拆不开。
我用 vp 表达的不是 vp 是“谓语p” 的意思 包括 ap。以后得创造一个合适的标签 PredP
只剩下一个主语的坑待填。对于主语,谓语是ap 还是 vp,不重要。人家自己已经内部摆平了,不关主语事儿。

bai:
类似:(a/b)*(b/c)=a/c

我:
谁脸肿了?
李四。
谁手肿了?
不好说,但张三比李四可能更大,因为打人借助的工具往往是手。打人最常打的部位是脸,
而不是手。这个 minimal pair 真心诡异:

张三打李四打得他脸都肿了
张三打李四打得他手都肿了

也是中文文法很操蛋的鲜活例证。

bai:
没啥,常识都是软的,一碰到硬证据就怂。
你不说对方手上挨打,那就是打人者手肿,说了,那就是挨打者手肿。语言和常识推理已经融为一体。各种标配都是随时准备让位给例外的,例外不出山,标配称大王。

我:
白老师的段子是张口就来啊。这个说段子的功力很神。

bai:
在填坑时,先不管三七二十一按标配填,再给例外一个权利,可以override标配。
试试
“你渴了饮水机里有水可以喝。”
缩合条件。

我:
马上出门 回来再试
喝水不就是 “有 o 可以 vt”?蛮常见的。
有书可读
有澡可洗

bai:
但填坑结构是跨前后件的。
啥句法标签呢?

我:
补足语,逻辑 vo 单标。graph 也不管它怎么绕了,看上去合理就行。反正用的时候都是子树匹配,落地甚至可以是 binary 关系组的匹配。原则上,任何 node 可与 任何 node  发生暧昧,不讲门当户对。
一张分析全图(the entire tree)的元逻辑性(meta logicality)可以不管它,只要个体的 dependency 有说法就行了。英语也是:“have a book to read”
句法标签是 宾语 ➕ 宾补,后加逻辑vo
到了逻辑语义层 或语用层、抽取层,句法的层次理论和原则不算数了。

bai:
“他有三个保镖保护着。”
句法上其实有条件带点笼统性地把坑共享的标配拿出来。

我:
有 np vt,vt 的标配是 np 做宾语(o),若要 s 做逻辑宾就需要外力。

bai:
这房间有三扇窗户可以通风采光。连逻辑宾都不是,最多算间接逻辑宾

我:
我的理解是逻辑主语。两个主语都说得通,全部与部分。

bai:
“这房间”对于“通风采光”来说是填什么坑呢?

我:
主语啊。窗户也是主语,不过是整体和细节的区分而已:
窗户通风了,房间自然通风。

bai:
这套音响有七个音箱和两个低音炮可以营造出环绕立体声效果。

我:
这样不断营造语用现场,其实导致的不是语言学关系的矛盾,而是语义 interpretation 的挑战。
语言学关系的标签,本性是弹性的,哪怕标签取名不一定合适或容易误导(譬如主语误导为施事,其实未必)。 主语也好、宾语也好,都是万能的筐,什么 interpretation 都可能。话题(Topic)就更甭提了。
常识来说 立体声效果的营造,应该是立体装置的总体,这些装置的个体达不成这个效果。这是知识内部的争论,与语言表达背后的结构关系不大。知识内部也可 argue 立体装置中某个装置是决定性的,那个装置效果出来了,立体效果就基本出来了。
这是两套系统,两个层面。 结构关系,与我党对历史事件的原则一致,宜粗不宜细,留下语义解释或争论的空间。

bai:
那就干脆粗到不分主宾语,只计数目,不计语序方向,更不计subcat的相谐,装到框里再说。在遇到多种填坑戴帽可能性的时候,再把这些法宝一个一个祭出来。吃瓜打酱油的捎带着做细了。不是为了做细而做细,是为了增加确定性而做细。这就有意思了,比如量词搭配。看起来是在细化修饰关系,可顺带把逻辑宾语搞定了,纯粹是搂草打兔子。

我:
不是不可。实践中,往往在句法关系或标签的 representation 的极端做法之间,做个折衷。更多是为了方便。说到底,一切句法语义计算的表达,都是人自己玩,方便原则不过是让人玩的时候,少一点别扭而不是求一个逻辑完备性。representation 作为语言理解的输出,本质是人的逻辑玩偶。爱怎样打扮都可以。这个本性是所谓强人工智能的克星。

bai:
我还不那么赖皮……

我:
强ai 更赖皮

bai:
刚性的局部可以顺带给柔性的全局注入一小丢丢刚性,但是出发点就没指望全局会百分之百刚性。

我:
连语义的终极表达都一头雾水,说什么强智纯属扯淡。

bai:
强AI我反对,语义表示太过任意我也不赞成。总要有个松紧带勒着。

我:
system internal 是做现场的人的现实。很多东西就是有一个模模糊糊大的原则,或有相当弹性的松紧带。下面呢,就是一个系统内部的协调(system internal coordination)。在人叫自圆其说,在机器就是内恰。

bai:
二分法是要的,一部分role assignment,一部分symbol grounding。前者是深度NLP的必修课,后者跟现场关系更大些。
过松的松紧带,红利已经吃得差不多了。新兴的松紧带,不紧点就没有投资价值。

我:
投资价值与宣传价值还有一些不同。投资价值对松紧不会那么敏感,除非是投资与宣传(marketing)紧密相关的时代,譬如当下ai泡沫的时代,或当年克林顿的时代。
投资价值的落脚点还是语义落地(semantic grounding)。至于怎么落的地,松啊、紧啊,不过是给一个宣传的说法。昨天我还说,syntaxnet 和很多 dl 都是开源的,要是好落地为产品,还不是蜂拥而上。现实是,不好落地。
所谓核武器是这样一个工具,它有一个明确的落地途径,至少从方法学上。system internal 的落地管道,被反复验证的,余下的主要是领域打磨和调试。

bai:
现在很多公司是万事俱备,就差核武器

我:
syntaxnet 至少目前状态没有这个。虽然也是 deep parsing,但并不是所有的 deep parsing 都是核武器,要看是谁家的、怎样的 deep parser 才有核武器的威力。

bai:
你没看上眼的,我们可以不用讨论

我:
看上眼的dl,是有海量带标数据的(最好是自然带标数据,无需组织人去标注),端对端绕过显性结构的,里面满肚子谁也猜不透的隐藏层黑箱子的机器,譬如神经机器翻译( nmt)。

bai:
带标看标在什么地方。标在字典里OK,那算数据资源建设。标在语料里,即便假定标注体系在语言学上是正确的,还要考虑做不做得起呢,何况语言学上错误的标注体系,更让人怀疑有没有价值和意义去如此大动干戈了。

我: 回家了,可以测试:“你渴了饮水机里有水可以喝。”

逻辑的坑都没到位。句法的框架不能算离谱。就是这样。至于叫补足语还是叫 Next,也无大关系,反正后续语义中间件需要这么一个桥梁做细活。“有 NP V” 的句式以前调试过,比想象的复杂,一直没搞定,就放置一边了。

bai:
“有电话可以打”“有空调可以吹”“有大床可以睡”
不必然是逻辑主语,不必然是逻辑宾语,甚至不必然是必选坑。两个谓词中间被NP穿插的,朱先生书里叫“连谓结构”。类似伟哥的next。

我:哈。

bai:
大床居然是S

我:
目前词典没有收可分离合成词 “睡床” 或 “睡大床”。 默认做主语 也是可以的。循 “有 什么什么 发生了” 的句式, 何况 “睡” 做不及物动词的时候更多。不是说分析对了,而是说错得有迹可循。汉语“有”在句首的时候,常常是 dummy,如果 “有” 前有个 NP,那么后面的 NP 做主语的机会就相应减少了。
白老师曰:  大床居然是 S:

有两个哥们,一个叫大床,一个叫小床。大床爱睡懒觉,小床爱撒酒疯。有大床睡,就有小床喝,一刻不得安宁 .... 【谁接龙?】

bai:
白老师还曰,任何成分皆可为专名。

我: =:)
吾谁与归?

bai:
时不我待

我:
想起文革时期的莫须有群众举报,结论是:事出有因,查无实据。然后是 有则改之无则加勉 就是教育被污名者自认倒霉,没的冤枉。
说实心话,昨天白老师说很多公司是,万事俱备,只欠东风。时不我待,我手心的疑似东风如何才能刮起?

bai:
专名是一种层次纠缠。
事出有因,查无实据;有则改之 无则加勉。这是那年代的套话
方言,成了小说里的人名;文章,成了现实中的人名。
找谁讲理去。
只能用“结构强制”,从外部施加影响,再辅以大数据。

我:
说事出有因 是文过饰非。
不过 nmt 测试的结果常常连事出有因 都很难。一个长句 只有一个字不同,而且这个不同的字还是同质的,nmt 翻译结果却有很大的不同。这个现象非dl专家无法解释和理解

bai:
所以规则层面的、用可理解的特征直接表示的知识如何混入大数据直接参与学习甚至“编译”,非常重要。

我:
所谓符号逻辑派 就是错了 也错得事出有因 debug 也知道症结所在

bai:
符号逻辑派缺乏的是柔性,不知道认怂,一错到底。

我:
yeh 见过这种人 还不少

【相关】

【李白对话录之九:语义破格的出路】

【李白对话录之七:NLP 的 Components 及其关系】

【李白对话录之六:如何学习和处置“打了一拳”】

【李白对话录之五:你波你的波,我粒我的粒】

【李白对话录之四:RNN 与语言学算法】

【李白对话录之三:从“把手”谈起】

【李白隔空对话录之二:关于词类活用】

《李白对话录:关于纯语义系统》

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据