【李白对话录之九:语义破格的出口】

白:
“国内大把的钱想出逃”
钱不会“想”。但是“出逃”只有一个坑,除了“钱”没有其他候选。这种情况下句法优先,语义的不匹配,到语用(pragmatics)层面找辙。一个语用出口是拟人、人格化,把钱人格化。另一个语用出口是延展使动用法,钱的主人“想”使钱出逃。

我:
1117a
出口的问题也许不必存在。句法搞定的东西 默认是 语义不出场 语用不解释,除非落地需要这种解释。落地通常不需要。譬如 mt,一个语言的语义不谐而产生的转义通常可以平移到目标语,哪怕是八杆子打不着的语种之间。譬如乔姆斯基的 green ideas,直译成汉语,同样可以反映乔老爷想 make 的 point:句法确定的时候 可以排除语义。

白:
聚焦句法的人看到的是half full,聚焦全局的人看到的是half empty。

我: 哈
这里谈的是默认。默认做法是、一直是,语义破格是默认许可的,句法破格才需要语义出场。 因为自然语言中,句法确定场合下 语义破格太常见了,常见到见怪不怪。无需解释。而受体在理解过程中 常常各有各的理解 根据这个人的教育和素养 而不是语言学 后者个体差异不大。

白:
默认的主体是谁
分析器么?分析器我同意。但默认的主体不必然是分析器。

我:
换句话说,如语义破格一定要给一个语用出口的话,很可能莫衷一是,标准很难制定。譬如乔老爷的破格的 green ideas,我们语言学家的理解 与普罗的理解 在语用层面相差太大。但是在句法层面,精英与普罗是一致的,虽然普罗可能不知道主谓宾定等术语。

白:
钱想出逃,在应用场景中是有意义的,不管精英普罗,并没有大的分歧

我:
洗钱 的意思?

白:
不一定,也有正常的恐慌.包括本地赚了人民币觉得不安全的,以及外资觉得不想继续玩下去的。

我:
这些破格带来的附加的意义,是听众体会出来的。每个人的体会即便大体方向一致,也很多差异。白老师的理解,比我的理解要丰富,比普罗更不同。很难形式化。即便能形式化 也很危险,因为有强加于人 限制其他可能的缺陷。

白:
这不重要,重要的是面向大众中和精英的预警都要take it into account。

我:
也许只要指出某个关节 语义破格 就可以了,至于这个破格意味什么 让人各自琢磨。其实破格的事儿 指出不指出 大家都心知肚明。

白:
伟哥说的是模块视角,不是系统或服务视角。换到服务视角,即便面向普罗,但是定位也可以是让普罗觉得专业,精英觉得不外行。一个带有修辞性语义破格的表述只有把附加意义掰开揉碎了才能向后传播,跟其他信息滚在一起发酵。在NLP同行间心知肚明的事,要想在知识情报各个piece之间引发chemistry,必须还原为掰开揉碎的形态。形成看上去专业的影响链、作用链。

我:
语义计算提供多种可能 在语用中发酵 是个好主意 ,可能提升人工智能的深度。

白:
所以,一个有追求的服务,不会迁就普罗的非专业理解,而是想办法把专业的理解用普罗便于接受的形式展现出来。

我:
不过 也有可能是潘多拉的盒子

白:
不喜欢不买便是

我:
发酵到不可收拾 不收敛,语义破格的确是 nondeterministic,本性就是发散。其本质是诉诸的人类的想象力。

白:
有些破格已经是家常便饭了
像这句家常便饭就是。

我:
“家常便饭”的破格 通常固化到词典里面去了 。绑架以后 就把破格合法化了 可以不算是破格了。只是词源上 可以看到 两个语义 对于同一个词。系统是看成两个个体的 尽管实际操作我们常常绕过wsd,不做区分 但是如果需要区分 词典是给出了两条路径的。

白:
但和本意还是两个义项
“没怎么特意准备,就是家常便饭,大家随意吃哈。”
家常便饭遇到吃,和难过遇到小河,是一个性质。

我:
感觉正好反着
家常便饭遇到吃 是常态 默认;就好比 难过 遇到 人【human】。
家常便饭甚至谁也遇不到,也还是默认为本义 【food】。
“难过” 稍微模糊点 谁是本义 谁是转义 可以 argue,但通常按照 hidden ambiguity 的原则,词法大于句法,“难过”因此本义是 sad

白:
计算机只管一个是本义、另一个是转义,其他不care

我:
转义带有强烈的句法组合色彩 ,是 difficult to cross。
当然 这一切都听人的安排,遵从便利原则。
语义计算 没有人工 便没有语义,没有语义 就谈不上计算。
说到底 人的语义 design 以及系统内部的协调的考量,是语义计算的出发点 数据是语义计算的营养基地。

白:
如果说到相似性,就是固定组合里面的词素和外面的词素产生了搭配趋势,改变了原来的结合路径。

我: 对。
“这条河很难过。”
lexical entry “难过”里面的词素“过”与外面句法的词素“河”发生了 VO 的关系纠缠。
“这孩子很难过。”
就没有纠缠,桥是桥路是路。

白:
本义的家常便饭,和外面的“吃”有纠缠,转义的没有纠缠;本义的难过和外面的“小河”有纠缠,转义的没有。本义的不一定是概率最高的,譬如本义的“难-过”就可能比不上转义的“难过”概率高。

我:
所以说,要 遵从便利原则, 系统内部协调。本义、转义的区分不重要,重要的是内部协调:哪个义项最方便作为标配。一旦作为标配,就不必考虑纠缠的条件了。只有不是标配的选项 才需要条件,或者需要唤醒。一般而言是概率高的做标配。或者条件混沌、难搞定的那个做标配。然后让条件清晰的去 override 标配,此所谓 system internal coordination。遵循 longest principle,具有 hidden ambiguity  的“难过”,词典标配可以是 sad

白:
选最高概率的作为标配是情理之中,但标配如果恰好是本义,就不需要纠缠去唤醒本义了。“把国民经济搞上去”

我:
最高概率原则保证的是,万一系统没有时间充分开发,标配至少保证了从 bag of word 的传统模型上看,数据质量最优。我们实践中也遇到过决定不采用概率最大的作为标配,这是因为概率大的那个选项,上下文条件很清晰,规则容易搞定。而概率小的选项却条件模糊,所以索性就扔进词典做了标配。所有这些考量都是 system internal,与语言学或词源学上的本义、转义没有必然的对应联系。

白:
吃豆腐,标配是本义,搭配在本义内部纠缠,遇到sex上下文时进入转义。不一定显性,隐形的sex也在内。比如,“张三的豆腐你也敢吃?” 当然,张三卖的豆腐有食品安全问题时,也可以这么问。后者更加specific,是“例外的例外”

我:
例外之例外不得超过三层,这是我的原则,甚至不超过两层。虽然人使劲想,可以一直想到更精巧的例外之例外来。系统不要被带到沟里去。曾经由着性子这么干过,一路追下去,自以为得计。在某个时间的点,一切都 ok,但除非封装为黑箱,只要系统还在继续开发中,那种追求例外之例外的开发路线,结果是捉襟见肘,不堪维护。鲁棒的系统不允许规则具有嵌套层次的依赖性。【科研笔记:系统不能太精巧,正如人不能太聪明

白:
这话放在比特币上,一堆人会跟你急。比特币的设计实在是太精巧了。

我:
超人例外。电脑例外。机器学习例外。
肉身凡胎的人做自然语言系统,stay simple,stay foolish 怎么强调也不过分。

白:
“人家都出轨了,你为啥还没上轨”这标题有意思

我:
机器学习例外是因为反正就是个黑箱子,里面有多少参数,调控成了怎样都是一锅粥,在 retraining 之前,这就是一锤子买卖,好坏就是它,不跟人类讲理。

白:
无规则的系统例外

我:
无 symbolic rule 的系统例外。规则的广义似乎也包括黑箱子系统。严格说该是,无可以让人干预的 symbolic rule 系统例外,如果是 symbolic,但是人不得干预,那也无妨。跟封装等价。

白:
完全词例化的系统也是无symbolic rule的系统吗?

我:
在我这里是。每一条都可以做符号逻辑的解释,都遵循某种语言学的思路。

白:
人只能干预词典

我:
1117b
句法是超然的,处变不惊。只有语义甚至修辞,才需要把 出轨 与 上轨 联系起来,感受其中的“深意”。interpretation 是围绕人跳舞的,譬如我们做 sentiment,把大选舆情挖掘出来,至于如何解读,各人面对挖掘出来的同样的情报,会各自不同。很多人想让机器也做这个解读,基本是死路。上帝的归上帝,凯撒的归凯撒。剥夺人的解读机会,简直蛮不讲理,而且也注定无益。

白:
在证券领域,就是智能投研和智能投顾的关系。

我:
解读的下一步是决策。机器不能也不该做决策。

白:
智能投顾也可以是机器人,但根据一份智能投研报告,不同的智能投顾机器人可以做出不同的投资决策。机器真做决策。但是决策机器人和语义分析机器人之间有防火墙。在投资领域,机器比人强。人过于贪婪和不淡定。人处理信息特别是把握瞬间机会的能力不如机器。做对冲的不利用机器是不可想象的。

我:
这个我信。
甚至银行的那些投资顾问,遇到过不止一个了,老是忽悠我们每年定期去免费咨询他们,感觉他们的平均水平低于一台机器。按照他们几乎千篇一律的所谓投资建议去投资,不会比遵循某个设计良好的系统的建议,更有好处。这些顾问应该被机器把饭碗砸了,省得误导人。
【相关】

从 colorless green ideas sleep furiously 说开去

《泥沙龙笔记:parsing 的休眠反悔机制》

李白对话录之八:有语义落地直通车的parser才是核武器

【李白对话录之七:NLP 的 Components 及其关系】

【李白对话录之六:如何学习和处置“打了一拳”】

【李白对话录之五:你波你的波,我粒我的粒】

【李白对话录之四:RNN 与语言学算法】

【李白对话录之三:从“把手”谈起】

【李白隔空对话录之二:关于词类活用】

《李白对话录:关于纯语义系统》

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据