【李白之45:从变性谈到模糊与歧义的不同】

李:
尼:罗素说科学够不着的哲学,哲学够不着的宗教。

[科学够不着的] [哲学],[哲学够不着的] [宗教]。

两个主谓结构哎!

哲学、宗教这样的名词也可以做谓语,而且是在“的”字后面,简直是开了眼了。以前琢磨过英语的“银行”(bank),经常做动词谓语用,觉得顺理成章,但汉语的对等物却不行。

白:
儿子挖不完的孙子(接着挖)。

李:
(感觉汉语“银行”的构词法可能在捣乱,silver-bank, 听着就是一个守财奴的物理存在,与金融行为不大兼容?)

白:
硬通货的物流调配。怎么就是“守”了呢。

李:
* 你银行了吗?
老哥,我忘了,对不起。

白:
很行了

李:
* 我明儿一定银行。
我难以接受这种说法。

白:
王天下
四海一
这种用法中文是老祖宗,但是新派词汇不在其列。

李:
为啥?词性活用现代汉语为啥减弱?

白:
不是一个系列的

李:
“我昨天二锅头,今天决定茅台一下。不茅台白不茅台,人一辈子,图啥?”

白:
数数,单字名词活用为动词,可以有声调变化,略等价于形态变化。多字名词没这个招儿了。

李:
“今天床得早,决定微信一下。电脑了半天,微信出不来。”

白:
北京话也就“孙子”做谓词坐稳了。其他都充满临时性和造作。

李:
“现代汉语名词不动词,动词不名词,不如古代汉语,名亦动,动亦名。”

单字词 可以声调变化来反映词性变化,这是一种(蛮新鲜也有理的)说法。
双音词,由于内部的定中的构词结构太透明,干扰了其变性的可能性,也是一种说法。譬如 “红花”、“臭豆腐”、“高楼”。很难想象这么透明如句法的词结构,会忽然变性。不过,如今这社会,再难想象的变性(trans-gender),也是可能发生的。美国的变性人已然成为一个不小的社区了。

“这家伙在北上广,高楼了10多幢,全国劳模会上一样红花,回到胡同与老哥们一起臭豆腐,这是怎样精彩的腐败人生。”

所以说,语言学家不足采信。啥不可能都整出可能来。

白:
这些一看就是匆匆披了件别人的外套

白:
尼:罗素说科学够不着的哲学,哲学够不着的宗教。可解释为省略了重复的“够”。不知尼克尊意如何?“这道题,张三做不出来李四,李四做不出来王五。”意思是:“这道题,张三做不出来李四(做),李四做不出来王五(做)。” 跟名词动词化真心没啥关系。
“前卫顶不住了后卫(顶),后卫顶不住了守门员(顶)” 同理。

李:
读起来很顺 没觉得需要补充什么。虽然说省略也不能说错。但语感觉得已经完整。因此 我倾向于这是名词坐稳了谓语宝座。叫不叫名词变性另说。而且真要补充 我不大会补充 “够” 而是补充其他更合适的动词:

科学够不着的 哲学上
哲学够不着的 宗教来。

“冲”、“上”、“来” 都比 “够” 贴切。说省略了 “够” 太勉强。最大的兴趣点还是,怎么名词谓语出现在 “的” 后面 居然感觉妥妥的呢。“科学够不着的哲学 从来都是高高在上 只是到了近代 哲学的权威才急剧下降。” 这个才是标配结构。冲破标配估计是一靠排比句式;二靠小句在的字结构后面无其他谓词 ;三靠【的字结构】的多变性。的字结构指代实体 一点也不罕见, 频率差不多可匹敌做修饰语。所以听话人心理随时准备从修饰语角色反悔或回溯到实体名词的角色。

尼:
我原意就是图这种语感,其实确有歧义,还一种解释可以是philosophy lies where science is trying to approach

李:
科学够不着的有哲学(在)。

尼:
可能稍显牵强,不如白老师解释的那个更solid。两种都有点。

李:
没关系 关键是 unspecified,比认为省略了一个特定动词值更合适。

严格说 unspecified 不算歧义,而是模糊。模糊在思维及其语言表达中 都有地位 不应该简单归为歧义。

尼:
可以说是模糊

李:
歧义应该是已经有预定答案值的现象,hence 消歧的任务。没有标准答案的所谓歧义 其实是模糊。

梁:
我理解是 ”科学够不着的(地方)哲学(够)。“ Where science is out of reach, is philosophy's domain.

李:
可以算解读之一。

梁:
第一次听说“歧义是已经有预定答案值的现象”,不知道是不是业界所有人都 share 这个定义?

李:
否则消歧往何处去?有两种歧义,一个是关于 node,一个是 arc, 譬如:

WSD bank: value1. 银行;value2. 河岸
PP-attachement: V NP PP: value1. V [NP PP]; value2. [[V NP] PP]。

看下组句子:

1. 我吃了午饭了。
2. 我不久前吃了午饭了。
3. 我几分钟前吃了午饭了。
4. 我约3分钟前吃了午饭了。
5. 我3分零5秒前吃了午饭了。

这些句子里面的动作,与所有事件一样,肯定发生在(空间和)时间之内。只有第5句,给定了精确时间,精确到秒。其他句子给的都是模糊时间,或没有给时间(等价于给了一个到说话为止的开放区间)。这就叫模糊。如果硬要在模糊的时间表达中去“消歧”,精确到秒,前四个句子无解。

unspecified 在自然语言中是普遍存在的。最多的时候,它是以零形式而存在(譬如句子1)。也有很多时候是以词义的模糊或结构的模糊来表达。这种词义的模糊或结构的模糊,不能认为是歧义,至少不是语义计算的目标,因为根本就没有目标。我们做过信息抽取(information extraction)和信息融合(information fusion)来构建知识图谱(knowledge graph)的,体会很深。其实人用语言表达出来的关系,事件或情感,只是整个语义之网的一个零星的局部。再加上每一句话的语言学制约(譬如 args 不过三的语言学subcat原则),每次只能表达几个点的信息,因此语义之网的大部都是 unspecified。如果面对的是大数据,这些语句所代表的碎片化信息,通过信息融合(如果是unification系统,信息融合用合一操作),慢慢丰富起来,但最终还是存在很多模糊地带。

白:
话说,模糊和笼统还是不一样的。歧义是集合明确、元素糊涂;模糊是集合明确、子集糊涂;笼统是集合糊涂、超集明确。

李:
这个要得。
wait, 我要说的是:(严格意义的)歧义是集合明确,元素也明确(元素就是 value,是标注)。人和机器就是要按照元素指向去标注,来消歧。如果我说“吃肉”,你非要消歧,说这肉是猪肉还是牛肉,那就不对了。因为我的语言是模糊的,没有留下消歧的空间。

白:
元素糊涂,说的是不知道是哪一个标注,集合明确,说的是知道哪些是可能的标注。

李:
我以为集合是定义 how many (the scope) in a set,元素是 the list of members.  Anyway, 歧义是元素明确:知道答案,看谁的算法牛了。如果不知道答案(元素模糊),那就是语义模糊了:这里面还可以再分为,语义模糊,但是边界清楚。就是白老师的子集的意思吧。从常识、本体知识带来的边界不算,那个是“元”层次给定的,没有语言什么事儿。

“我吃了午饭。” 时间的边界是到说话为止:这个边界是语言学的,是时体小词“了”所传达的。

“我吃肉” 常识说,不外呼是牛猪羊鸡...肉。不会是人肉(饥荒年代不算)。这个边界就不是语言学的。

白:
外媒:区块链战略上的延迟 将是公司的“灭顶之灾”
这个标题有歧义。一个意思是,一个公司,如果在区块链这件事上不做战略布局,将会面临灭顶之灾。另一个意思是,区块链这股力量,如果在战略上动作迟缓,将使相关公司面临灭顶之灾。

我:
多数人、一般人感觉不到、读不出也不在意这种歧义。因此,即便通过语法的细化和逻辑的分析慢慢能够区别两种路径,最终还是要研究怎么回到普通人的理解,或模糊语义去,除非对于某一个特定的应用,这种区别有重大意义。后者也是有的。譬如昨天说的,限定性与非限定性定语的区别,其中有不小的一块灰色地带,大部分人也搞不清限定还是非限定,也不在意这种区别,就是这么糊里糊涂地表达,糊里糊涂地理解。可是这个区分对于 sentiment 意义重大,因此 sentiment 做到一定火候,就不能不着手对付它,尽管有灰色地带,也还是要尽量把不是灰色的部分模型好,而不是糊涂混日子。

自然语言的表达与理解-董老师说过这个意思,很多时候是包容歧义的,听者说者都不在意那个歧义,甚至大多时候根本就无感,虽然细究起来歧义的确存在。人类有这个模糊的本事,直到某个关节点,那个歧义模糊不下去了,人的对话才会就模糊点予以澄清。通常,大家都是在一知半解中彼此理解的。

例外是法律文书,专利文书,技术手册(波音的受限语言的说明书),这些东西通常经过反复打磨,有特别的手段在表达的时候就把歧义降低到最低限度,堵死误解出差错的可能。但是日常会话,包括谈恋爱,大家都在将就模糊着,也没觉得缺了啥,误会发生的概率也很低。

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据