【语义计算:汉语语序自由再辩】

“张三把眼睛哭肿了。”
眼睛都被张三哭肿了
张三眼睛被哭肿了
张三眼睛哭肿了
眼睛张三哭肿了
哭肿张三眼睛了
张三哭肿眼睛了
哭得张三眼睛肿了
张三哭得眼睛肿了
张三眼睛哭得肿了
张三的眼睛哭得肿了

眼睛 一句是主语 一句是宾语 句法不能说错。supposdly 到语义模块去统一到逻辑语义上去。

Me:
这一组图献给@刘群 老师
我们曾经争论过汉语语序的自由度问题,我说汉语语序除了极少数对svo有直接冲突的OVS(正解SVO)不被允许外,其自由灵活,到了几乎随心所欲、想啥说啥、有法无天的裸奔的程度。
刘老师颇不以为然,坚持孤立语的本性就是语序固定,汉语不会例外。

刘:
谢谢@wei 把这些图献给我
换个例子:猫咬了狗,狗咬了猫,猫狗咬了,狗猫咬了,咬了狗猫,咬了猫狗,……语序自由吗?

Me:
自由度是一个区间,不是二值吧
ovs 不被允许,是其不自由的一面,不过数量上不自由的变式远小于自由的变式。
总之,不看数据的话,我们不会相信汉语如此任性。

刘:
我那个例子,osv,sov,vso,vos都不行啊

Me:
猫狗咬了,狗猫咬了
听上去没啥问题啊,还是我耳朵有问题?

刘:
不知道谁咬了谁

Me:
不知道也没啥问题啊
都是合法的

刘:
意思变了,就不是语序自由了。语序自由的前提当然是意思不能变。

Me:
拿语义或常识来纠缠句法语序自由, 不是一个好的辩护汉语总体语序不自由的路子
窃以为。这样辩论的话,我就给你: 鸡我吃了,我鸡吃了。自由还是不自由呢?

刘群:
你也是用例子来证明语序自由啊?并没有统计数据
规则都有反例,个别反例不能推翻整条规则
语言规则吧

Me:
你举的更像是反例,弄了个猫和狗,恰好是本体上平行的概念,都食肉,也都被食。
这种例子更像是反例 而不是 norm,所以我以子之矛可以还给你否。
当然 到目前 控辩双方都还停留在例句阶段。都还没有统计数据。

刘:
我的例子一点都不特殊:特朗普会见安倍,俄罗斯占领克里米亚,……

Me:
克里米亚俄罗斯啥时占领了
特朗普安倍会见了吗?
安倍特朗普真滴会见了啊?
会见了安倍特朗普还见了谁呢?

我的例子也不是 outliers 呀。说出来听起来都那么接地气

刘:
就用这个例子吧:”我的例子也不是 outliers 呀”:我的例子outliers也不是啊,outliers也不是啊我的例子,outliers我的例子也不是啊,也不是我的例子outliers啊,也不是outliers我的例子啊。

Me:
谢谢 & 欢迎刘老师站到我这边来!
这不正是语序自由的现身说法吗

刘:
嗯?你觉得上面那些句子都成立吗?我觉得大部分都不成立。
我是反驳你的说法

Me:
不成立?

刘:
不成立

Me:
看样子得 crowdsource 给 native speakers 去投票决定了。

我听起来无障碍,都理解了不算,感觉还蛮顺,至少是接地气:老百姓就是这么说话的。社会媒体更甚。

当然如果给新闻系教授, 他可能会教育学生不能这样写。在有很多个表达(不仅仅是语序自由)的时候,技术文献和新闻工作者会被教导去选择所谓规范的表达法。但语言事实和普罗通常不听这些指教。

其实 坚持汉语语序自由得不像话的观点,不是为论点而论点,而是提醒自己和同事,我们在写 parser 的时候,必须把语序自由作为一个重要的角度来看汉语。 否则无法做出一个鲁棒和召回率高的汉语解析器。

刘:
不管哪种语言,在社交媒体上,都不太讲究语法的,特别是短句子。这不能成为汉语语序自由的证据。英美人说话,口语、短句子、社交媒体上,不合法的句子比比皆是,不能因此说英语语法就要废除了。

Me:
我们当然希望语言都是语序固定的 这该省多少力气啊。线性pattern就是以次序(linear ordering)为基,语序灵活了,patterns 就成倍增长。非语序的其他因素可以在既定的pattern里面调控,无需增加patterns,唯有自由的语序是一件躲不过去的功/工。

刘:
即使是汉语,我们表达稍微复杂的内容的时候,一般都会用svo的,不会随便改语序,否则给自己添加麻烦

Me:
汉语操蛋就操蛋在这里: 你本来就没有形态,小词也是能省就省,你还要语序灵活自由,你还让人活不活?国人的投机取巧甚至在语言表达上也如此彰显。可是我们还是要面对现实。

刘:
没有这么可怕,汉语parser的准确率比英语并没有低太多

Me:
汉语 parser 比英语没低多少,是在新闻上么?
新闻是语言大海的三滴水。

刘:
其他领域没有确切的数据可比较。

Me:
还是可感觉的

这一回合,算是打平了,如果刘老师不坚持要我举白旗的话。

刘:
不能靠感觉。
@wei 老师客气了学术讨论,有争议很正常。
我也没有数据说服你。

 

 

 

【相关】

【语义计算沙龙:语序自由度之辩】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

发布者

liweinlp

立委博士,自然语言处理(NLP)资深架构师,Principle Scientist, jd-valley, Netbase前首席科学家,期间指挥团队研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的分析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个美国国防部的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论