【李白之14:Chinese deep parsing,说的是 deep!】

白:

“认错的人我原谅了”“认错的人原谅我了”
“这场雨来的不是时候”“这场雨来得不是时候”哪个对?
“这场雨来的不是时候”、“这场雨来得不是时候”,感觉前者说“来”不是时候,后者说“雨”不是时候。个人倾向前者。

李:


谁原谅谁,句式蛮普通的。这里面还有其他的 catch 吗?

白:
两个不同的“认错”:一个是承认错误,一个是认错人,负面sentiment在不同主体身上。原谅的方向不一样,可以反推是哪个“认错”

李:
我很木
没想到第二个认错(人)。

白:
在“认错”与“人”之间,至少一个S,一个O。

李:
两句都理解成“承认错误”不行吗?

白:
一个大概率,一个小概率
把后者标成O,都是大概率。

李:
明白了。(当然那是在受教以后在明白)

我的问题是,普罗百姓更多人跟我似的木,还是白老师一样敏锐?
第二个问题是,这种不影响句子大局(大结构)的微结构里面的hidden args:decode 出来或不理它,decode 对了或错了,对一般的语义落地目标影响多大?

白:每个都不大,加起来不小。

李:
下面这组更看不出区别了:

白:
的/得,对错别字再加点容忍度,肯定是你这结果

李:
这一组,几乎肯定老百姓对区别无感。
“得”、“的” 混用已经如此普遍,以至于正式文字里面也不少见了。
实践中的体会是,遇到 “得” 就遇到了救星,因为基本可以肯定,用 “得” 的人是有文化的,是有意为之。由于 “得” 的补语标志性很强烈,加上 “的” 用法太多,系统不用担心 “得”,但是对 “的” 不得不格外小心。无论怎么小心,也还常搞不定。现代汉语该死该诅咒的东西很多,“的” 肯定是 top 3 可以千刀万剐的。恨得不止咬牙。

白:
“他菜炒的不够熟练”“他菜炒得不够熟练”呢?前者说的“炒”不够熟练;后者说的“他”不够熟练。其实用哪个字倒在其次,关键是结构不同。不同的萝卜来填坑。

李:

其实第二句的离合词“炒菜”也抓着了,不过显示的时候与 “得字结构” 撞车,没显示出来,这是显示的bug,不是parser的bug。有意思的是,炒菜也可以是名词:

白:
“生的伟大死的光荣”还是“生得伟大死得光荣”?
我觉得谓词的体词化+comments谓词,和谓词与谓词共享坑,根本就是两个结构。
我其实想说,“圈画de圆”和“圈画de慢”是两个结构,不管用“的”还是“得”。
前者是双爹,后者是祖孙三代。
“坑挖de整齐”和“坑挖de突然”也是两个结构。

李:

后者是默认,不论。
前者很 tricky。

白:
这两个用不同字区分,有意义。

李:
没法教育普罗。语言实践中不可操作。

白:
受过教育的尽管都写“得”,其实很勉强。谓词名词化用“的”本来天经地义,为啥算错。
我觉得做区分也是“语文”的需要,并不是“语言学”的必然。所以有今天这样的混用局面
这个区分并不高明。

李:
因为的字过载,其中的 “的字结构” 已经很各别:一个子句突然变成一个 NP,
这已经很让人困扰了(英语的 what-clause 也有这种困扰,容后论),这时候大家在学 “的字结构” 的时候,尽量趋向于收紧。最常最先记住的 pattern 就是“我吃的”、“他读的”、“你扔掉的” 这类。现在突然来了倒装,又夹杂了分离词,别说普罗会懵,就是文化人能整明白的也在少数。

白:
所以我才只问填坑,不贴标签

李:
更主要的还是口语中读音一样,这种细致的语义区别,要想教育用文字区别,不可行。

白:
不说哪个是补语,填坑的方向自然说明一切
@wei 试试旅馆那个?
“这里的旅馆住过的都知道很脏。”
“这女孩见过的都说漂亮。”

这个例子的奇妙之处在于,一般的情态动词和它带的宾语动词具有同一个逻辑主语,但这里却不是。“住过的都知道”似乎像是一个插入语。但是parser怎么会知道这里是插入语?

“这女孩见过的都说漂亮。”

同理。撇开是不是插入语的事情,这就是“很脏”的坑谁来填的问题。有“住过的”和“旅馆”两个选项。为啥不是“住过的”?我之所以拿女孩漂亮的句子做补充,是想说明,这一选择与sentiment无关。

撇开是不是插入语的事情,这就是“很脏”的坑谁来填的问题。有“住过的”和“旅馆”两个选项。为啥不是“住过的”?我之所以拿女孩漂亮的句子做补充,是想说明,这一选择与sentiment无关。

李:


何年何月 肯定做过努力。至于努力的成效就不好说了。汗滴禾下土 有迹可循。弄巧成拙也在所难免。不遇到特别的句子还看不出来。

白:
“这里的旅馆 住旅馆过的”看样子是在容忍不确定性
两个S都指向这个集合,但回避了是否指同一个元素。李:

李:
这是智慧还是油滑?白硕:

白:
这种容忍不确定性又把不确定性圈住的做法,必须发扬光大。李:

李:
听上去像是表扬。白硕:

白:
当然
只是还不解渴
期待更多 更系统 更elegant

白:
是知道一个词这样,还是情态动词都这样?

“这个人大家都相信是无辜的”

似乎“相信”也是对的

李:

白:
“这只老虎尿过的都认为是自己的地盘。” 出现反例了。“尿”本是不及物动词,但是这时候要强制提拔一个编外的坑,给“尿”。处所,很幸运地被选中。

李:
还有:“这个小便池尿过的都说干净。”

计算语言学家的不能告诉我们,我们正在走向危险的边缘。句子越来越诡异,合法非法之间,更要命的是,感觉上不具有统计性:不好拿捏,不仅要费牛劲儿,而且做了白做。

见好就收。拉倒。

前面提到英语的 what-clause 也类似汉语的 的字结构 容易让人懵。因为看上去就是一个 wh子句,可用法上的绝大多数 却是 NP,等价于带定语从句但省略了 head 的NP。蛮操蛋的。结果呢, 遇到复杂情形,晕菜了。What you said is not what you did.

What you said is not what you did.

这个中规中矩,还好。

I don't know what you did.
I don't understand what you said.

前一句,是 NP 还是 wh-子句?其实两可。翻译过来就是:

我不知道你做的(事儿)。
我不知道你做了什么。

这种细微差别,老百姓是不管的,也管不了,大家也就打马虎眼抹平了,反正也差不太多。第二句呢,一般理解就是 NP:我不理解你说的(话儿)。

understand 与 know 近义词,但 subcats 有别。know 既可以带 NP 又可以到 wh-子句:

I don't know who you are, but I know what you are
I also know where you live and how you got your permit.

understand 通常带NP,或比 know 对 NP 更青睐。

 

【相关】

【李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据