【李白之24:“这碗花纹很别致的”】

白:
“这桩打得头破血流的离婚案真是蹊跷。”
量词兼其他词类的情况,是很细的细活儿。

李:

:

白:
“这碗花纹很别致的冰激凌其实并不好吃。”“这碗花纹很别致的你可别错过了古董。”
这有难度了。“碗”的窗口要很大才能确定它是名词还是量词。

李:

感觉第二句是灰色句法,拗口,罕见。

白:
把后面从“你”开始截掉试试。
“这碗花纹很别致的。”

李:

白:
看起来是句法一本道。但是花纹是有坑的,大小主语结构同样说得通。但是前者量名搭配不相谐,后者大小主语相谐。好的分析器应该搞出后者。但是如果pos在别处做出来,无法利用大小主语信息,就不好说了。这里就存在一个问题,在pos意义上而不是在分词意义上的休眠唤醒。一本道被语义不相谐打断链条,转而寻求另一pos。这是matcher和wsd之间的双向互动,而不是单方向的上下游工序。

“这碗花纹精美。”

所谓一本道是在确定了pos之后的一本道,而pos恰恰是有可能翻盘的。遇见一本道与语义不相谐叠加,不应是如乔氏green ideas般强行闯关,而应是回头检视pos的其他候选。另外,大小主语之间,小主语往往是大主语的body-part、亲属/关系词或者是某个侧面特征(sentiment中所谓aspect),这个subcat层面的联系和相谐是十分明显的。要想pos不回头,就必须使pos“变相多态”,事实上承载多个pos。

李:
算对还是不对?我被绕糊涂了。

白:
分析出大小主语算对,分析出量名强制搭配不算对。
我是在揣摩你的pos是在什么地方确定的。为了得到正确结果,确定pos的那个环节该做些什么。是不是需要某种广义的休眠唤醒

李:
我基本不做 pos,以前专门论过:【中文处理的迷思之二:词类标注是句法分析的前提

白:
那此处的“碗”到底是不是量词?

李:
也是也不是。
论点是 pos 作为独立模块 也许对汉语 parsing 可以有些帮助。但是 第一 不是必要;第二 即便做 也不要做多做全,最多蜻蜓点水就够了。多做无益有害。

白:
不讲一般理论,就讲这个例子

李:
这个例子没看出 pos 的必要

白:
实践中,不做多做全,就必须留反悔的口子。

李:
词典里面 碗 是 【container】,也是 【器具】。这就够了。这是词典信息 不是上下文的 pos tagging。

白:
不管怎么说“这碗”是做了“花纹”的mod

李:
不错呀。mod 是句法关系,可以表达多种逻辑语义,【拥有】、【性状】、【色彩】、【材料】、【施事】、【受事】、【对象】等等,当然也包括【部分-整体】、【数量】。parsing 的句法阶段不细究属于何种逻辑语义。

白:
当然“这碗的花纹”在你那也是“这碗”做mod,小词被过河拆桥了。

李:
这不很好吗?同体后 要细分也是可以的,到语义模块去磨。

白:
感觉是耍了个高级流氓

李:
句法耍一耍 是正道。到了后面的语义模块 就要讲究 love 了,要有 chemistry,句法不到不得已 不谈恋爱。

白:
都勾搭上了,还不说自己是男是女的感觉
李:

李:
新智元笔记:中文处理中的POS、搭配和句法】, FYI for those who came to this group more recently

白:
到了今天这样鲜活的例子才知道这等原则落地是啥意思。

 

【相关】

新智元笔记:中文处理中的POS、搭配和句法

中文处理的迷思之二:词类标注是句法分析的前提

【李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据