白:
“这桩打得头破血流的离婚案真是蹊跷。”
量词兼其他词类的情况,是很细的细活儿。
李:
:
白:
“这碗花纹很别致的冰激凌其实并不好吃。”“这碗花纹很别致的你可别错过了古董。”
这有难度了。“碗”的窗口要很大才能确定它是名词还是量词。
李:
感觉第二句是灰色句法,拗口,罕见。
白:
把后面从“你”开始截掉试试。
“这碗花纹很别致的。”
李:
白:
看起来是句法一本道。但是花纹是有坑的,大小主语结构同样说得通。但是前者量名搭配不相谐,后者大小主语相谐。好的分析器应该搞出后者。但是如果pos在别处做出来,无法利用大小主语信息,就不好说了。这里就存在一个问题,在pos意义上而不是在分词意义上的休眠唤醒。一本道被语义不相谐打断链条,转而寻求另一pos。这是matcher和wsd之间的双向互动,而不是单方向的上下游工序。
“这碗花纹精美。”
所谓一本道是在确定了pos之后的一本道,而pos恰恰是有可能翻盘的。遇见一本道与语义不相谐叠加,不应是如乔氏green ideas般强行闯关,而应是回头检视pos的其他候选。另外,大小主语之间,小主语往往是大主语的body-part、亲属/关系词或者是某个侧面特征(sentiment中所谓aspect),这个subcat层面的联系和相谐是十分明显的。要想pos不回头,就必须使pos“变相多态”,事实上承载多个pos。
李:
算对还是不对?我被绕糊涂了。
白:
分析出大小主语算对,分析出量名强制搭配不算对。
我是在揣摩你的pos是在什么地方确定的。为了得到正确结果,确定pos的那个环节该做些什么。是不是需要某种广义的休眠唤醒
李:
我基本不做 pos,以前专门论过:【中文处理的迷思之二:词类标注是句法分析的前提】
白:
那此处的“碗”到底是不是量词?
李:
也是也不是。
论点是 pos 作为独立模块 也许对汉语 parsing 可以有些帮助。但是 第一 不是必要;第二 即便做 也不要做多做全,最多蜻蜓点水就够了。多做无益有害。
白:
不讲一般理论,就讲这个例子
李:
这个例子没看出 pos 的必要
白:
实践中,不做多做全,就必须留反悔的口子。
李:
词典里面 碗 是 【container】,也是 【器具】。这就够了。这是词典信息 不是上下文的 pos tagging。
白:
不管怎么说“这碗”是做了“花纹”的mod
李:
不错呀。mod 是句法关系,可以表达多种逻辑语义,【拥有】、【性状】、【色彩】、【材料】、【施事】、【受事】、【对象】等等,当然也包括【部分-整体】、【数量】。parsing 的句法阶段不细究属于何种逻辑语义。
白:
当然“这碗的花纹”在你那也是“这碗”做mod,小词被过河拆桥了。
李:
这不很好吗?同体后 要细分也是可以的,到语义模块去磨。
白:
感觉是耍了个高级流氓
李:
句法耍一耍 是正道。到了后面的语义模块 就要讲究 love 了,要有 chemistry,句法不到不得已 不谈恋爱。
白:
都勾搭上了,还不说自己是男是女的感觉
李:
李:
【新智元笔记:中文处理中的POS、搭配和句法】, FYI for those who came to this group more recently
白:
到了今天这样鲜活的例子才知道这等原则落地是啥意思。
【相关】