【语义计算沙龙：其实 NLP 也没那么容易气死】

白:
“严把个人商用房客户准入关”
我:
这个句子我人脑也费了半天劲才明白讲的啥（“严把个人商用房客户准入关”=="对个人商用房客户应严把准入关”），尝试用parser也只好瞎碰了，果然乱得不是一处两处，甚至把 “准入关”词典化（拼音联想词组里面还真有这个词条）也还是不行：
t0626a
白:
“严把个人商用房客户准入关”
严还是个姓，上下文清晰时，可以用裸姓指代全名
“入关”也是词
“把”作动词用不如作介词用的概率高
“房客”也是词

我：
幸亏 real world 这样的句子是极少数。不过人脑怎么 parse 的呢？虽然也饶了几圈，backtracking ......
白:
这个例子是银行发的正式文件里的
纵向不确定性比较丰富，导致结构貌似不稳
“个人”是定语
我:
这个“严” 做状语也不好掌控因为更多是做谓语的
"个人"也有些难缠，词典不行因为有 “n个人” 的存在，只好后面补救了。
个人的定语问题倒是可以解决，但还是搞不定这句：
t0626b

算了，就当没看见。我投降。
白:
“准入”是有坑的，“把关”是有坑的。当“准入”+“关”生成“准入关”的时候，坑也要有同步的调整。
我:
谁（被）准入；为谁把关（把谁的关）？
白:
把什么事由的关。
我:
把VP的关
白:
“皇军要当你的家”类似
我:
“把学习英语的关”
“英语学习的关真不好把”
白:
“严把生猪进口质量关”
我:
“要把好业务关”
这个事由的坑可以是 VP or （abstract）NP，逻辑语义大体是 about：关于什么事儿的关

白:
“教室的地得扫了”
旅行的目的地得调整了
马:
气死NLP
的士的目的地得调整
我:
其实 NLP 也没那么容易气死 @马少平
t0626c
t0626d
t0626g

马:
哈，强大
我:
当然不能指望“世界第1”的谷歌NLP，靠的是世界第0 的立氏NLP。毛主席保证，上面的句子是一次通过，没做任何工作（当然此前一定是有工作的）。
白:
扫地的离合词处理
目的地，长词优先，不用特意做什么
我:
幸好 real world 的句子也有貌似困难其实无根本挑战的我们还有活路。
白:
反过来才有挑战性，看着是离合词，就是不该碰一块儿的。伟哥试试：“这地是这样地难扫。”
我:
t0626e
哈哈哈哈仰天大笑
李白曰过的：我辈岂是蓬蒿人
白:
很好
舍近求远得真解
我:
不过我心内是把它当成狗屎运的，只不过狗屎运常光顾愚公似的人。以前说过n次，NLP 是力气活。
白:
话说，离合词这个功能好像也没多久。
我:
两三月前？早就想做了盘算很久了实现是最近几个月的事儿。量词更近，才个把月。
白:
量词和本群有直接关系
我:
离合词的处理直接源于我13年前做英语的 phrasal verbs：take it off / take off the coat / take the coat off 之类（Wei Li et al, An Expert Lexicon Approach to Identifying English Phrasal Verbs, ACL 2003）
对量词，的确是本群反复议论才被促上马的因为没有量词搭配 90%+以上的场合无碍以前一直拖着没做。

白:
“蔡英文说得不好。”
我:
这种还是休眠吧，hidden ambiguity，跟 “难过” 类似。真做就唤醒，用 word driven
t0626f
白:
和大语境有关
如果满篇都在说另一个蔡，就和蔡英文没啥关系了。
我:
是的，但是那种情形的处理需要在另外一个层面去做。discourse 的因素 trigger “蔡英文”-driven 的唤醒机制。
白:
分层不是单向，该交互时就交互
我:
word driven 是可以想象的，因为“蔡英文”这个词对于我们来说，的确是既透明又黑箱的：黑箱是，只要不是文盲，基本上都知道蔡英文是一个人名；透明是，尽管知道这是一个人名，我们也仍然知道这个词的内部结构，以及这个词的句法可能性：蔡 -- 英文，Topic - S 的潜在性，单从这个词，我们就知道。
白:
一个上下文提供了所提及对象的“场”，重复出现可以增加“场强”，左右句法层面对部件的“抢夺”。
我:
不过这些可以想象的操作，大概很少有人去做，选择不做为多，因为还有很多可做的事儿还没做完呢。
白:
分场景。在游戏场景，上下文中的活跃对象“场”是至关重要的，不仅对其中的NLP，也对智能角色的动作规划。用于NLP是捎带脚
我:
所有的 hidden ambiguity 都可以用 word driven 机制唤醒如果我们真想做的话。
而 hidden ambiguity 一直公认为是中文切词的死穴。至少可以说，死穴不一定就死。换句话说，在休眠唤醒理论（见文末【相关】链接）正式提出之前，这个挑战很可能是被认为无解或极其困难的
但是，我们已经用 “难过” 在 sentiment 语义落地的实际工作中的实现，证明了还是有救。“小王很难过” vs “小桥很难过”，如今在我们的中文舆情系统中处理得如此漂亮！（重温【立委科普：歧义parsing的休眠唤醒机制再探】）

白:
从一个包含NLP在内的更大系统视角来看，关键语境参数的实时刷新，受益者绝不仅仅是NLP。作者的观点和作者转述的他人观点，在极性上就是需要区别对待的。引述可能是为了反驳或反衬。所以，观点的主人是谁，就需要甄别。
我:
至少在知识图谱的工作中，discourse 内的实体aliasing 以及 anaphor 的工作，成为整合抽取信息的相对可靠的关键元素，这一步可以 leverage document-internal 的线索，这才为下一步的跨文本的 information fusion 打下了基础。
跳过 discourse 直接做 fusion 是不智的。

【相关】

《泥沙龙笔记：parsing 的休眠反悔机制》

【立委科普：歧义parsing的休眠唤醒机制再探】

【泥沙龙笔记：NLP hard 的歧义突破】

【立委科普：结构歧义的休眠唤醒演义】

《朝华午拾：我的考研经历》

【NLP 是一个力气活：再论成语不是问题】

【新智元笔记：巨头谷歌昨天称句法分析极难，但他们最强】

Wei Li et al, An Expert Lexicon Approach to Identifying English Phrasal Verbs, ACL 2003

【置顶：立委NLP博文一览（定期更新版）】

《朝华午拾》总目录