【李白91：休眠唤醒需要打离婚证】

李:
以前说过，local n元组搞定分词，通常认为n等于5足够（5-gram 平天下，见【李白71：“上交所有不义之财！”】）。今天有个例子，可以看看 bigram trigram and 10+ gram 的各自说法:

这所以自由时尚叛逆和反潮流著称的学校连塔也不得雍容。

Bigrams：这所所以 ……
trigram：这所以 ……
10+ gram：以 …………著称；这所…………学校

毛估估一下这场分词拔河赛的力量对比：“这所” 和 “所以” 单算的话，大概势均力敌，感觉 “所以” 稍微更强一点。到了trigram “这所以” 形势基本明朗了。【这所/以】（or 【【这/所】/以】）远远强过【这/所以】，虽然小概率反例会永远存在。到了 10+ gram，由于框式结构的搭配要求， “以 ……著称”（介词动词搭配）和“这所……学校”（量词名词搭配），【这所/以】的分词及其解析，占绝对优势可以板上钉钉了。

可是谁等得起 10+ 呢？或者我们找到一个投机取巧的算法把搭配距离缩短，或者咱就将就在 ngram （n 小于等于5）里面玩分词。原句（from yours truely today）以及插图（courtesy of yours truely too）是：

“一直觉得作为地标这塔缺了点啥想来是太过苗条。这所以自由时尚叛逆和反潮流著称的学校连塔也不得雍容。”

白:
还有“所……学校”之间的chemistry。强化所/以分离

李:
都是远距离。所以得有个合理的距离缩短机制：

白:
距离拉近时和平分手即可。

李:
和平分手很难有一屁股屎要擦：（i）“所以” 先成了连词后，要保证里面的两个词素仍然看得见这是其一。（ii）尝试分手的时候要一分为二，数据结构凭空要多出一个 token 出来。（iii）一分为二各就各位以后，要重新查词典得到各自全新的特征。（iv）然后才是参与到 parsing 去，该搭配搭配。哪里那么容易分手啊，离婚证也不好领。如此“休眠唤醒”（？？？），对平台很有要求的。

一个方案是，所有的多字词在一开始就把每个字当成 token 进入数据结构，然后把初步的词典为基础的分词当成是合成词的“绑架性”黑箱组词（组字成词，而不是切词），组词以后，由于黑箱原理，立马屏蔽下层的词素使不见天日，让其休眠，以防添乱。这样的话休眠唤醒一分为二的时候就不需要从根基上动土。但这种处理在单字层做了太多的虚功。不是完全不可行，但也没见人真地践行到 real life 系统去。

白:
退一张北京到上海的票，可以卖北京到济南和济南到上海两张票。12306都能搞定的数据结构，很难么？“所/以”这一近距离无优势而有远距离呼应可能性的分词方案，相当于分别挂两个订单，如果这两个都找到买主，我就退票。

所不是量词的情形也有可能：“他所以为荣的那点本事，早就过气了。”

所有认准一条标配的道儿，但不准备走到黑的，都可以挂出反悔订单，外面时机成熟了，立刻造反。

组合订单（多笔交易要么同时成交要么同时撤销）必然引入同步，同步必然损失效率。所以一定是trigger驱动，而不是挂单驱动。无 trigger则无时间开销，至于空间开销，那是毛毛雨。

李:
trigger word driven？以前我主张的休眠唤醒之术，就是trigger词驱动（见【歧义parsing的休眠唤醒机制再探】的“难过”）。

不过，关于时间空间开销其实好像都不是事儿。fact of life is 比起图像比起语音，比起当今有如军备竞赛一样地使用计算资源的那些 monsters，动辄成百上千的GPUs集群，目前的 NLU 太小儿科了简直像过家家。给个 high end pc，就乐颠颠地研发或耍弄 deep parsing。老朋友那天跟我说，现在的问题是给你100万倍的计算资源你能做什么？我懵了打死我我也用不了这多资源。只会螺丝壳里做道场玩具一般。还梦想着建通天之塔探究人类语言最微妙的奥秘。

郭：
机器翻译，用的计算资源也不少。

李：
那天说了神经mt与语音转写同理已经不是 nlu 了：都是鹦鹉学舌离开理解越来越远。看看这篇分析：

The Shallowness of Google Translate

It’s pretty lengthy. Pointing the fact of no understanding in deep learning. We all know it is true. What we did not know was how far a system can go without understanding or parsing on an end to end deep neural network modal. All criticisms here are valid but still MT has never been this impressive and useful in practice unless you make the wrong choice to use it for translating literary works or for translating domain documents where it has no human translation data to learn from.

他说机器不过是处理了符号序列它根本就没有丝毫 reading 的真实能力。reading、 parsing 和 comprehending 及 understanding 在英语都是一个意思。是 Elisa 效应让我们以为它理解了就跟领导在家老跟宠物牛顿说话坚信牛顿能听懂也能表达尤其是肚子饿的时候牛顿表达能力惊人的丰富。牛顿的表达能力虽然只是 meow 的不同变体领导声称可以解码。