【语义计算沙龙：从“10年中学文化课”切词谈系统设计】

我:
毛老啊，1966-1976 10年文革，是我十年的中小学，我容易吗？10年中学文化课的时间不到一半，其余是学工学农学军。学赤脚医生学开手扶拖拉机。
为什么是【十年中】【学文化课】不是【十年中学】【文化课】?

Guo:
@wei 单就这句，确实两可。但你后面有这么多的"学"……
至少对这个例子，统计，"深度神经"RNN之类还是有merit的。当然，这两种解析其实也没本质的区别。不必多费心思。

我:
怎讲？因为“学”频率高所以“中学”成词就不便？统计模型在这个case怎么工作显示merit呢？愿闻其详。
大数据说有五年中学有六年中学，极少见十年中学，反映的是中学学制的常识。但是这个知识不是很强大，很难作数，因为这不是 positive evidence。如果句子在 “六年中学” 发生边界纠纷的时候得到来自大数据的直接支持，那是正面的 evidence，力量就很强。负面证据不顶事儿，因为它面对的是【非六】（或【非五】）的大海，理论上无边无沿，那点儿证据早被淹没了。

Guo:
统计分long term / global vs short term / local.

你讲的"大数据"，其实是在讲前者。

现在热的"深度神经"，有些是有意无意地多考虑些后者。例如，深度神经"皇冠上的明珠"LSTM即是Long Short Term Memory。虽非显式地求取利用"即时统计"，那层意思还是感觉的到的。

我:
@Guo 恩。这个 local 和 global 之间的关系很tricky
0821e

这个貌似歪打正着的parse应该纯粹是狗屎运，不理论。

白:
N+N的得分本来就低有状语有动词的更加“典型” N+N是实在没招了只能借助构词法解决零碎的产物有状语有动词时谁还理N+N。不管几年中学，也抗衡不了这个结构要素。就是说，同样是使用规则，有些规则上得厅堂，有些规则只能下得厨房。如果没有上得厅堂的规则可用，随你下厨房怎么折腾。但是如果有上得厅堂的规则可用，谁也不去下厨房。

我:
这里不仅仅是 N+N 的问题，在绝大多数切词模块中，还没走到N+N这一步，因此这个问题实际上可能挑战不少现存的切词程序：十年/中学/文化课 or 十年中/学/文化课 ?
有一个常用的切词 heuristic 要求偏向于音节数均匀的路径显然前者比后者均匀多了。

白:
句法上谈多层，也是“狗/咬吕洞宾”, 不是“狗咬/吕洞宾”

我:
真正的反例是交叉型的。
句法怎么谈层次其实无关因为多层的切词不过是一个技术策略，（通常）本身并不参与 parsing，最终的结果是狗/咬/吕洞宾就行了。其实即便论句法 SVO 层次在汉语中还是颇有争论的不像西方语言里面 V+NP 的证据那么充分。

白:
这有点循环论证了

我:
目前的接口是这样的多数系统的接口是。切词的结果并不存在层次，虽然切词内部可以也应该使用层次。肯定有研究型系统不采用这样的接口，但实用系统中的多数似乎就是这样简单。

白:
都保留也没啥，交给句法处理好了，谁说一定要分出个唯一结果再交上去，很多系统接受词图而不是词流了。对于神经网络这种天然接受不确定性的formalism而言，接受词图并不比接受词流多什么负担。

我:
数据结构多了维度，对于传统系统，涉及面蛮大的。词不仅仅是词，词本身不是一个简单的 object。以前的系统词流就是string 或最多是 token+POS list 对那样简单的结构增加维度还好。

白:
词和短语一样可以给位置加锁解锁竞争位置的锁

我:
不错，词是一切潜在结构的发源地，蕴藏了很大潜能，甚至在设计中，应该让词典可以内建结构，与parsing机制一体化。这种设计思想下的词增加维度就是带着镣铐跳舞不是容易处置好的。nondeterministic 是一个动听但不太好使的策略。否则理论上无需任何休眠与唤醒。

白:
可以参数化，连续过渡。处理得好，管子就粗些。处理不好，管子就细些。极端就回到一条线。一个位置允许几个词竞争锁，可以参数化。超出管子容量的，再做休眠唤醒。

我:
多层系统下的 nondeterministic 结构，就好比潘多拉的盒子。放鬼容易降鬼难，层次越多越是这样。也许机器学习那边不怕，反正不是人在降服鬼。

白:
其实一个词多个POS，或者多个subcat，机制是一样的。不仅有组合增加的一面，也有限制增加的一面。不用人降服鬼，鬼自己就打起来，打不赢没脸见人。只要制定好“见人”的标准，其他就交给鬼。

我:
这就是毛主席的路线叫天下大乱达到天下大治。文革大乱10年国民经济临近崩溃的边缘，但没有像60年那样彻底崩盘，除了狗屎运，还因为有一个绝对权威在。这个权威冷酷无情翻脸不认人。今天红上了天的红卫兵造反派明天就下牢狱。

白:
鬼打架也是有秩序的，不是大乱，是分布式表示。

我:
这样的系统大多难以调试等到见人了结果已定局好坏都是它了斯大林说胜利者是不受指责的。

白:
局部作用，高度自治

我:
鬼虽然是按照人制定的规则打架。具体细节却难以追踪因此也难以改正。当然这个毛病也不是现在才有的是一切黑箱子策略的通病。

白:
不是黑箱子，是基于规则、分布式表示、局部自治。打架的任何细节语言学上都可解释。理论上，如果词典确定，所有交集型分词歧义就已经确定，是词流还是词图，只是一个编码问题。如果再加上管子粗细的限制，编码也是高度可控的。

我:
刁德一说这茶喝到这儿才有了滋味。看好白老师及其design

白:
“10年”说的究竟是时长（duration）为10年的时间段，还是2010年这一年的简称，也是需要甄别的。

【相关】

【置顶：立委NLP博文一览】

《朝华午拾》总目录

【语义计算沙龙：从“10年中学文化课”切词谈系统设计】

发布者

立委

发表回复