【李白82:汉语重叠式再议】

【立委按】
我稀罕死她:是我喜欢她

她稀罕死我:既可以是 她喜欢我,也可以是 我喜欢她。
汉语鬼不鬼?
虽然鬼,语言学家有解读,明镜似的。2018了,不要看不起语言学家。世界上怕就怕认真二字,我们共和党人就最讲认真。一切都讲大数据,我们语言学家就最讲数据。
你知道吃饺子过年有几种说法吗?

 

白:
“逆回购逆了好几笔了。”
副词词素用作重复

李:
这是汉语动词用前缀重叠(reduplication)回指(coreference)的现象:

“abc 都 a 了这么久”

动词 reduplication 是汉语常见的手段,用起来有说法:

【1】 一般只重叠一个词素(单音节),但不排除整词重叠:

“学习学了这么久”
“学习学习了这么久”

(说话说了一半,打了个叉就打这半天:咱接着练,把动词重叠的话说完。)

动词重叠有两个语义:

(1)表示回指(可以看作是有unification的并列):就是说的同一个动作事件,所带的成分不同,信息需要融合(fusion)。这是汉语句法的一个趋向,同一个动词后带成分不宜多,最好分开来说,分开说就用重叠手段。

(2)表示动词的 short duration,这不是句法现象,而是词法手段:如,休息休息;看看书;说说话。

【2】. 绝大多数多音节动词的重叠都是只重叠第一个音节

背后的原因可能是绝大多数双音节(或三音节)的动词的内部结构都是动词词素打头
结果语言共同体就形成了这个习惯,然后就泛化了,以致于甚至V不打头的(合成)动词也可以使用第一个音节重叠来做回指,这就是白老师举的例子,合成动词里面的副词甚至也就可以重叠来代指整个合成动词(把合成动词当成一个黑箱子了):

“ab 就 a 了这么久啊”
“abc a得我是灰土土脸”

不管ab 或 abc 里面是啥结构了,就用第一个音节 a 代指 ab(abc)。

但是,汉语的词法很多时候是半透明的,所以还是有人做动词重叠深入到词法内部,把其中不打头的v词素,外化到句法来重叠,这样就形成了这么个等价的 minimal pair:

“逆回购逆了好几笔了”
“逆回购购了好几笔了”

(by the way,“逆回购”这个合成词里面有合成嵌套。词典动词 “回购” 的内部结构是【副词+headV】;到了“逆回购”,结构还是 【副+headV】)。

再举几个有趣的例子:

“望风而逃也逃不过如来佛的手掌。”

“你金屋藏娇藏了几年了?”
“金屋藏娇藏了几个娇?”

不能说:* 金屋藏娇金了几年了
(所以黑箱子用第一个音节重叠的接受程度,很难延伸到3音节以上的成语)

“你金屋藏娇藏了几年了?” 这句,“你” 既可能是逻辑主语,也可能是逻辑宾语,貌似做宾语可等价于: “你被金屋藏娇藏了几年了?”

如果是 “她” 几乎就定死在宾语角色了:

“她金屋藏娇藏了几年了?”

另外,汉语合成动词的大多数是v打头,这很显然,因为汉语合成动词的词法结构不外是:

1 动宾: 洗澡
2 动补:打碎
3 并列:打击
4. 状谓:狠批
5. 主谓:头疼

123 都是 v 打头,5 成词的数量不多,主要就是 4 是副词打头。

白:
狠不狠批是态度问题

李:
“狠批谁也不敢(狠)批你呀”
* “狠批谁也不敢狠你呀”

可见 “狠” 回指 “狠批” 是有诸多限制的。至于 “x 不 x” 这种重叠式,x 既可以是动词 也可以是形容词/副词。“狠不狠” 这种选择疑问的焦点在 “狠” 上,不必解释为 “狠” 代指 “狠批”。

严打:“严不严打 全看老邓一句话。”
重判:“重不重判 要看平民组成的陪审团。”

后退:
1 后退不后退
2 后不后退
3 ? 后退不退
4 * 后退不后

总结一下,全重复永远不错,重复v词素基本不错,前重叠可重复第一音节,后重叠如果想重复第一个音节,要小心了。

白:
小心,3和4都不灵

李:
@白硕 3 “后退不退” 个人语感上不是完全不可接受。麻烦出在 “不退” 也可能是句法谓语, “后退” 成了话题主语,而不一定是 【x不x】的词法重叠式来表示“选择疑问”了。

“前进不进 后退不退 你这是唱的哪出戏?”

“后退不退 ?总司令一直在纠结中 难以决策。”
“后退不后退 ?总司令一直在纠结中 难以决策。”
“后不后退 ?总司令一直在纠结中 难以决策。”

显然后两种说法更地道 但 “后退不退” 不是不可以,至少与 *“后退不后” 不可同日而语。

白:
其实我说的“小心,3和4都不灵”的意思是:“小心不小”和“小心不心”都不灵。
后来讨论淹没了,没顾得上掰扯。同理还有:“遗憾不遗”和“遗憾不憾”也都不灵。

总感觉“ab不a”/“ab不b”格式有一种“ab可为,为不为?”的意思在里面。如果ab的到来是不受控的, 那么“ab可为”的预设就不对劲了。

李:
小心 的同义词是 “当心”,“当不当心” 你懂的。“考不考虑” 你也是懂的。“重不重叠” 我们都知其然,不一定知其所以然。还好 做 parsing 即便 over generate 也关系不大,做生成要小心了 保守一些为好。

白:
12都ok,关键是34。

李:
?“当心不当”
“担心不担”

白:
小心、当心,担心,语义差别小,34准入性差别大。

李:
说话就过年了,看到一个“绝妙中文”的段子:

可以 parse 看看:

想到:“好喝不?不好喝。喝不好 不喝好。”

“喝不好” 歧义:述补结构 or 主谓结构。again 前者偏词法 后者属于句法。

白:
喝不好,其实还有述宾结构一个选项,但很隐晦地被压制(喝读第四声)。参考一下:平行的“说不对”三个选项就都灵光了。
1: 述补结构,不能正确地说;2、主谓结构,“说”这件事是错误的;3、述宾结构,说的内容是“不对”。

之前郭维德师兄还举出过:说了算,算了说,说算了,算说了……

李:
语文老师布置作业:请用“好”、“过”、“年”三字在“吃了饺子”后面造句,谁造得快,发给谁新年红包。

小明数来宝似地一口气说下去:

吃了饺子好过年
吃了饺子好年过
吃了饺子过好年
吃了饺子过年好
吃了饺子年过好
吃了饺子年好过

学过概率又学过语言学的人就是不同:6 种排列 全顺!

【小明,这里有红包.......】

提出你知道“吃饺子好过年”有几种说法吗,结果我的朋友圈有一个学生留言道:

1. 吃饺子好过年
2. 吃饺子过好年
3.吃饺子过年好
4. 吃饺子好年过
5. 吃饺子年过好
6. 吃饺子年好过
7. 过年好吃饺子
8. 过好年吃饺子
9. 年好过吃饺子
10. 年过好吃饺子
11 过好年吃饺子
12 过年好吃饺子
13 过吃饺子年好
14 过好吃饺子年
15. 吃好过年饺子
16. 过好吃饺子年
..........

罢了 罢了 不做排列练习了

白:
还有很多:
过年吃好饺子
过年饺子好吃

李:
原因:

1.  汉语很灵活,词序比想象的要灵活许多
2. 常用词有多义或多用法 (汉语说:我裸奔我怕谁)
3. 动宾离合词“过-年”很厉害,与句法动宾“吃-饺子”一样自由,造成何种合理合法的组合

换个话题,自然还是中文计算:

“牛顿稀罕死我。” 领导回家,见牛顿(Nutan,我家的猫)在门口迎上来撒娇,不由说道,然后就是奖励它,给它 treats。


Xander左白,牛顿右黄,和平安详

经常在日常生活中听到一些自己作为南方人不会说但可以听懂的话。上面的话其实是说:我稀罕死牛顿了。可北方话为什么要倒过来说呢?

语言学讲稿中常举逻辑SVO倒置的例子有,英语的“like” vs. 法语的 "plaisir"(please),核心谓词的语义相同,但所要求的S和O正好倒置:

NP1 "like" NP2 == NP2 "plaisir" NP1
(“喜欢牛顿” 等价于 “被牛顿取悦”)

感觉 “牛顿稀罕死我”是使动用法:“牛顿让我稀罕死(它)了”。现代汉语中的这种转换必须有补语才成。一个单纯的及物动词是不成的:“我稀罕猫” 与 “猫稀罕我” 完全不同。
但 “我稀罕死猫” 与 “猫稀罕死我” 完全等价。

汉语鬼着呢。

(当然等价的前提是知道牛顿是猫,否则【human】对【human】可能产生结构二义,麻烦大了。)

“我稀罕死她”:是我喜欢她
“她稀罕死我”:既可以是她喜欢我,也可以是我喜欢她。

汉语鬼不鬼?

虽然鬼,语言学家有解读,明镜似的。2018了,不要看不起语言学家。世界上怕就怕认真二字,我们共和党人就最讲认真。一切都讲大数据,我们语言学家就最讲数据。

“我稀罕死她”也是【human】“我”对【human】“她”,为什么没有二义呢?大概是因为子非鱼,吾非她,无法知道她是不是被取悦,干脆潜意识排除这种解读。“她稀罕死我”,有所不同,虽然吾非她,但她的主语位置隐含了标配的逻辑语义解读,不好轻易排除“她喜欢我”这种默认解读。至于第二种解读,我了解我的心,自然更不能排除。这说明,一种句法结构哪怕是二义的,共同体的语言认知心理往往有一个标配(默认)的逻辑语义映射。

中文处理,没完没了,语义计算,妙趣横生,李白对话,对到年终,祝白老师和群友新年快乐,2018 咱接着说。

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【新年新决心:追求喝好酒,不求酒好喝,祝你新年快乐】


左牵白,右擎黄,老夫聊发少年狂。料理日本平安夜,鬓霜圣诞又何妨。

Merry Xmas and Happy New Year to all!


Xander(白)敏捷,牛顿(Nutan 黄)安闲,平时打闹不断,难得和气一团。

哈,那位说了,好奇妙好诡异的中文!快跨年了,咱来分析分析:

因此上,新年新决心 New Year Resolution:坚持喝好酒,不问酒好喝,向 Xander 学敏捷,向牛顿学安闲。拥抱人智学图谱,挖掘知识看语言。祝各位快乐新年!

Note:敏捷指 agile software development;人智乃AI;图谱是knowledge graph(KG);挖掘是 text mining

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【与董老师对话:什么是知识图谱?】

【立委按】非常荣幸能与董振东前辈于2018年圣诞前夕恳谈知识图谱的话题,并分享给各位。面对层出不穷的新生术语和流派,董老师谦逊为怀,不耻下问,让我受宠若惊。我的来自实践的一些粗浅见解,岂及知识大师董老师学问之万一,不胜惶惶。董老师是我一辈子最仰慕的前辈导师,他的逻辑语义学说(逻辑语义及其在机译中的应用)是我入行的导航,他的《知网》(HowNet)是探索人类知识体系结构和常识表达的一个丰碑,其价值必将超越时间和流派( 参见我写的《语义三巨人》)。在很长的时期,董老师是中国计算语言学界的旗帜和对外交流的大使,是中国第一个把机器翻译系统推向大规模实用的先驱(“译星”)。30年前在中关村高立公司兼职搞MT研发的时候,我就有幸与董老师在一起半年左右,当面聆听教诲,受惠终身。董老师鉴于自然语言系统知识资源的匮乏和不成体系,开始酝酿《知网(HowNet)》,酝酿阶段就给我讲述过其设计思想。这一做就是几十年的锲而不舍,终成正果。我出国前不久,那是1989年风波前夕,中国自然语言界在香山开了个研讨会(年会?),我的导师刘倬先生与董老师在会上就NLP所做的对话,人称“刘董对话”,成为大会热议的主题,此段掌故仍记忆犹新,【立委小传】中有记叙。如今董老师80高龄,离而不休,依然在自己家里亲自上线做系统,深入探索自然语言句法和语义解析,其精神令晚辈高山仰止。


91年出国前在高立合影留念(右下1是董老师,2是我,3是刘倬老师,4是高立CEO)

董:
请给我点启蒙:为何叫”gragh“了?不叫”KB“或”ontology“了。why Google called it "graph"? What does it mean by "graph"?

李:
Google brought it to the public eyes. Also seemingly because of the underlying data structure they used for naming their project at Google.  Knowledge base or knowledge network are too commom, and sound nothing special.

董:
接着昨天的话题--知识图谱。哪位能帮我有更多的理解。是否可以举出一个真的应用实例,来说明:在什么情况下必须用到知识图谱了,然后该系统就调用了只是图谱,于是就解决了那个难题了。这样我也许能理解了,也试试在我们的分析器里学着应用知识图谱。谢谢。

李:
可以举谷歌的例子 他是怎么炒热这个概念的。

搜索每个人都用,你给一个关键词,它回给你一系列文章的链接,这些文章与之相关,用户仍然需要浏览文章来最终满足信息需求。搜索引擎最大的优势是可以应对长尾,实际上,越是长尾罕见的关键词query,效果往往越好,这是谷歌的关键词法宝。

后来谷歌发现有一类搜索特别多,搜索的是实体名,譬如明星,VIP,好莱坞大片或世界500强。对于这类搜索,返回相关文章序列让人看,实在太粗糙了。

于是,他们事先把相关信息结构化、组织好,相互链接,存在某个地方,起了个名字 叫知识图谱。然后一旦查中,就把这整合浓缩了的,比较全面完整,并且充满相关链接的实体信息,和盘托出。结果大家都知道了,无人不说好。这就是谷歌知识图谱扬名的起点。但同样的设计理念,早谷歌十几年我们就提出,而且也实现了,实现在国防部的反恐情报分析挖掘系统中,也实现到我们的b2b品牌情报的商业产品中(参见《知识图谱的先行:从Julian Hill 说起》)。不过当时起名 Entity Profile(EP),而不是 KG (Knowledge Graph)而已。

@董振东 这应该是回答了 非知识图谱不可的真实应用的举例问题。可以去谷歌试试就知道了,然后想象当年的没有图谱的搜索结果来做比照,说是图谱的 killer app 也不为过。

这种应用只是观念上相对简单的存贮和检索,然后可视化展示。其他的图谱应用可以是回答问题,再进一步可以是通过图谱关联做一些推理。理论上,信息组织成图谱了,结构化了,就可以做很多事。

董:
谢谢,李维。再多问一句:这种种图谱,是机器自己做呢,还是人手工做呢?

李:
谷歌是购买 freebase 做为基础,基本上是手工。后来大家都说应该而且可以自动挖掘出图谱。我们当年的图谱是nlp全自动抽取挖掘的。

董:
我差不多明白了,怪不得不叫“Ontology”了。你们当年的那个如果就叫“graph”,也许今天就不是“图谱”了。而是“图解”之类了。

李:
我当年给国防部起的名叫 Entity Profile(刚开始叫 Correlated Entity,CE,也是反映了实体互相关联的本质),简称 EP,我自己不知道怎么翻译好,就译成“实体概览”。后来这个术语也还是流行了,不过到了中文,一般翻译成了“画像”,而不是“概览”。譬如,电商领域大家都谈“商品画像”、“用户画像”,约定俗成。

画像比图解还俗一点,可大家都用,也习惯了。Note 这是图谱的实体名词为中心的一个信息角度,还有另一个以事件动词为中心的图谱角度,目前还没有约定俗成的统一术语命名。MUC (Message Understanding Conference)的信息抽取共同体里面,一般称事件图谱为为 Scenario Template(ST),我归类为 Predefined Event (PE),为的是与 SVO (Subject Verb Object)为核心的 open ended General Event (GE) 比照。把 events 序列串成一个story的结果,叫做 scenario 更合适。这背后有一套概念哲学和 schema 的设计思想,我叫它信息体理论(Theory of information Objects, 参见 《科学网—前知识图谱钩沉: 信息体理论》),成型在我给国防部项目的最后报告里,此不赘述。当然人微言轻,这些思想在今后的知识图谱的发展中,肯定会被别的等价或类似的术语替代,有话语权又能让共同体接受的 往往是巨头。可以拭目以待。

董:
说得好!

李:
近年哈尔滨刘挺老师那里,开始宣扬一个“事理图谱”,似乎闹出一些动静,这就是沿着 event 这条线,概念上非常接近 scenario。事件图谱(or 事理图谱)与实体图谱,虽然二者交叉,你中有我,但事件图谱比实体图谱更难构建,应用起来也更具挑战性。一切还在 evolve。

然而,万变不离其宗。其实这一套所谓知识图谱背后的概念体系,并没有超越《知网》(HowNet)的设计哲学。董老师应该感觉欣慰,语义知识终于深入人心。主要的差别就是对于知识体系的角度有所不同,术语名词不过是皮囊。HowNet 是打语义结构体系基础的,是元知识(meta knowledge)体系,面对万事万物的本体(ontology)。 而当我们一旦进入问题领域,我们面对的不再是本体概念,而是一个个实体(individual entity)。 于是实体名(Named Entity,NE)成为情报类知识图谱的基石。但是这类图谱的背后还是 ontology,来作为其 schema 的定义和软约束:这在定义图谱的时候需要用到。

董:
很多年前,刘挺他们曾让我去他们团队,他们跟我讨论过如何建立,例如夫妻关系,在网上搜索相关的事件。这跟实体类相关一样,不从底层来,怕是不好做的。如果是就事论事,那还好,不然可没那么简单了。

我是真的不了解“知识图谱”。我想象那是更加贴近应用的东西。经你这么清楚的解释,我知道更多了。

李:
确实更加贴近应用,是应用驱动的。美国 DARPA 启动 MUC 的伟大功绩就是,把我们在NLU (NaturalN Language Understanding)做无边无沿自动句法解析(parsing)的 SVO(主谓宾)类的语义表达放在一边,重新定义了领域应用驱动的实体抽取和事件抽取(领域事件的例子有“高管变动”事件,CXO上台下台的情报)。这就把语言技术与应用场景一下子拉近了。我觉得MUC是一个里程碑。它推动了语言技术的大数据应用,创立了信息抽取(Information Extraction,IE)这个领域,也改变了我个人的职业生涯与看事物的角度。虽然主流因此不再依赖SVO做领域定义的抽取挖掘,但我们其实可以继续SVO的解析而做得更精准,更具有领域普适性,增强快速领域化的能力。这一点(以parsing支持IE)已经经历十几年的反复实践,其有效性和高质量早已证实。

董:
董强他们现在开发的“智慧判案系统”、“文本相似度系统”、“问答系统”中做的事情,是在我们的分析基础上的再开发。例如:“从轻”的根据之一是“共同犯罪”,而“共同犯罪”将是从原文分析中的“张某与范某”、“张姓嫌犯当时伙同...”等等提取的。

李:
实体图谱个人画像(很像履历表)中的一类重要关系就是人与人之间的关系,包括夫妻关系,上下级关系,其他家庭关系等。这就是一个事实的挖掘(公司里面叫 org chart),应该是数据驱动的。

董强做的也是领域数据抽取和挖掘,结果也属于知识图谱。HowNet 和 parsing 是领域情报抽取和挖掘的很好的支持。

大多数人用端到端学习来做抽取挖掘,绕过了 parsing 和本体知识库。一般来说也是可行的,前提是必须有人对这些领域情报做大规模的标注。大公司的标注团队现在可以动员成千上万的人力了(有利白领就业,应予鼓励)。尽管如此,人工标注总是一个极大的知识瓶颈(knowledge bottleneck),除非要标注的任务是单一不变,或像机器翻译(MT)那样是自然形成的(人译从来就有,因此永远有积累的海量标注在)。

董:
是的,在服务于那些搜索引擎的情报系统。其实人工标注就更好。可惜我遇到过的常常是用户不可能提供给你标注的原始数据。

李维领我入门,受益匪浅。

李:
不敢。祝董老师和全家,平安夜平安喜乐,圣诞节幸福吉祥!

1989年在荷兰,与董老师及BSO多语机器翻译项目组长合影

 

【相关】

【语义网笔记:本体与知识图谱之辨】 – 立委NLP频道

科学网—前知识图谱钩沉: 信息体理论

《知识图谱的先行:从Julian Hill 说起》

《语义三巨人》

【董振东:逻辑语义及其在机译中的应用】

【立委小传】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【尼沙龙笔记:从AI那点事儿聊到知识图谱】

洪:
老尼八卦真是勤快:
红利扑克:王劲其人-好色、背信、拍马屁

陈:
到了百度,他带去了得意手下Alex(新加坡人),某丽(美籍华人),还有旧部某栋,还接管了金牌得主大牛戴某渊。他咋啥都知道。还好没说洪爷。

洪:
的确道听途说,许多因果都颠倒了。某栋是我拉进去做凤巢,老王来了就跑路了

陈:
你也是坏淫啊

洪:
老尼八卦忒勤奋,
道听途说扒某劲。
天地或真显冥冥,
有绳有网施报应。

行:
老尼看来就主要对x劲来劲

李:
老尼不是尼克吗?
AI那点事儿,非尼老莫属,有道是:

尼老老尼拧不清,
AI 八卦两争雄。
一神一鬼一冰冰,
老道洪爷说分明。

洪:
我以前跟人总结说,某栋来助一臂之力做凤巢(其实他原来是edward chang下面做social network机器学习推荐算法的,也不是做广告的),某度尝到了招谷里人的技术甜头。过了一年凤巢都上线了。隔壁老王带俩管理的人他们才来,本来老王允诺要来的技术专家某Paul被腾讯截胡抢走了。就这样,技术甜头成了管理毒药。

“尼”真是好字,谁粘谁

李:
洪爷不出山写本英雄传,正本清源,可惜了。看尼克形单影只孤身奋战,谣言比八卦远行 ---- 唯冰冰永存。

洪:
都是江湖破事,不值得写书。悠悠万事,唯此为大,还是AI为重。

李:
认真说,我对历史八卦兴趣不大,倒是非常好奇这一波AI热如何收场,我们都是不同程度的吹鼓手。泼冷水偶尔为之,但总体大多推波助澜,可三年、五年、八年之后究竟如何呢?有点害怕。“谨慎乐观”感觉上甚至都太乐观了一点。万一历史循环,AI 打入冷宫,不受人待见,我们这拨人要想等下一波的AI热,是没戏了。到时候,我们人人都可以学个星座,做八卦家,把酒话桑麻,对着资深女神冰老太,哼着AI小曲儿:商女不知亡国恨,隔江犹唱后庭花. .....

唐:
以中国干大跃进的精神,这次AI肯定吹过了。

李:
问题是:这次大跃进可以不可以软着陆?省得鸡飞蛋打,大家伙儿都成了殉葬品。

张:
现在政府把AI作为政绩,如果谁谁引进国际知名专家(比如太湖洗澡蟹从阳澄湖捞出来)然后成立一个联合研究中心,各大园区可以给几千万到一个亿。各位大咖赶脚的,过这村没这店了。

洪:
AI落到实处就跟数据库似的,休要担惊少要害怕@wei

唐:
AI都经历过两次寒冬了,第三次来了也不怕。尤其是打算做AI芯片的,寒冬时做才能踏在前人的血迹上前进。

洪:
年轻人挣房钱奶粉钱,院士们挣名利,政客挣中国梦,……,各得其所

尼:
@唐 寒冬时也没见你做啊。

唐:
我上次做的也是NPU。

洪:
NP了您啊。

李:
@洪 AI落到实处就是知识图谱,可不就跟数据库似的。我心戚戚呀。洪爷火眼。

董:
@洪 真正的明白人,深刻、看得透。

唐:
知识图谱不是很难表达有条件的知识吗?要想快速落地,我觉得还是规则库靠谱。

李:
那就结合呗,横竖都是库。 库啊、谱啊就是个筐,啥 AI 都可以往里装。

唐:
关键还是几个数据库之间的join比较难做?在工程实践当中还是有点难度处理的。

李:
现如今图谱好听,就叫图谱,里面可以有 unigram 知识,bigram 的关系,if then productions (所谓产生式),甚至 prolog backtracking,......

董:
如今流行的“知识图谱”是怎么告诉计算机:“什么是‘有/‘have’’?

唐:
Prolog缺的是现在大数据最擅长的统计学知识。很多知识是动态的。例如:过去五天工作日的平均值,这个知识图谱无法表示,需要动态地计算。

李:
唐老师的视角还是太技术细节,太工程,技术上的实现与打通终归是可行的,只要哲学不错,实现上有的是能人。认真说,从万米高空俯瞰知识表达,没结构的知识就是传统词典,里面除了入口词,output就是各种features,那是通向ontology的门票。有结构的知识统统可以叫图谱(graph,广义),包括 svo(open domain 的碎片事件),包括 ontology,里面分常识 (HowNet,cyc)与领域知识(譬如“产品目录手册”),再里面可以区分简单知识,与经验型推理知识,后者也可以涵盖从大数据挖掘出来的 if then scenario,以及 hidden links,它们不再是碎片化情报,也不是大数据显性表达的事实(已知信息),而是蕴含在千千万万事实里面的 correlations,是 derived 出来的新知识,积淀为领域场景经验的形式化,这是对领域本体知识的一个动态补充,可算是图谱事业最前沿的研究了。大数据挖掘出来的过往trends,可以是对未来预测的很好的输入。

最后,也是最核心最基础的,就是情报类知识(知识图谱的本义,或窄义),也是静态语汇为基础,不过入口词大多为实体名(named entities),里面就是实体间关系(relationships),然后就是事件(events),事件串起来就成了story ......

唐:
大体上就是这些知识。 综合起来是一项复杂的工程实践。

李:
有了story 就好说事儿了。有句名言(到处都是这大标语),云:抬头讲故事,低头思故乡 ......
oops 低头干实事儿。

唐:
我们现在就在做。领域知识+安全情报的结合。 发现这主要是数据清理的活。

李:
清理极端重要。不过听上去不够高大上,给人感觉就是个扫大街的。唐老师是实干家。

唐:
被逼无奈,以解决问题为主。

李:
知识(图谱)的事儿 的确是一个巨大的系统工程。这方面 还真应该赞佩一下 IBM,他们懂得怎么把混杂的知识捏在一起,成就一个计算机博物馆里的里程碑事件(博物馆有几个AI里程碑展厅,其中一个就是IBM花生系统在知识问答TV竞赛中击败人类)。当然 人家也有那个财力和底气。

洪:
@wei 这两天我献给你一个打油偈子。

李:
打油在哪儿?我不怕打油 ..... or 被打油。

洪:
@wei 我还在酝酿啊,从你翻译的ken church的钟摆开始说起。

李:
从来没有耐性做翻译,但那篇太经典,是@董振东老师给我特别推荐的,最后下定决心翻译出来。以对经典的虔敬心理,字斟句酌,旬月踯躅,有些细节反复与 Church 电邮请教商榷。董老师也做了审阅 ,终于成篇。【计算机通讯】发了后,貌似没有动静,毕竟与主流的调子不合拍。后来被一个叫《机器之心》的转载,才似乎传播开一点。人智八卦大师尼克也点了赞,NLP 的钟摆,就是 AI 起落的实例。

NLP主流反思的扛鼎之作: 立委译《Church:钟摆摆得太远》(全)

郭:
@wei 这篇现在看,写的早了些,缺乏对深度神经的洞察,因而现如今不容易触动人心,还不如一句“炼丹术”激起千层浪。

李:
天不变道不变,天变了道亦不变,是为经典。

其实 Church 写完后颇落寞,根本没啥动静呀。新锐不理他(机器学习老一辈不吃香了,新一代深度学习小牛成长起来,此一时彼一时,长江后浪推前浪啊)。他是统计派老革命家,我写信问他深度神经与AI钟摆的关系,他回说:看样子钟摆的理性主义回摆还要延宕10年,这波深度神经热潮够他们忙一阵子了。

是啊,人类本性,不触礁,不回船。现在呼吁两派革命大团结的,大多是老司机了。他们辉煌过,也触过礁,知道AI和NLP的深浅,而且忧国忧民,不像初生牛犊那样高歌猛进无暇他看。

写这句结语的时候,在我心中,老司机就是李航这样的,而初生牛犊 我也见过几个 那真是满满正能量,AI 乐观主义,很感染人:新锐AI技术领军,单气势就招人喜爱。在他们面前,老朽不知道说啥好了,先道天凉好个冬,再道冬至饺子香(南湾有个同同手工水饺,昨晚去那叫一个门庭若市)。

在最近的中文信息学会年会上,李航和我都被特邀做了报告,我谈中文NLP的迷思及其化解之道,顺带批判乔姆斯基搞砸了符号逻辑和规则系统,李航强调的是知识记忆,觉得这是AI的未来,因为目前AI主流大多是端到端,老熊掰棒子,没有知识积累,知识都是从带标大数据现学的,换一个项目,一切重来。李航 argue 说,这不是人类的知识学习方式。我问他,难道知识图谱不是知识积累和记忆吗?他说,也许我说没有记忆和积累是 overstatement,知识图谱的确是积累并且可以跨项目重复使用的。但他又 added 说,但大多数系统是不用知识图谱的。他说得对,知识图谱作为话题虽然很热,但真正用知识图谱做系统应用的人目前很少。但我个人认为,未来应该是个大方向。

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

 

【李白81:某些人的讽刺与挖苦】

白:
比如“他可不像某些人,吃着碗里的还惦记着锅里的。”逗号后面那一串的逻辑主语是“他”还是“某些人”,通过sentiment的撮合就知道。
“他可不像某些人,对待大是大非问题还是很清醒的。”这时,逻辑主语就反过来了。
“不像某些人”引发了一个同时给逻辑主语贴正面标签并给“某些人”贴负面标签的操作。

李:
语感上,“某些人”一用,就有影射的嫌疑,就隐含了被批判和作为反面教材的负面sentiment,即便“某些人”被确定 associate 到点赞的语境,很可能是一种讽刺,其实质就是高级黑。因此,词典里面可能就要给“某些人”绑架某种原罪的负面种子。因为原罪,如果正面描述有两个可能 associate 的实体,“某些人”应该让位(白老师上例2);如果负面描述有两个可能 associate 的实体,“某些人”则难逃其咎(白老师上例1)。结构歧义因此消解。

白:
当萝卜填坑没有头绪时,天边飞来的sentiment就是救命的稻草。

李:
其实心里是要吐槽张三或李四的,但人的话术使得“某些人”成为代指性替死鬼。

我做过多次的 sentiment 讲演 几乎每次QA时,都有人提问,你们怎么对付讽刺挖苦和说反话?

白:
坑是“角色提供者(role provider)”,萝卜是“角色扮演者(role player)”。词典也好,分析的动态过程也好,都会给二者各自加载一些标签。标签无矛盾地互通有无,就是“合一”。合一背后的逻辑设定就是“奥卡姆剃刀原理”,即“如无必要,勿增实体,勿减标配”。甚至,强语境下,有矛盾地互通有无也是可以接受的,矛盾转化为反讽。

李:
电脑可识别反话正说吗?我的回答是:

1 很难。甚至“木”一点的人 遇到精明人的讽刺挖苦也识别不了,反而觉得受宠若惊,这种事例并不鲜见。

2 但某些反话是有迹可循 可以形式化捕捉的。上面这个“某些人”就是一种蛛丝马迹。还有 感谢+负面描述的pattern 也是一种讽刺:

“谢谢你坑了我半辈子!”

这是感情破裂心怀怨恨的女人分手时候常说的讽刺急愤的话。对比正常的感激赞美的话: “谢谢你的爱”。

白:
当然可以。“屠戮妇婴的伟绩”,一虚一实,虚的中心语,实的修饰语,中心语正面,修饰语负面。实际上修饰语是带预设的,“v的n”预设“v的发生是板上钉钉的。
“感谢你八辈祖宗”是一种“移花接木”,把正面的头载在负面的桩上。谢谢你v,这v也是预设事实。预设事实为负的话,任你前面的帽子怎么正,都是枉然。presupposition决定基调,帽子决定色彩。

李:
关键还是虚实。thanks 这种感激是 emotion category,属于情感分析中 subjective 的正面情绪,主观的属性为虚。v 在sentiment 分析中是具体的 objective 的负面行为,客观属性为实。实充当虚的依据,客观信息是主观情绪背后的理由,回答我什么喜欢(高兴)或不喜欢(不高兴)。因此二者的正负指向通常是一致的。当二者不一致的时候 就构成了讽刺,虚让位于实。

白:
有时“实”体现在语境中,见诸语言的都是“虚”。比如某电影里,“皇军好,不杀人不放火不抢粮食,你看这有多好!” 台词里没有说到杀人放火抢粮食的“实”,这些“实”都是在电影情节里体现的。

李:
顺便一提,标题这种语境很各别,往往故作歧义或疑问,所谓标题党就是其极端表现。本文标题【某些人的讽刺与挖苦】里的“某些人”已经不是代指的词了,“某些人”实际上是 meta token,指的就是这三个字构成的语词,语义为:关于该词的讽刺与挖苦,而“讽刺挖苦”的主语宾语两个坑虽然都要求的是【human】(“谁”讽刺挖苦“谁”),但“某些人”却既不是主语,也不是宾语,而只是关联成分。当然,不读文章是很难明白的。

梁:
@wei  若我是编辑,就将标题改成 【“某些人”的讽刺与挖苦】,是语言学家讨论说“某些人”时的情绪,对吧? meta 了一下。

白:
伟哥故意的。

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白毛洪80:驯兽散记】

李:
@毛德操 说点做开放系统的真实体会,这个体会你可能有呼应。

毛:
我一直都赞同你的呀。所以我劝你写成书,经验之谈,加上理论上的洞见,对后进学子将大有帮助。特别是,当钟摆又摆回来的时候(见【立委译《Church:钟摆摆得太远》(全)】),你这个就宝贵了。

李:
先说针对封闭系统做模型,因为对象是封闭集,可以做到逻辑的完整性,现象 cover 的完备。面对开放集,尤其是自然语言这样的monster, 情况有所不同。大的思路框架和方法论是需要讲究的,但架子里面填血填肉就无法“搞计划经济”。不说摸着石头过河,也差不了太多。很多时候就跟拼图游戏似的,拼拼凑凑,蚕食桑叶一样试图分而解之。

今天从方法论上认真想了一想,觉得拼图或蚕食的路数还不是很确切的比喻,因为二者都没有“厚度”和冗余,只是把一个二维空间填满。实际的情形还有一个pipieline的时间维度,一个“数据流”的顺序在内。

毛:
好啊,要是把数据流的思想和技术结合进去,咱俩就更有话可谈了。

白:
RNN比较体现这个“流”

毛:
有道理。而且RNN不是那种DAG形式的简单数据流。

李:
为了把自然语言这个其貌不扬的毛毛虫(参见【白硕- 穿越乔家大院寻找“毛毛虫”】),模型出个比较逼真贴近的人模狗样来,实际上的工作更像是用橡皮泥在“流”里面一层一层贴面。

每贴一块,重复无用功居多,有用的就是那么一小块儿。可是不能因为有无用功在,就不做这个重复面很大的活儿。换句话说,从方法论上,面对一个 monster,斩不了他的胳臂,就剁他的手,剁手不成先伤其一指也好,活不厌细,活不厌早,最终才能征服他。

在一个pipeline中,条件总是慢慢具备的。不能因为条件只有越到后面越完备,前期就碌碌无为,因为在有限条件下做活儿本身,不仅是完成了部分任务,也同时贡献了条件。因此勿以善小而不为。

白:
i-1肯定不是也不如i,但是i-1不作为就肯定没有i。

李:
正是。具体说就是,如果一个现象在早期可以处置,但是因为条件不好,需要严格限制其范围才不至于 overkill,同样的现象在后期条件好的时候,可以放开一点,做得漂亮一些,做得更具备逻辑完整性和完备性。经验告诉我们,不能因为后期的工作貌似可以涵盖前期的limited的同类工作,因此就不做。面对一个不复杂的对象,当然不必做这种重复而且也做不全的前期工作。但是面对魔鬼,我们还是尽早能做多少就做多少,机不可失,即使时可再来。因为这个貌似重复的小工作也许的确是涵盖在后期的工作中,但是我们其实不知道:(1)在前期到后期的过程中有没有什么幺蛾子出来;(2)即使这本身是完全的重复工作,几乎肯定会在下一步或下几步被涵盖,这件工作对其他相关的周边的事儿可能是有用的,起码增加了确定性(规整性,行话说减少了系统的内熵)。

人有一种精简和概括的冲动,人也总是希望自己不被看成傻瓜,避免重复就是精明的一个表现。但是,面对魔鬼,用力上傻瓜一点其实有好处。当然前提是,那个傻气的活儿是增加了确定性。换句话说,早期工作只要心里觉得是 high precision,不管 recall 多低,都值得去做。high precision 最简单的办法就是把条件收紧,在早期说白了就是一个 local ngram 的拿捏。爱吃红烧肉的毛老最清楚,虽然吃一点肉末不如吃一块完整的红烧肉那样鲜美,但肉末也一样解馋和营养。关键是肉末就好比开胃前菜,吃了它为后来的红烧肉大宴做好了前期试点。

总结一下,能做多少做多少,能早做不晚做,不怕重复,不怕冗余,不厌其烦。毛毛虫就好比一个窟窿,可以用橡胶泥反复去补,层层叠叠,最后把这个窟窿补得严严实实(recall 最大化,但不损伤 precision),虽然窟窿的有些地方是补丁摞补丁,不知道被泥了多少遍。这看上去绝对不是一个漂亮的系统,但却是现实的鲁棒的,敢于面对复杂对象的。

毛:
毛毛虫模型的核心,就在于虫子的长度大于乔姆斯基的直径,即使把它盘起来也容纳不下,总归会露头露尾。所以,问题在于怎样分而治之,乔姆斯基的归乔姆斯基,露在外面的就归别的方法(深度学习是其中之一)。但是我认为抛弃乔姆斯基肯定是不对的,关键在于如何补上用来对付露在外面那部分的方法,并与乔姆斯基整合。@wei 的深度解析就是走在这条道上(白老师也是),我认为很有价值。

李:
@毛德操 其实我的体会是,毛毛虫模型的核心是毛毛虫的扁度超出乔姆斯基及其追随者的想象。乔老爷挥舞大刀,风驰电掣,貌似凭空垒了这么个大院,实际的效果是让许多人画地为牢,以为自然语言就是牢的模样。那太粗线条了,而且院子显得空荡荡的,就好比一个瘦子穿上了宽大的衣服,怎么看怎么不像。

白:
慈禧穿的衣服也没型

洪:
语言工程不唯美,
泥瓦工匠汗水挥。
修补老乔也不累,
茅庐破屋别递归。

毛:
我认为,纯粹的深度学习只能训练出文盲老太太,阅人无数,也知道一些新名词,但没上过学,不懂推理。人总得上学,而学校教的就是符号推理。老太太再是阅人无数,也不会懂 f=ma。

白:
伟哥说的这个时间,是针对开发而言的时间,具体体现就是版本。其实针对运行,也同样有时间维度和流进行迭代的“微版本”。

李:
应邀到北大做了个纯学术的演讲。北大在我们小时候的心目中是何等高贵,从来都是仰望。年轻时进去拍照留念过,羡慕死里面的才子佳人了。进了社科院,貌似与北大近了些,同学同事中北大人越来越多,开始沾上仙气。进象牙塔论道,入乡随俗,就西装革履一些散发点书香味道吧,绝不敢拿大数据忽悠。大数据可以忽悠哈佛(几年前曾应邀去哈佛医学院讲过大数据),却不能忽悠我心中的圣地北大。还有北大的三角地。

【内容提要】
乔姆斯基1950年代末提出的形式语言理论及其层级体系是计算语言学的基石。然而,长期以来,计算语言学界的自然语言处理(NLP)践行者,越来越远离乔姆斯基学派。演讲回顾计算语言学的历史,分析该领域一分为二渐行渐远的足迹。过去30年是NLP主流学界以经验主义取代乔氏理性主义的一代。乔姆斯基对于 n-grams 的批判,没能阻止统计学派利用 n-gram 模型在自然语言领域取得的巨大成功。另一方面,学界的理性主义符号学派日渐式微,究其原因,这与乔姆斯基理论的负面影响有关。乔姆斯基对于自然语言的所谓递归本性的论述,以及对有限状态机制的鄙视,深深影响、束缚并牵累了一代学人。在深入梳理乔姆斯基体系对于自然语言模型的关系之后,演讲最后论述并展示了符号规则学派对于自然语言深度解析和理解的创新和实践。

毛:
最好能有个录音,这样我们也可听听。不行的话退而求其次,整理一个文字稿。

李:
毛老知道,一个演讲哪里会深过两年的恳谈?对于您,这都是立法委员的陈词滥调了。说话已经在尼克群和白老师群促膝整两年了。

毛:
我刚才出门了没看见。立委你真的应该好好整理出一份东西来(叫什么并不重要,讲稿/讲义/概论/指南/导论),系统地讲讲你的见解,然后找个出版社。@立委 你上面的内容提要就很好啊

李:
不知不觉就讲了两个小时,结果只有时间回答一个问题。我本来是要留半小时以上做答问的,想让讲座 interactive,结果一开了话匣子,就忘了时间,很对不起听众。卫东老师主持,也没好意思打断我或提示我。下次类似讲座要小心了,其实还是答问更有意思,也更容易发挥,或借题发挥。很多年不上讲台了,还是经验不足。

邓:
你干货太多。现在这么讲的人不多了。

马:
@立委 你讲座太有激情了。

白:
伟哥讲的一定比发出来的多多了。

李:
@白硕 借用推介了白老师的毛毛虫理论。

Nuva:
内容太多了,每张slide都需要细读

郭:
@立委 你讲座太有激情了。+++
你一定又觉得“我没讲几分钟啊”。

李:
尼克的书我最爱读,尤其是冰冰助理过的。

好多年不读纸质书了,但尼克的《哲学评书》和《人智简史》除外:那是可以一边品茗,一边遐思的。

尼:
@wei 多谢捧场。此冰非彼冰。

施:
为了突出冰冰把白老师和吾等一概屏蔽

李:
羡慕啊。有样学样,哪一天我要是撞了狗屎运出书了,也要来这么一桌酒宴。就怕到时没人捧场,我就拉@毛德操 做炮灰。毛老是本本主义的信奉者。

马:
先预定一个位置

李:
马老师不可食言,这可是动力之源。

马:
@wei 绝对的

李:
山不在高,有仙则灵。酒不在醇,有书则赢。一本书主义与一杯水主义,有的一比。当然,尼克和毛老都是n本书主义了。

毛:
@wei 早就劝你动笔,你这扭扭捏捏的。到时候,席上必得有红烧肉伺候,俺连干三杯。书名都给你想好了: 《Ruminations on NLP》

虎:
我给伟哥定个书名:tame of NLP 驯服自然语言处理,俗称你老婆驯火记

毛:
本本主义不能一概而论,这有两种不同的情况。第一种是功成名就意气风发,于是嬉笑怒骂皆成文章。我二师兄就属于这一种,伟哥当然也是如此。第二种是穷极无聊,看着别人发财的发财,成名的成名(也有升官的升官,但是较少),自己却什么也干不了,唯独在自己电脑上打几个字还是可以的。我就是这种情况。

洪:
伟爷驯服NLP,
狮吼河东至河西。
Deep Parsing深见底,
看破老乔卖手艺。

李:
洪爷好诗,句句受用,飘飘然也。

 

【相关】

【NLP主流反思的扛鼎之作: 立委译《Church:钟摆摆得太远》(全)】

【白硕- 穿越乔家大院寻找“毛毛虫”】

【李白之39:探究自然语言的毛毛虫机制】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白79:中文深度解析的地基是词法分析器】

白:
“我电话费用不完”谁家分词系统强?

李:
这不仅仅是“分词”问题,而是词法分析(morphology analysis)问题,对比:


Note: M=Modifier, S=Subject, H = Head;
N=Noun, NP=Noun Phrase, AP=Adjective Phrase, CL = CLause

这里,“不”(还有“得”)是现代汉语的中缀(infix),派生词构词法如下:

用完 --》 用得完
用完 --》 用不完

而三元组“用不菲”却不成词:

“用不菲的价格购得”。


Note:M=Modifier, R=Adverbial, X=Functional, H = Head;
N=Noun, NP=Noun Phrase, AP=Adjective Phrase, VG=Verb Group, PP = Prepositional Phrase

白:
不菲 应该成词吧,不完 不该成词。

李:
对。但是 “用不完”成词,是派生词。上述词法分析除了派生(derive)了这个词,而且得到了这个派生词的分析结果:

(i)原词:“用完”
(ii)原词词典“绑架”的词法结构:述补
(iii)词法特征:【否定】【结果(述补结构)】【可能(情态)】

这不是切词,这是以派生的方式做词法分析,对比同为情态的等价表达“不能用完”:

(i)头词(Head):“用完”
(ii)句法短语:VG(动词组)
(iii)词法特征:【否定】【可能(情态)】

特别有意思的是,“用不完”的构成不是 “用” 与 “不完” 的拼接(concatenation),而是 “用完” 与 中缀“不”的派生式构建。这不是语言学上的合成构词法(compounding),而是派生构词法(derivation)。由于汉语被普遍地粗线条指认为缺乏构词法手段的所谓孤立语,大众一股脑把所有的构词都叫作 compounding(也叫“小句法”),但是现代汉语其实不是这么单纯。欧洲语言的构词手段大多在现代汉语也有体现,包括 类词尾(quasi-inflection)如表达完成体的“了”,也包括利用类缀(quasi-affix 如前缀。中缀、后缀)的派生(derivation),以及大量使用的重叠(duplication)构词手段(如:高兴--》高高兴兴)。我的博士论文对这些现代汉语的词法(morphology)现象及其计算机处理,有详尽论述,语言学味道浓一些(见:Ph.D. Thesis: THE MORPHO-SYNTACTIC INTERFACE IN A CHINESE PHRASE STRUCTURE GRAMMAR)。

现在已经清楚,为了中文自动分析,所谓中文分词,不仅仅是把要词“切分”出来, 而是应该输出白老师所说的微结构及其词法特征(时、体、态等)和句法特征(如类别、子类等) ,除此之外 还要通过“词典绑架”输出语义特征(叫 lexical semantic features)及其背后的本体知识层级体系(类似于董老师的HowNet,内含常识)。这样的词法分析器(lexical analyser)才算是完成了词法任务,为下一步的句法分析和语义分析打下基础,从而为汉语的深度理解开辟了道路。

所谓实体识别 (NER),属于合成词范畴,也是题中应有之义。还有 Data Entity 的合成,譬如各种度量表达法(长度、体积等)也是合成词。当然也要包括与句法纠缠的离合词(“洗澡”)的识别和绑定。

中文深度解析(deep parsing)的大楼不是凭空可以建造起来的,词法阶段就要夯实。

白:
“用不完”搞成词没啥意义

李:
这个没的争的。根本不是什么“搞成”词的问题,而是词法分析的问题。说到底,这个中缀的词法意义必须抠出来,因为它是 open-ended,绑架不全。最终系统要知道 “不能用完” 与 “用不完” 不过是用不同的词法句法形式,表达相同或相近的语义。否则何谈语言理解(NLU)?

白:
“用不完”在句法层次一样处理。放到构词法层次,难不成就是为了凑一个长词优先?

李:
句法与词法本来就是一伙的,从万米高空俯瞰,都是形式分析。句法如果能分析出词法分析同样的结果,亦无不可。以结果论英雄。但语言学上,它就是一个派生词,这个没有多少疑问。其实,“凑成一个长词优先”不仅是词法的“凑”,背后有其所以为词的原因在。词法句法在中文纠缠,并不说明二者没有顺序。顺序的一个体现就是长词优先。

白:
好的分词系统,即使“用不完”分成三个词,总体得分还是占优的才对。

李:
如果较真的话,中缀现象在通常的句法里面还真不好处理妥善。我们可以用近似、逼近的句法去处理中缀,但派生词的处理在词法是一个常规的过程,是词法里面避不开的一类。

白:
“我电话费用也用不完”

李:
这与沙滩望远镜看女孩有点异曲同工(自注:这是NLP领域最著名的代表结构歧义的例句:I saw a girl with telescope.  句末介词短语做 girl 定语,与做 saw 的状语,二者都说得通,是为“真歧义”)。这种人为的真歧义(1. 我电话费,用也用不完; 2. 我电话费用, 也用不完),系统怎么做都不能算错。理想的情况是输出两个结果,但人脑理解貌似也是先绑定一个结果(不同的人可能绑定不同的路径),有时间咀嚼的话,再想到另一个结果。人际交流和理解中,多数人不拘小节,根本不在乎这种歧义区分,除非是遇到较真的人,或在段子里。问题是,就算一个高明的系统可以区分这种较少出现的“真歧义”与大量存在的“伪歧义”,下一步接不上还不是白费。还不如就绑定一个。

“v 也 v 不完” 这种重叠手段与派生手段纠缠的汉语现象,不是应该把 “用不完” 置于句法的充分理由。首先,这种纠缠现象非常局限,基本上还在词法范畴内部,不像离合词“洗澡”,已经明显溢出到句法了,经常是“远距离”离合,那才真地需要词法(包括词典)与句法有一个灵活的接口。

白:
“电话费用不用得完成任务了再说。”

允许“用也用不完”成词,那就得允许“用不用得完”也成词吧?其后果是,即使“完成任务”算一个词也压不住了。

李:
压不住就不压呗。弯不过三。压不住的,基本上是长尾的尾端。

白:
这不是自然的压不住,是人为的压不住。不把那东东搞进词法就没这事儿。不是天灾,是人祸。拿解释天灾的逻辑解释人祸,欠妥。

李:
关于词法、句法,对于多层系统,就是一个连续体,有顺序,但没有一个黑白分界线,这与教科书里面的词典、词法、句法、语义等组件的各自完全独立不是一回事儿。
譬如说 1层到10层是黑色的词法,20层到40层是黑色的句法,但11层到19层呢,那就是灰色地带。可以说是词法后期,也可以说是句法前期,安排什么现象到灰色地带,是根据现象的特性来决定。因此争论某某是扔进词法还是句法这样的问题,前提的假设就是两个前后模块,而不是离散又连续的多层系统。

撇开抽象的模块分界,真正有意义的问题是,“凑成一个长词”(并参加分词大餐)是好处大于坏处还是相反?其实,答案是相当清楚的,利大于弊太多。与其指望一个“聪明”的分词程序来应对 “v -也(都)-v-不-完”这个五元组,不如把“长词”做出来心里踏实:这样再“笨”的分词程序也不至于出乱子。五元组分散开来进入分词所可能造成的副作用,较之合成了五元组长词(并同时做了词法分析)可能引起的后续的切分问题,前者比后者严重得多,也频繁得多,根本不是一个数量级上的问题严重程度和频繁程度。因此,恕我直言,白老师的“人祸vs天灾论”或者是唯心的,或者是误导的。

白:
关键是长词是什么时候做出来的,我很赞赏前面说的灰色地带的说法。长词是句法分析介入以后做出来的。做出来以后就可以反悔分词方案。这样分词和句法两方面就都是可控的。走的路线类似分词1-句法1-分词2-句法2………这种。

李:
有道理。不过白老师举例来说的人祸论实在不能让人心服。事实上,分词系统免不了要用 heuristics,对于每一个heuristic,无论如何表达,也无论如何安排先后次序及权重永远可以找出反例来,这是 heuristic 的本性。但我们最好不用(罕见的)反例来结论某种安排是人祸。如果不那样安排,这个人祸是避免了,另外一个更大的人祸很可能就在身边,因为所谓“没有了人祸的更高明的方案”其实并不能保证周全。这不是说方案与方案之间没有优劣,而是说,门户之见很容易让我们看到别人方案的缺点,忽视了自己方案的副作用。

白:
可以有一些另外的表述,比如结构冻结,比如分词永远在进行时,都能让人更好地理解所说方案的建设性。人贵在举一反三。如果从反例中只能看到个别、长尾、噪音乃至门户之见,那很可能就忽略了真正有意义有价值的问题。

李:
对,道理是这样的。不过,直觉还是很担心五元组进入分词程序的。晚上睡不好觉。汉语是二字词为主,五元散列的情况让人心慌,老觉得会当成外国人名给打入了另册。如果v是二字词,则另当别论,可以句法处之:“反正学习也学习不完”。换句话说,不是不知道这个现象可能需要句法:即便五元组参加了分词,同样的组合在句法还是要重复一遍,否则上面的7字组就不能做统一的分析和处置。这算是支持句法处置的一个可以接受的 argument,但是,词法结构规则在句法重复,听上去不经济,实践中个人认为并不是问题。多层系统的框架下,重复的不止这一项,否则也解不了乔老爷的递归魔咒。

刚开始入行的时候,老想着 generalizations(语言系学生的通病,被教授洗脑了,一直以 generalization 为语言学家天职),总是避免规则的冗余和重复。后来有几次看到了机器学习出来的符号规则,重复冗余简单到无语,反而受了启发。如今对重复冗余的耐受强多了:只要简单,何妨啰嗦,完全抛弃了铁路警察各管一段的理念。现在是词法做了句法做,句法做了到语义也不妨再做,螺旋式上升,相互照应,只要为了一个共同的目标就好。

 

【相关】

Ph.D. Thesis: THE MORPHO-SYNTACTIC INTERFACE IN A CHINESE PHRASE STRUCTURE GRAMMAR

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白78:毛主席保证】

李:
“毛主席保证。”
这句口头禅是到北京后学会的。

白:
至少40年前就有这话

李:
我范进中举进了京城,可不就是三四十年前嘛。

以前在外省的时候,我们偶然也说:

“(我)向毛主席保证”

“我”有时候省略,但从来不省略“向”。进了京城,乍一听诧异,再一听别扭,久而久之 反而觉得别致有味道:京片子“裸奔”(参见【汉语就是一种“裸奔” 的语言】),还是比咱乡下人放得开。连对神一样的毛主席, 也照样裸奔。不明不白,把毛陷于非施事非对象的模糊尴尬地位。

毛主席保证,上面这个对毛主席裸奔的故事,句句是真。但为什么不索性省略说:

“毛主席保证,上面这个毛主席裸奔的故事,句句是真。”

因为即便裸奔 也还是要达到交流的目的。所有的内衣都脱掉是不行的。如果省掉了介词 “对”,毛主席就是裸奔的人(【施事】)了。造谣污蔑伟大领袖搁文革那会儿,是要杀头的。

毛主席没保证,我们可以说毛主席保证。毛主席没裸奔,我们不能说毛主席裸奔。说到底就是习惯表达法的绑架原理,这就是约定俗成的真意。名无固宜,俗成了,任何记忆住的符号串就可以表达任何意义,不顾文法,不要逻辑,不讲道理。

为什么NLP闹了这么多年,各派各路不可开交,但有一点是大家心知肚明的共识,就是 词典主义 (lexicalist approach) ,不管以一袋子词统计模式的形式,还是以词专家 (expert lexicon)的符号形式。总之,词典主义高于(抽象)文法,词典王国就是那花和尚,完全可以无法无天。

白:
其实不是没结构、不讲结构,而是固定用法捆绑了一个微结构。微结构不需要讲逻辑,是因为它的逻辑不需要分析,只需要呈现。而且不光在词汇和构词法的独立王国里活动,其能量经常外溢。

李:
外溢的例子,离合词算一个:绑架的词义,外溢到句法了:

“洗tm什么破澡?不洗!连个喷头都没有。要洗 就洗星级饭店的澡,这不带星的澡,真心没法洗。”

 

【相关】

科学网—【泥沙龙笔记:汉语就是一种“裸奔” 的语言】

【语义计算:李白对话录系列】

《朝华午拾》总目录

《朝华午拾:外婆的回忆》

我的外婆去世已经34年了,可她老人家的慈祥音容仍时常浮现在眼前。

作为医生的父母工作太忙,所以第一个孩子一出生外婆就来帮忙,从此看顾我们三个孩子15年,直到她去世。据说我哥哥小时候不老实,外婆只好摇着摇篮,哼着催眠曲,不敢稍有懈怠,有时候一个瞌睡过去,摇篮牵绳的手一停,他便大哭大闹。外婆说,这孩子带得太辛苦,到两年后我出生的时候,她还后怕。没想到,我小时候乖极了,从不哭闹。就是可怜兮兮的,老害病,每病必吐,常伴有高烧。还有夜盲症,最要命的是脱肛的毛病,每次入厕十分痛苦,一片狼藉,外婆要小心翼翼把脱肛顶回去。外婆一辈子生养过10个儿女,夭折过半,看我这样子,老担心我活不长。还好,因为是医生家庭,有病能及时处理,加上外婆的悉心照看,我慢慢度过了病孱的童年。有外婆照顾的孩子是幸福的,外婆总是把家整理得井井有条,热饭热菜,我们的童年无忧无虑,父母也因此可以没日没夜全力扑在工作上。

外婆是旧式妇女,小脚,没念过书,少言寡语,性情温和,从来没见过她发脾气。外婆的生活十几年如一日,足不出户,刻苦本分,与世无争,街坊邻居无不夸赞。每天一大早,天还没亮,外婆就起床,开始梳洗,她总是把自己收拾得干干净净,开始一天的劳作。看孩子,做饭菜,一刻不停。稍有空闲,她就坐在门前纳鞋底。她把碎布条用浆糊黏上晒干,一针一线纳成结结实实的鞋底,我们全家大小的布鞋都是她老人家做的。一直到她去世,留下的一大箱鞋底,我们还穿了好几年,后来才开始买塑料底的成品鞋穿。

父母每个月给外婆三块钱,作为我们孩子的零用钱。外婆手很紧,因为她要保证这零用钱维持三个孩子到月底。记得每天可以从外婆那里讨来两三分钱,我常常到街头买来一个热腾腾的小红薯头,回家跟小妹分享。这个故事我跟女儿讲,她很爱听,不时拿出来说笑一番:when you were my age, sweet patato was only two cents a piece and you always asked Granny, that is my Great Granny, for two cents to buy one and share with my antie GuGu, but never with my uncle DaBai.

记得文革初期大串联的时候,爸爸妈妈也随大流去上海杭州串联了一个多星期,由于交通堵塞不能按时回家。外婆带我们三个孩子在家,每天听高音喇叭传出各种消息,给人兵荒马乱的感觉。当年通讯不便,行踪无从打听,一家大小望眼欲穿久等父母不回。外婆急了,开始垂泪,我们孩子看见外婆哭了,也都哭了,一家老小怕失去依靠而哭成一团,连邻居也陪着掉泪。

文革第二年,外婆由于地主成分,被医院造反派勒令每天挂“反革命地主婆子”的牌子站街示众。可怜外婆小脚,哆哆嗦嗦,却要受此羞辱。这对我们孩子刺激很大,我们无论如何也无法把慈祥的外婆跟可恶的地主婆联系起来。还好,父母感觉形势不对,很快决定送外婆回乡下老家躲避,特地请我们家的至交三代老贫农的徐叔叔一路护送。徐叔叔回来说,外婆无法理解发生的一切,又舍不得三个孙儿,委屈伤心,走一路哭一路。乘汽车,过轮渡,转火车,再乘小轮穿过巢湖,最后要步行10里才到老家。最后那步行,走了一整天,人几乎瘫软。

幸亏送外婆回了老家,后来的情势越来越遭,武斗开始了。先是两派小将(“批联部”和“扫黑线”)拿钢钎匕首在街头械斗。有一场械斗就在我家门前,还记得我们又害怕又好奇,几个孩子爬到院子里一家的二楼上,透过临街的窗户观战。我胆子小,只瞄了一眼,看见双方手拿钢钎对峙的样子,然后听到口号声和厮杀声。这还是武斗初期,后来双方割据,拿起了真枪真炮,常常夜里听到枪响。我们全家也被秘密转移到批联部的司令部去了,我父母因此成了批派战时医院的核心医生(见(见《风雨春秋专栏》​;《老爸-风雨几春秋》)。

革命大联合的时候,武斗停止,妈妈把外婆接回来了,我们恢复了跟外婆朝夕相处的日子。外婆没来的时候,我们放学回家,家里总是锁着门,我们脖子上挂着钥匙,常常要到手术室去找父母,等父母手术完回家。外婆来了,家才象个家,生活安定而有秩序。


1969(?)全家包括外婆和老姨,以及邻居至友何妈妈小慧姐在家门前合影

我13岁那年,外婆患口腔癌,右腮长出鹅蛋大一个瘤子。记得瘤子刚起的时候,我们经常用小手抚摸,希望它慢慢消失。可是,那瘤子还是越长越大,外婆自己也说:这是个毒瘤子,怕好不了了。外婆临终前,舅舅和表哥都从老家赶来,最后几天主要是舅舅在床前伺候。我听外婆喃喃说,儿女都在身边,该走了。

外婆去世那年说是71岁,可实际年龄应该是69。我记得外婆生前跟我说过,她虚报了两岁,用的是外公的年龄,为的是做个纪念。外公在我出生的1960年,在老家饿死,跟我爷爷和姑姑一样成为大跃进的殉葬品。外婆虽然从来没有提过外公的故事,可以看出她一直默默在心中纪念着他。

记于2007年九月二十二日中秋节前夕

原载 科学网—《朝华午拾:外婆的回忆》