【一日一parsing:修饰语的组合爆炸挑战】

中文合成词、术语命名可以很长很长,如果顾及内部的修饰关系的边界,是一种典型的结构歧义的组合爆炸。排列组合算一算,N个修饰语有多少种结构歧义?

怎么整?其实,人对于这种超长短语的理解,也基本上是糊里糊涂听,对于里面潜在的歧义无感居多。那机器去做呢,两个办法,一个是凑合大局,不拘小节,出个 deterministic 的结果。另一个办法就是穷举其中的潜在歧义,也不难,问题是穷举了以后如何是好,还是糊涂。

量子区块链AI韭菜盒子店

NG=Noun Group;  AP = Adjective Phrase; NE = Named Entity;
M/m=Modifier; H = Head; O/o=Object;
N = Noun; A = Adjective; V = Verb;

what is 量子区块链?

马氏体区块链智能韭菜盒子

马氏体?or 体区块链?马氏-style?

AI牌马氏体大数据区块链智能云韭菜盒子

智能云 or 云韭菜盒子?

AI牌马氏体大数据区块链智能云全自动去中心韭菜盒子

AI牌马氏体大数据区块链智能云全自动去中心韭菜盒子声控密钥无人店

这已经超过10个修饰语了:AI牌 / 马氏体 / 大数据 / 区块链 / 智能云 / 全自动 / 去中心 / 韭菜盒子 / 声控 / 密钥 / 无人店

“声控密钥” 感觉是直接修饰 “无人店“ 也许更合理。可现在这种结构也凑合了。好在 XP 内部的纠结,对于句子中 XPs 之间的关系基本没有影响。不过,这种超长NE或NP其实也很少出现在句子里面,通常都是做标题用。

(注:以上例句是尼沙龙人工智能群老友故意拿 buzz words 调侃清华人工智能马教授的一手好菜“生造”出来的。但这些例子反映现代汉语的语言事实,并不离谱。)

O网页链接 【一日一parsing:修饰语的组合爆炸挑战】@马少平THU @立委_米拉  @算文解字 @冯志伟文化博客 @zhazhaba @李利鹏-汇真科技 @永恒的侠少 @白硕SH ​就此谈点自己的看法:
1. 正规文档无论标题还是内容,应该不会出现这种过多个不相关的(即便相关)词罗列堆砌在一起的,既不利于传播也不利于理解。当然,有些新闻媒体,或者某些政府公文的题头内容,比文中本身内容都难理解,可能是另有用意,其实并不相信撰稿人就是真水平不及,或许让人产生印象或其他?无论文章或标题,若是总摆着一副“万层茧”的姿态话,我个人意见,人不用去看,机器更犯不着去分析,即便分析那结果也难看的很,无实用价值,就当是那样的是数据传输的一串乱码。要么,文者水平太差,此文不必去读;要么文者就是想着难为人,那我为何还耐着性子去受难呢。
2. 少数几个词组合在一起,在人们容忍范围内的,还是有一定价值的,毕竟不能要求每个人都有通文晓典,行文都能如丝滑般的顺畅。这种平素不相往来的几个词临时组团赴会,初期可以先作为一个团体来看,然后再在随后的文里看看是否离队的分子,若有,再看看是谁谁频繁结伴单游,再回头看看原来这个团的豪华标签,基本上就有所清晰理解。正所谓“不怕你们聚得紧,就看你们分开时”。若通篇没有一处是分开的,而且大块头的合成词语还挺愿意抛头露面的,且不嫌穿那么长衫而行动不便,那这八成就是专有词了,专有词,何去分析拆解它?作为一个词能从文首进,从文尾出就好,也懒得分析了。
3. 至于是凑合大局还是用穷举来罩它,既然早晚都是糊涂,那单独就句分析句就是没太多必要,别累坏俺们的不经世事的幼年机器哈。
from 微博

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

 

【机器翻译新时代的排座座吃果果】

刘冰老师反馈,他看了我的NLP频道的笔记(【议一议“微软机器翻译提前七年达到专业翻译水平”】)说,就我随机测试的汉译英两篇,显然是谷歌翻译质量高出微软、有道和百度。刘老师是业界牛人,大牌教授。我倾向于同意他。因为我自己并没有认真比照,只是一时兴起做个测试。粗粗一个印象,觉得几家大都在一个水平级,但由于种种原因而来的偏好,我更喜欢有道。

其实不妨给这几家,加上搜狗,做一个英汉的随机测试,这样更容易评判。大家可以就两点做个各自的评价:(i)是不是可以说,整体水平都上来了,都已经超过业余水平,接近或达到专业翻译的质量。(ii)学学纽约时报給美国大学排名,咱们也給这几家非正式排个座次:当然,这种随机测试免不了有波动,不能算正式的排座次结论。

今天的 USA Today 的新闻,谈普金连任,吸引了我的眼球,不妨试试。

Putin heads for big win — and 6 more years — as Russia's president:
(original from https://www.usatoday.com/story/news/2018/03/18/putin-headed-easy-re-election-russias-presidential-race-6-more-years/436129002/)

Russian President Vladimir Putin — the country's longest-serving leader since former Soviet dictator Joseph Stalin — was headed to an overwhelming victory in Sunday's election for another six-year term, according to incomplete returns.

Putin's re-election was widely expected, and elections officials had pushed hard for a strong turnout to claim an indisputable mandate. Putin has been president or prime minister since December 1999, making him the only leader that a generation of Russians have ever known.

With ballots counted from 60% of the precincts, Putin won more than 75% of the vote, according to the Central Elections Commission.

By 7 p.m. Moscow time, authorities said turnout had hit nearly 60%.

Putin thanked thousands of people who rallied near Red Square after the vote. He hailed those who voted for him as a “big national team,” adding that “we are bound for success.”

He said the nation needs unity to move forward and urged the crowd to “think about the future of our great motherland.” He then led the enthusiastic crowd to chant “Russia!” the Associated Press reported.

微软翻译(https://www.bing.com/translator):

根据不完全的回报, 俄罗斯总统普京--自前苏联独裁者约瑟夫-斯大林--在星期日的选举中取得了压倒性的胜利, 这是该国有史以来任期最长的领导人约瑟夫·斯大林。

普京的连任得到了广泛的预期, 选举官员极力要求有一个不争的任务。普京自1999年12月以来一直担任总统或总理, 这使他成为俄罗斯一代人所知道的唯一领导人。

根据中央选举委员会的统计, 在60% 的选区选票中, 普京赢得了超过75% 的选票。

到莫斯科时间下午7点, 官方表示投票率已经达到了近60%。

普京感谢在投票后聚集在红场附近的数以千计的人。他称赞那些为他投票的人是 "大国家队", 并补充说 "我们一定会成功"。

他说, 国家需要团结才能向前迈进, 并敦促民众 "思考我们伟大祖国的未来"。然后, 他率领热情的人群高呼 "俄罗斯!" 美联社报道。

谷歌翻译 (https://translate.google.com):

据不完全回报,俄罗斯总统弗拉基米尔普京 - 自前苏联独裁者约瑟夫斯大林以来服务时间最长的领导人 - 在周日的选举中再次获得压倒性胜利,任期六年。

普京的连任是普遍预期的,选举官员已经努力争取强大的投票率,宣称无可争议的任务。普京自1999年12月以来一直担任总统或总理,使他成为俄罗斯一代人所知的唯一领导人。

根据中央选举委员会的统计,从60%的选区算起的选票中,普京赢得了超过75%的选票。

下午7点莫斯科时间,当局表示,投票率已达到近60%。

普京感谢数千人在投票后在红场附近集会。他赞扬那些投他为“大国家队”的人,并补充说:“我们必须取得成功。”

他表示,国家需要团结向前,敦促人们“思考我们伟大的祖国的未来”。然后,他带领热情的群众高唱“俄罗斯!”美联社报道。

百度翻译 (https://fanyi.baidu.com/):

俄罗斯总统Vladimir Putin是自前苏联独裁者Joseph Stalin以来任职时间最长的领导人,根据不完全的回报,他将在星期日的选举中获得压倒性的胜利,任期六年。

人们普遍预期普京连任,选举官员极力要求强有力的投票,以宣布一项无可争辩的任务。自1999年12月以来,普京一直是总统或总理,使他成为俄罗斯一代人所认识的唯一领导人。

用选票从60%的选区,普京赢得超过75%的选票,根据中央选举委员会。

到了莫斯科时间下午7点,当局称投票人数已接近60%人。

普京感谢在投票后聚集在红场附近的数千人。他称赞那些投票支持他为“大国家队”的人,并补充说:“我们一定会成功。”

他说,国家需要团结向前迈进,并敦促群众“思考我们伟大祖国的未来”,然后他带领热情的人群高呼“俄罗斯”!美联社报道。

有道翻译 (http://fanyi.youdao.com/):

俄罗斯总统弗拉基米尔·普京(Vladimir Putin)是自前苏联独裁者斯大林(Joseph Stalin)以来在位时间最长的领导人。根据不完全的回报,他在周日的选举中取得压倒性胜利。

人们普遍预计普京会再次当选,而选举官员一直在努力争取更大的投票率,以获得无可争议的授权。自1999年12月以来,普京一直担任俄罗斯总统或总理,这使他成为俄罗斯历史上唯一的领导人。

根据中央选举委员会的统计,在60%的选区选票中,普京赢得了超过75%的选票。

莫斯科时间下午7点,当局称投票率已经达到近60%。

普京感谢了在投票后聚集在红场附近的数千人。他称赞那些为他投票的人是一个“伟大的国家队”,并补充说:“我们一定会成功。”

他说,国家需要团结一致向前推进,并敦促民众“思考伟大祖国的未来”。然后他带领热情的人群高喊“俄罗斯!”美联社报道。

搜狗翻译https://fanyi.sogou.com/):

俄罗斯总统弗拉基米尔普京( Vladimir Putin )——该国自前苏联独裁者约瑟夫斯大林( Joseph Stalin )以来任职时间最长的领导人——在周日的总统选举中以压倒性优势获得连任,根据不完全的数据显示。

人们普遍预期普京会再次当选,选举官员们一直在努力争取选民踊跃投票,以获得无可争议的授权。普京自1999年12月以来一直担任总统或总理,这使他成为一代俄罗斯人所认识的唯一领导人。

根据中央选举委员会的统计,普京在60 %的选区赢得了75 %以上的选票。

莫斯科时间下午7点,官方称投票率已达到近60 %。

普京感谢成千上万投票后在红场附近集会的人们。他称赞那些投他票的人是“大国家队”,并补充说,“我们一定会成功。" "

他说,国家需要团结起来向前发展,并敦促群众“考虑我们伟大祖国的未来”。”他接着领着热情的人群高喊“俄罗斯!”美联社报道。

老友说,不怕不识货,就怕货比货。显然微软最烂。

还是仔细比较分析一下吧。

第一条,“是不是可以说,整体水平都上来了,都已经超过业余水平,接近或达到专业翻译的质量”?

我个人认为,这个结论是成立的。不仅仅是基于这一篇对五家的测试,以上测试应该算是再次证实了这个判断。作为MT关注者和业内人士对于整体形势的了解,加上平时做过的多次测试的印象,形成这一判断快一年了,从来没有觉得遇到过严重挑战。

第二条真要排座次呢,估计会有更多不同的意见和视角。我谈谈我的看法。翻译讲的主要是两条,准确和通顺。我们就以这两条作为标准谈谈。

微软的问题:
1. 普金和斯大林错译成了同位语:“俄罗斯总统普京--自前苏联独裁者约瑟夫-斯大林--;”
2. 漏译了关键的限定语“自斯大林以来”,结果是让人莫名其妙:“这是该国有史以来任期最长的领导人约瑟夫·斯大林。”
3. 不合适的选词:(不完全的)“回报”(returns),(不争的)“任务”(mandate),这算小错。

谷歌的问题:
1. 不合适的选词:(不完全)“回报”(returns),(无可争议的)“任务”(mandate),这算小错。
2. as-短语挂错了地方:他赞扬那些投他为“大国家队”的人 (He hailed those who voted for him as a “big national team”,不大不小的错)
3. “we are bound for success.”(“我们一定会成功”)只有谷歌没翻对,它翻成了“我们必须取得成功”。有相当偏差。

百度的问题:
1. 选词不当:(不完全的)“回报”(returns),(无可争辩的)“任务”(mandate),这算小错。
2. 生硬,两个状语的安排不妥:“【用选票从60%的选区】,普京赢得超过75%的选票,【根据中央选举委员会】”。
3. as-短语挂错了地方:他称赞那些投票支持他为“大国家队”的人(He hailed those who voted for him as a “big national team”,不大不小的错)

有道的问题:
1. 漏译了一个重要的限定语“自斯大林以来”:“这使他成为俄罗斯历史上唯一的领导人”。“神经”太过,有些胆大妄为,化有为无。
2. 一个小瑕疵是“根据不完全的回报”(除了搜狗,其他各家都有这个瑕疵),最好翻译成“根据不完全的收回选票” 或 “根据不完全统计”。 “回报”在中文有强烈的报偿的意味。当然,因为有上下文,这个译法虽然不妥,还是可以理解。

有道的通篇译文读起来非常顺溜。

搜狗的问题:
漏译“for another six-year term“ (是个不大不小的错)。其他没看到错,读起来也蛮顺。

这样看来,搜狗和有道可以并列第一。谷歌第三。百度第四。微软,对不起,你还欠了火候:不仅是比不了谷歌,其他小兄弟也比你更准更顺。(也有人说,线上的不是他们的新版,最新的技术还没进去,我们拭目以待吧)。

马少平老师告诉我,“搜狗由于做的晚,全部用的是神经翻译,有道以前是统计翻译,后来加上神经翻译,再后来彻底抛弃以前的,全部用神经翻译。百度是在以前基础上(统计翻译)加上神经翻译。可见神经翻译胜出。”

而我呢,第一次体验到神经翻译的不俗表现,是一年多前谷歌发布新版的时候。我用它尝试给我的NLP演讲笔记做翻译,语音合成自动读出来给我的感觉不亚于一个专业的口译员,让我大喜过望,赶紧“录得”现场音频分享给朋友。【谷歌NMT,见证奇迹的时刻】2016-10-2 ) 后来,百度出来说它们比谷歌更早就“神经”了,不过我并没觉得百度比谷歌质量高,所以仍然坚持用谷歌。搜狗刚开始上线,界面和用户友好(长文的翻译拷贝等)不给力,用了一下就没再看了。一两个月前开始注意的有道,发现比谷歌磨得更圆,也颇用户友好和贴心,就开始用有道(问题是有时候过分神经,为了通顺敢于牺牲忠实,这个毛病看上去是目前神经翻译的通病。)。

A couple of months ago one of my old buddies recommended Youdao to me and for some reason, I fell in love with its service and app.  So I shifted to Youdao.  I downloaded Youdao to my iPhone and use it from time to time for fun, and for real, almost every day.  It is very user-friendly and they carefully designed the interface, and most of the time I am very happy with its performance.   Despite the name of the app as Youdao Dictionary,  we can use the app as an instant speech translator, as if we were accompanied by a personal interpreter all the time.  The instant translation is many times just amazing though it makes me laugh from time to time in some crazy translations.  From MT as a business perspective, Youdao seems to be gaining momentum.  Xunfei is also a big player, especially in speech translation.

说曹操曹操到,微信刚好在传这个视屏:

第一次听讯飞刘总做 marketing 哇塞!比微软还厉害。一口气下来 促销人工智能 方方面面 顺顺溜溜 底气十足。他用代表能听懂的语言娓娓道来,能给人想象的空间,果然高手,谁说中国没有乔布斯这样的营销大师。这番宏论无疑在国家领导和人大代表中留下了深刻印象,给又时髦又高深的AI又扇了一把烈火。

讯飞固然技术不错 可别忘了别家也已经追赶上来了,整个行业提升的结果是,老大会不断受到新锐的挑战。刘总现场表演的口语即时翻译,我用我夹有皖南地方口音的普通话,重复给“有道词典的app”里面的口译界面,翻译结果一点不比讯飞逊色,属于同一量级吧,截屏如下:

 

 

 

【相关】

【语义计算:议一议“微软机器翻译提前七年达到专业翻译水平”】

【谷歌NMT,见证奇迹的时刻】

【校长对话录:向有道机器翻译同仁致敬】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【语义计算:议一议“微软机器翻译提前七年达到专业翻译水平”】

李:
最近微信群疯传一条新智元的人工智能新闻专访,【机器翻译提前7年达到人类专业翻译水平,微软再现里程碑突破】。不少老友也特地转发给我这个“老机译”。微软这几天的营销好生了得。到处都是这个第一家超越人类的MT新闻 而且提前了七年(这个提法有点扯,因为如果一个行业很多系统在某个时刻普遍大都可以达到一个水准,再说提前n年就不智了)!

这个微软 MT 是在哪里? 比较过百度,谷歌,有道。有道似乎最好,所以现在就用有道。不妨也试试微软。

事到如今,这几家都可以 claim 新闻翻译超过业余翻译的水平,进入专业翻译的段位了。跟语音类似,这是整个行业的突破,神经翻译大幅度超越上一代统计翻译,尤其是顺畅度。眼见为实,这一点我们都是见证人。已经 n 多次测试过这些系统了。(【谷歌NMT,见证奇迹的时刻】【校长对话录:向有道机器翻译同仁致敬】). 如果是新闻文体,很少让人失望的。

说是第一个正式超越的系统云云,基本上是 marketing。

MT 的下一个突破点应该是:(i)对于缺乏直接对比语料的语言对的 MT(据说进展神速);(ii)对于缺乏翻译语料的领域化 MT,譬如翻译电商领域,目前可用度差得一塌糊涂(20%左右),可有需求,无数据; (iii) 在保持目前NMT 目标语顺畅度的优势情况下,杜绝乱译,确保忠实可信。

这次他们严格测试的是汉译英,拿出数据来证明达到或超越了一般人的翻译水平。然后说,英译汉是类似的方法和原理,所以结论应该相同。这个我信。

有意思的是,在规则MT时代,绝不敢说这个话。汉译英比英译汉困难多了,因为汉语的解析比英语解析难,基于结构解析和转换的翻译自然效果很不相同。但目前的NMT 不需要依赖解析,所以语言的方向性对质量的影响很小。以前最头疼的汉译外,反而容易成为亮点。

当年入行的时候,有两个兴趣点:一是做外汉MT(主要是英汉),一是探索中文解析。前者有底气,知道这条路是通的,就是力气活,假以时间和资源,质量会逐渐越来越好。后者其实没有底气,感觉慢慢长路,“红旗不知道要打多久”(【从产业角度说说NLP这个行当】),但是实在太有趣了。当年的梦想是,什么时候中文解析做好了,用它来做汉外MT,能与外汉MT一样,那该多解气啊。

中文解析经过n多年的思索和实践,终于有底气了(【美梦成真】)。可是原先要落地MT的设想,却突然失去了这个需求和动力。好在 NLU 不仅仅在 MT 落地,还有许多可以落地的地方。

真所谓人算不如天算,看潮起潮落。老友谈养生之道,各种禁忌,颇不以为然,老了就老了,要那么长寿干嘛?最近找到一条长寿的理由,就是,可以看看这个世界怎么加速度变化的。今天见到的发生的许多事情,在 30 年前都是不可想象的:NMT,voice, image, parsing,iPhone,GPS, Tesla, you name it.

王:
中文解析,当然不一定中文,其他语言解析也一样,前景十分广阔,市场巨大。因现阶段还不能达到如人般的理解程度,所以还属于只能踩着有限小石子过河(落地)阶段,以后才能上大路,开高速。我也期望能有一个万能智能秘书,能准确理解且快速帮我办事,达到期望的结果。但能力都还有限,自然还是解析很力不足。

李:
parsing 的应用潜力很大,道理上没人说不对,毕竟这是AI在认知道路上可以预见的一个关键的支持。但实际上有两个坎儿:一是不好做,二是不好用。不好做是,想用的人往往不大会做,不能要求每个人都成为parsing专家。不好用是,独立的 offshelf 的,迄今没有见到大规模使用的成功案例。相对成功使用的,大多是内部消化,自己做自己用。这就局限了它的应用范围和潜力发挥。内部使用的成功经验,最多算是一种可行性论证,证明结构解析对于应用是的确可以赋能的。但平台化领域化的道路还很长。

核武器之所以在吆喝,是因为它还没爆炸,也似乎短期内不会爆炸。真爆炸了,听响声就够了,不需要吆喝了。

嘿,找到 MS Translator URL 了:https://www.bing.com/translator

做个现场测试和比较,用今天城里的新闻:

白宫发言人桑德斯14日表示,电视评论员柯德洛(Larry Kudlow)将出任国家经济会议主席。

桑德斯透过声明指出,川普向柯德洛提出担任总统经济政策助理,以及国家经济会议主席一事,柯德洛也接受了;白宫之后会宣布,柯德洛上任的时间。

川普月初宣布将对进口钢铁和铝材分别课征关税,其国家经济会议主席柯恩(Gary Cohn)因不认同川普此举,在6日请辞。

柯恩请辞后,柯德洛是接任的人选之一;在过去一年,柯德洛是川普的非正式顾问,也是川普2016年总统大选竞选期间的顾问。

川普13日向媒体表示,他有很高机率将任命柯德洛递补首席经济顾问柯恩辞职遗缺。川普说,“柯德洛成为我的好友一段时间了,他在我竞选早期就力挺我,是我最初的支持者之一。他是名非常有才华的人。”

70岁的柯德洛在前总统雷根任内监督白宫管理及预算局5年。柯德洛2001年加入财经媒体CNBC,之后成为知名评论家与主持人。

微软的自动翻译是:

White House spokesman Sanders said 14th that TV commentator Codro Larry Kudlow will serve as president of the National Economic Council.

Sanders said in a statement that Trump to Codro as president of the economic policy assistant, as well as the President of the National Economic Council, Codro also accepted, the White House will announce later, Codro time.

Cohn, the president of the National Economic Council, resigned on 6th for not agreeing to Trump's move, announced earlier this month that it would impose tariffs on imported steel and aluminium.

After Cohen resigned, Codro was one of the successors, and in the past year Codro was Trump's unofficial advisor and advisor to Trump during the 2016 presidential election campaign. Trump 13th to the media that he had a high chance of appointing Codro chief economic advisor Cohen to resign casual vacancies. Trump said, "Codro has been my best friend for a while, and he's been my first supporter of my early campaign." He is a very talented person.

” The 70-year-old Codro oversaw the White House administration and Budget Office for 5 years in former President Ronald Reagan. Codro joined the financial media CNBC in 2001 and became a well-known critic and moderator.

有道的译文是:

Larry Kudlow, a television commentator, will become President of the national economic council, White House spokesman jay sanders said Sunday.

In a statement, Mr. Sanders said he had accepted Mr. Cordelo as an assistant to the President's economic policy and the President of the national economic council. The White House would then announce that Mr. Cordelo took office.

The chairman of the national economic council, Gary Cohn, said he would resign on June 6 after he announced that he would impose tariffs on imported steel and aluminum.

When cohn resigned, he was one of his successors. Over the past year, he has been an informal adviser to trump and an adviser to trump during the 2016 presidential campaign.

Trump told the media on Wednesday that he had a high chance of appointing the resignation of coderot's chief economic adviser, korn/ferry. "He was a good friend for a while," trump said. "he supported me early in my campaign and was one of my first supporters. He is a very talented person.

The 70-year-old has overseen the White House administration and budget office for five years under former President Reagan. Cordelo joined CNBC in 2001 and became a well-known critic and host.

谷歌的译文是:

White House spokesman Saunders said on the 14th that television commentator Larry Kudlow will serve as chairman of the National Economic Council.

Saunders pointed out through the statement that Trump had proposed to Cadero as the president’s economic policy assistant and the chairman of the national economic conference. Caldero also accepted it; the White House will later announce the time when Calderon took office.

Trump announced at the beginning of the month that it would impose tariffs on imported steel and aluminum products. Gary Cohn, chairman of the National Economic Council, resigned on the 6th because he did not agree with Trump.

After Keen resigned, Kedlow was one of the candidates for the replacement. In the past year, Kedro was an informal advisor to Trump and a consultant during Trump's 2016 presidential campaign.

Trump stated to the media on the 13th that he has a high chance of appointing Kodlow to replace his chief economic advisor. Trump said, “Kadelo has been a friend of mine for some time. He supported me early in my campaign and was one of my initial supporters. He is a very talented person.”

Kodlow, 70, oversees the White House’s Office of Management and Budget for 5 years under former President Reagan. He joined the financial media CNBC in 2001 and later became a famous critic and host.

粗粗读一遍,都不错。可能是偏爱,还是更喜欢有道。

再来一片,其实不是新闻:

列宁的导师普列汉诺夫的遗言:
一、随着生产力的发展,知识份子的队伍比无产阶级增加得更快,在生产力中的作用跃居首位,在电气时代马克思主义的无产阶级专政理论将会过时。
二、布尔什维克的无产阶级专政将迅速演变成一党专政,再变为领袖专政。而建立在欺骗和暴力基础上的社会,本身就包含着自我毁灭的炸药,一旦真相大白,便会立刻土崩瓦解。
三、“布”党将依次遇到四大危机:饥荒危机、意识形态危机、社会经济危机和崩溃危机,最后政权土崩瓦解,这一过程可能持续数十年,但这个结局谁也无法改变。
四、国家的伟大并不在于它的领土甚至它的历史,而是民主传统和公民的生活水平。只要公民还在受穷,只要没有民主,国家就难保不发生动荡,直至崩溃。

微软:
Plekhanov's last words:

With the development of productive forces, the team of intellectuals has increased faster than the proletariat, the role of the productive forces leaped to the top, and the Marxist proletarian dictatorship theory in the era of electricity will be outdated. Second, the Bolshevik dictatorship of the proletariat will rapidly evolve into a one-party dictatorship, then become a leader dictatorship.

A society based on deception and violence, in itself, contains self-destructive explosives that, once the truth is revealed, Fall apart immediately.

Third, the "cloth" party will encounter four major crises: Famine crisis, ideological crisis, social economic crisis and collapse crisis, the final regime fell apart, this process may last for decades, but this end can not change. The greatness of the state is not in its territory or even its history, but in its democratic traditions and the living standards of its citizens. As long as citizens are still poor, as long as there is no democracy, the state will not be in turmoil until it collapses.

谷歌:
The words of Plekhanov:
     First, with the development of productive forces, the ranks of intellectuals have grown faster than the proletariat, and they have taken the lead in productivity. In the age of electricity, the Marxist theory of the dictatorship of the proletariat will become obsolete.
     2. The dictatorship of the proletariat of the Bolsheviks will rapidly evolve into a one-party dictatorship and will become a dictatorship of leaders. The society based on deception and violence itself contains self-destructive explosives. Once the truth is revealed, it will soon fall apart.
     Third, the “cloth” party will encounter four major crises in sequence: the famine crisis, the ideological crisis, the socio-economic crisis, and the collapse crisis. The final regime collapsed. This process may last for decades, but no one can change this outcome.
     Fourth, the greatness of the country does not lie in its territory or even its history. It is the democratic tradition and the standard of living of its citizens. As long as citizens are still living in poverty, as long as there is no democracy, the country cannot guarantee that there will be no turmoil until collapse.

有道:

His last words:
One, with the development of productive forces, intellectual team increase faster than that of the proletariat, in the role as the first productivity, at the age of electricity of marxism's theory of the dictatorship of the proletariat will be out of date.

The dictatorship of the proletariat of the bolsheviks will quickly turn into a one-party state and become a leadership dictatorship. Society, based on deception and violence, contains self-destructive explosives, and when the truth comes out, it will fall apart.

Three, "cloth" party will, in turn, have four big crisis: hunger crisis, the collapse of the ideology, social and economic crisis and crisis, the regime collapse, this process may last for decades, but the end no one can change.

The greatness of a nation lies not in its territory or even its history, but in its democratic traditions and the living standards of its citizens. As long as the citizens are still poor, as long as there is no democracy, there will be no unrest until the country collapses.

梁:
这岂不让专业翻译人士好紧张吗?

李:
没办法,准备改行做编辑吧。作为职业,译员的市场的确在急剧萎缩中,大势所趋。

昨天跟老友说 还是要抬头讲故事 不能只是低头做实事。还要看故事的风口和时机。微软这一宣传 家喻户晓 老妪能解 普罗惊叹。一叹人工智能已经步步紧逼 看得见摸得着了。二叹微软太牛 给人印象是把对手远远抛在后面 在这个一日千里的AI时代 居然提前七年实现赶超人类语言认知的里程碑。

梁:
对,讲个好故事,比什么都重要!

李:
其实这几家品质都差不多 还有搜狗 还有一些初创 自从大约两三年前深度神经以后 都陆续达到了新闻翻译超越业余人工翻译的水平。换句话说 整个行业提升了。任何一家都可以心不跳脸不红做此宣称。可是老百姓和投资人不知道。这就看谁会讲故事了。

马:
大公司自己宣传,一帮不懂的媒体也愿意跟着捧,甚至捧得更卖力气。现在机器翻译拼的就是语料和平台,以前搜狗没有机器翻译,和我们实验室的刘洋合作后,不到一年就出了一个很不错的系统。

李:
AI 越来越像当年美苏的军备竞赛了,size matters.

@马少平 搜狗要营销的话 可以与电视台合作 搞个新闻现场大奖赛 请翻译界名人做评委 找n个专业翻译 m 个业余翻译 现场出题 限时翻译(要限制到熟练专业来不及查工具书 全凭大脑 勉强可以应付 为最佳)

马:
@wei 比起其他公司来,搜狗不是太会营销。

李:
这种比赛 没有悬念 最终一定是机器赢。好好设计一下,双盲比赛,让专家评审,也不能说它不公平。万一机器没得冠军 而是亚军或季军 宣传效果更佳 为下一轮比赛的高潮做了铺垫。那位人类选手神译 要好好保护 大力宣传 大书特书他过目不忘 博闻强记 知识渊博的种种事迹。当年花生智力竞赛大胜人类 本质上就是玩的这个套路。一直玩到进入了计算机历史博物馆的里程碑专区去了。MT 现在要玩的话,类似的效果,更容易设计,要想拉巨头参与也容易:几家巨头的MT网站都是公开的,随叫随到。

Ben:
@wei  youTube上 《成都》 有高圆圆的音乐,立委应该会喜欢!

李:
歌是好歌,早听过n多遍了,温暖慰藉。赵雷嗓子很有味道,可这小子镜头太多;圆圆友情出境,镜头太少,前面的剪影还是替身。

成都是个养人的好地方,出国前呆过大半年,乐不思非蜀(见【立委外传】):

1990 : 尝尽成都美食。 茶馆 火锅 夫妻肺片。

赵雷草根天才啊,独领城市歌谣,能写出这样的绝妙好词:

【画】
为寂寞的夜空画上一个月亮
把我画在那月亮的下面歌唱
为冷清的房子画上一扇大窗
再画上一张床
画一个姑娘陪着我
再画个花边的被窝
画上灶炉与柴火
我们一起生来一起活
画一群鸟儿围着我
再画上绿岭和青坡
画上宁静与祥和
雨点儿在稻田上飘落
画上有你能用手触到的彩虹
画中有我决定不灭的星空
画上弯曲无尽平坦的小路
尽头的人家梦已入
画上母亲安详的姿势
还有橡皮能擦去的争执
画上四季都不愁的粮食
悠闲的人从没心事
我没有擦去争吵的橡皮
只有一只画着孤独的笔
那夜空的月也不再亮
只有个忧郁的孩子在唱
为寂寞的夜空画上一个月亮

我不知道如何翻译,劳有道机器翻译一下:

“Draw a moon for the lonely night sky.
Draw me under the moon and sing.
Draw a large window for the cold house.
Draw another bed.
Draw a girl with me.
Draw another lace bed.
Draw a stove and firewood.
We were born to live together.
Draw a flock of birds around me.
Let me draw green ridge and green slope.
Picture peace and serenity.
The rain fell on the rice fields.
There's a rainbow you can touch with your hands.
There are stars in the picture that I have decided not to destroy.
There are endless smooth paths.
The end of the family dream has entered.
Picture mother's peaceful pose.
There's also an eraser argument.
Paint food that is not sad in four seasons.
A leisurely person never worries.
I didn't wipe out the quarrel eraser.
There was only one painting of a lonely pen.
The night sky was no longer bright.
Only a sad child was singing.
Draw a moon for the lonely night sky.”

自然有错译的地方(如 there's also an eraser argument. I didn't wipe out the quarrel eraser),可是总体而言,专业出身的我也不敢说一定能译得更好,除非旬月踟蹰。机器翻译超越业余翻译,已经是不争的事实。

 

 

【相关】

【机器翻译新时代的排座座吃果果】

【谷歌NMT,见证奇迹的时刻】

【校长对话录:向有道机器翻译同仁致敬】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【立委兄:小城记忆】

【立委按】恍如隔世的小城风貌 重新历历在目。老哥的记叙和对细节的记录 比我的记忆真切。记得曾经几次光着身子,只留一条短裤,独自游那条小河,想试试自己究竟可以游多远。顺流而下,蜿蜒曲折,从后街桥一直游到东门河外,好几个小时,直到精疲力竭上岸,踩着滚烫的石子路,赤脚回家。当年的脚板底皮实,尖石碎玻璃都不在话下。后背也不知晒脱过几层皮,黝黑如小鬼。

我从出生到二十岁之前,都生活在一个恬静破旧的江南小县城—南陵籍山镇,当年叫南陵城关公社。小城地处黄山山脉和长江中下游平原交汇处,城的西边是起伏的丘陵,城的东边是一望无际的水乡平原。

对小城的记忆随着时间的流逝,虽然不再那么完整和清晰,但老旧的小城总让我梦牵魂萦。我的同学好友,我的少年童真,那纯朴的风土人情,那古旧的土墙破房,都是抹不掉的记忆。

小城不大,当时城内人口约三万多,仅有一个十字型的街,分别叫东门、西门、北门、南门和十字街口,其中东西长约二公里多点,南北长不到二公里,尤其是南门街道很短,大约五百多米。我家住在西门父母单位分配的平房中。那是一个大通道,房子很小,通道分割成两间房子和一个厨房大约三四十平方,泥土地面 ,屋顶经常漏水。天屋子里很冷,房屋不保暖,四处透风,一般会生一个木炭火盆炉子以取暖,根本不用担心会煤气中毒。家里要比学校教室还是暖和多了,我们一般从学校回来,双手双脚冷得发僵,立即去炉子旁,那真是一种享受。

小城有五所小学,两所中学。我上的是全县最好的小学,叫南师附小,曾改名叫韶山小学,最后变成城关第五小学。这所小学基本上是县直机关和文卫单位的子弟学校。大家都是邻里街坊,彼此相识,不同年级学生也常在一起耍闹。不像现在的孩子,从幼儿园开始,我们都是自己走路去上学,不管刮风下。从就没有家长接送过一次。

小城有一个剧场和一个电影院,电影院在西门,离我家不远,剧场位于东门,就算比较远了。剧场一般演黄梅戏,都是那几出样板戏,母亲喜欢看戏,总带我去看。我对剧场环境装饰和灯光很感兴趣,但对看戏一点也提不起劲来。我更喜欢看电影,只是当年电影不多,刚开始只有【新闻简报】,【地道战】,【地雷战】和【南征北战】,门票倒不贵,【新闻简报】每场5分钱一张,【地道战】,【地雷战】和【南征北战】都是一毛钱一张,这几部故事片至少看了几十遍。

小城城东和城西各有一条小河,城中还有一条市桥河。小河都不宽,不到二十米。城东那条河叫漳河,我们习惯叫它为东门大河,是长江的支流,在芜湖市汇入长江。城西的河叫后街河,是漳河的支流,该河在城北汇入漳河。不论城东的河,还是城西的河,当年都十分清彻。河水终年不断,河流婉曲细长,两岸青草依依,处处柳绿桃红。两河是小城子民饮用水源,默默哺育着小城的子民。当年有人用板车水箱拖东门大河河水沿街叫卖,可见其水质甚好。在城东河与城西河交汇处的北门,有一个水运码头,这是过去小城通往外界的最重要渠道,但冬季枯水期是停航的。

每年五一到十一这段时间,我几乎天天都会去河中游泳,尤其喜爱东门大河,水质好,又是沙地很适宜玩水。后街河也不错,但水底是硬土质。最不好的是城中的市桥河,这是一条横穿小城核心区域的断头的小河,水底是厚厚的淤泥,沾脚又有腥臭味,故水质较差,无法饮用。但因离家近,也常去那下水游泳捉魚玩耍,小河边常见的是一群少妇在河边石阶上用木梆搓、捶、洗衣。这条河最有特色的是河上那四五座古色古香的石板拱桥。目前只剩下两座了,最有名的叫玉带桥,几百年的苍桑,它见证了小城的兴衰。河旁边紧靠着有一个面积相当的荷花塘,池塘一边真抵我家门口,捕捉塘里荷叶下大黑魚与采摘甜嫩可口的莲蓬,是我少儿时最美好的回忆。夏天我常常泡在河里,一泡就是大半天,它们承载了我青春的悲欢喜乐。


玉带桥


东门大河,远处为东门大桥

西门后街河的河岸有一种黑色的粘土,是我儿童时最爱。

我常去河旁挖这黑土,用来做手枪等玩具。这黑土很粘,能塑成各种形状,风干后坚如石块,黝光发亮,做手枪尤为逼真。当年此土分布不多,也不成片,不知今天改造后的后街河岸还有此土不?

东门的章河盛产河沙,小城的建筑用沙,当年全靠此河。包括我上中小学,运动场跳高跳远的沙坑的沙,都来自东门大河,是我们学生从东门大河一担一担,行走三华里多挑到学校的。几乎每年运动会前都会去东门大河挑沙数次。市桥河的淤泥是很好的农家肥,每年冬天都有人抽干水,把淤泥挖上岸,然后运到田里。


后街河和后街桥

小城四周有很多水塘,很多同学都喜欢去城外钓鱼捕虾捉黄鳝。我对这方面实在笨拙,天赋极差。第一次出去约鱼,是同学鲁干劲硬拉我去的,他还为我准备了鱼杆和诱饵,可一天下来,他收获满满,而我一条鱼也未钓上来,空手而归。最有意思的是和几个同学一起到离县城不远的水田田野捉黄鳝。那是一个夏天的晚上,大家点着松木火或打着手电筒,挽起裤腿,卷起袖子到田硬边捉黄鳝,一晚可捉一小桶呢。那年头黄鳝可是美歺,虽然我们全身是泥,十分疲困,但喜悦洋溢在脸上。小伙伴们各拿几条带回家里,改善了当年贫瘠的生活,也丰富了我们课外活动。

小城当年很破旧,小城街道都是土石子路,只有去党训班的路保留着过去的青石板路。城里没有路牌,也没有红绿灯。常见有人端小板凳坐在自家房檐下,纳着鞋底做着针线活,然后东家长西家短的议论着。小城难得有隐私,有点事儿就传遍全城。

小城以一层楼为主,偶尔有几处二层楼房。街道门面全是砖木结构房,木板揿在石凹中,随时可拆下。城内最高的楼是县委县政府大楼,有三层,但只是局部三层,呈凸型状。当年我们这些小孩特喜欢爬到三楼平台上,常趁守门人不注意,溜进大楼。在三楼平台上,我们沐浴细风,俯视全城,顿时有心潮澎湃的感觉。那种立足平台、展望中国、胸怀世界之豪情现在的年轻人很难感受到。看着眼前的小城,远处的小山,似乎体会到毛泽东当年在长沙橘子洲头的豪迈。“恰同学少年,风华正茂。” 解救全世界三分之二受苦民众的担子,历史的落到我们的肩上。

 
几处保留的当年旧县城街道门市

小城的美食还是很多的。普遍贫穷,一碗九分钱的光头面对我们都是十分诱人的。小城的小吃很有特色,糍粑、油炸饺子、馄饨都与众不同,味道是别处没有的。臭干子拌香菜也是一绝,倒点香油,加点花生米,那味道真是好极了。更让人难忘的是五小门口的薄皮饼,一张炉具和一个园盘夹,勺一匙水面粉放在那园盘上,两个园盘一夹放在炉具烤,一张细薄的园饼就出炉了。那种香、甜、脆,回味无穷。每天那炉旁便会招来一群小孩儿,一分钱一张,一手交钱一手交货,大家舔着、啃着、笑着,非常享受。

在我生活小城的这二十年中,小城几乎没有什么变化,东门还是东门,西门还是西门。小城二十年如一日,蕴含浓烈的乡土气息。一辆破旧苏联轿车是县城唯一的豪华,县委书记专车。我同学父亲是这车司机,让我们对她好生羡慕。大多数建筑都是解放前的,屈指可数的几个重大变化是,十几年尘土飞扬的土石街路终于在文革末期简单柏油化;到了高中,小城不用下井下河挑水饮用,终于有自来水了;城中医院在我小学时拆迁,准备建三层的门诊及办公大楼了。不过从我小学四年级开始动工,到我快进大学时,这栋非框架的三层大楼才落成,也算创造了一个记录。

小城很纯朴,文革的大批判声音也未改变它那单纯的气质。大多数人还穿着打着补丁的衣服,鱼肉是一种奢侈品,能填饱肚子就是一种幸福。小城的人们每天或劳作或聊天或晒太阳,似乎满足于这贫困的生活。我家条件算好的,有一台家电,那是五灯的电子管收音机,当年是我们那一栋房子中唯一的一台(后期这种收音机就多了)。当年大家都很关心国家大事,议论着世界,声讨美帝苏修,评论着资本主义世界水深火热的生活,唯独对自己生活现状没有牢骚。清贫而又满足,是小城大多数人的状态。

小城以小商业为主,没什么工业。整个城镇在上世记七十年代中期才建有四个小工厂,即小化肥厂,小钢铁厂,农机厂和地区拖拉机厂。但我第一次看到那钢铁厂高耸的烟囱时,我为祖国工业突飞猛进的成果由衷的感到骄傲。正如毛主席所言:敌人一天天烂下去,我们一天天好起来。生活在毛泽东时代的我们,生活在社会主义中国的青少年,那是多么大的幸福呀。我们总是很容易满足,总是很相信宣传,总是充满了原教旨式的自毫感。

小城只有一个公园,叫中山公园。在小城民众的心目中,它很神圣。其实那个公园算不上真正的公园,只是三百米跑道的一个小小运动场,但却是小城唯一的空旷之地,小城的大型集会都在此进行,相当于小城的天安门广场。

小城没有什么古迹,也没有什么风景。老的夫子庙毁了,城中的一个古塔也推倒了。文革破四旧时,一切封资修的东西都属摧毁之列,小城也不例外。仅有的一点点古建筑也随着高亢歌声被推倒。

虽然没有了古迹,也看不到风景,但小城有土城墙,有护城河,城墙外有黄灿灿的油菜花,青青的水稻田。江南的小城,有雨巷的韵味,水乡的特质,总让我不能忘怀。自从上了大学离开小城,一晃四十年了。岁月如梭,不知不觉如今小城早已变了模样。宽阔的大街,鳞次栉比的高楼,各种店辅,来来往往的汽车,匆匆的行人。我心中的小城在哪里?曾经的小城,曾经的记忆,小城故事,随着岁月流逝几无踪影了。它早已不是我心中的那个小城。只有一个宁静的小城,在梦中。

 

【相关】

江城记事

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

 

 

【李白100:Parsing 的休眠唤醒机制】

尼:
十几年前给两个台办主任送过美凤光盘。

李:
主语施事是侬?

 

这是一个疑问句。

迈:
这是给中纪委举报的分析图吗?

白:
为啥“主任”没当actor?under是“两个台办”,actor是“主任”多好,不用向外借context里的“尼克”了。“台办主任”难道进词典了?N+N结构难道比缺主语还优先?

李:
没进词典,“台办+主任”是rule合成的。为啥主任要做那个actor?“给” here 是个介词,是“送”的 subcat 要求的,作为 dative,不是逻辑主语,就是双宾语句式的 human 对象,光碟才是 undergoer。

白:
说错了,“两个台办”是介宾,“光碟”不变。“主任”单拎出来,做actor。

李:
why?还只是理论上的可能性?有两个台办么?文革中的确有过两个司令部,但那是非常时代。

白:
我是好奇,为啥一个无主的选择会优于一个有主的选择。难道你是推理了没有两个台办才往后走的么?

李:
没有推理,I was kidding。合成词:台办+主任,优于被 determiner 直接修饰。汉语中合成词的构成优先于句法上的chunking;不仅汉语,这是语言学一般原则:合成词处于 morphology 和 syntax 之间。

白:
也就是说,局部的优先关系已经把别的可能性扼杀了?不把其他选择往外传?

李:
这个原则上是对的。

白:
比如“听说发文件的是台办主任吓坏了”,肯定分析不对了?

李:
这个...人理解也有歧义。
不怕献丑了:

白:
不太通

李:
的确不大通。这个 parse 是说,“是台办主任吓坏了”,“听说发文件”是一个诱因。不是完全不可能,但对里面的小词 “de” 和 “是”,parsing 有点走偏了。做这些小词,分寸很难掌握,稍不留心就过火。

白:
“去了趟台办主任更神气了”如何?没有小词了。

李:
白老师不要逼人太甚 :=)
没有小词了,但你为啥不加逗号,不加标点也罢,给个 SPACE 也好。

白:
学意识流。

李:
存心难为 parser:

wrong,as expected

白:
意料之中,构词法一上,木已成舟。

李:

see 你若规矩 便是晴天!
一个小小的 space 有那么难么?为啥意识流?ADD 了么?做系统的人都知道,没有没有软肋的。

白:
对。只是好奇。因为之前交流过能带着多种可能性往下跑的事情。

李:
只是分寸火候而已。原则上,合成词前置是合理的,好处远远大于副作用。理论上可以保留哪怕微小的其他可能性,待后处理。实践中,当断不断, 终于自乱。哪些带着往下跑,哪些当断则断,也是一个火候的掌控。PP-attachment 这类我们是往下带的。太低的模块,一路带着往下跑,瓶瓶罐罐的,非常难缠。

白:
所以,先休眠再有条件唤醒,也是一策。当然这就要允许逆行。

李:
带着往下跑本质上也是一个组合爆炸问题,除非一边往下跑,一边卸包袱。
休眠唤醒是一个好主意,对于某些现象。我也试验过,用得好是有效的。

白:
段子大都是休眠唤醒模式。

李: 譬如一个 NP,内部的关系难以全部穷尽可能性,那就保留部分关系,然后到最后,可以重新进入这个 NP,根据需要决定重建关系。在这种情形下,问题已经缩小了,重建不难。甚至 PP-attachment 也可以循此道。譬如,一律让 PP 挂最近的 XP,成为 deterministic parse,到了语用和抽取的时候,再去重建其他的 parses,这时候语用的条件进来了,先前被休眠的可能 parse 就可以复活。

白:
武断和文断的区别…… 武断是效率的保证,休眠唤醒是兜底的保证。

李:
段子的休眠唤醒说明,人的大脑认知也是先入为主的,很多时候是武断的,不过是允许反悔罢了。这种反悔有类似以前的 backtracking 的地方,但是实践中并没有那么大的 costs。

白:
看是哪种实践了

李:
因为在语用层面做反悔,基本上是已经聚焦了以后的反悔。这种聚焦最经常的方式是词驱动,因此,需要反悔重建的现象大大缩小。

白:
不同商业模式下,价值取向有差异是正常的。

李:
如果大海一样全部来反悔运动,还不如一开始就全部保留。幸运的是,绝大部分应用,语用与语法是可以分清界限的。

白:
反悔是白名单驱动,武断是标配。

李:
标配就是统计可能性大的,或者是遵循普遍原则的,譬如合成词前于句法。

白:

李:
任何原则或 heuristics 都有例外,到了例外,如果有一个反悔机制最好。

白:
给一条反悔的通道,但是慎用。

李:
与此相对应,还有一个例外排除机制,就是先堵住例外,然后做标配。这个办法比反悔更费工。只有在具有类似 Expert Lexicon 的词驱动的例外机制的时候,才好用。

白:
提醒一下,词驱动是取决于双因素的,不仅要看trigger是啥,也要看休眠的是啥。另外休眠的东东即使不参与分析,也可以自己做弥漫式联想(不同进程或线程),类似认知心理学说的阈下啥啥啥。这样trigger就可以提高命中率

李:
弥漫联想再往下就是弗洛伊德了。

白:
对。
词驱动这种“相互性”我举个例子就明白了:我家门前的小河很难过。
“难过”具有长词优势,“难/过”休眠了。但是,“过”弥漫式联想,激活了“过河”,于是开始反悔。直到“难/过”翻案成功。

李:
好例。“过河”与“洗澡”一样是分离式合成词,属于动宾结构。凡是可以词典化的单位,休眠重启不难实现。因为词驱动的可能性都是有限的,而且可能性都可以预先确定。以前提的“睡过”的歧义也是如此。

白:
trigger有外因有内因。外因就是更大整体的句法、或语义、或语用产生不匹配等,内因就是当事的成分自己或静态、或动态地展现出结合的可能性。休眠情况下,静态不可能。动态,相当于休眠的成分梦游了,在梦游中邂逅了。那个“夏洛特烦恼”,也是上下文给了“夏洛”独立成词的某种强化,回过头来唤醒了“特”作为副词的已休眠选项。或许,作为副词的“特”正在梦游。

说了半天,还不是为了尼克

李:
对了,忘了尼克究竟是不是actor了,丫保持缄默,怎么讲?贿赂完三X光碟,在一边偷着乐吗?

(i)  "这是我与领导的聊天记录"
(ii)“我与领导的聊天记录得详详细细”

两个休眠唤醒策略:

其一是,“聊天记录”做合成名词,到第二句的某个阶段,把“记录”分离出来做谓语。
其二是,“NP【我与领导的聊天】VP【记录】” 先做成句子(CL:Clause),然后,在第一句解析的某个阶段,再改造这个 CL,成为 NP,主语于是成了修饰语 M:

得字结构无动词谓语可以附着,是 trigger 休眠唤醒的契机。

NP +【得详详细细】:把 NP 内头词的潜在动词性唤醒,分离出来做谓语,非常有道理。新媳妇嫁错人家了,可以抢出来再嫁,没必要嫁狗随狗。

白:
得 向左还是向右,是一个问题

李:
虚词而已,左右无所谓,反正是敲门砖,用完了就扔(X)。

 2016-1-27 15:46 |首发 科学网—《泥沙龙笔记:parsing 的休眠反悔机制》

 

【相关】

科学网—【立委科普:结构歧义的休眠唤醒演义】

科学网—【立委科普:歧义parsing的休眠唤醒机制再探】

【一日一parsing:休眠唤醒的好例子】

【NLP随笔:词法内部结构休眠,句法可以唤醒】

【李白91:休眠唤醒需要打离婚证】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白99:从大小S的整体部分关系看舆情挖掘的统计性】

白:
“这家公司从年报看业绩没什么起色。”

李:
“业绩”可以是小s 也可以是“看”的宾语,其实语义基本不变。“从N看”很像个习惯表达法,可以等于 “从N看上去”(“以N而观之”)。

白:
“这个人从眼睛看瞳孔是蓝色的。”

董:
两位,“这家公司”、“这个人”,还是“状语”吗?怕不合适吧?

李:
主语。“从N看”可以做状语。还是大s小s那套,及其变式。逻辑上就是整体与部分的情形,谓语说部分自然也在说整体。感觉 大小S的问题 有很强的逻辑意味 是逻辑在语言中的表现形式。大S是整体 小s是部分 谓语直接说的是部分,自然也就间接说了整体,这是逻辑上的不完全归纳,与三段论的演绎正好相反。归纳不如演绎严谨,容易引发种种争议,但归纳是人类认识和表达世界广泛使用的手段,表现在语言形式上就很有说法了。

这个问题我们在做舆情分析中,无数次遭遇:说 “iPhone 屏幕很好”,直接说的是“屏幕”,间接说的是 “iPhone”,算不算是说 iPhone 的好话?当然算,至少是找到了 iPhone 的一个亮点。

A:iPhone屏幕好
B:iPhone 屏幕好,但别的都不行。
A:照你说,iPhone 只剩屏幕好了?
............

A 是说 iPhone 的好话,用的逻辑是不完全归纳。B 是说 iPhone 的坏话,但也做到了与 A 并不矛盾,根据的是归纳的不完全原理。所以说 不完全归纳就是那半瓶水,乐观主义看见的是水,算是点赞;悲观主义看见的是空气,可以是吐槽。如果反过来用三段论演绎法,说的是整体而不是部分,譬如 “iPhone 就是好”,就没有这些弯弯绕了,不会留下模糊的空间。

大前提:iPhone 好
小前提:iPhone 屏幕也是 iPhone (有机部分)
结论:iPhone 屏幕好。

这跟 “文化大革命就是好” 一个道理,是点赞没商量。

回到原句:“这家公司从年报看业绩没什么起色。” 句法上的大S在逻辑语义层转为O,句法上的小s上升为S,这些都说得通,只欠O(整体)与S(部分)之间的关系了:

愿意做细活的话,这个有点特别的 “从N看”(习惯表达法)可以看成是状语或插入语,它不是语句的重心。不过,这种细活做多了,不仅费工,而且也难免弄巧成拙,譬如,万一前面出现了一个通常不出现的主语“我们”或“大家”,就找不到自己的谓语了。

“这个人从眼睛看瞳孔是蓝色的。”

“瞳孔是蓝色的。”
“这个人是蓝色的。”

这就是不完全归纳法推向极端的情形:上句因为是极限事例,听上去不 make sense,但却的的确确隐含归纳法从部分到整体的逻辑链条在内。如果改写成这样,就貌似有些道理了:

“就瞳孔而言,这个人是蓝色的。”

“瞳孔” 这个概念 在其常识性本体知识库里 在Color的字段下 其 appropriate 的属性值里面包括了“蓝色”。但是 “人” 这个概念里面 常识本体库里面的 Color 栏目 没有“蓝色”这个选项,只有“黑 白 黄 红”。说 这个人是蓝色的 违背了这个常识 所以觉得很怪:除了妖怪和童话,怎么会有蓝色的人呢?但人的某个部位的确可以是蓝色的。部分的属性推广到整体的时候 遇到了矛盾。

“希特勒特别善于演说”

是说 希特勒好 吗?还真地就是说他的好话。在舆情抽取的时候,我们记录每一个这种表述,部分好相当于给整体好投了一票,但抽取的碎片化情报只是零散的一票一票,到了对于整个数据源进行信息融合(fusion)的时候,这每一张投票就被统计出来,“舆情”就自然得出。

白:
这是诛心。说鸡蛋好是不是也给下蛋的母鸡投了一票?

李:
最后的结果非常 make sense。原来,在与希特勒相关的舆情数据里面,整体而言,点赞的不足 1% 吐槽的高达 99%,可见其不得民心。这是全貌。舆情的细线条分析 进一步揭示 即便点赞,赞他的方面(aspects)或依据(why)几乎总是其客观能力(演说才能)等,吐槽的却是他的实质:思想,行动,内心,等。

说鸡蛋好,的确是给那只老母鸡点了赞。虽然钱先生对喜欢他的《围城》的粉丝说,鸡蛋好吃,又何必认识老母鸡呢。其实钱先生不仅仅是谦虚或清高,其实就是懒。懒得搭理那些无穷无尽的崇拜者。他内心何尝不知道,鸡蛋吃得香的人,对于老母鸡是有赞的。至少,我去超市买鸡蛋,对于能下黄鸡蛋的母鸡,比只会下食之无味的白鸡蛋的母鸡,心里不是一视同仁的。anyway,我们做了多年舆情挖掘,就是这么个原理。利用的是不完全归纳,对于不完全归纳所带来的副作用和逻辑不严谨,弥补的手段就是大数据投票。并不离谱,有全貌,有细节。

在大数据下,好人不会被评坏了,坏人也不会被评好了。当然,国内水军据说可以左右大数据,另当别论:主要是数据还不够大,水军也太便宜。

白:
无罪推定的原则,逻辑上(典型的就是三段论)推不出来的,你不能安给我。统计算个数也就罢了,把标签落到人头上,贻害无穷。这与诛心何异。比如,我反对一个人的证据(比如钓鱼贴里面那种荒唐证据),对其结论并没表态(尽管结论可能很政治正确),这是一个正常的理性行为。如果因为这个给我打上政治不正确的标签,我很难接受。

李:
大数据下,任何标签都不是黑或白。

白:
可是这种粗暴做法,冠以“舆情分析”的高科技帽子,几乎每天都在发生着。

李:
说你 99% 的政治正确,1% 的政治不正确,你应该很高兴。我要是开个餐馆,或经营一家NLP咨询公司,只要有 80% 的赞誉度 就笑懵了。每次找餐馆,我从来不特别找全五星的,总是找4星以上的,一万个评论打了四星的,比一千个评论打了五星的,要好得多。

白:
评好人缺点的人、不赞成拍好人马屁的人、不赞成捧杀好人的人、不赞成用荒唐论据支持好人的人被当作跟好人不一伙的人,这样的技术是危险的。其实是在诛心,或者在实现一种诛心的逻辑。

李:
退回到人工问券调查民意的时代,手工民意测验其实更差 更不完备。因为大S作为调查对象虽然是确定的,这个 大S的方方面面 那些点赞他吐槽他的种种理由 却五花八门。这些五花八门 个体可能有诛心的风险 整体统计却化解了风险。到了民主政治 一人一票 根本就无心可诛。大数据下 只看票 不看理由。

白:
挺转和反转,就因为双方的旗手而呈现站队状态。反崔挺崔,反方挺方,本来与挺转和反转是互相独立的,在舆论场中愣是给弄成掰不开了。这个话题与政治关系不大。一个人只要不满崔,就会被当成挺转分子。

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白98:从对联和孔子遗言看子语言自动解析】

李:
微信群转来的,想,配个图吧。

做自动解析(parsing)走火入魔,几乎成本能了。凡是人说难度极大,或者盛赞中文奇妙的语录,都忍不住想 parse parse 试试,到底看看离形式化自动化分析距离究竟有多远:稀奇古怪的句子其实不是自动系统的关注点,但它们往往像疲劳测试一样,可以把问题推向极端,考验自动解析的鲁棒度和机械系统应对灵活多变的能力,而且好玩,有fun。

某上海大学生为了显摆,在迎新会上出了一则上联:
上海自来水来自海上。

Note:
CL(clause)= 句;NP(Noun Phrase)= 名词短语;Pred(Predicate)= 谓语;N(Noun)= 名词;V(Verb)= 动词;H(Head)= 头词
S/s(Subject)= 主语;O/o(Object)= 宾语;M/m(Modifier)= 定语;R/r(Adverbial) = 状语

顺念倒念完全一样,难度极大!但其他省的学生也不是吃干饭的,
北京大学生对曰:
香山碧云寺云碧山香。

这个不好整,形容词活用古汉语常见,现代汉语罕见,算是 sublanguage 的问题,同一个系统难以兼顾两种可能冲突的子语言现象。先凑合吧。

山东大学生对曰:
山东落花生花落东山。

山西大学生对曰:
山西悬空寺空悬西山。

安徽大学生对曰:
黄山落叶松叶落山黄。

海南大学生也不示弱,对曰:
海南护卫舰卫护南海。

白:
这倒是像照妖镜一样把每个下联的工整程度晒出来了。

金:
NLP大学生对曰:
语言学老炮老学言语。

李:

“语言学老炮”是有来历的,指的就是白老师。见最近风行的新智元的专访报道:

【老炮儿白硕开讲】区块链可替AI对抗数据寡头

我在朋友圈推送了:看得懂还是不懂 还是雾里看花 似懂非懂 反正我是一字一字看完了。白老师的科普 无条件推送。懂行的看门道 不懂行的可以欣赏文字和说法。

微信还流传着这么一个帖子,一律有惊悚的标题:孔子临终遗言出土,惊动世界,反动之极:

《子寿终录》

子寿寝前弥留少时,唤诸弟子近叩于榻侧。子声微而缓,然神烁。嘱曰:吾穷数载说列侯,终未见礼归乐清。吾身食素也,衣麻也,车陋 也,至尽路洞悉天授之欲而徒弃乃大不智也。  汝之所学,乃固王位,束苍生,或为君王绣袍之言。无奈王者耳木,赏妙乐如闻杂雀鸣,掷司寇之衔于仲尼,窃以为大辱。其断不可长也。鸿鹄伟志实毁于为奴他人而未知自主。无位则无为,徒损智也,吾识之晚矣。呜呼,鲁国者,乃吾仕途之伤心地也。汝勿复师之辙,王不成,侯为次,再次商贾,授业觅食终温饱耳,不及大盗者爽。吾之所悟,授于尔等,切记:践行者盛,空叙者萎。施一法于国,胜百思于竹。吾料后若有成大器之人君,定遵吾之法以驭民,塑吾体于庙堂以为国之魂灵。然非尊吾身,吾言,乃假仲尼名实其位耳。  拥兵者人之主也,生灵万物足下蛆;献谋者君之奴也,锦食玉衣仰人息。锋舌焉与利剑比乎?愚哉!旷古鲜见书生为王者,皆因不识干戈,空耗于文章。寥寥行者,或栖武者帐下,或卧奸雄侧室。如此,焉令天下乎?王座立于枯骨,君觞溢流紫液,新朝旧君异乎?凡王者祈万代永续,枉然矣!物之可掠,强人必效之;位之可夺,豪杰必谋之。遂周而复始,得之,失之,复得之,复失之,如市井奇货易主耳。概言之,行而优则王,神也;学而优则仕,奴耳;算而优则商,豪也;痴书不疑者,愚夫也。智者起事皆言为民,故从者众。待业就,诺遁矣。易其巧舌令从者拥主,而民以为然。故定乾坤者必善借民势。民愚国则稳,民慧世则乱。  武王人皆誉之,纣王人皆谤之。实无异也!俱视土、众为私。私者唯惧失也。凡为君者多无度,随心所欲,迎其好者,侍君如待孺子。明此理,旋君王如于股掌,挟同僚若持羽毛,腾达不日。逆而行之,君,虎也,僚,虎之爪也,汝猝死而不知其由。遇昏聩者,则有隙,断可取而代之。  治天下者知百姓须瘦之。抑民之欲,民谢王。民欲旺,则王施恩不果也。投食饿夫得仁者誉,轻物媚予侯门其奴亦嗤之。仁非钓饵乎?塞民之利途而由王予之,民永颂君王仁。  御民者,缚其魂为上,囚其身为不得已,毁其体则下之。授男子以权羁女子,君劳半也。授父以权辖子,君劳半之半也。吾所言忠者,义者,孝者,实乃不违上者也。  礼者,钳民魂、体之枷也。锁之在君,启之亦在君。古来未闻君束于礼,却见制礼者多被枷之,况于布衣呼?礼虽无形,乃锐器也,胜骁勇万千。  乐者,君之颂章也。乐清则民思君如甘露,乐浊则渔于惑众者。隘民异音,犯上者则无为。不智君王,只知戟可屠众,未识言能溃堤,其国皆亡之。故鼓舌者,必戳之。  吾即赴冥府,言无诳,汝循此诫,然坦途矣!切切。
  言毕,子逝

白:
个人认为,不加连词的复杂谓语结构,在先秦时期似乎是没有的。

李:
这个遗言太现代人了 哈。

白:
“鸿鹄伟志实毁于为奴他人而未知自主。”这哪是先秦的话。

李:
这叫挟圣人以讽世。那行文不是先秦,是我祖父那一辈人常用的文白夹杂的“时文”(见《李老夫子遗墨》)。胡佛塔馆藏的蒋中正日记里也常见。

只好也凑合了。半文半白,难得兼顾,子语言中各别的部分,需要针对性对付。这跟领域化(domain porting)道理同。

王:
临别时,与弟子说一些“吾十有五而志于学...”之类的话似乎更靠谱。人家正在延揽学究攻此项目,大家静下心来,观棋不语真君子!

李:
孔老夫子长寿的秘诀是什么?他那个年代 73岁是寿星了,才能从“耳顺”,到“从心所欲”。那个年代,夭折不计的话,平均寿命也不足40吧。最近一个世纪,人的寿命才显著增长,而且貌似没有停下来的意思。所以才有谷歌忽悠跳大神的勾当,一本正经研究长生不老。所以才有脸书的娃娃扎哥放豪言,要以他的财力资助现代医学,“根治”一切不治之症。特斯拉钢铁侠于是正式立项,推进移民火星计划。地球装不下啊。

有时候想,当年大跃进,毛主席放豪言要20年赶英30年超美,亩产万斤,这种热昏的胡话也有人信,终于三年饥荒,饿死几千万收场。但如果比起谷歌脸书特斯拉大佬们的豪言,热昏度上看,那是小巫见大巫啊。

Lin:
你说的是“说话者的热昏度”,还是“狂热群众听者的热昏度”?

李:
good point,好在西方大佬们把牛吹上天,没有太多恶性后果,反正花的是投资人和股民的银子,愿者上钩:人有多大胆,股有多大产。股民喜欢这些。假作真时真亦假,先帝再世也只能自叹弗如了。

扯远了,回到语言学 parsing 来。那句仿古文句的白话文译文是:

我的伟大理想没有实现是因为我只知道给他人做奴才

姜:
@wei 用您的这套“照妖镜”工具体系能分析出此文是否是孔子的遗言么?

李:
这事儿估计不如机器学习的分类系统。真伪问题更多是用词而不是结构。统计性 ngram 蛛丝马迹,比宏观结构的异同更重要。文本分类是 parsing 的短项,关键词学习系统的长项,不是合适的场地(见《规则系统的软肋在文章分类》)。看一个林子的颜色,不需要对每棵树每片叶子做精细的分析。

 

【相关】

《李老夫子遗墨》

孔子临终遗言出土,惊动世界,反动之极

【老炮儿白硕开讲】区块链可替AI对抗数据寡头

规则系统的软肋在文章分类

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白97:大S小S句式中插入“的”所引起的交叉陷阱】

李:
大S小s 即所谓双主语句,又叫话题句、主谓谓语句,是中文文法非常著名的现象,与西方语言很不同的一种句式。例如:

她个儿高 盘儿靓 心眼儿还特好

“她”是主语 是话语研究(discourse study)中的话题(topic),谓语的内部结构里面还有个小主语,所以叫主谓谓语(主谓结构整体做谓语)。中文里面特常见,翻译成英文试试?没有对应的句型 只好转弯抹角换个说法 不是换词汇 就是换结构。

She is tall, pretty and kind.
She is tall, with a pretty face and kind heart.

硬译过去 就惨不忍睹:

* She body tall face pretty and still heart kind.

老外不是看不懂这种洋泾浜,但文法错乱难以忍受。好回到今天正题,再看一个实际例子:

“和我在超市买的速溶咖啡口味不同”

买的是咖啡,不是口味,可真要辨别清楚,不容易,或不值得。“口味不同” 貌似可以成为一个复合谓语,但这样处理,需要协调前面的 possessive NP 的情形,比较:

1. 速溶咖啡【口味不同】
2. 速溶咖啡的【口味不同】

【口味不同‘】做了谓语,例2中那个“的”字就悬在那里了。如果硬要建立 possisive 的关系,从 PSG (短语结构文法)来看,就违反了关系不得交叉的原则:

  • <(速溶咖啡)的 [ 口味 > 不同 ]

有意思的是,这类交叉关系的逻辑困境,换了 DG(依存关系文法) 表达法,就烟消云散了:

只要允许同一个儿子(“咖啡”)可以有两个老子:做“不同”的主语“大S”,做“口味”的定语 Mod,依存关系里面逻辑纠缠的问题就迎刃而解。道理就是,PSG 是在线性流上面标记,很容易陷入边界陷阱。而更加逻辑化表达的DG则是增加一个维度,head (头词)可以上升为老子(父节点),空间的伸展化解了逻辑形式的矛盾。

白:
交叉要有前提条件,就是过继。“口味”也是有价名词。同理。“王冕死了父亲”,“父亲”的坑过继给“死”,吃一吐一,还留着一个坑给王冕。操作层面算在动词账上,实质层面算在有价名词账上。

李:
以前遇到的左右两个修饰语争抢中间的 head 的伪歧义也是同理,在 PSG 里面不可化解,于是成为歧义(其实是没有意义的“伪歧义”),但到了 DG,head 沿着 Y 轴上升为老子,歧义就自然消失:mod1 H mod2

(1)  ((mod1 H) mod2)
(2)  (mod1 (H mod2))

到了 DG,就是:

(mod1 (H) mod2)

这个 (H) 实际上是升上天了,mod1 mod2 也就没得抢了。

其实 SVO 也是如此,文法书一贯的教导都是: VO 先形成 VP 做谓语,才有资格与主语 S 对谈。但 DG 其实不管,动词中心论说的就是把 V 推到皇帝的宝座,S 和 O 不过左右丞相的区分而已。

所以:((S V) O) 其实不比 (S (V O)) 逊色,反正是两个坑,谁先跳进去,其实对于逻辑和理解是无所谓的。只是到了具体语言,这个次序在句法上可能有个方便和不方便的区别。强调句法的人,可能觉得 VP 先成立 对于语言现象的概括和捕捉更加方便和精炼,但实际上这树怎么画没有想象中的那样绝对。

“和我在超市买的速溶咖啡口味不同”

“和咖啡不同” 还是 “和口味不同”?显然是口味。但是如果短语结构是那样的话,“买”的就是“口味”而不是“咖啡”了(见上图)。PSG parsing 常常遇到这种忠孝不能两全的困境。如果硬要 “买咖啡”的 VO 和谐,把“口味”从VP中踢出去,前面加的那个”和“字,就找不到北了,因为“和”所引导的比较对象是“口味”而不是“咖啡”。矛盾不矛盾?

白:
张三和李四不是同一个老师。
张三和李四不是情敌。

买的口味,肯定错了。买的咖啡、口味,传统说法是大小主语的关系。咖啡-口味能作为大小主语,就不作为定中关系。即使作为定中关系,反填也优先于定中。

李:
说的就是难以两全:

1. 和我在超市买的速溶咖啡口味不同
2. 和我在超市买的速溶咖啡的口味不同"

照顾了1 就照顾不了 2.

(我(身体好) 和 ((我的身体)好) 也是如此。身体好先行成为谓语,就把 “的” 字悬在空中了,当然我们也可以强行,把小词用 X 抹去,过河拆桥:

(我S 的X (身体好)Pred)。

白:
“孤苦伶仃的王冕父亲死了。”

谁孤苦伶仃?

“不符合规定的流程取消了。”

不符合规定,还是不符合流程?

李:
不符合规定的流程, 取消了。
不符合所规定的流程, 取消了。

白:
“的”的辖域本来就有歧义。

李:
或者就霸王硬上弓,出现“的”就X抹去,等到将来建立“所有”关系(反填逻辑语义)需要借助“的”的时候,再复活它。

白:
大小主语关系和定中关系,落到有价名词身上,填坑效果是一样的。区别只是名份的区别,没有实质意义。“的”字的介入,只是在没有实质意义的区别天平的一端加重了砝码而已,结果做出的区别仍然是没有实质意义的。

李:
“的”的句法默认就是 possessive,突然悬空了,句法上的确不好看。两害取其轻,管他“的”不“的”,见贼杀贼,抹去就抹去罢。

白:
所以伟哥建议去掉“的”在这个具体场合有他的道理。问题是,如果能判断出属于这个具体场合,也就等于解开这道题最难的部分了。感觉画树纯粹是面子工程,就该直接画图,管他交叉不交叉。

李:
实际上是把显性句法形式的定语关系,与隐性的逻辑语义所属关系,都化作隐性对待了。使定中有形式,但无PSG表达。属于不得已为之的。最终还都是图,而不是树。图比树多了个维度,摆脱了语言线性次序的束缚。

白:
画树只是为了对应栈操作。实际上栈操作可以通过“过继”机制实现有控制的交叉。也就是以树为“拐棍儿”,达成图的目标。把树神圣化、教条化,就走向反面了。

李:
PS树从来就是拐棍。用的时候,还要再转一次。

白:
所以,有没有桥,和有没有路,是两回事。没有直通的桥,还可以有借路的桥。过河拆桥,是拆的借路的桥。最终看到的和最终关心的其实是路。

李:
PSG 的交叉把边界节点算进去了,到了 DG 边界节点不算 两头相安无事。真正交叉的逻辑陷阱 不应该包括边界点 因为逻辑层是脱离了线性次序的,思维的本性就是天马行空,无拘无束。

白:
“王冕父亲死了”无论把“王冕”和“父亲”的句法标签确定为“定中”还是“大小主语”,都显得多余。它们之间逻辑上只有领属关系。

李:
当然 的确也有合理的交叉 可以跳进其他结构的内部去这种。但毕竟统计上罕见多了 而且凡是出现那种情形 人的理智和情感就多少感觉拧巴。换句话说 跳进内部 里通外国 干涉别国内政 必须要有非常强大的理由 不是儿戏。

在长期批评中文的种种文法不严谨的缺点以后,可以为中文句法表达的丰富性点个赞了。寸有所长 有些优点是缺陷的孪生子。说的是谓语的丰富性。与欧洲语言谓语必须由动词当纲不同 汉语谓语丰富多彩多了。名形动三大类 NP、AP、VP 都可以上台主演谓语的戏,PP 更不要说,介词跟情态词类似,是副动词,做谓语都天然合理。更绝的还有这“主谓谓语”。

这小护士大眼睛 盘儿靓 爱读书 一心为病人 非常漂亮暖心。

S【这小护士】Pred【NP(大眼睛) sV(盘儿靓) VP(爱读书)PP(一心为病人) AP(非常漂亮得暖心】

NP sV VP PP AP 连在一起 做并列谓语 毫无违和感。厉害了,汉语。搁在英语 就要叠床架屋了。

那个味道好
(i) That taste is good
(ii) The taste of that thing is good.

这么简单的句子也有歧义了。虽然一般人不问这里面的区别,对歧义无感,但汉语的主谓谓语句式的确提供了另一种解读的可能性。第二种解读在口语里面,“那个”后略有停顿(应该加逗号或留个空格):“那个 味道好”。

汉语中,主谓谓语居然可以嵌套,一个大S,一个中s,和一个小s:

(i)   小 s:味道好
(ii)  中 s:菜味道好
(iii) 大 S:这场宴会菜味道好,饭不怎么样。

【这场宴会S【菜s【味道s 好】】】

这个现象真地有些奇特,头小身子大,是集体领导的奇葩。凡遇到中文特别的句法,神经翻译就真地神经了:

 

【相关】

【李白之48:关系不交叉原则再探】

【李白之47:深度分析是图不是树,逻辑语义不怕句法交叉】

【李白王89:模糊语义与真假歧义,兼论PSG与DG】

【李白之29:依存关系图引入浅层短语结构的百利一弊】

《语义三巨人》

【语义计算:李白对话录系列】

《朝华午拾》总目录