【语义计算:议一议“微软机器翻译提前七年达到专业翻译水平”】

李:
最近微信群疯传一条新智元的人工智能新闻专访,【机器翻译提前7年达到人类专业翻译水平,微软再现里程碑突破】。不少老友也特地转发给我这个“老机译”。微软这几天的营销好生了得。到处都是这个第一家超越人类的MT新闻 而且提前了七年(这个提法有点扯,因为如果一个行业很多系统在某个时刻普遍大都可以达到一个水准,再说提前n年就不智了)!

这个微软 MT 是在哪里? 比较过百度,谷歌,有道。有道似乎最好,所以现在就用有道。不妨也试试微软。

事到如今,这几家都可以 claim 新闻翻译超过业余翻译的水平,进入专业翻译的段位了。跟语音类似,这是整个行业的突破,神经翻译大幅度超越上一代统计翻译,尤其是顺畅度。眼见为实,这一点我们都是见证人。已经 n 多次测试过这些系统了。(【谷歌NMT,见证奇迹的时刻】【校长对话录:向有道机器翻译同仁致敬】). 如果是新闻文体,很少让人失望的。

说是第一个正式超越的系统云云,基本上是 marketing。

MT 的下一个突破点应该是:(i)对于缺乏直接对比语料的语言对的 MT(据说进展神速);(ii)对于缺乏翻译语料的领域化 MT,譬如翻译电商领域,目前可用度差得一塌糊涂(20%左右),可有需求,无数据; (iii) 在保持目前NMT 目标语顺畅度的优势情况下,杜绝乱译,确保忠实可信。

这次他们严格测试的是汉译英,拿出数据来证明达到或超越了一般人的翻译水平。然后说,英译汉是类似的方法和原理,所以结论应该相同。这个我信。

有意思的是,在规则MT时代,绝不敢说这个话。汉译英比英译汉困难多了,因为汉语的解析比英语解析难,基于结构解析和转换的翻译自然效果很不相同。但目前的NMT 不需要依赖解析,所以语言的方向性对质量的影响很小。以前最头疼的汉译外,反而容易成为亮点。

当年入行的时候,有两个兴趣点:一是做外汉MT(主要是英汉),一是探索中文解析。前者有底气,知道这条路是通的,就是力气活,假以时间和资源,质量会逐渐越来越好。后者其实没有底气,感觉慢慢长路,“红旗不知道要打多久”(【从产业角度说说NLP这个行当】),但是实在太有趣了。当年的梦想是,什么时候中文解析做好了,用它来做汉外MT,能与外汉MT一样,那该多解气啊。

中文解析经过n多年的思索和实践,终于有底气了(【美梦成真】)。可是原先要落地MT的设想,却突然失去了这个需求和动力。好在 NLU 不仅仅在 MT 落地,还有许多可以落地的地方。

真所谓人算不如天算,看潮起潮落。老友谈养生之道,各种禁忌,颇不以为然,老了就老了,要那么长寿干嘛?最近找到一条长寿的理由,就是,可以看看这个世界怎么加速度变化的。今天见到的发生的许多事情,在 30 年前都是不可想象的:NMT,voice, image, parsing,iPhone,GPS, Tesla, you name it.

王:
中文解析,当然不一定中文,其他语言解析也一样,前景十分广阔,市场巨大。因现阶段还不能达到如人般的理解程度,所以还属于只能踩着有限小石子过河(落地)阶段,以后才能上大路,开高速。我也期望能有一个万能智能秘书,能准确理解且快速帮我办事,达到期望的结果。但能力都还有限,自然还是解析很力不足。

李:
parsing 的应用潜力很大,道理上没人说不对,毕竟这是AI在认知道路上可以预见的一个关键的支持。但实际上有两个坎儿:一是不好做,二是不好用。不好做是,想用的人往往不大会做,不能要求每个人都成为parsing专家。不好用是,独立的 offshelf 的,迄今没有见到大规模使用的成功案例。相对成功使用的,大多是内部消化,自己做自己用。这就局限了它的应用范围和潜力发挥。内部使用的成功经验,最多算是一种可行性论证,证明结构解析对于应用是的确可以赋能的。但平台化领域化的道路还很长。

核武器之所以在吆喝,是因为它还没爆炸,也似乎短期内不会爆炸。真爆炸了,听响声就够了,不需要吆喝了。

嘿,找到 MS Translator URL 了:https://www.bing.com/translator

做个现场测试和比较,用今天城里的新闻:

白宫发言人桑德斯14日表示,电视评论员柯德洛(Larry Kudlow)将出任国家经济会议主席。

桑德斯透过声明指出,川普向柯德洛提出担任总统经济政策助理,以及国家经济会议主席一事,柯德洛也接受了;白宫之后会宣布,柯德洛上任的时间。

川普月初宣布将对进口钢铁和铝材分别课征关税,其国家经济会议主席柯恩(Gary Cohn)因不认同川普此举,在6日请辞。

柯恩请辞后,柯德洛是接任的人选之一;在过去一年,柯德洛是川普的非正式顾问,也是川普2016年总统大选竞选期间的顾问。

川普13日向媒体表示,他有很高机率将任命柯德洛递补首席经济顾问柯恩辞职遗缺。川普说,“柯德洛成为我的好友一段时间了,他在我竞选早期就力挺我,是我最初的支持者之一。他是名非常有才华的人。”

70岁的柯德洛在前总统雷根任内监督白宫管理及预算局5年。柯德洛2001年加入财经媒体CNBC,之后成为知名评论家与主持人。

微软的自动翻译是:

White House spokesman Sanders said 14th that TV commentator Codro Larry Kudlow will serve as president of the National Economic Council.

Sanders said in a statement that Trump to Codro as president of the economic policy assistant, as well as the President of the National Economic Council, Codro also accepted, the White House will announce later, Codro time.

Cohn, the president of the National Economic Council, resigned on 6th for not agreeing to Trump's move, announced earlier this month that it would impose tariffs on imported steel and aluminium.

After Cohen resigned, Codro was one of the successors, and in the past year Codro was Trump's unofficial advisor and advisor to Trump during the 2016 presidential election campaign. Trump 13th to the media that he had a high chance of appointing Codro chief economic advisor Cohen to resign casual vacancies. Trump said, "Codro has been my best friend for a while, and he's been my first supporter of my early campaign." He is a very talented person.

” The 70-year-old Codro oversaw the White House administration and Budget Office for 5 years in former President Ronald Reagan. Codro joined the financial media CNBC in 2001 and became a well-known critic and moderator.

有道的译文是:

Larry Kudlow, a television commentator, will become President of the national economic council, White House spokesman jay sanders said Sunday.

In a statement, Mr. Sanders said he had accepted Mr. Cordelo as an assistant to the President's economic policy and the President of the national economic council. The White House would then announce that Mr. Cordelo took office.

The chairman of the national economic council, Gary Cohn, said he would resign on June 6 after he announced that he would impose tariffs on imported steel and aluminum.

When cohn resigned, he was one of his successors. Over the past year, he has been an informal adviser to trump and an adviser to trump during the 2016 presidential campaign.

Trump told the media on Wednesday that he had a high chance of appointing the resignation of coderot's chief economic adviser, korn/ferry. "He was a good friend for a while," trump said. "he supported me early in my campaign and was one of my first supporters. He is a very talented person.

The 70-year-old has overseen the White House administration and budget office for five years under former President Reagan. Cordelo joined CNBC in 2001 and became a well-known critic and host.

谷歌的译文是:

White House spokesman Saunders said on the 14th that television commentator Larry Kudlow will serve as chairman of the National Economic Council.

Saunders pointed out through the statement that Trump had proposed to Cadero as the president’s economic policy assistant and the chairman of the national economic conference. Caldero also accepted it; the White House will later announce the time when Calderon took office.

Trump announced at the beginning of the month that it would impose tariffs on imported steel and aluminum products. Gary Cohn, chairman of the National Economic Council, resigned on the 6th because he did not agree with Trump.

After Keen resigned, Kedlow was one of the candidates for the replacement. In the past year, Kedro was an informal advisor to Trump and a consultant during Trump's 2016 presidential campaign.

Trump stated to the media on the 13th that he has a high chance of appointing Kodlow to replace his chief economic advisor. Trump said, “Kadelo has been a friend of mine for some time. He supported me early in my campaign and was one of my initial supporters. He is a very talented person.”

Kodlow, 70, oversees the White House’s Office of Management and Budget for 5 years under former President Reagan. He joined the financial media CNBC in 2001 and later became a famous critic and host.

粗粗读一遍,都不错。可能是偏爱,还是更喜欢有道。

再来一片,其实不是新闻:

列宁的导师普列汉诺夫的遗言:
一、随着生产力的发展,知识份子的队伍比无产阶级增加得更快,在生产力中的作用跃居首位,在电气时代马克思主义的无产阶级专政理论将会过时。
二、布尔什维克的无产阶级专政将迅速演变成一党专政,再变为领袖专政。而建立在欺骗和暴力基础上的社会,本身就包含着自我毁灭的炸药,一旦真相大白,便会立刻土崩瓦解。
三、“布”党将依次遇到四大危机:饥荒危机、意识形态危机、社会经济危机和崩溃危机,最后政权土崩瓦解,这一过程可能持续数十年,但这个结局谁也无法改变。
四、国家的伟大并不在于它的领土甚至它的历史,而是民主传统和公民的生活水平。只要公民还在受穷,只要没有民主,国家就难保不发生动荡,直至崩溃。

微软:
Plekhanov's last words:

With the development of productive forces, the team of intellectuals has increased faster than the proletariat, the role of the productive forces leaped to the top, and the Marxist proletarian dictatorship theory in the era of electricity will be outdated. Second, the Bolshevik dictatorship of the proletariat will rapidly evolve into a one-party dictatorship, then become a leader dictatorship.

A society based on deception and violence, in itself, contains self-destructive explosives that, once the truth is revealed, Fall apart immediately.

Third, the "cloth" party will encounter four major crises: Famine crisis, ideological crisis, social economic crisis and collapse crisis, the final regime fell apart, this process may last for decades, but this end can not change. The greatness of the state is not in its territory or even its history, but in its democratic traditions and the living standards of its citizens. As long as citizens are still poor, as long as there is no democracy, the state will not be in turmoil until it collapses.

谷歌:
The words of Plekhanov:
     First, with the development of productive forces, the ranks of intellectuals have grown faster than the proletariat, and they have taken the lead in productivity. In the age of electricity, the Marxist theory of the dictatorship of the proletariat will become obsolete.
     2. The dictatorship of the proletariat of the Bolsheviks will rapidly evolve into a one-party dictatorship and will become a dictatorship of leaders. The society based on deception and violence itself contains self-destructive explosives. Once the truth is revealed, it will soon fall apart.
     Third, the “cloth” party will encounter four major crises in sequence: the famine crisis, the ideological crisis, the socio-economic crisis, and the collapse crisis. The final regime collapsed. This process may last for decades, but no one can change this outcome.
     Fourth, the greatness of the country does not lie in its territory or even its history. It is the democratic tradition and the standard of living of its citizens. As long as citizens are still living in poverty, as long as there is no democracy, the country cannot guarantee that there will be no turmoil until collapse.

有道:

His last words:
One, with the development of productive forces, intellectual team increase faster than that of the proletariat, in the role as the first productivity, at the age of electricity of marxism's theory of the dictatorship of the proletariat will be out of date.

The dictatorship of the proletariat of the bolsheviks will quickly turn into a one-party state and become a leadership dictatorship. Society, based on deception and violence, contains self-destructive explosives, and when the truth comes out, it will fall apart.

Three, "cloth" party will, in turn, have four big crisis: hunger crisis, the collapse of the ideology, social and economic crisis and crisis, the regime collapse, this process may last for decades, but the end no one can change.

The greatness of a nation lies not in its territory or even its history, but in its democratic traditions and the living standards of its citizens. As long as the citizens are still poor, as long as there is no democracy, there will be no unrest until the country collapses.

梁:
这岂不让专业翻译人士好紧张吗?

李:
没办法,准备改行做编辑吧。作为职业,译员的市场的确在急剧萎缩中,大势所趋。

昨天跟老友说 还是要抬头讲故事 不能只是低头做实事。还要看故事的风口和时机。微软这一宣传 家喻户晓 老妪能解 普罗惊叹。一叹人工智能已经步步紧逼 看得见摸得着了。二叹微软太牛 给人印象是把对手远远抛在后面 在这个一日千里的AI时代 居然提前七年实现赶超人类语言认知的里程碑。

梁:
对,讲个好故事,比什么都重要!

李:
其实这几家品质都差不多 还有搜狗 还有一些初创 自从大约两三年前深度神经以后 都陆续达到了新闻翻译超越业余人工翻译的水平。换句话说 整个行业提升了。任何一家都可以心不跳脸不红做此宣称。可是老百姓和投资人不知道。这就看谁会讲故事了。

马:
大公司自己宣传,一帮不懂的媒体也愿意跟着捧,甚至捧得更卖力气。现在机器翻译拼的就是语料和平台,以前搜狗没有机器翻译,和我们实验室的刘洋合作后,不到一年就出了一个很不错的系统。

李:
AI 越来越像当年美苏的军备竞赛了,size matters.

@马少平 搜狗要营销的话 可以与电视台合作 搞个新闻现场大奖赛 请翻译界名人做评委 找n个专业翻译 m 个业余翻译 现场出题 限时翻译(要限制到熟练专业来不及查工具书 全凭大脑 勉强可以应付 为最佳)

马:
@wei 比起其他公司来,搜狗不是太会营销。

李:
这种比赛 没有悬念 最终一定是机器赢。好好设计一下,双盲比赛,让专家评审,也不能说它不公平。万一机器没得冠军 而是亚军或季军 宣传效果更佳 为下一轮比赛的高潮做了铺垫。那位人类选手神译 要好好保护 大力宣传 大书特书他过目不忘 博闻强记 知识渊博的种种事迹。当年花生智力竞赛大胜人类 本质上就是玩的这个套路。一直玩到进入了计算机历史博物馆的里程碑专区去了。MT 现在要玩的话,类似的效果,更容易设计,要想拉巨头参与也容易:几家巨头的MT网站都是公开的,随叫随到。

Ben:
@wei  youTube上 《成都》 有高圆圆的音乐,立委应该会喜欢!

李:
歌是好歌,早听过n多遍了,温暖慰藉。赵雷嗓子很有味道,可这小子镜头太多;圆圆友情出境,镜头太少,前面的剪影还是替身。

成都是个养人的好地方,出国前呆过大半年,乐不思非蜀(见【立委外传】):

1990 : 尝尽成都美食。 茶馆 火锅 夫妻肺片。

赵雷草根天才啊,独领城市歌谣,能写出这样的绝妙好词:

【画】
为寂寞的夜空画上一个月亮
把我画在那月亮的下面歌唱
为冷清的房子画上一扇大窗
再画上一张床
画一个姑娘陪着我
再画个花边的被窝
画上灶炉与柴火
我们一起生来一起活
画一群鸟儿围着我
再画上绿岭和青坡
画上宁静与祥和
雨点儿在稻田上飘落
画上有你能用手触到的彩虹
画中有我决定不灭的星空
画上弯曲无尽平坦的小路
尽头的人家梦已入
画上母亲安详的姿势
还有橡皮能擦去的争执
画上四季都不愁的粮食
悠闲的人从没心事
我没有擦去争吵的橡皮
只有一只画着孤独的笔
那夜空的月也不再亮
只有个忧郁的孩子在唱
为寂寞的夜空画上一个月亮

我不知道如何翻译,劳有道机器翻译一下:

“Draw a moon for the lonely night sky.
Draw me under the moon and sing.
Draw a large window for the cold house.
Draw another bed.
Draw a girl with me.
Draw another lace bed.
Draw a stove and firewood.
We were born to live together.
Draw a flock of birds around me.
Let me draw green ridge and green slope.
Picture peace and serenity.
The rain fell on the rice fields.
There's a rainbow you can touch with your hands.
There are stars in the picture that I have decided not to destroy.
There are endless smooth paths.
The end of the family dream has entered.
Picture mother's peaceful pose.
There's also an eraser argument.
Paint food that is not sad in four seasons.
A leisurely person never worries.
I didn't wipe out the quarrel eraser.
There was only one painting of a lonely pen.
The night sky was no longer bright.
Only a sad child was singing.
Draw a moon for the lonely night sky.”

自然有错译的地方(如 there's also an eraser argument. I didn't wipe out the quarrel eraser),可是总体而言,专业出身的我也不敢说一定能译得更好,除非旬月踟蹰。机器翻译超越业余翻译,已经是不争的事实。

 

 

【相关】

【机器翻译新时代的排座座吃果果】

【谷歌NMT,见证奇迹的时刻】

【校长对话录:向有道机器翻译同仁致敬】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【立委兄:小城记忆】

【立委按】恍如隔世的小城风貌 重新历历在目。老哥的记叙和对细节的记录 比我的记忆真切。记得曾经几次光着身子,只留一条短裤,独自游那条小河,想试试自己究竟可以游多远。顺流而下,蜿蜒曲折,从后街桥一直游到东门河外,好几个小时,直到精疲力竭上岸,踩着滚烫的石子路,赤脚回家。当年的脚板底皮实,尖石碎玻璃都不在话下。后背也不知晒脱过几层皮,黝黑如小鬼。

我从出生到二十岁之前,都生活在一个恬静破旧的江南小县城—南陵籍山镇,当年叫南陵城关公社。小城地处黄山山脉和长江中下游平原交汇处,城的西边是起伏的丘陵,城的东边是一望无际的水乡平原。

对小城的记忆随着时间的流逝,虽然不再那么完整和清晰,但老旧的小城总让我梦牵魂萦。我的同学好友,我的少年童真,那纯朴的风土人情,那古旧的土墙破房,都是抹不掉的记忆。

小城不大,当时城内人口约三万多,仅有一个十字型的街,分别叫东门、西门、北门、南门和十字街口,其中东西长约二公里多点,南北长不到二公里,尤其是南门街道很短,大约五百多米。我家住在西门父母单位分配的平房中。那是一个大通道,房子很小,通道分割成两间房子和一个厨房大约三四十平方,泥土地面 ,屋顶经常漏水。天屋子里很冷,房屋不保暖,四处透风,一般会生一个木炭火盆炉子以取暖,根本不用担心会煤气中毒。家里要比学校教室还是暖和多了,我们一般从学校回来,双手双脚冷得发僵,立即去炉子旁,那真是一种享受。

小城有五所小学,两所中学。我上的是全县最好的小学,叫南师附小,曾改名叫韶山小学,最后变成城关第五小学。这所小学基本上是县直机关和文卫单位的子弟学校。大家都是邻里街坊,彼此相识,不同年级学生也常在一起耍闹。不像现在的孩子,从幼儿园开始,我们都是自己走路去上学,不管刮风下。从就没有家长接送过一次。

小城有一个剧场和一个电影院,电影院在西门,离我家不远,剧场位于东门,就算比较远了。剧场一般演黄梅戏,都是那几出样板戏,母亲喜欢看戏,总带我去看。我对剧场环境装饰和灯光很感兴趣,但对看戏一点也提不起劲来。我更喜欢看电影,只是当年电影不多,刚开始只有【新闻简报】,【地道战】,【地雷战】和【南征北战】,门票倒不贵,【新闻简报】每场5分钱一张,【地道战】,【地雷战】和【南征北战】都是一毛钱一张,这几部故事片至少看了几十遍。

小城城东和城西各有一条小河,城中还有一条市桥河。小河都不宽,不到二十米。城东那条河叫漳河,我们习惯叫它为东门大河,是长江的支流,在芜湖市汇入长江。城西的河叫后街河,是漳河的支流,该河在城北汇入漳河。不论城东的河,还是城西的河,当年都十分清彻。河水终年不断,河流婉曲细长,两岸青草依依,处处柳绿桃红。两河是小城子民饮用水源,默默哺育着小城的子民。当年有人用板车水箱拖东门大河河水沿街叫卖,可见其水质甚好。在城东河与城西河交汇处的北门,有一个水运码头,这是过去小城通往外界的最重要渠道,但冬季枯水期是停航的。

每年五一到十一这段时间,我几乎天天都会去河中游泳,尤其喜爱东门大河,水质好,又是沙地很适宜玩水。后街河也不错,但水底是硬土质。最不好的是城中的市桥河,这是一条横穿小城核心区域的断头的小河,水底是厚厚的淤泥,沾脚又有腥臭味,故水质较差,无法饮用。但因离家近,也常去那下水游泳捉魚玩耍,小河边常见的是一群少妇在河边石阶上用木梆搓、捶、洗衣。这条河最有特色的是河上那四五座古色古香的石板拱桥。目前只剩下两座了,最有名的叫玉带桥,几百年的苍桑,它见证了小城的兴衰。河旁边紧靠着有一个面积相当的荷花塘,池塘一边真抵我家门口,捕捉塘里荷叶下大黑魚与采摘甜嫩可口的莲蓬,是我少儿时最美好的回忆。夏天我常常泡在河里,一泡就是大半天,它们承载了我青春的悲欢喜乐。


玉带桥


东门大河,远处为东门大桥

西门后街河的河岸有一种黑色的粘土,是我儿童时最爱。

我常去河旁挖这黑土,用来做手枪等玩具。这黑土很粘,能塑成各种形状,风干后坚如石块,黝光发亮,做手枪尤为逼真。当年此土分布不多,也不成片,不知今天改造后的后街河岸还有此土不?

东门的章河盛产河沙,小城的建筑用沙,当年全靠此河。包括我上中小学,运动场跳高跳远的沙坑的沙,都来自东门大河,是我们学生从东门大河一担一担,行走三华里多挑到学校的。几乎每年运动会前都会去东门大河挑沙数次。市桥河的淤泥是很好的农家肥,每年冬天都有人抽干水,把淤泥挖上岸,然后运到田里。


后街河和后街桥

小城四周有很多水塘,很多同学都喜欢去城外钓鱼捕虾捉黄鳝。我对这方面实在笨拙,天赋极差。第一次出去约鱼,是同学鲁干劲硬拉我去的,他还为我准备了鱼杆和诱饵,可一天下来,他收获满满,而我一条鱼也未钓上来,空手而归。最有意思的是和几个同学一起到离县城不远的水田田野捉黄鳝。那是一个夏天的晚上,大家点着松木火或打着手电筒,挽起裤腿,卷起袖子到田硬边捉黄鳝,一晚可捉一小桶呢。那年头黄鳝可是美歺,虽然我们全身是泥,十分疲困,但喜悦洋溢在脸上。小伙伴们各拿几条带回家里,改善了当年贫瘠的生活,也丰富了我们课外活动。

小城当年很破旧,小城街道都是土石子路,只有去党训班的路保留着过去的青石板路。城里没有路牌,也没有红绿灯。常见有人端小板凳坐在自家房檐下,纳着鞋底做着针线活,然后东家长西家短的议论着。小城难得有隐私,有点事儿就传遍全城。

小城以一层楼为主,偶尔有几处二层楼房。街道门面全是砖木结构房,木板揿在石凹中,随时可拆下。城内最高的楼是县委县政府大楼,有三层,但只是局部三层,呈凸型状。当年我们这些小孩特喜欢爬到三楼平台上,常趁守门人不注意,溜进大楼。在三楼平台上,我们沐浴细风,俯视全城,顿时有心潮澎湃的感觉。那种立足平台、展望中国、胸怀世界之豪情现在的年轻人很难感受到。看着眼前的小城,远处的小山,似乎体会到毛泽东当年在长沙橘子洲头的豪迈。“恰同学少年,风华正茂。” 解救全世界三分之二受苦民众的担子,历史的落到我们的肩上。

 
几处保留的当年旧县城街道门市

小城的美食还是很多的。普遍贫穷,一碗九分钱的光头面对我们都是十分诱人的。小城的小吃很有特色,糍粑、油炸饺子、馄饨都与众不同,味道是别处没有的。臭干子拌香菜也是一绝,倒点香油,加点花生米,那味道真是好极了。更让人难忘的是五小门口的薄皮饼,一张炉具和一个园盘夹,勺一匙水面粉放在那园盘上,两个园盘一夹放在炉具烤,一张细薄的园饼就出炉了。那种香、甜、脆,回味无穷。每天那炉旁便会招来一群小孩儿,一分钱一张,一手交钱一手交货,大家舔着、啃着、笑着,非常享受。

在我生活小城的这二十年中,小城几乎没有什么变化,东门还是东门,西门还是西门。小城二十年如一日,蕴含浓烈的乡土气息。一辆破旧苏联轿车是县城唯一的豪华,县委书记专车。我同学父亲是这车司机,让我们对她好生羡慕。大多数建筑都是解放前的,屈指可数的几个重大变化是,十几年尘土飞扬的土石街路终于在文革末期简单柏油化;到了高中,小城不用下井下河挑水饮用,终于有自来水了;城中医院在我小学时拆迁,准备建三层的门诊及办公大楼了。不过从我小学四年级开始动工,到我快进大学时,这栋非框架的三层大楼才落成,也算创造了一个记录。

小城很纯朴,文革的大批判声音也未改变它那单纯的气质。大多数人还穿着打着补丁的衣服,鱼肉是一种奢侈品,能填饱肚子就是一种幸福。小城的人们每天或劳作或聊天或晒太阳,似乎满足于这贫困的生活。我家条件算好的,有一台家电,那是五灯的电子管收音机,当年是我们那一栋房子中唯一的一台(后期这种收音机就多了)。当年大家都很关心国家大事,议论着世界,声讨美帝苏修,评论着资本主义世界水深火热的生活,唯独对自己生活现状没有牢骚。清贫而又满足,是小城大多数人的状态。

小城以小商业为主,没什么工业。整个城镇在上世记七十年代中期才建有四个小工厂,即小化肥厂,小钢铁厂,农机厂和地区拖拉机厂。但我第一次看到那钢铁厂高耸的烟囱时,我为祖国工业突飞猛进的成果由衷的感到骄傲。正如毛主席所言:敌人一天天烂下去,我们一天天好起来。生活在毛泽东时代的我们,生活在社会主义中国的青少年,那是多么大的幸福呀。我们总是很容易满足,总是很相信宣传,总是充满了原教旨式的自毫感。

小城只有一个公园,叫中山公园。在小城民众的心目中,它很神圣。其实那个公园算不上真正的公园,只是三百米跑道的一个小小运动场,但却是小城唯一的空旷之地,小城的大型集会都在此进行,相当于小城的天安门广场。

小城没有什么古迹,也没有什么风景。老的夫子庙毁了,城中的一个古塔也推倒了。文革破四旧时,一切封资修的东西都属摧毁之列,小城也不例外。仅有的一点点古建筑也随着高亢歌声被推倒。

虽然没有了古迹,也看不到风景,但小城有土城墙,有护城河,城墙外有黄灿灿的油菜花,青青的水稻田。江南的小城,有雨巷的韵味,水乡的特质,总让我不能忘怀。自从上了大学离开小城,一晃四十年了。岁月如梭,不知不觉如今小城早已变了模样。宽阔的大街,鳞次栉比的高楼,各种店辅,来来往往的汽车,匆匆的行人。我心中的小城在哪里?曾经的小城,曾经的记忆,小城故事,随着岁月流逝几无踪影了。它早已不是我心中的那个小城。只有一个宁静的小城,在梦中。

 

【相关】

江城记事

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

 

 

【李白100:Parsing 的休眠唤醒机制】

尼:
十几年前给两个台办主任送过美凤光盘。

李:
主语施事是侬?

 

这是一个疑问句。

迈:
这是给中纪委举报的分析图吗?

白:
为啥“主任”没当actor?under是“两个台办”,actor是“主任”多好,不用向外借context里的“尼克”了。“台办主任”难道进词典了?N+N结构难道比缺主语还优先?

李:
没进词典,“台办+主任”是rule合成的。为啥主任要做那个actor?“给” here 是个介词,是“送”的 subcat 要求的,作为 dative,不是逻辑主语,就是双宾语句式的 human 对象,光碟才是 undergoer。

白:
说错了,“两个台办”是介宾,“光碟”不变。“主任”单拎出来,做actor。

李:
why?还只是理论上的可能性?有两个台办么?文革中的确有过两个司令部,但那是非常时代。

白:
我是好奇,为啥一个无主的选择会优于一个有主的选择。难道你是推理了没有两个台办才往后走的么?

李:
没有推理,I was kidding。合成词:台办+主任,优于被 determiner 直接修饰。汉语中合成词的构成优先于句法上的chunking;不仅汉语,这是语言学一般原则:合成词处于 morphology 和 syntax 之间。

白:
也就是说,局部的优先关系已经把别的可能性扼杀了?不把其他选择往外传?

李:
这个原则上是对的。

白:
比如“听说发文件的是台办主任吓坏了”,肯定分析不对了?

李:
这个...人理解也有歧义。
不怕献丑了:

白:
不太通

李:
的确不大通。这个 parse 是说,“是台办主任吓坏了”,“听说发文件”是一个诱因。不是完全不可能,但对里面的小词 “de” 和 “是”,parsing 有点走偏了。做这些小词,分寸很难掌握,稍不留心就过火。

白:
“去了趟台办主任更神气了”如何?没有小词了。

李:
白老师不要逼人太甚 :=)
没有小词了,但你为啥不加逗号,不加标点也罢,给个 SPACE 也好。

白:
学意识流。

李:
存心难为 parser:

wrong,as expected

白:
意料之中,构词法一上,木已成舟。

李:

see 你若规矩 便是晴天!
一个小小的 space 有那么难么?为啥意识流?ADD 了么?做系统的人都知道,没有没有软肋的。

白:
对。只是好奇。因为之前交流过能带着多种可能性往下跑的事情。

李:
只是分寸火候而已。原则上,合成词前置是合理的,好处远远大于副作用。理论上可以保留哪怕微小的其他可能性,待后处理。实践中,当断不断, 终于自乱。哪些带着往下跑,哪些当断则断,也是一个火候的掌控。PP-attachment 这类我们是往下带的。太低的模块,一路带着往下跑,瓶瓶罐罐的,非常难缠。

白:
所以,先休眠再有条件唤醒,也是一策。当然这就要允许逆行。

李:
带着往下跑本质上也是一个组合爆炸问题,除非一边往下跑,一边卸包袱。
休眠唤醒是一个好主意,对于某些现象。我也试验过,用得好是有效的。

白:
段子大都是休眠唤醒模式。

李: 譬如一个 NP,内部的关系难以全部穷尽可能性,那就保留部分关系,然后到最后,可以重新进入这个 NP,根据需要决定重建关系。在这种情形下,问题已经缩小了,重建不难。甚至 PP-attachment 也可以循此道。譬如,一律让 PP 挂最近的 XP,成为 deterministic parse,到了语用和抽取的时候,再去重建其他的 parses,这时候语用的条件进来了,先前被休眠的可能 parse 就可以复活。

白:
武断和文断的区别…… 武断是效率的保证,休眠唤醒是兜底的保证。

李:
段子的休眠唤醒说明,人的大脑认知也是先入为主的,很多时候是武断的,不过是允许反悔罢了。这种反悔有类似以前的 backtracking 的地方,但是实践中并没有那么大的 costs。

白:
看是哪种实践了

李:
因为在语用层面做反悔,基本上是已经聚焦了以后的反悔。这种聚焦最经常的方式是词驱动,因此,需要反悔重建的现象大大缩小。

白:
不同商业模式下,价值取向有差异是正常的。

李:
如果大海一样全部来反悔运动,还不如一开始就全部保留。幸运的是,绝大部分应用,语用与语法是可以分清界限的。

白:
反悔是白名单驱动,武断是标配。

李:
标配就是统计可能性大的,或者是遵循普遍原则的,譬如合成词前于句法。

白:

李:
任何原则或 heuristics 都有例外,到了例外,如果有一个反悔机制最好。

白:
给一条反悔的通道,但是慎用。

李:
与此相对应,还有一个例外排除机制,就是先堵住例外,然后做标配。这个办法比反悔更费工。只有在具有类似 Expert Lexicon 的词驱动的例外机制的时候,才好用。

白:
提醒一下,词驱动是取决于双因素的,不仅要看trigger是啥,也要看休眠的是啥。另外休眠的东东即使不参与分析,也可以自己做弥漫式联想(不同进程或线程),类似认知心理学说的阈下啥啥啥。这样trigger就可以提高命中率

李:
弥漫联想再往下就是弗洛伊德了。

白:
对。
词驱动这种“相互性”我举个例子就明白了:我家门前的小河很难过。
“难过”具有长词优势,“难/过”休眠了。但是,“过”弥漫式联想,激活了“过河”,于是开始反悔。直到“难/过”翻案成功。

李:
好例。“过河”与“洗澡”一样是分离式合成词,属于动宾结构。凡是可以词典化的单位,休眠重启不难实现。因为词驱动的可能性都是有限的,而且可能性都可以预先确定。以前提的“睡过”的歧义也是如此。

白:
trigger有外因有内因。外因就是更大整体的句法、或语义、或语用产生不匹配等,内因就是当事的成分自己或静态、或动态地展现出结合的可能性。休眠情况下,静态不可能。动态,相当于休眠的成分梦游了,在梦游中邂逅了。那个“夏洛特烦恼”,也是上下文给了“夏洛”独立成词的某种强化,回过头来唤醒了“特”作为副词的已休眠选项。或许,作为副词的“特”正在梦游。

说了半天,还不是为了尼克

李:
对了,忘了尼克究竟是不是actor了,丫保持缄默,怎么讲?贿赂完三X光碟,在一边偷着乐吗?

(i)  "这是我与领导的聊天记录"
(ii)“我与领导的聊天记录得详详细细”

两个休眠唤醒策略:

其一是,“聊天记录”做合成名词,到第二句的某个阶段,把“记录”分离出来做谓语。
其二是,“NP【我与领导的聊天】VP【记录】” 先做成句子(CL:Clause),然后,在第一句解析的某个阶段,再改造这个 CL,成为 NP,主语于是成了修饰语 M:

得字结构无动词谓语可以附着,是 trigger 休眠唤醒的契机。

NP +【得详详细细】:把 NP 内头词的潜在动词性唤醒,分离出来做谓语,非常有道理。新媳妇嫁错人家了,可以抢出来再嫁,没必要嫁狗随狗。

白:
得 向左还是向右,是一个问题

李:
虚词而已,左右无所谓,反正是敲门砖,用完了就扔(X)。

 2016-1-27 15:46 |首发 科学网—《泥沙龙笔记:parsing 的休眠反悔机制》

 

【相关】

科学网—【立委科普:结构歧义的休眠唤醒演义】

科学网—【立委科普:歧义parsing的休眠唤醒机制再探】

【一日一parsing:休眠唤醒的好例子】

【NLP随笔:词法内部结构休眠,句法可以唤醒】

【李白91:休眠唤醒需要打离婚证】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白99:从大小S的整体部分关系看舆情挖掘的统计性】

白:
“这家公司从年报看业绩没什么起色。”

李:
“业绩”可以是小s 也可以是“看”的宾语,其实语义基本不变。“从N看”很像个习惯表达法,可以等于 “从N看上去”(“以N而观之”)。

白:
“这个人从眼睛看瞳孔是蓝色的。”

董:
两位,“这家公司”、“这个人”,还是“状语”吗?怕不合适吧?

李:
主语。“从N看”可以做状语。还是大s小s那套,及其变式。逻辑上就是整体与部分的情形,谓语说部分自然也在说整体。感觉 大小S的问题 有很强的逻辑意味 是逻辑在语言中的表现形式。大S是整体 小s是部分 谓语直接说的是部分,自然也就间接说了整体,这是逻辑上的不完全归纳,与三段论的演绎正好相反。归纳不如演绎严谨,容易引发种种争议,但归纳是人类认识和表达世界广泛使用的手段,表现在语言形式上就很有说法了。

这个问题我们在做舆情分析中,无数次遭遇:说 “iPhone 屏幕很好”,直接说的是“屏幕”,间接说的是 “iPhone”,算不算是说 iPhone 的好话?当然算,至少是找到了 iPhone 的一个亮点。

A:iPhone屏幕好
B:iPhone 屏幕好,但别的都不行。
A:照你说,iPhone 只剩屏幕好了?
............

A 是说 iPhone 的好话,用的逻辑是不完全归纳。B 是说 iPhone 的坏话,但也做到了与 A 并不矛盾,根据的是归纳的不完全原理。所以说 不完全归纳就是那半瓶水,乐观主义看见的是水,算是点赞;悲观主义看见的是空气,可以是吐槽。如果反过来用三段论演绎法,说的是整体而不是部分,譬如 “iPhone 就是好”,就没有这些弯弯绕了,不会留下模糊的空间。

大前提:iPhone 好
小前提:iPhone 屏幕也是 iPhone (有机部分)
结论:iPhone 屏幕好。

这跟 “文化大革命就是好” 一个道理,是点赞没商量。

回到原句:“这家公司从年报看业绩没什么起色。” 句法上的大S在逻辑语义层转为O,句法上的小s上升为S,这些都说得通,只欠O(整体)与S(部分)之间的关系了:

愿意做细活的话,这个有点特别的 “从N看”(习惯表达法)可以看成是状语或插入语,它不是语句的重心。不过,这种细活做多了,不仅费工,而且也难免弄巧成拙,譬如,万一前面出现了一个通常不出现的主语“我们”或“大家”,就找不到自己的谓语了。

“这个人从眼睛看瞳孔是蓝色的。”

“瞳孔是蓝色的。”
“这个人是蓝色的。”

这就是不完全归纳法推向极端的情形:上句因为是极限事例,听上去不 make sense,但却的的确确隐含归纳法从部分到整体的逻辑链条在内。如果改写成这样,就貌似有些道理了:

“就瞳孔而言,这个人是蓝色的。”

“瞳孔” 这个概念 在其常识性本体知识库里 在Color的字段下 其 appropriate 的属性值里面包括了“蓝色”。但是 “人” 这个概念里面 常识本体库里面的 Color 栏目 没有“蓝色”这个选项,只有“黑 白 黄 红”。说 这个人是蓝色的 违背了这个常识 所以觉得很怪:除了妖怪和童话,怎么会有蓝色的人呢?但人的某个部位的确可以是蓝色的。部分的属性推广到整体的时候 遇到了矛盾。

“希特勒特别善于演说”

是说 希特勒好 吗?还真地就是说他的好话。在舆情抽取的时候,我们记录每一个这种表述,部分好相当于给整体好投了一票,但抽取的碎片化情报只是零散的一票一票,到了对于整个数据源进行信息融合(fusion)的时候,这每一张投票就被统计出来,“舆情”就自然得出。

白:
这是诛心。说鸡蛋好是不是也给下蛋的母鸡投了一票?

李:
最后的结果非常 make sense。原来,在与希特勒相关的舆情数据里面,整体而言,点赞的不足 1% 吐槽的高达 99%,可见其不得民心。这是全貌。舆情的细线条分析 进一步揭示 即便点赞,赞他的方面(aspects)或依据(why)几乎总是其客观能力(演说才能)等,吐槽的却是他的实质:思想,行动,内心,等。

说鸡蛋好,的确是给那只老母鸡点了赞。虽然钱先生对喜欢他的《围城》的粉丝说,鸡蛋好吃,又何必认识老母鸡呢。其实钱先生不仅仅是谦虚或清高,其实就是懒。懒得搭理那些无穷无尽的崇拜者。他内心何尝不知道,鸡蛋吃得香的人,对于老母鸡是有赞的。至少,我去超市买鸡蛋,对于能下黄鸡蛋的母鸡,比只会下食之无味的白鸡蛋的母鸡,心里不是一视同仁的。anyway,我们做了多年舆情挖掘,就是这么个原理。利用的是不完全归纳,对于不完全归纳所带来的副作用和逻辑不严谨,弥补的手段就是大数据投票。并不离谱,有全貌,有细节。

在大数据下,好人不会被评坏了,坏人也不会被评好了。当然,国内水军据说可以左右大数据,另当别论:主要是数据还不够大,水军也太便宜。

白:
无罪推定的原则,逻辑上(典型的就是三段论)推不出来的,你不能安给我。统计算个数也就罢了,把标签落到人头上,贻害无穷。这与诛心何异。比如,我反对一个人的证据(比如钓鱼贴里面那种荒唐证据),对其结论并没表态(尽管结论可能很政治正确),这是一个正常的理性行为。如果因为这个给我打上政治不正确的标签,我很难接受。

李:
大数据下,任何标签都不是黑或白。

白:
可是这种粗暴做法,冠以“舆情分析”的高科技帽子,几乎每天都在发生着。

李:
说你 99% 的政治正确,1% 的政治不正确,你应该很高兴。我要是开个餐馆,或经营一家NLP咨询公司,只要有 80% 的赞誉度 就笑懵了。每次找餐馆,我从来不特别找全五星的,总是找4星以上的,一万个评论打了四星的,比一千个评论打了五星的,要好得多。

白:
评好人缺点的人、不赞成拍好人马屁的人、不赞成捧杀好人的人、不赞成用荒唐论据支持好人的人被当作跟好人不一伙的人,这样的技术是危险的。其实是在诛心,或者在实现一种诛心的逻辑。

李:
退回到人工问券调查民意的时代,手工民意测验其实更差 更不完备。因为大S作为调查对象虽然是确定的,这个 大S的方方面面 那些点赞他吐槽他的种种理由 却五花八门。这些五花八门 个体可能有诛心的风险 整体统计却化解了风险。到了民主政治 一人一票 根本就无心可诛。大数据下 只看票 不看理由。

白:
挺转和反转,就因为双方的旗手而呈现站队状态。反崔挺崔,反方挺方,本来与挺转和反转是互相独立的,在舆论场中愣是给弄成掰不开了。这个话题与政治关系不大。一个人只要不满崔,就会被当成挺转分子。

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白98:从对联和孔子遗言看子语言自动解析】

李:
微信群转来的,想,配个图吧。

做自动解析(parsing)走火入魔,几乎成本能了。凡是人说难度极大,或者盛赞中文奇妙的语录,都忍不住想 parse parse 试试,到底看看离形式化自动化分析距离究竟有多远:稀奇古怪的句子其实不是自动系统的关注点,但它们往往像疲劳测试一样,可以把问题推向极端,考验自动解析的鲁棒度和机械系统应对灵活多变的能力,而且好玩,有fun。

某上海大学生为了显摆,在迎新会上出了一则上联:
上海自来水来自海上。

Note:
CL(clause)= 句;NP(Noun Phrase)= 名词短语;Pred(Predicate)= 谓语;N(Noun)= 名词;V(Verb)= 动词;H(Head)= 头词
S/s(Subject)= 主语;O/o(Object)= 宾语;M/m(Modifier)= 定语;R/r(Adverbial) = 状语

顺念倒念完全一样,难度极大!但其他省的学生也不是吃干饭的,
北京大学生对曰:
香山碧云寺云碧山香。

这个不好整,形容词活用古汉语常见,现代汉语罕见,算是 sublanguage 的问题,同一个系统难以兼顾两种可能冲突的子语言现象。先凑合吧。

山东大学生对曰:
山东落花生花落东山。

山西大学生对曰:
山西悬空寺空悬西山。

安徽大学生对曰:
黄山落叶松叶落山黄。

海南大学生也不示弱,对曰:
海南护卫舰卫护南海。

白:
这倒是像照妖镜一样把每个下联的工整程度晒出来了。

金:
NLP大学生对曰:
语言学老炮老学言语。

李:

“语言学老炮”是有来历的,指的就是白老师。见最近风行的新智元的专访报道:

【老炮儿白硕开讲】区块链可替AI对抗数据寡头

我在朋友圈推送了:看得懂还是不懂 还是雾里看花 似懂非懂 反正我是一字一字看完了。白老师的科普 无条件推送。懂行的看门道 不懂行的可以欣赏文字和说法。

微信还流传着这么一个帖子,一律有惊悚的标题:孔子临终遗言出土,惊动世界,反动之极:

《子寿终录》

子寿寝前弥留少时,唤诸弟子近叩于榻侧。子声微而缓,然神烁。嘱曰:吾穷数载说列侯,终未见礼归乐清。吾身食素也,衣麻也,车陋 也,至尽路洞悉天授之欲而徒弃乃大不智也。  汝之所学,乃固王位,束苍生,或为君王绣袍之言。无奈王者耳木,赏妙乐如闻杂雀鸣,掷司寇之衔于仲尼,窃以为大辱。其断不可长也。鸿鹄伟志实毁于为奴他人而未知自主。无位则无为,徒损智也,吾识之晚矣。呜呼,鲁国者,乃吾仕途之伤心地也。汝勿复师之辙,王不成,侯为次,再次商贾,授业觅食终温饱耳,不及大盗者爽。吾之所悟,授于尔等,切记:践行者盛,空叙者萎。施一法于国,胜百思于竹。吾料后若有成大器之人君,定遵吾之法以驭民,塑吾体于庙堂以为国之魂灵。然非尊吾身,吾言,乃假仲尼名实其位耳。  拥兵者人之主也,生灵万物足下蛆;献谋者君之奴也,锦食玉衣仰人息。锋舌焉与利剑比乎?愚哉!旷古鲜见书生为王者,皆因不识干戈,空耗于文章。寥寥行者,或栖武者帐下,或卧奸雄侧室。如此,焉令天下乎?王座立于枯骨,君觞溢流紫液,新朝旧君异乎?凡王者祈万代永续,枉然矣!物之可掠,强人必效之;位之可夺,豪杰必谋之。遂周而复始,得之,失之,复得之,复失之,如市井奇货易主耳。概言之,行而优则王,神也;学而优则仕,奴耳;算而优则商,豪也;痴书不疑者,愚夫也。智者起事皆言为民,故从者众。待业就,诺遁矣。易其巧舌令从者拥主,而民以为然。故定乾坤者必善借民势。民愚国则稳,民慧世则乱。  武王人皆誉之,纣王人皆谤之。实无异也!俱视土、众为私。私者唯惧失也。凡为君者多无度,随心所欲,迎其好者,侍君如待孺子。明此理,旋君王如于股掌,挟同僚若持羽毛,腾达不日。逆而行之,君,虎也,僚,虎之爪也,汝猝死而不知其由。遇昏聩者,则有隙,断可取而代之。  治天下者知百姓须瘦之。抑民之欲,民谢王。民欲旺,则王施恩不果也。投食饿夫得仁者誉,轻物媚予侯门其奴亦嗤之。仁非钓饵乎?塞民之利途而由王予之,民永颂君王仁。  御民者,缚其魂为上,囚其身为不得已,毁其体则下之。授男子以权羁女子,君劳半也。授父以权辖子,君劳半之半也。吾所言忠者,义者,孝者,实乃不违上者也。  礼者,钳民魂、体之枷也。锁之在君,启之亦在君。古来未闻君束于礼,却见制礼者多被枷之,况于布衣呼?礼虽无形,乃锐器也,胜骁勇万千。  乐者,君之颂章也。乐清则民思君如甘露,乐浊则渔于惑众者。隘民异音,犯上者则无为。不智君王,只知戟可屠众,未识言能溃堤,其国皆亡之。故鼓舌者,必戳之。  吾即赴冥府,言无诳,汝循此诫,然坦途矣!切切。
  言毕,子逝

白:
个人认为,不加连词的复杂谓语结构,在先秦时期似乎是没有的。

李:
这个遗言太现代人了 哈。

白:
“鸿鹄伟志实毁于为奴他人而未知自主。”这哪是先秦的话。

李:
这叫挟圣人以讽世。那行文不是先秦,是我祖父那一辈人常用的文白夹杂的“时文”(见《李老夫子遗墨》)。胡佛塔馆藏的蒋中正日记里也常见。

只好也凑合了。半文半白,难得兼顾,子语言中各别的部分,需要针对性对付。这跟领域化(domain porting)道理同。

王:
临别时,与弟子说一些“吾十有五而志于学...”之类的话似乎更靠谱。人家正在延揽学究攻此项目,大家静下心来,观棋不语真君子!

李:
孔老夫子长寿的秘诀是什么?他那个年代 73岁是寿星了,才能从“耳顺”,到“从心所欲”。那个年代,夭折不计的话,平均寿命也不足40吧。最近一个世纪,人的寿命才显著增长,而且貌似没有停下来的意思。所以才有谷歌忽悠跳大神的勾当,一本正经研究长生不老。所以才有脸书的娃娃扎哥放豪言,要以他的财力资助现代医学,“根治”一切不治之症。特斯拉钢铁侠于是正式立项,推进移民火星计划。地球装不下啊。

有时候想,当年大跃进,毛主席放豪言要20年赶英30年超美,亩产万斤,这种热昏的胡话也有人信,终于三年饥荒,饿死几千万收场。但如果比起谷歌脸书特斯拉大佬们的豪言,热昏度上看,那是小巫见大巫啊。

Lin:
你说的是“说话者的热昏度”,还是“狂热群众听者的热昏度”?

李:
good point,好在西方大佬们把牛吹上天,没有太多恶性后果,反正花的是投资人和股民的银子,愿者上钩:人有多大胆,股有多大产。股民喜欢这些。假作真时真亦假,先帝再世也只能自叹弗如了。

扯远了,回到语言学 parsing 来。那句仿古文句的白话文译文是:

我的伟大理想没有实现是因为我只知道给他人做奴才

姜:
@wei 用您的这套“照妖镜”工具体系能分析出此文是否是孔子的遗言么?

李:
这事儿估计不如机器学习的分类系统。真伪问题更多是用词而不是结构。统计性 ngram 蛛丝马迹,比宏观结构的异同更重要。文本分类是 parsing 的短项,关键词学习系统的长项,不是合适的场地(见《规则系统的软肋在文章分类》)。看一个林子的颜色,不需要对每棵树每片叶子做精细的分析。

 

【相关】

《李老夫子遗墨》

孔子临终遗言出土,惊动世界,反动之极

【老炮儿白硕开讲】区块链可替AI对抗数据寡头

规则系统的软肋在文章分类

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白97:大S小S句式中插入“的”所引起的交叉陷阱】

李:
大S小s 即所谓双主语句,又叫话题句、主谓谓语句,是中文文法非常著名的现象,与西方语言很不同的一种句式。例如:

她个儿高 盘儿靓 心眼儿还特好

“她”是主语 是话语研究(discourse study)中的话题(topic),谓语的内部结构里面还有个小主语,所以叫主谓谓语(主谓结构整体做谓语)。中文里面特常见,翻译成英文试试?没有对应的句型 只好转弯抹角换个说法 不是换词汇 就是换结构。

She is tall, pretty and kind.
She is tall, with a pretty face and kind heart.

硬译过去 就惨不忍睹:

* She body tall face pretty and still heart kind.

老外不是看不懂这种洋泾浜,但文法错乱难以忍受。好回到今天正题,再看一个实际例子:

“和我在超市买的速溶咖啡口味不同”

买的是咖啡,不是口味,可真要辨别清楚,不容易,或不值得。“口味不同” 貌似可以成为一个复合谓语,但这样处理,需要协调前面的 possessive NP 的情形,比较:

1. 速溶咖啡【口味不同】
2. 速溶咖啡的【口味不同】

【口味不同‘】做了谓语,例2中那个“的”字就悬在那里了。如果硬要建立 possisive 的关系,从 PSG (短语结构文法)来看,就违反了关系不得交叉的原则:

  • <(速溶咖啡)的 [ 口味 > 不同 ]

有意思的是,这类交叉关系的逻辑困境,换了 DG(依存关系文法) 表达法,就烟消云散了:

只要允许同一个儿子(“咖啡”)可以有两个老子:做“不同”的主语“大S”,做“口味”的定语 Mod,依存关系里面逻辑纠缠的问题就迎刃而解。道理就是,PSG 是在线性流上面标记,很容易陷入边界陷阱。而更加逻辑化表达的DG则是增加一个维度,head (头词)可以上升为老子(父节点),空间的伸展化解了逻辑形式的矛盾。

白:
交叉要有前提条件,就是过继。“口味”也是有价名词。同理。“王冕死了父亲”,“父亲”的坑过继给“死”,吃一吐一,还留着一个坑给王冕。操作层面算在动词账上,实质层面算在有价名词账上。

李:
以前遇到的左右两个修饰语争抢中间的 head 的伪歧义也是同理,在 PSG 里面不可化解,于是成为歧义(其实是没有意义的“伪歧义”),但到了 DG,head 沿着 Y 轴上升为老子,歧义就自然消失:mod1 H mod2

(1)  ((mod1 H) mod2)
(2)  (mod1 (H mod2))

到了 DG,就是:

(mod1 (H) mod2)

这个 (H) 实际上是升上天了,mod1 mod2 也就没得抢了。

其实 SVO 也是如此,文法书一贯的教导都是: VO 先形成 VP 做谓语,才有资格与主语 S 对谈。但 DG 其实不管,动词中心论说的就是把 V 推到皇帝的宝座,S 和 O 不过左右丞相的区分而已。

所以:((S V) O) 其实不比 (S (V O)) 逊色,反正是两个坑,谁先跳进去,其实对于逻辑和理解是无所谓的。只是到了具体语言,这个次序在句法上可能有个方便和不方便的区别。强调句法的人,可能觉得 VP 先成立 对于语言现象的概括和捕捉更加方便和精炼,但实际上这树怎么画没有想象中的那样绝对。

“和我在超市买的速溶咖啡口味不同”

“和咖啡不同” 还是 “和口味不同”?显然是口味。但是如果短语结构是那样的话,“买”的就是“口味”而不是“咖啡”了(见上图)。PSG parsing 常常遇到这种忠孝不能两全的困境。如果硬要 “买咖啡”的 VO 和谐,把“口味”从VP中踢出去,前面加的那个”和“字,就找不到北了,因为“和”所引导的比较对象是“口味”而不是“咖啡”。矛盾不矛盾?

白:
张三和李四不是同一个老师。
张三和李四不是情敌。

买的口味,肯定错了。买的咖啡、口味,传统说法是大小主语的关系。咖啡-口味能作为大小主语,就不作为定中关系。即使作为定中关系,反填也优先于定中。

李:
说的就是难以两全:

1. 和我在超市买的速溶咖啡口味不同
2. 和我在超市买的速溶咖啡的口味不同"

照顾了1 就照顾不了 2.

(我(身体好) 和 ((我的身体)好) 也是如此。身体好先行成为谓语,就把 “的” 字悬在空中了,当然我们也可以强行,把小词用 X 抹去,过河拆桥:

(我S 的X (身体好)Pred)。

白:
“孤苦伶仃的王冕父亲死了。”

谁孤苦伶仃?

“不符合规定的流程取消了。”

不符合规定,还是不符合流程?

李:
不符合规定的流程, 取消了。
不符合所规定的流程, 取消了。

白:
“的”的辖域本来就有歧义。

李:
或者就霸王硬上弓,出现“的”就X抹去,等到将来建立“所有”关系(反填逻辑语义)需要借助“的”的时候,再复活它。

白:
大小主语关系和定中关系,落到有价名词身上,填坑效果是一样的。区别只是名份的区别,没有实质意义。“的”字的介入,只是在没有实质意义的区别天平的一端加重了砝码而已,结果做出的区别仍然是没有实质意义的。

李:
“的”的句法默认就是 possessive,突然悬空了,句法上的确不好看。两害取其轻,管他“的”不“的”,见贼杀贼,抹去就抹去罢。

白:
所以伟哥建议去掉“的”在这个具体场合有他的道理。问题是,如果能判断出属于这个具体场合,也就等于解开这道题最难的部分了。感觉画树纯粹是面子工程,就该直接画图,管他交叉不交叉。

李:
实际上是把显性句法形式的定语关系,与隐性的逻辑语义所属关系,都化作隐性对待了。使定中有形式,但无PSG表达。属于不得已为之的。最终还都是图,而不是树。图比树多了个维度,摆脱了语言线性次序的束缚。

白:
画树只是为了对应栈操作。实际上栈操作可以通过“过继”机制实现有控制的交叉。也就是以树为“拐棍儿”,达成图的目标。把树神圣化、教条化,就走向反面了。

李:
PS树从来就是拐棍。用的时候,还要再转一次。

白:
所以,有没有桥,和有没有路,是两回事。没有直通的桥,还可以有借路的桥。过河拆桥,是拆的借路的桥。最终看到的和最终关心的其实是路。

李:
PSG 的交叉把边界节点算进去了,到了 DG 边界节点不算 两头相安无事。真正交叉的逻辑陷阱 不应该包括边界点 因为逻辑层是脱离了线性次序的,思维的本性就是天马行空,无拘无束。

白:
“王冕父亲死了”无论把“王冕”和“父亲”的句法标签确定为“定中”还是“大小主语”,都显得多余。它们之间逻辑上只有领属关系。

李:
当然 的确也有合理的交叉 可以跳进其他结构的内部去这种。但毕竟统计上罕见多了 而且凡是出现那种情形 人的理智和情感就多少感觉拧巴。换句话说 跳进内部 里通外国 干涉别国内政 必须要有非常强大的理由 不是儿戏。

在长期批评中文的种种文法不严谨的缺点以后,可以为中文句法表达的丰富性点个赞了。寸有所长 有些优点是缺陷的孪生子。说的是谓语的丰富性。与欧洲语言谓语必须由动词当纲不同 汉语谓语丰富多彩多了。名形动三大类 NP、AP、VP 都可以上台主演谓语的戏,PP 更不要说,介词跟情态词类似,是副动词,做谓语都天然合理。更绝的还有这“主谓谓语”。

这小护士大眼睛 盘儿靓 爱读书 一心为病人 非常漂亮暖心。

S【这小护士】Pred【NP(大眼睛) sV(盘儿靓) VP(爱读书)PP(一心为病人) AP(非常漂亮得暖心】

NP sV VP PP AP 连在一起 做并列谓语 毫无违和感。厉害了,汉语。搁在英语 就要叠床架屋了。

那个味道好
(i) That taste is good
(ii) The taste of that thing is good.

这么简单的句子也有歧义了。虽然一般人不问这里面的区别,对歧义无感,但汉语的主谓谓语句式的确提供了另一种解读的可能性。第二种解读在口语里面,“那个”后略有停顿(应该加逗号或留个空格):“那个 味道好”。

汉语中,主谓谓语居然可以嵌套,一个大S,一个中s,和一个小s:

(i)   小 s:味道好
(ii)  中 s:菜味道好
(iii) 大 S:这场宴会菜味道好,饭不怎么样。

【这场宴会S【菜s【味道s 好】】】

这个现象真地有些奇特,头小身子大,是集体领导的奇葩。凡遇到中文特别的句法,神经翻译就真地神经了:

 

【相关】

【李白之48:关系不交叉原则再探】

【李白之47:深度分析是图不是树,逻辑语义不怕句法交叉】

【李白王89:模糊语义与真假歧义,兼论PSG与DG】

【李白之29:依存关系图引入浅层短语结构的百利一弊】

《语义三巨人》

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白96:想哪扯哪,不离其宗】

白:
“《舌尖3》被骂看了吃不下饭,不如来吃炭烧牛蛙吧”
看见了“如来”。

李:
不是问题 trigram 搞定的事儿 : 不如/来。

难的是,

如来请打的 不来也没问题。
要不如来 要不活佛 总之是神就行。

其实,“如来请打的”(if coming please call a taxi)并不能完全排除“如来(佛)”义,虽然语用层面可能性几为0:菩萨请打的 不来也没问题。

白:
“墙内开花墙外香,我转基因抗虫水稻获得美食用许可”

李:

此处不破别处破,唉。“食用”的是“许可” 哈。“许可”、“计划” 等以前论过,是另类,修正一下。

白:
“李书福买奔驰了”

李:

李:

这个 VG 与 这个谓语算是啥关系?形式上似乎是主谓,又好像是说因果关系:

if 看了then 吃不下饭

这类东西中文巨多,算是中文区别于欧洲语言的一个特点。突然想到试试有道翻译,结果:

哈 它不跳坑,搞不清就无视,反正给你一个顺溜的句子出来。这就是神经MT:(1)化有为无:“看了”;(2)无中生有:“我”(此处的无中生有倒是赶巧对路了)。这还不算神经最大胆的地方。更糟糕的是指鹿为马,也见过不少,以前举过一些例子。

白:
“哈佛机器人研究全景图:超越想象,完爆科幻”
机器人-研究-全景图,完美SVO
A panoramic view of harvard robotics
翻得很不错

他为什么可以不管SVO的顺序,直奔主题呢?因为离他最近的那些样本就是这么做的,没有给通用规则的坑留下施展干扰的半点机会。反过来说,基于规则/符号的方法,理应给出例句距离测度的更好估值才对。做不到是不尽职。

所有例句均取自机器人处于研究阶段且机器人尚不具备独立研究能力时期的信息来源,所以科幻场面基本不在考虑之列。包括“机器人专家”究竟是机器人领域的人类专家还是机器人本身就是专家,也是同样问题。

李:
“全景图” 也是那个“另类” 与 “计划” 一样:

机器人-研究-计划

当然,假以场景,任何例外都可以存在:

机器人研究计划后决定马上改变原计划,立刻向人类发起攻击。

白:
After the robot research project decided to change the original plan immediately, immediately launched an attack on the human.
这里果然中招

李:
可以预示的,如果不这样才奇怪了。与“研究计划”类似的,是食品和菜名:“烤土豆”。后者更有意思,VO 关系不变,但一个是【 VO】,一个是 【(被)V 的 O】。

关于符号系统和符号推理,貌似亦步亦趋直接模拟人的思维过程。感觉不仅缺乏弹性,常常也很拙。以前说过,“符号主义基本是人类自己跟自己玩。符号系统很多时候就是个自娱自乐的游戏”。不止一次遇到过这样的情形:符号命名不好,系统受到批评或遇到疑虑,后来把符号重新命名了,原来的批评者就接受了。所以说,很多时候就是一个助忆符的选择问题。复杂的符号系统特别讲究命名,虽然命名没有任何理论价值。有一个符合人类思维习惯的命名方法,复杂的符号系统才可能建成,并持续被维护。这跟复杂的程序必须用高级语言去写,没人可以维护一个复杂的汇编语言程序的道理相同,虽然理论上高级语言并没有汇编语言不能实现的能力。

关于“休眠唤醒”(【立委科普:结构歧义的休眠唤醒演义】),想到几点:

1. 唤醒就是 patching,补漏,机制上就是对结构就如nodes一样,可以局部重新来过,更新:老的关系可以切断,新的关系可以建立,因为条件不同了。

2 需要建立两套feature系统,一套明,一套暗:明的系统按部就班,可以是 deterministic,但可以随时更新;暗的那套深藏不露,平时就当没有。唤醒的时刻 就是变暗为明的时机。

 

 

【相关】

【立委科普:结构歧义的休眠唤醒演义】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白95:走在路上......】

李:
走在路上,琢磨句法的事儿。

句法任务如果要分解的话,可以这样来看:

1. 谁与谁发生关系?
2. 关系中谁主谁副?
3. 发生关系的次序。
4. 发生什么关系:进一步可分
4a)词法的;4b)句法的;4c)(逻辑)语义的;
4d)话语的(discourse:譬如 话题);4e)领域的(譬如 IE)。

自然,到了领域,其实已经超越了句法范畴,进入语用了。但语用本质上还在句法的延长线上,正如 discourse 关系解构也是句法的延伸一样。逻辑语义通常被认为是句法深度解析的终点。

白:
2可以推出3?被吃掉的就是副的。除非多爹的情况,一副多主。这时出现交叉,画括号也不都管用。没做成主做了副的邻居,会把做主的额度过继给自己的主。

李:
这四点相互关联,但也不妨适当分开,各个击破。

1+3 的任务可以定义为打括号,找分界点。有了 1+3,2 就可以推出来。反之,有了 1+2, 3 也应该可以推出来。

关于1,我们通常的(PSG式)思维定势就是,看哪类词与哪类词发生关系:

S --》 NP VP
NP --》 Det N

之类。这是预设邻居不发生关系,除非发现了关系。可以叫做【兔子不吃窝边草预设】。 其实,我们的语感和大量的语料事实告诉我们的,是与语言学家和乔姆斯基相反的一个预设:邻居总是发生关系,除非发现他们老死不相往来。日久生情是人之常理,语词也是如此:远亲不如近邻,做邻居自有做邻居的道理。摩肩擦踵坐怀不乱,是例外,不是常态。这个预设可以叫做【邻里友爱预设】。这个预设的一个强有力的证据就是,即便是所谓语序自由有丰富形态的语言如俄语、世界语,发生直接关系的语词仍然在邻里之间为多,真正的远距离勾搭很少,并不比语序固定的语言相差太多。

根据【邻里友爱预设】这个原则去做 parsing,可以第一步只找例外,也就是找分界点。譬如中文里面的 “也/都/还” 这些词就是:这些词往往是主语谓语的分界标志。它们对左邻居没有丝毫兴趣,总是像个门卫守护着右邻居。比较下面的 minimal pair:

你走好
你走就好。

可见“就”这个小词的分界作用是如此之大。对于“你走好”,可以假设 “你-走” 发生关系,“走-好” 发生关系,这个不需要规则,这是标配,形式化标注可以是下列三种之一,都大同小异:

  1. PSG1:((你 -- 走)-- 好)
  2. PSG2:(你 --(走 -- 好))
  3. DG:(你 --(走)-- 好)

重申一下【邻里友爱预设】:只要挨着,不分阴阳男女,都会发生关系,除非遇到了 “就” 这样的 outlier:“你走就好”。(你 -- 走) no problemo,*( 走 -- 就) 就不行了。(就 -- 好) 可以发生关系,但前提是 “好” 没有其他可能了:

你走就好运作了。

(你 -- 走),OK;“就” 挡道,跳过。(好 -- 运作)与(运作 -- 了) 都可以,对于 DG 无所谓。

((好 -- 运作)-- 了)
(好 -- (运作 -- 了))

“朋友买的”,的字结构 OR 语气小句?

A:朋友买的
B:朋友买的什么?

小句 desu。等价于 “(这是)朋友买的”。

A:朋友买的 ......
B: 朋友买的难道不好?

搞不清是小句还是名词性的字结构,如果是前者,等价于 “朋友买(这事儿)难道不好?”。如果是后者,说的是 “朋友买的(东西)难道不好?”。虽然说有差别,但人好像不 care,而且也的确多数时候无法区分。所谓变色龙即是如此:CL_or_NP(CL:clause)。

“烤白薯”的故事,以前说过,NP OR VP?

A:我吃了烤白薯。
B:吃了白薯啊,好羡慕。

NP desu,因为“吃”的只能是“物儿”(NP),不能是“事儿”(VP)。

A:我喜欢烤白薯。
B:  你喜欢烤白薯这事儿呢,还是喜欢烤过的白薯这物呢?

这儿的变色龙形式化就是:VP_or_NP。

白:
只在的字结构反填“买”的残坑这个环节有微妙差别,外部没差别。的 升格是一样的(自修饰)。填 的 的坑的萝卜是一样的。

李:
一个是V(事儿)一个是N(物儿),与“烤白薯”有异曲同工之不妙:“喜欢烤白薯”。究竟喜欢烤还是喜欢白薯?关键是 who cares,90% 的时候听到上面的句子,听者不觉得有歧义,也不感觉诧异,只有语言学家逻辑学家这两家,吃饱了喜欢咀文嚼字瞎琢磨,感觉不舒服。

当年玩HPSG的时候,最喜欢 unification 系统的 typed structures 中的一条,就是 unspecified。做老实人,不知道就不知道,也不care。信息 unspecified,等到合适的时机,自然就被补上了。这是信息融合(fusion)的理想世界。太理想了,以至于很难落地,现如今是昨日黄花,无人问津了。

白:
不一样的就在于是不是回填“买”的坑。回填是在第三层了。第三层确实可以不 care。

买的 回填 买,也有不同解读。“买的是次品”vs“买的不如卖的精”。关键是“买”是双宾动词,标配坑太多了。一个被省略的成分还原回来已经是够脑补的了,再进一步脑补她带不带谓词性的坑,这会伤元气的。烤白薯 毕竟真实的坑和模式在,无需脑补。

买的不如卖的精,租的比买的合算,这时是需要care的。

李:
买的(东西)不如卖的(东西)精吗?
买的(人)不如卖的(人)精吗?

买的不如卖的精明。
买的不如卖的精致。

白:
精到底是什么的简称,有标配的。非标配特征必须显性出现才激活。unspecified是保守策略。先标配,有trigger再翻盘是激进策略。难说保守策略就一定好,也难说两种策略就不能在一个系统里和平共处。

李:
unspecified 与 default fillers 可以也应该共处。

 

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【尼沙龙笔记:图灵测试是语言理解的合理表示吗?】

毛:
伟哥对 理解 的理解似乎与二师兄不同?@wei

李:
董老师是我的启蒙老师 他当年的逻辑语义学说 回答了一个语句理解的问题 觉得豁然开朗 迄今也没别的学说这样让我信服过。@董振东

毛:
愿闻其详 ?

李:
说理解了一句话 就是解构出里面的逻辑语义:谁是逻辑主语 逻辑宾语 等。董老师定义了将近 100 种逻辑语义角色,形成一个 hierarchy,最上层的逻辑语义角色不过10种。简单说 就是搞明白 谁 对谁 做了 什么  何时 何地  何原因 如何做的 等等。

毛:
那就必定是符号派了?
乡下的老太太,根本不知道主语谓语,她们不是也能理解吗?

Nick:
@毛德操 老太太不知道,但老太太的大脑知道。老太太不知道自己的大脑知道

李:
是啊 老太太知道 “她喜欢红烧肉” 与  “红烧肉她喜欢” 是一个意思,也知道与 “红烧肉喜欢她” 意思正好相反,后者是胡说。所以老太太的逻辑语义是明白的 虽然她不懂得这就叫 parsing 或逻辑语义解析。

毛:
那怎么知道老太太的大脑知道?她可能并未转化成符号并加以解析。
@wei 你讲的 理解 是否包含对于因果的认知?

李:
语句理解包含部分的因果。

毛:
“部分”,多大的部分?有多大的部分,才算是 理解 了?老太太的大脑知道,其外部表现是什么?如何判定?

郭:
“理解”,我的理解如下:我脑子里有一个我自己的“大前提”,或者叫“common sense”,就是我的“认知”。你说一句话,如果我“理解”了,我就可以把你的话作为“小前提”。然后,我可以用“我自己的逻辑”,“推导”出“我的结论”来。这里,是否“符号”并不必然。这“逻辑”,也完全可以“非 亚里士多德”,更不必“因果”。但无论如何,要能再走一步。

毛:
这其实就是图灵测试的变形,只是把它用在人与人之间(而不是机器与人之间)。你是以你自己的认知作为对照,看老太太的反应是否与这个对照者等同。所以,我认为唯一的办法就是图灵测试。

郭:
“老太太的大脑”的判定,其实无异于图灵测试。你说“我喜欢红烧肉”,她如果回答“我小时候吃不起啊”,我就认为她“理解”了。

毛:
对。你还可以问:“为什么吃不起”,如果回答“没钱”,就更说明她理解了。通过了图灵测试,就可以认为测试目标真的理解了,或者说具有了(正常)人的智能。图灵在五几年就想透了这一层。问题其实在庄子那个时候就提出来了(子非鱼),但是他没有答案,没有提出方法。

郭:
不过,图灵测试,可是批评者众啊!也是问题一大堆。

白:
图灵测试这思路不对。

毛:
愿闻其详 ?批评者众可以,但是得要提出替代方案。

白:
我喜欢Winograd Scheme的路子。用代词指代考系统。

毛:
那都涉及语法,可是许多人根本不知语法为何物。比方说我五岁的外孙女,她已经能理解不少事情了,但是她根本不知道语法。

白:
没有显性语法,普通人做得出来的。比如“张三告诉李四他很伤心,他安慰了他。” 然后问:谁很伤心?谁安慰了谁?这完全不涉及显性的语法。

毛:
问题是,你怎么知道她会运用隐性的语法?你钻不到她脑子里,只能从外部观察。

白:
都是这套路。不管有没有隐性语法,做出来算。

毛:
对,做出来算,这实质上就已经是图灵测试了。

白:
不是自然对话,是语言学家和NLP专家设计出来的考题。比较人和机器的考分。

毛:
这实质上仍是图灵测试,形式上有所不同。当然,现在机器一般而言还没有能通过图灵测试。但是观察目标物对于外部刺激所作的反应,并与对照物相比,这个原理是一样的。我们在考察一个软件模块时只看其外部表现,即API, 而不追究其内部实现,也是同样的思路。

白:
其实音乐和语法问题很类似。会唱的听众可以不识谱,但是哪里跟原曲不一致是可以听出来的。

毛:
对的。其实这就对应着符号和神经两条路线的差异。

白:
但是用什么记谱更精确,这个问题是有答案的。

李:
说一千道一万,我还是迷信SVO,即逻辑语义。

毛:
你自己已经说了,迷信。

白:
手握精确武器的人对手握原始武器的人,的确有傲视的资本。

毛:
SVO是高级的思维活动,而神经元是低级的,接近于本能的反应(所谓 下意识 的反应)。下意识的反应猫狗都有,而 SVO 只有人能做。所以脱离 SVO 谈人工智能是不现实的,只是目前的热点是在解决 下意识 活动而已。

白:
记谱法的好坏不需要迷信。

毛:
记谱方法的好坏,是符号派内部的冲突。简谱与五线谱,基本上就是首调唱名与固调唱名的分岐,我觉得都有道理。一些年轻人把人脸识别说得神乎其神,我说: 别以为你这就有多牛,你去牵条狗来,它照样也能人脸识别。

白:
比如说切分音,这个概念在不同记谱法里面可能表现形式不同,这无关大局。但假设一个记谱法里居然没办法表示切分音,这就是落后的记谱法了。

毛:
是的。这就是所谓“不完备”。这里又可看出深度学习与符号推理之间的差异。前者相当于能跟着唱,或记住了几支小调,但绝对成不了音乐家。所以,连接主义所能达到的水平,只能相当于人类中的文盲。而若想要知书达理,就得上学校去读书,学习符号与推理。

白:
当年表示不了“异或”的情况,就很像表示不了切分音的记谱法。

毛:
对对对

白:
如今表达不了robustness的符号逻辑,则是另一种尴尬。都构成被鄙视的理由。

毛:
反正戈德尔已经说了,逻辑本身就是不完备的。但是这并不意味着可以不要逻辑。

白:
表达不了灵活语序的形式语言,也是另一种尴尬。也不意味着逻辑不要创新。

毛:
那是因为有得必有失。你把语言简化了,当然就得付出代价。

白:
还原复杂的路径不止一条,也不为某种技术路线所专属。

毛:
对,应该互补。所以符号推理与深度学习都需要,而且得要能打通才好。

白:
也许真相离大家都有点远,谁不创新都是危险的。

毛:
是啊。但是创新难呐。

 

【相关】

【李白宋93:汉语语序的自由与不自由】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白梁于94:爱因斯坦是卓别林的崇拜者, 谁崇拜谁?】

梁:
“爱因斯坦是卓别林的崇拜者。” 谁崇拜谁?

李:
好句。歧义句。

爱因斯坦的崇拜者是卓别林
卓别林的崇拜者是爱因斯坦

也都歧义。

以前提过,“者” 是一个看上去像词法后缀(-er),但其实常常跳到句法层面的词素,V-者;VP-者:

违者; 违规者;违反规定者;违反中央三令五申的七项规定者

某人的崇拜者:(1)【(对)某人的崇拜】-者 == 【崇拜某人】-者;(2) 某人【(对别人)的崇拜】-者。

中文好鬼。

如果改成“对象”,就避免的这个讨厌的“者“带来的歧义:“某人的崇拜对象”。崇拜的宾语(即“对象”)必须他指,而修饰语只能是施事。

我是鲁迅的崇拜者;鲁迅的崇拜者是我。

这个没有歧义。是语言外的知识补脑进来消灭了歧义:我是小人物,鲁迅是大人物;我是当今人,鲁迅是历史人物。常识告诉我们:小人物崇拜大人物,而不是相反。时间铁律告诉我们,活人可以崇拜过世的人物,但历史人物绝不可能了解,更不可能崇拜今人。

爱因斯坦卓别林是同时代人,印象两人见过面的。好像见过两人的合影照片。相互崇拜都是可能的。外部知识不能提供区别性消歧支持。

梁:
印象很深,小时候听过“Einstein was a great admirer of Charlie Chaplin's films.“

李:
“邓公是毛公的批评者“,也同样歧义。在毛时代,邓是属下,根本不敢批评毛,只有被批的份儿(三上三下)。在邓时代,邓继大位,毛已作古不能批,只能被批。

于:
@梁焰 @wei 语句的意义由语法不一定能确定,而是语用确定,现在不已经是常识了吗?

白:
现在讨论的是语用确定落实到什么地方

于:
@白硕 语用似是考虑语境吧?语境似包含:说者、听者、时间、地点、事件、意图等等。同一语句的不同语义,依赖于语境的变化。目前语境的研究也有一些进展
语境的可计算性方面取得了一些进展

白:
希望有轻武器对接parser,不要一上来就是重武器,30年搞不完那种。

于:
@白硕 轻武器很难。据我所知,语境计算似刚刚起步,跟parser对接还得等等。不过,可以写文章了

阮:
很多领域应用中,语境相对明确,感觉可以有轻武器。

于:
@阮彤 那就得领域限定,情境也也就相应限定了。限定一定程度,理论上会有轻武器。

白:
批评者作批评对象理解,太少见了。可以做例外处理。至少要一个什么局部占优势的语境才能激活这个例外才可以。标配还是施事。有崇拜者,没有崇拜,更没有崇拜的内部(填坑)结构,自然就打住了。

李:
句法可以高高在上,暂时不烦心深层的逻辑语义。等到落地的时候再看要不要烦,到那时候,绝大多数的问题已经烟消云散。能够留在雷达上的,就是那个落地所指向的实际应用领域场景。进入场景,就是另外一个世界了,领域知识(包括领域本体图谱和领域实体图谱),业务逻辑等开始发力。

白:
现在已经有了“xx对象”这种清晰的表述,再用“xx者”这么暧昧的表述,纯属段子手了。所以“xx者”已经是标配的施事专业户了。

从轻发落的一个办法是,对一个有n个坑的动词V,“V者”只负责填一个坑而不锁定哪个坑。V的pos标记是S/nN,“者”的pos标记是N/S,二者结合并考虑反填的结果就是N/(n-1)N。在这样的句法体系里不必确定逻辑主宾语,也不必确定施受事,只对未饱和坑做加减法。等到说“谁的什么者”的时候,又可以少一个坑。所以,我们不在乎引入“者”的内部结构。这样处理,只不过为了在句法层面找一个能说明“谁和谁有关系”但不必深究“是什么关系”的合适边界。“是什么关系”语义层面自会给出“标配解”,如果必要,语用层面再给出“精确解”。虽然也是高高在上,但是句法本身就能确定的句法结构绝不留给语义。如果V是不及物动词或形容词(S/N),则一切不确定性消失,与“者”结合后形成的就是N。

有意思的是,英语有词法主动被动两个后缀,对歧义完全免疫,比中文的类后缀“者”与“对象”的对比彻底:

A is B's admirer : A admires B
A is B's admiree: B admires A

哈 网上有争论说 admiree 不如 admired:-ee 是一个接受度不够广泛的后缀,见:https://www.quora.com/Does-the-word-admiree-exist-as-opposed-to-admirer

高:
killee
lovee

李:
lovee exists in theory; loved (one), beloved are used orally.  We never know, as language is evolving, someday this suffix might be more widely adopted or might fade away......

 

 

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白宋93:汉语语序的自由与不自由】

白:
我觉得汉语语序没有那么强的作用。坑也不是非要凑齐了再咋地。应该有一种符号化的mechanism,很方便地刻画这种对语序的包容。大家之前都被误导了

李:
语序我觉得汉语没有那么强的作用
没有那么强的作用我觉得汉语语序
汉语我觉得语序作用没有那么强的
汉语语序作用我觉得没有那么强的
............

尝试结论一下:(1) 宏观语序没有那么强,虽然统计上一定是少数几种语序最常用,但语序灵活性在。(2)微观语序相对固定。譬如 上句中 “汉语语序” 不能说成 “语序汉语”,“我觉得” 不能说 “觉得我”,“那么强” 不能说 “强那么”等(不过 “没有那么强” 倒是可以说 “那么强没有”:这个有点赶巧了,遇到“没有”这个多用法的小词),但“主题化”句式有一定的打破语序的特殊作用:

语序 【停顿】 汉语作用没有那么强

汉语微观语序(phrase内部)不大自由,与有性数格一致关系的欧洲语言对比强烈:有一致关系的语言,就不需要语序来制约谁是修饰语谁是head了。汉语宏观语序(phrases 之间)的自由度,比我们通常以为的,要大很多。我们确实有意无意被误导很久了。

白:
分析用,“不能说”只是在结构作为一个组件参与排岐的时候才有用。其他情况基本不用。

李:
微观中 最显著的关系是 mods 与 head,语序不固定就产生歧义,必须固定。尤其是定中(比较:“木头沙发” vs “沙发木头”)

白:
填坑与盖帽,本来就是两种性质的东西。

李:
到了 副词-形容词组合:很好 vs * 好很 (但是我们有个 “好得很”);状语和动词: 认真工作 vs 工作认真,居然两可,虽然句式不同。

phrases 之间,语序很自由,但仔细看,也有说法。一般来说,宾语提前很常见,但是主语后置不可以,少数例外是“来 去”这些“自动词”:

三个人来了
来了三个人

宾语提前的自由度 大于主语后置,这多少因为前者的说法常见,被共同体约定俗成以后,只好牺牲后者的自由度:太多的自由容易乱套,所以一个元素的自由增加建立在另一个密切相关的元素自由减少的前提下。

白:
喜欢死我了

李:
哈 这个以前议过(【李白82:汉语重叠式再议】):“我稀罕死她:是我喜欢她
她稀罕死我:既可以是 她喜欢我,也可以是 我喜欢她。汉语鬼不鬼?”

S 喜欢死 O:(1) S 喜欢死 O;(2)O 喜欢死 S == O 让 S 喜欢死(O) 【使动解读】

我喜欢死iPhone X 了
iPhone X 喜欢死我了。

歧义:他恨死我了。
不歧义(常识带入):这破玩意儿恨死我了

宋:
汉语的语序,还是有硬约束的。“张三打李四”,一定是张三动手,李四挨打,这个语序不能乱。一般来说,施动受三个短语组成小句,无约束的全排列有6种,能使用的只有3种:施动受,施受动,受施动。当施受无法根据同动词的语义关系来区分时,后两种也不能用。

白:
施受动到底是句法关系还是语义关系?语义关系句法是可以不管的。

宋:
施受动是语义概念,但在汉语句中受语序限制,应该是语义的形式规则。句法分析可以不管,但语义分析要管。我想,用语义适配性解决不了“张三打李四”的语义分析问题,还要使用这种语义的形式规则。

李:
施动受(SVO)是逻辑语义。逻辑语义解析是分析的根本目标。归在哪个模块 分几步走 那是系统内部的事情 但目标不变。

以前说过 常识永远是软约束 而显性形式(关于“显性形式”,见【立委科普:漫谈语言形式】)可以是硬约束 软的不能代替硬的。当一种形式让我们理解了反常识的时候 我们意识到了硬约束。乔姆斯基的绿色思想(“Colorless green ideas sleep furiously”), 精妙不过如此。

硬约束举例:

1 语序: 白米饭吃了我
2 小词 “被” 和 “把”:我被白米饭吃了。白米饭把我吃了。
3 直接解说(包括用小词也用实词):白米饭对我不是吃的对象,反过来我成了白米饭食用的对象。

白:
白米饭把我吃胖

李:
“吃胖” 那种句式(vt 加 结果补语a 构成) 不是硬约束的反例,反而是硬约束的论据。这类词法变式 有严格的规则可循。不仅仅是汉语,很多语言都有一套类似的词法,自动变使动 等等。

有了结果补语,合成词词法从自动变为使动,模式的语序也相应变动,逻辑语义在这个变式中是确定的,因此其中语序仍然是硬约束。如果我们说“我把白米饭吃胖了”,虽然反常识,但语义是确定的。

直接量(小词)、语序 这些显性形式 是硬约束的基本材料,在硬约束实现到pattern的时候 是它们的组合在 enforce 硬约束。

NP1 把 NP2 Vt 了
NP2 把 NP1 Vt+Buyu

其所以后者可以转变自前者,乃是 pattern 里面所规定的语序与小词的硬约束在起作用。无论 “把” 在一种 pattern 里面引入的是受还是施 它都是硬约束能够实行的一个硬件。否则 施受和语句理解就无从谈起。如果常识语义这种软约束可以一统天下 决定我们的理解过程 如果语言学显性形式这些硬约束可以排除在理解之外,人类就不存在新的思想 不存在童话和小说 也不存在知识的更新和应付动态世界的可能。

事实上 常识是最没有信息量的知识 我们的语言交流 其关注点总是集中在非常识和反常识的部分 那才是我们的真正的信息营养。俗话说 狗咬人不是新闻(不具有太多的情报性) 人咬狗才是。

白:
歧义丰富的情况和歧义贫乏的情况,常识的作用是不一样的。歧义丰富时,常识帮助消岐。歧义贫乏时,常识无感,反常识帮助建立修辞性理解。

李:
但是 硬材料不一定是硬约束 只是硬约束可以利用的元素,硬约束离不开 pattern,pattern 才是实行硬约束的执行者,也是协调软约束的场地。是 pattern 告诉我们有个著名的软约束协调的问题 譬如 pp attachment:vt np pp,pattern 是重中之重。FSA++ 就是 pattern 描述和实行的利器和理想的形式平台 formalism,因为它最直接 直观 抓住 pattern 的描述。

白:
举个例子啊这两筐、这筐、两筐,都OK。两这筐不ok,可分析用,也不care。这pattern长啥样,挺关键的。

李:
白老师是要说 语序没大关系 不需要作为硬条件么?问题是,有的时候,它的确就是硬条件,不 care 的前提是它不留歧义的余地或隐患(其他条件足够补偿这个条件的缺失)。但这事儿很难说,至少是睡不好觉。睡不好觉是因为我们不知道它留下隐患的几率有多大。任何一个条件理论上都可以抽掉,在有些 cases 并不影响解析,但其他的一直想不到的 cases 呢?总之,如果觉得某个 pattern 的词序是硬性的(譬如 SVO 不能倒过来 OVS),那么最好还是强制实施。“两这筐” 这种要不要强制排除,存疑。毛姑姑,作为分析不强制问题不大。(当然,作为生成,则必须强制,否则不是人话。)

一般而言,我们在NLP中玩条件平衡术,松一点或紧一点,带入词序或不带入词序,主要是因为自然语言的组词成句的排列,在“法”的平面是非常稀疏的,人类已经或可能说出来的序列比起全排列只是一个极小的子集。因此,作为分析的 parsing patterns 不必要把“合法”的约束,予以全面的强制,只要针对可能的歧义做出区别即可。

完全不需要语序制约的语言理论上存在,因为语序不过就是一种显性形式,总是可以以其他的显性形式代替来表达逻辑语义。可以假想一种语言有足够丰富的格标记(通常用后缀或前缀这种显性形式:介词可以看成是前缀,常用来表示格),董老师定义了近100个逻辑语义,算是非常细了,那么我们假想一种语言有相应的 100 个格标记可以使用,一一对应,没有歧义。再假想这种语言还有足够丰富的一致关系(agreement)标记来表达哪个词与哪个词发生逻辑语义的关系。

可以假想一种语言有足够丰富的格标记(通常用后缀或前缀这种显性形式:介词可以看成是前缀,常用来表示格),董老师定义了近100个逻辑语义,算是非常细了,那么我们假想一种语言有相应的 100 个格标记可以使用,一一对应,没有歧义。再假想这种语言还有足够丰富的一致关系(agreement)来表达哪个词与哪个词发生逻辑语义的关系。

有了这两样东西(小词或语缀常常是表达这些东西的显性形式),语序这种形式就可以完全排除了。因此,任何排列组合都不影响解析。可惜,实际中没有这种自然语言:即便声称自由语序的语言如俄语和世界语,也不是可以完全排除语序条件而达到解析的。

 

【相关】

【语义计算:汉语语序自由再辩】

【语义计算沙龙:语序自由度之辩】

【立委科普:漫谈语言形式】

【尼沙龙笔记:图灵测试是语言理解的合理表示吗?】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白92:自然语言漏得筛子似的,未必要补漏】

李:
火车上要注意安全,贵重物品随身带,行李箱放在能看到的地儿哈!贼春节不放假

乍看 以为贼是修饰语 一愣 还有骂春节的呢。要是改成小偷就好了:“小偷春节不放假”

严格说 放假是个复合概念 它挖了两个坑: 【谁1】 给 【谁2】 放假,就是
【谁1】 放 【谁2】 的假。小偷是谁1 还是 谁2 呢?好像既是谁1也是谁2 小偷通常是单干 不成组织 自己给自己放假。如果是盗窃团伙 也许应该是谁2,需要头儿批准才能放假回家过个年。

梁:
“红杉树最便宜的是多少钱一包? “ 新春快乐!!!

白:
咋不说中南海呢……

“睡觉我喜欢开着空调”“牛肉我喜欢三分熟的”两例中,“睡觉”和“牛肉”的句法功能相同吗?

宋:
什么是句法功能?主谓宾定状补吗?

白:
@宋柔 如果是,该怎么定?

李:
句法不如逻辑语义容易有标准答案,因为句法是形式归纳,而形式归纳有不同的形式角度,所以句法学家特别爱吵架 历史上甚至著名的语言学家之间也针锋相对,充满了不毛之争。逻辑语义则较少争议:人类趋向于有一把共同的尺子。

从词序的形式角度,从discourse的话题的表达,二者是相同的功能。从逻辑语义角度,则差别很大。

这个句首的 Topic 与 句末的“的字结构” 是回指的关系,因为 的字结构里面的 AP 与 NP 有逻辑修饰关系。

白:
相同之处都是把被修饰语前移为话题,不同之处是一个体词一个谓词。只画树,难以体现话题跟谁关联。

“那些字帖我只临了王羲之的。” “王羲之的”并不修饰“那些字帖”而只修饰“字帖”。

树藏起来了很多东西,不能作为讨论的基础。

李:
句首谓词比较讨厌,可以说是话题,但具体逻辑语义可以表示条件、时间、伴随情况等。

睡觉的时候,我喜欢开着空调。
睡觉的话,我喜欢开着空调。

白:
关键是,谁睡觉?至于睡觉和开着空调什么关系,在句法层面才真的不重要。二者搭上扣(有关系)即可。但是谁睡觉,过这村就没这店了。

李:
不重要。
甚至谁开空调 也不重要。非谓语动词省掉主语是有道理的:我喜欢(我 or 别人为我 or 机器自动)开着空调。

白:
“着”表遗留状态,谁造成状态确实不重要。“门开着”天生就是自足的,不需要额外萝卜。睡觉不同。“墙上挂着画”谁挂的也无关紧要。

李:
一般认为 主语可以顺着梯子下:“我喜欢游泳”。

白:
穿透

李:
谁游泳?尽管是个很无聊的 “理解” 问题,大家通常认为是 “我”:我喜欢我洗澡(其实加了“我”逻辑语义是全了,听上去反而别扭,或增加了言外之意:我喜欢自己洗澡,不喜欢人家给我洗澡)。

可是:“我喜欢下雪”。谁下雪?老天、上帝,反正不是“我”。

白:
下雪❄已经针插不进水泼不进了。来个老天也只能是状语。

李:
我喜欢反右。谁反右?其实是组织 群众 最终是领袖。
md 我其实恨透了反右。自己就是个右派 只不过生不逢时 没下地狱。

白:
“我恨透了做家务”,好象不是恨别人做家务唉。

李:
如果省掉 “做”呢?“我喜欢家务。”

白:
没有做,就没有穿透的问题。

李:
这个“做”都无关痛痒 更崩提“谁做”了。总之 语言不像逻辑那样完整 自有其道理。逻辑不必分轻重主次 讲究的就是完备 自洽。而语言漏得筛子一样 却有效传达了语用的需求。

白:
各坑有各坑的权重。算术往往比逻辑聪明。应该有相应robust的逻辑联结词,没有是逻辑不尽责。比如我上次说的,超过三分之二的布尔变量取值为真。还应该有不拘泥于语序的符号连接运算。这些都需要改造逻辑、改造形式语言理论。可以有不刻板的逻辑。可以有允许灵活语序和自由省略的形式语言。

李:
自然语言最大特点还不是歧义 而是不逻辑 常省略 含糊其辞。交流的常态就是说者糊里糊涂说 听者糊里糊涂听,奇的是二者还不觉得糊涂 可以一样谈得热火朝天 酒逢知己。

梁:
对,使用语言,是为了有效传达信息。你已经知道的,我就不说了。什么不知道,你问我呀,等会我补上就行了。

李:
除了语言学家和段子手 没人在乎细节 不 care 语义模糊。正常交流中 90% 的含混之处 双方都不感知,只有少数的细节感兴趣了,于是发现含混,要求澄清。

于:
@wei 日常谈话语义并不模糊。@wei 省略并不意味含混

李:
省略和歧义都是含混的缘由。省略了,就有个默认标配。而标配在共同体宏观上有一个约定的填补 但在个体之间未必一致。省略在语言学上叫零形式,因为形式为零 理论上无法不导致含混,至少是留下了争论的余地。段子当中很多这种例子,捧哏的突然不捧了 处处别扭,把所有的标配推翻。

白:
一般是抬杠的余地。对标配不合作,总是可能的。

李:
是啊 显性形式就堵塞了这个漏洞 没有含糊的余地。法律文书很讲究这个,结果读起来就不像人话。

日常对话:

a 打败了 打败了
b 好哇 好哇 真太开心了

a 你开心啥?
b 不是打败了吗?

a 是啊 你们队打败了
b 好哇。对了,打败了谁家?

a 我们队打败了
b 好哇 一样值得庆贺

a 你们队败了 我们队打败了你们队 快快 喝一杯
b ……

于:
@wei 省略是因为对方知道。如果把所有信息补齐,就太啰嗦了,对话根本进行不下。

李:
子非鱼啊。你怎么知道对方知道 即便你以为对方知道?

于:
@wei 如果对方不知道,大多对话就结束了。 当然教育除外

李:
上面的多轮对话 互相并不知道 也一样没结束

白:
有sentiment,一样可以做出猜测,只不过猜测一直在动态修改。
胜败,与喝彩,的传导路径。谁是哪一头的,可以顺着这个传导路径慢慢明晰。

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白91:休眠唤醒需要打离婚证】

李:
以前说过,local n元组搞定分词,通常认为n等于5足够(5-gram 平天下,见【李白71:“上交所有不义之财!”】 )。今天有个例子,可以看看 bigram trigram and 10+ gram 的各自说法:

这所以自由 时尚 叛逆和反潮流著称的学校 连塔也不得雍容。

Bigrams: 这所 所以 ……
trigram: 这所以 ……
10+ gram: 以 …………著称;这所…………学校

毛估估一下这场分词拔河赛的力量对比:“这所” 和 “所以” 单算的话,大概势均力敌,感觉 “所以” 稍微更强一点。 到了trigram “这所以” 形势基本明朗了。 【这所/以】 (or 【【这/所】/以 】)远远强过 【这/所以】,虽然小概率反例会永远存在。 到了 10+ gram,由于框式结构的搭配要求, “以 ……著称”(介词动词搭配)和“这所……学校”(量词名词搭配), 【这所/以】的分词及其解析,占绝对优势 可以板上钉钉了。

可是谁等得起 10+ 呢?或者我们找到一个投机取巧的算法 把搭配距离缩短,或者咱就将就在 ngram (n 小于等于5)里面玩分词。原句(from yours truely today)以及插图(courtesy of yours truely too)是:

“一直觉得作为地标 这塔缺了点啥 想来是太过苗条。这所以自由 时尚 叛逆和反潮流著称的学校 连塔也不得雍容。”

白:
还有“所……学校”之间的chemistry。强化所/以分离

李:
都是远距离。所以得有个合理的距离缩短机制:

白:
距离拉近时和平分手即可。

李:
和平分手很难 有一屁股屎要擦:(i)“所以” 先成了连词后,要保证里面的两个词素 仍然看得见 这是其一。(ii)尝试分手的时候 要一分为二,数据结构 凭空要多出一个 token 出来。(iii)一分为二 各就各位以后,要重新查词典 得到各自全新的特征。(iv)然后才是参与到 parsing 去,该搭配搭配。哪里那么容易分手啊,离婚证也不好领。如此“休眠唤醒”(???),对平台很有要求的。

一个方案是,所有的多字词在一开始就把每个字当成 token 进入数据结构,然后把初步的词典为基础的分词当成是合成词的“绑架性”黑箱组词(组字成词,而不是切词),组词以后,由于黑箱原理,立马屏蔽下层的词素 使不见天日,让其休眠,以防添乱。这样的话 休眠唤醒一分为二的时候 就不需要从根基上动土。但这种处理 在单字层做了太多的虚功。不是完全不可行,但也没见人真地践行到 real life 系统去。

白:
退一张北京到上海的票,可以卖北京到济南和济南到上海两张票。12306都能搞定的数据结构,很难么?“所/以”这一近距离无优势而有远距离呼应可能性的分词方案,相当于分别挂两个订单,如果这两个都找到买主,我就退票。

所不是量词的情形也有可能:“他所以为荣的那点本事,早就过气了。”

所有认准一条标配的道儿,但不准备走到黑的,都可以挂出反悔订单,外面时机成熟了,立刻造反。

组合订单(多笔交易要么同时成交要么同时撤销)必然引入同步,同步必然损失效率。所以一定是trigger驱动,而不是挂单驱动。无 trigger则无时间开销,至于空间开销,那是毛毛雨。

李:
trigger word driven?以前我主张的休眠唤醒之术,就是trigger词驱动(见【歧义parsing的休眠唤醒机制再探】的“难过”)。

不过,关于时间空间开销 其实好像都不是事儿。fact of life is 比起图像 比起语音,比起当今有如军备竞赛一样地使用计算资源的那些 monsters,动辄成百上千的GPUs集群,目前的 NLU 太小儿科了 简直像过家家。 给个 high end pc,就乐颠颠地研发或耍弄 deep parsing。老朋友那天跟我说,现在的问题是 给你100万倍的计算资源 你能做什么?我懵了 打死我 我也用不了这多资源。只会螺丝壳里做道场 玩具一般。还梦想着建通天之塔 探究人类语言最微妙的奥秘。

郭:
机器翻译,用的计算资源也不少。

李:
那天说了 神经mt与语音转写同理 已经不是 nlu 了:都是鹦鹉学舌 离开理解越来越远。看看这篇分析:

The Shallowness of Google Translate

It’s pretty lengthy. Pointing the fact of no understanding in deep learning.  We all know it is true.  What we did not know was how far a system can go without understanding or parsing on an end to end deep neural network modal.  All criticisms here are valid but still MT has never been this impressive and useful in practice unless you make the wrong choice to use it for translating literary works or for translating domain documents where it has no human translation data to learn from.

他说 机器不过是处理了符号序列 它根本就没有丝毫 reading 的真实能力。reading、 parsing 和 comprehending 及 understanding 在英语都是一个意思。是 Elisa 效应让我们以为它理解了 就跟领导在家老跟宠物牛顿说话 坚信牛顿能听懂 也能表达 尤其是肚子饿的时候 牛顿表达能力惊人的丰富。牛顿的表达能力 虽然只是 meow 的不同变体 领导声称可以解码。

“传统” AI 和 NLU 就是理解了吗?也难说 因为符号体系内部也是人类自己跟自己玩。好的符号体系更像是好的助记符 摆弄出貌似逻辑的推理链条来 具有算法过程的透明性 如此而已。但起码 这看上去还在模仿人类的理解和思维。

理解的根基是举一反三 高度概括 以有限对无限 所以不需要大数据 大计算 大记忆。建立在三大基础上的深度 其实是靠蛮力。不是举一反三 而是举一百甚至上千 也未见得就能返一。

 

【相关】

【李白71:“上交所有不义之财!”】 

【立委科普:结构歧义的休眠唤醒演义】

【立委科普:歧义parsing的休眠唤醒机制再探】

【一日一parsing:休眠唤醒的好例子】

The Shallowness of Google Translate

【语义计算:李白对话录系列】

《朝华午拾》总目录

【尼沙龙笔记:宁顺不信,神经机器翻译的成就和短板】

大赞了神经机器翻译的革命性进步以后,提到两个短板 其一是不忠:无中生有或化有为无 以假乱真 指鹿为马 胆大包天。其二是依赖领域数据 没有数据的领域 立马傻眼。

李:
我用有道app里面的口译功能测试了一下字正腔圆的做节目的人,【文昭談古論今】, 一边在 youTube 上看他的视频,一边把有道打开做现场口译,几乎完美无缺。

毛:
同声传译,以后是不需要的了。

李:
识别我的口音还是有误:识别我的英文比中文似乎更好一些。上面的那位是自媒体里面的很受欢迎的一位,文科背景,出口成章,比播音员说话还清晰。

语音识别的两个明显错误:neural network 错成了 neutral network,text 成了 tax(税),大概是我的英语发音的确不够好。但总体而言,句子蛮长,一口气说一大段,它也一样即时翻译(通过wifi接云端,立等可取)。

哈,text 与 taxi(出租车)也打起架来:

从这些人类不会犯的错误看,神经 MT 的巨大成功,与语音转写的巨大成功,完全是一个道理,都是在真正的海量数据中模仿,而没有任何“理解”。不合逻辑 不合事理的句子 会以一种蛮“顺耳”的方式呈现出来。

尽管如此,我们当年还是没想到,在没有解析和理解的前提下,这条路能走这么远。很久以来,我们的信念是,没有理解,无从翻译。鹦鹉学舌,可以学几句零碎的片段,但绝不可能把如此复杂的自然语言,学得如此栩栩如生。但事实上,“鹦鹉学舌”方式,在强大的数据和运算能力支持下,的的确确可以做到在很大的范围几乎可以以假乱真。

短板也是显然的,没有数据的话,再强大的运算也培训不出一只鹦鹉来。譬如,电商场景的机器翻译,由于缺乏汉英对照的大数据,就寸步难行。

下面是我说中文,让有道口译为英文的试验:

“二次大战”先转错为“20大战”,继而又错译为 “20th centuray”。这个错误很值得评论,说明了神经翻译为什么求得了“顺畅”牺牲了“忠实”。我说的是“大约是在二次大战以后”,虽然转写就错了一个字,成为“大约是在20大战以后”,翻译却错得离谱:这不是原来意义上的错误放大(error propagation),而是目前神经翻译“乱译”趋向的一个表现,by design:这种乱译的确在很大程度上克服了上一代统计机器翻译“不顺畅”的致命缺点。

“乱译”(或者“顺畅”)的根子在,目前的机器翻译里面有专门针对目标语的语言模型在,不仅仅是双语对照模型。目标语的模型里面“beginning of 20th century”一定是足够的常见,被记住了,所以尽管原句是“20大战以后”,它也一样无视(“大战”居然摇身一变,成了 century,是为指鹿为马,“以后”弄成了其反面 beginning,这简直是颠倒黑白),如果是前一代统计翻译(statistical MT),或者前前一代的规则翻译(rule-based MT),这种错误绝不会出现,应该是译成 “20 wars later”或 “after 20th war”之类。可是 目标语训练数据中根本就没有这个 “20 war” 这样的提法,与其忠实而别扭,不如化有为无或无中生有,甚至指鹿(20 war)为马(20th century),以求“顺畅”。这是目前机器翻译的短板,已经被很多人察觉和批判,研究界也在研究对策。

也就是说,为了“顺畅”,目前的系统可以无视原文中的一些材料。同样为了“顺畅”,译文也可以无中生有加一些材料。这对不懂原文的人可能非常误导:批评者说,找翻译本来就是因为不懂原文,结果你翻译出来,听上去那么顺畅,让我不得不信,可其实你暗度陈仓,居然敢于胡编乱造,这也太搞了吧。

这种批评当然言之成理,信达雅,信是基础,信求不得,达雅何用?无信,达雅反而更加迷惑人,不如不译。你无中生有了一个地方,让我怀疑你整篇都不可信了。这种想当然的胡编乱造真是害死人。

不过,其实了解历史和经历过机器翻译不同阶段的人,会有不同的角度。实际是,前两代机器翻译的译文大都惨不忍睹,在可读性和顺畅上没有根本的解决途径(点滴的积累式进步还是有的),虽然意思也能勉强传达(就是说不会在“信”上胆敢无中生有或化有为无)。这个问题是如此严重,以至于影响了很多人使用机器翻译的意愿,除非是不得已,因为看机器译文实在是太别扭,太难受了。

毛:
能把谎说圆,这不正是逼近了人的智能吗?

李:
@毛德操 问题是,鹦鹉学舌,哪里有什么“把谎说圆”。机器不会说谎,正如机器不会说真;同理,潜艇不会游泳。无中生有是真的,但“胡编乱造”不过是个比喻说法。机器没有歹心,正如机器没有良心。因为机器根本就没有心。有的不过是记忆和计算而已。硬要把计算说成智能,硬要把比喻当成真相,那也没辙。乔姆斯基的态度是,不理睬。还好,当年创造的是“人工智能”这个词,脱不开“人工”、“人为”、“模仿”的涵义。如果先驱们当年达特茅斯开会,不小心起个名字是“机器智能”,那可就糟透了。

Nick:
@wei 英国最早的说法就是machine intelligence。大概到七十年代才开始被美国带成人工了。

李:
达特茅斯会上呢?

马:
达特茅斯会上,还有一个词是复杂信息处理,不过最后还是AI占了上风。

李:
先驱们蛮“接地气”啊。其实,“复杂信息处理”很中肯,符合术语命名的严肃性。AI 还是太过“性感”了。

机器翻译更惨,很长时间是 “自动翻译”、“机器翻译” 混用,后来基本统一为机器翻译,因为自动翻译有多种用法 什么全自动翻译 半自动翻译等等。当然 较真的话,自动翻译比机器翻译还不堪。其实应该叫做随大流翻译,或者叫做 NLU-free translation,简称无智翻译,and I was not kidding.

Nick:
自动/机器 定理证明。mt就不太好说artificial translation,中文更不能说 人工翻译。artificial本来就有点 瞎编 的意思。

李:
其实还真就是 artificial,本来就是仿造啊。译成汉语是仿人翻译。没有人的翻译样本,大量的样本,当今的MT根本就不可能。

马:
AI翻译

李:
人工智能其实应该翻译为人造智能。人造翻译(或仿人翻译)与人工翻译可大不相同。但取法乎上仅得其中的古训不大灵了,古训忽略了量的概念。被取法者足够大量的时候 所得不止于中。AI 代替中庸 势在必行。取法乎众 可得中上,这是事实。但最好的机器翻译不如最好的人工翻译,这也是事实。因为后者有智能 有理解。而前者虽然号称神经了,其实连“人造的理解”(譬如 NLU)都没有。

现如今人工智能好比一个性感女郎,沾点边的都往上面贴。今天跟一位老人工智能学者谈,他说,其实人工智能本性上就是一个悲催的学科,它是一个中继站,有点像博士后流动站。怎么讲?人工智能的本性就是暂时存放那些机理还没弄清楚的东西,一旦机理清楚了,就“非人工智能化”了(硬赖着不走,拉大旗作虎皮搞宣传的,是另一回事儿),独立出去成为一个专门的学科了。飞机上天了,潜艇下水了,曾几何时,这看上去是多么人工智能啊。现在还有做飞机潜艇的人称自己是搞人工智能的吗?他们属于空气动力学,流体动力学,与AI没有一毛钱的关系。同理,自动驾驶现如今还打着AI的招牌,其实已经与AI没啥关系了。飞机早就自动驾驶了,没人说是人工智能,到了汽车就突然智能起来?说不过去啊。总之,人工智能不是一个能 hold 住很多在它旗下的科学,它会送走一批批 misfits,这是好事儿,这是科学的进步。真正属于人工智能的学问,其实是一个很小的圈圈,就好比真正属于人类智能的部分也是很小的圈圈,二者都比我们直感上认为的范围,要小很多很多。我问,什么才是真正的恒定的AI呢?老友笑道,还是回到前辈们的原始定义吧,其中主要一项叫做“general problem solver”(西蒙 1959)。

马:
是这么回事。11年写的一篇博客:人工智能,一个永远没有结果的科学_马少平_新浪博客。

李:
好文。马老师科普起来也这么厉害啊 堪比白居易写诗 老妪能解。有说服力 而且生动。

“11年写的一篇博客”。走火入魔 第一眼看这句 我无意识把自己变成了神经网络 网络里面是这样编码的:“11 years ago 写了一篇博客”,宁顺不信。我的大数据训练我首先排除了 2011 的选项 然后无中生有加了个 ago 以求顺畅。摩登时代,忠实值几个钱?忽悠才是摇钱树。

马:
用时11年,?

洪:
人工智能是江湖,八仙过海都威武。武侠人物不绝出,很多虚晃都诈唬。

AI像狗头前置棍,棍拴骨头引狂奔。确实因之人前进,精髓却总不得啃。

李:
洪爷的诗没治了,大AI无疆,无处不诗啊。

回头说宁顺不信。两相比较,平心而论,对于多数人多数场合 还是顺畅的权重似乎更大。只是需要记住三点:(1)认真使用前,需要人工核对:机器译文只是提供一个快速浏览,了解个大概的选项,虽然总体的忠实比例其实不差,但任何一个点都可能错得离谱;(2)翻译工作者如果不学会利用机器翻译,与机器合作提高效率(要善于做核对和后编辑),很可能不久会淘汰:实际上翻译的工作市场已经急剧萎缩中,有道本身提供的人工翻译已经快速便宜到不行,可见能够生存下来的少数人工翻译一定是学会人机合作的工作模式的。(3)AI 还在飞速发展中,让我们拭目以待,看今后的系统能不能在信达雅三者之间做更好的平衡。可以想象的一个可能是,将来的系统至少可以让用户在“忠实”和“顺畅”中做权重的选择:根据偏好的不同,系统应该可以做不同的翻译:偏重忠实但生硬一点的选项(就是鲁迅曾经践行过的“硬译”),或者偏重顺畅却可能局部不忠实的选项。

The Shallowness of Google Translate

It’s pretty lengthy. Pointing the fact of no understanding in deep learning. We all know it is true. What we did not know was how far a system can go without understanding or parsing on an end to end deep neural network modal. All criticisms here are valid but still MT has never been this impressive and useful in practice unless you make the wrong choice to use it for translating literary works or for translating domain documents where it has no human translation data to learn from.

【相关】

【校长对话录:向有道机器翻译同仁致敬】

人工智能,一个永远没有结果的科学_马少平_新浪博客

谷歌NMT,见证奇迹的时刻

The Shallowness of Google Translate

有道的机器翻译http://fanyi.youdao.com/)

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

 

 

 

【校长对话录:向有道机器翻译同仁致敬】

校长:
因为缅因州法条文少了个逗号,牛奶公司吃官司付出500万美金:

Maine law requires time-and-a-half pay for each hour worked after 40 hours, but it carved out exemptions for: The canning, processing, preserving, freezing, drying, marketing, storing, packing for shipment or distribution of: agricultural produce; meat and fish products; and perishable foods. What followed the last comma in the first sentence was the crux of the matter: "packing for shipment or distribution of." The court ruled that it was not clear whether the law exempted the distribution of the three categories that followed, or if it exempted packing for the shipment or distribution of them. Had there been a comma after "shipment," the meaning would have been clear.

原来我这些年学的都是假英文

不过法庭favor劳工,就已经甩天朝几万条街了。在那片国土,只有高端人口才可以随意耍流氓。。。

李:
缅因州法律规定,在40小时后,每小时的工作时间为1.5美元,但它却为:罐装、加工、保存、冷冻、干燥、销售、储存、包装运输或分发农业产品提供了豁免。肉类和鱼类产品;和易腐食品。在第一句话中最后一个逗号是问题的关键:“包装运输或分配。”法院裁定,不清楚该法律是否豁免了随后的三种类别的分配,或是否豁免了对其装运或分销的包装。如果在“装运”之后有一个逗号,意思就清楚了。

这是有道翻译,比像我这样的英语专业生在时间压力下去翻译这段,要强多了。顺便向有道同人致敬一下,他们超越了名震天下的谷歌翻译。谢谢他们提供的免费服务,我经常用它,其实是愿意付费的。MT 连同互联网,与水和空气一样,成了不值钱的必需品。

“1.5 美元” 是一个巨大的错译,应该是一倍半加班费的意思,神经机器翻译的错译问题已经是一个被反复曝光的痛点,在追求顺畅(达雅)的同时,牺牲了精准(信)。

我是这么看机器翻译走向的:

(1) 机器翻译一定会译错,所以认真使用前需要核对。
(2)核对所花时间 比一切靠人翻译 节省太多人工了。翻译员市场萎缩以后,大批译员会退出,少量留存的是那些知道善用机器的核对员,这个工作不会被取代:核对校订的需求永远存在。
(3) 机器翻译本身在进步,明天的错应该比今天的少。
(4)论顺畅 机器越来越赶上或超越人 因为机器是在海量数据里面找 norm,而一个个体,无论学了多少年的外语,都是有限的语言接触,偏离 norm 的可能远大于机器,因此更容易生硬,尤其是在时间压力下。我本人偏好顺畅,更甚于精准,因为翻译错误我一眼可以看出来做译后编辑,但顺畅我老感觉自己还有很多力不从心的时候,需要机器帮助。自己常觉得写不顺,但评判顺不顺还是容易很多。因此,翻译工作先交给机器,然后自己校订,无论纠错,还是找出个别不顺达的细节,都容易很多,因为苦活累活机器做了。

校长:
@wei 有道翻译可以免费用么?amazing!

李:
http://fanyi.youdao.com/
try it yourself
天下真有免费午餐的。

有道的傻瓜式袖珍翻译器 大约100多美元 可以买一台 周游世界的时候用。

校长:
@wei 我靠!你没感受到同行竞争压力?

李:
感到压力的应该是讯飞。他们也出了个翻译器,好像很贵?
这个行业整体提升了,保持领先已经很难。巨头谷歌也不能。

我早跟MT说拜拜了,前几年还较劲,觉得统计MT鲁棒是鲁棒,意思也勉强可以出来,但出来的译文惨不忍睹,想着有空怼一怼统计。神经翻译出来后,基本熄灭了狂妄,顾左右不言他,反给它做宣传,吹喇叭了。(【谷歌NMT,见证奇迹的时刻】) 当然,任何技术都有短板(行话叫知识瓶颈),譬如进入一个没有人工翻译大数据可以学习的领域,神经系统就抓瞎了,譬如电商数据的机器翻译目前的可用度不到 30%(相比较:在新闻领域,机器翻译的可用度高过90%),就是说几乎完全不可用。

校长:
正确选择
典型的乱拳打死老师傅

李:
AI 这次炒热其实是有群众基础的,不完全是媒体鼓噪和精英忽悠。一个是神经机器翻译,一个是语音识别(如 讯飞的自动速记和语音输入),还有一个是人脸和图像识别,这三块儿的进步,不是忽悠,而是现实。还有一个对话,从苹果的 Siri 开始,虽然还有磕磕绊绊,虽然绝大多数普罗还是拿它当玩具,落地应用的产品多不成熟,但 Siri 还是启蒙了大众和教育了市场。这些都是普罗百姓可以亲眼见证和切身体会的科技奇迹。这些个东西激发了草根的想象力。于是,AI 热在民间还是很时髦正面的形象。

留个证据图 以防哪天系统退化(虽然是小概率事件:但马斯克昨天说 科技并不自动进步 逆水行舟 不进则退 它举的是航天技术在 SpaceX 前停滞不前反而退化的例子) MT奇迹不得重复。先防着别人怀疑假造,说不可信:

校长:
本来就是不进则退。很多科幻片里面未来都是破破烂烂破铜烂铁。就是天上一堆飞船在shithole上面飞。我认为那更接近未来的发展方向。

李:
那个是科幻,对科幻,no comment

今天,领导在网上查看 IKEA 网页上的商品,问几个单词怎么讲,我说以后不用问我了,我给你的 iPhone 装了有道,比我强多了,还 handy,可她懒得查词典。我说,你不用查,拍个照就行了,打开 app 有个“拍照翻译”的按钮。wow:

挑错永远可以挑,能做到这么贴心、intuitive,乔布斯再世,也不过如此了。

Guo:
@wei 真要给你泼泼冷水了。哈,也不能太不顾事实啊。“复习空气”,完全不搭啊。这可是连“流畅”也不及格的。打住吧!

李:
还有 39.9克。

原文是:
Airy, soft seersucker duvet covers with a naturally crinkled texture. The beautiful cotton fabric breathes and feels cool against your skin, which is extra comfortable during warm summer nights.
Size: Twin

这玩意儿我不查词典也翻译不了,特别是第一句。领导以为我是英语大拿,这辈子没少拿这些东西问我,我哪里记得住这些家庭主妇关心的“领域词汇”啊?每次我被问住了,形象分就损减一分,一辈子下来,在家里我这英语专家的光环已经消磨殆尽了。呵呵。

郭:
看看微信自带的翻译:

轻盈、柔软的泡泡纱被套,具有自然的皱褶质感。美丽的棉织品呼吸和感觉凉爽的皮肤,这是特别舒适,在温暖的夏季夜晚。
大小:双胞胎

李:
不错 不错。这就是我说的,这是整个行业的技术提升,不是哪一家可以专美的了。语音、图像和MT。

$39.99 翻译成 39.9克 原来是因为 OCR 识别成 39.9g 了 哈。实在说,9 跟 g 长得的确差不离儿,加上在数字后常见,也是事出有因。 可惜了前面那个 $ sign 的痕迹。

哈,领导以前迷信我是英语大拿,这辈子没少拿这些东西问我,我哪里记得住这些家庭主妇关心的“领域词汇”啊?每次我被问住了,形象分就损减一分,一辈子下来,在自家这英语专家的光环已经差不多消磨殆尽了。呵呵。

回过来想,以前我们常常赞佩的那些大学问家过目不忘,词汇量超大,现在想来算啥,再大也比不上一个小U盘,脑子里被词汇填满,实在有点浪费。反正随身有iPhone,iPhone 里面有【有道】,有道不仅有本地词典,还可以接得上云,脑袋是无限延伸了的。可是 托福 GRE 还在考那些稀奇古怪的词,明知道好不容易记住了,考完了,还是会忘掉。跟不上时代啊。

这个也好玩 请看:

这张截屏里 头两句很顺 最下一句莫名其妙:原因是我不小心按了 英语 的话筒 说的却是汉语 哈哈。这岂止是垃圾进垃圾出啊。但它一本正经给你匹配完全错位的语音 也不设个置信下限 一样翻译出莫名其妙貌似顺畅的句子来。

“英语按钮” 转写成 “英语的二牛”(为什么不是二妞呢),继而翻译成 English two cattle.

有道自己做的翻译器 却把自己的品牌名“有道”, 在英语读出来一个古怪的读音 哈。我说的是 “这个我得反映给有道”,成了“这个我的反应跟有道理”,考虑到我的口音,难为它了,倒也情有可原。

下面的实验是读一段英文新闻

翻译基本没问题。

接着到文学城找一篇中文新闻,读给它听:


不可思议地顺畅 精准,甚至那些百分比 那些数字 也能“听懂”我的口音。

有点吓倒了。老革命心脏也不都好。

最后是我阅读的新闻的网页截屏 有兴趣可以自己对照一下。

这一切 是在我这种普通话不标准 有口音干扰的信道中发生的。错误放大理论会说 这种翻译是完全不可能的,见证的不是奇迹,只能是AI魔术。

想起来谁说过的名言:“NLP 不是魔术,但是,其结果有时几乎就是魔术一般神奇。

 

【相关】

【开复老师说:AI 是最好的时代,也可能是最坏的时代】

谷歌NMT,见证奇迹的时刻

立委随笔:猫论,兼论AI福兮祸兮

有道的机器翻译http://fanyi.youdao.com/)

谷歌翻译 https://translate.google.com/

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【开复老师说:AI 是最好的时代,也可能是最坏的时代】

李:
李开复老师最近发文说:
据我估计,大约一半的工作将在未来十年消失。在全球范围内,人工智能和机器人将很快被人工智能和机器人取代。这一巨大的挑战给一种叫做“普遍基本收入”的旧观念注入了新的活力。在这种观念中,政府为每个公民提供稳定的津贴,不论他们的需要、就业状况或技能水平。

这就是我前几天说的,AI福兮祸兮很难定(【猫论,兼论AI福兮祸兮】)。因为人类对工作(job)的情结,以及社会观念和按X(劳、资、 权等)分配的制度,都受到很大挑战,不一定来得及适应。

Ming:
这的确是大趋势,但未来十年有些夸张了吧

李:
是不是10年不好说,但AI取代人类很多工作是肯定的,其取代速度肯定比人类的观念改变和社会制度的适应要快很多很多,因此 最坏的时代不完全是危言耸听。这跟霍金 马斯克之流说 AI 自主思维 控制人类,完全不同。前者不仅是危言耸听,而且匪夷所思,尽管出自名人大嘴。后者却是真切的人类自身的威胁,AI 不过是 trigger。

开复老师继续说:

“那么,我们应该盲目地给每个人1万美元吗?绝对不是。”

“乐观主义者天真地认为,UBI将成为人们专业重塑自我的催化剂。但是,只有当硅谷的领导者们把他们自己的角色投射到所有将要被转移的工人身上时,UBI才有意义。事实上,如果我们谈论的是一个成功的硅谷企业家,他或她的技能、创业、经验和网络可能成功地帮助将一个中等的UBI收入转化为下一个科技帝国。但这种情况肯定不会发生在那些生活在失业会因传统经济衰退而加剧的地区的失业工人身上。”

“免费发放给失业工人的钱可能会意外地帮助一些人找到工作,但更有可能的是,他们很快就会找到一份新的工作,而且很快就会被淘汰。这是我们在整个劳动力市场看到的一个熟悉的模式。曾经在工厂装配线上工作的卡车司机很快就得再次学习,成为其他的东西。大多数失业的工人不会有远见预测哪些职业会在人工智能革命中幸存下来,因此不知道如何最好地使用UBI货币来确保未来的稳定。”

Qing:
硅谷的领导者们真把自己当颗葱了

李:

下文是:“我们必须共同努力,找到一个全面的解决方案,包括建立新的职业、价值观和社会规范,而不是重新分配现金,并希望得到最好的结果。我们需要重新培训和适应,让每个人都能找到合适的职业。这里有五个必要条件:

1 保证生存。

首要任务是建立和支持项目,以确保没有人挨饿或没有住房和基本的卫生保健。”

这第一条是 同情论,就是说,知道你没用,但必须养着你 跟养pets同理,这叫人道。作为基点是对的,但总觉得观念上有点不对。

首先 被养的“没用的”人,并不是被其他同类或组织养。这个观念必须改变。如果相信人生来平等的天律,生来平等的本义至少包括我们赖以生存的地球上的原始资源应该人人有份。“没用”的人实际上是让出了自己的原始资源,给了社会去用来创造财富(或保护环境,譬如决定闲置),财富部分回流给他们(基本生存在现代社会,比起出让的资源来说,微不足道,其实经济上不参与价值创造的人其实是“亏”了),天经地义,没有“被养”的问题(硬要算谁养谁,那是精英阶层被大众的资源所支持产生出来的巨大社会财富养到富得流油:天平是往精英阶层倾斜,远远谈不上对普罗的平等)。

Qing:
以人类这个操性,多半还是要打一架的

李:
“2 最大化创造性的工作。

只有人类才能创造和提出新的创新。人工智能今天不能跳出框框思考,它只能优化由人类定义的问题。因此,在早期教育中,我们必须确保系统不会抑制好奇心、创造力、批判性思维和个性。在中学和高中,我们应该增加对有天赋和有才能的项目的资助。在大学里,我们需要帮助有创造力的学生学习人工智能工具的程序。”

行:
布热津斯基的奶嘴理论

李:
这第二个说法是,在可能被养的人群中,通过优化教育的机制,百里挑一找出“精英”去养人(做管理者、参与生产),如此延续社会的科技进步和财富创造。

“3 增加社会就业机会。

爱不能表达爱和移情,也不能建立不可替代的社会关系——只有人能。与那些不容易被教授的创造性职业不同,人们可以在大量的社会职业中接受培训。此外,我预计人工智能将产生数万亿美元,消费者支出将随之增加,并将用于民间服务。

这意味着需要人类接触的服务工作——社会工作者、治疗师、教师和生活教练——将会供不应求。此外,新的社会工作将会被发明,在这个过程中,人类将成为顾客和人工智能之间的中间人。例如,当使用人工智能诊断工具时,一位医疗顾问可能帮助病人排除故障并提供补充建议。其中一些工作甚至会得到很高的报酬。”

就是说 大都去做服务性工作?很多服务 机器人做得更专业:譬如 按摩椅 比 平庸按摩师 更具有优势。但总有 顾客与机器人之间的”中间人”和“协调人”(或随机应变性)的工作在?

Qing:
做好多手准备吧

李:
“4 鼓励唯意志论。【貌似译错】

我们需要建立更多的志愿者项目来帮助那些对高技能职业兴趣不大的退休和失业工人。我们还应该考虑补偿志愿者。”

“5。重新定义的职业道德。

每个人都需要有一种自我价值感和自我实现感——他或她相信他或她的存在是有意义的。不幸的是,工业革命错误地灌输了一种社会规范,即自我价值应该主要来自于职业道德——如果你努力工作,你就会得到回报。但是因为人工智能,基于重复性任务的工作很快就会消失。”

“我们需要重新定义新的劳动力范式的职业道德观念。一份工作的重要性不应仅仅取决于它的经济价值,而应由它对社会的贡献来衡量。我们还应该重新评估我们的观念:延长工作时间是获得成功的最佳途径,应该消除与服务行业相关的耻辱。”

“即将到来的人工智能革命将带来最好的时代或最坏的时代。结果将取决于我们是否会被天真的乐观主义所陶醉,或致力于全面解决问题。显然,UBI是不够的。我们要认真、迅速地进行辩论。只有到那时,这场神奇的革命才会引领我们走向创造性的复兴。”
原文在《华尔街邮报》 由 有道现场翻译。)

第五点很有道理:工作所带来的荣誉感和高人一等的自我感觉 需要被新的观念取代 否则 AI 时代会重复工业革命时代的悲剧:在越过温饱线以后,社会财富越增长,人类的多数人越不幸福。

行:
一开始社会(部落)的发展水平由50%的人的水平决定;
工业社会由10-20%的决定;
20世纪由1-2%的决定;
21世纪后由0.00001-0.0001%的决定;
其余的一部分从事辅助工作;越来越多的从事非效率性工作。

李:
如果说 工业革命时代 财富的增长 至少减少了忍饥挨饿的人群 在“生存权”层面上改善了人类,多少弥补了精神上不幸福和焦虑。

到了 AI 取代工作时代,前者的优势不复存在,因为基本上已经没有人忍饥挨饿需要改进。那么 其副作用一面 即引起更多的焦虑 痛苦 则被放大。所以 AI 福兮祸兮,看来是祸更大。因为人类社会适应的速度 没有科技进步的速度快。这就是开复说的 可能是最坏的时代。

行:
不会
工业时代的大多数人肯定比贫困的农业时代的人幸福。

李:
从挨饿到吃饱饭,肯定增加了幸福感,这是飞跃性增加,没有疑问,生存权是最基本的。但如果都不挨饿了,失去工作 感觉到自己无用 无价值 就是纯粹增加痛苦。

行:
满血打怪去。回复到,戴着乌纱帽,骑着小毛驴,吟诗作画的悠闲文人时代。

李:
以上议论过程里,我顺便做了一个AI现场实验:开复在华盛顿邮报这篇是英文,我用有道的机器翻译过来(http://fanyi.youdao.com/),未加修饰,看来以假乱真,也基本不影响我们的阅读、领会和讨论。这是真实世界的AI剥夺翻译员工作市场的一个鲜活实例。搁以前,翻译这篇文章,怎么也得半天时间。

行:
现在任何一台机器都可能取代了过去几百万人的工作,人因此失去工作了吗?

一个人的功率小于一马力,0.75千瓦。现在一台百千瓦,万千瓦的机器比比皆是,兆千瓦的机器也不希奇,人不还得更卖命的工作?!只是不要在上述邻域试图跟机器比大小。

关于技术进步,我有两个观点:一是圈圈理论。即圈圈越大,边界越大,遇到要解决的未知问题越多。二是水舟理论。技术如水,人类在舟。水涨船高。

AI作为一种技术,概不能外。不要自我感觉太好!只是大部分要承认天才和自己的无能。就象你围棋下不过柯洁又咋了?

技术进步像马克思说的,给人真正的自由发展创造了条件。只是之前人的发展重点是解决效率问题,今后人的自娛自乐互娱互乐,甚至与机器人娱乐可能成为产业前沿。

李:
摩登时代 我们看到了两个极端:一个是失业的痛苦;一个是在业的 忙得要死 过度竞争 高度紧张 随时面对失业的威胁。二者都是幸福感的反面。正常的、合理的社会不应该是这样的。

工业社会解决不了的这些 后工业时代可以解决吗?

Ming:
理想情况下,应该研究一下技术进步速度与社会人类幸福感之间的关系,从而寻求一个最佳的发展模式和速度。但现在国家的界限还未消除,不同国家,不同意识形态之间还有竞争。竞争之中,当然是技术进步越快越有优势。在这种情况下,无法奢谈对技术进步的控制。

李:
这就是我说的,也许AI应该缓行(虽然知道缓行不了,人类的一切大多是命定)。

行:
现在的技术进步不是很大程度解决了血汗工厂和高比例失业问题吗?摩登时代预言的地狱并没有到来。总体上,更快的速度和幸福感正相关。正象中国最长寿的地区是雾霾重重的北上广,而不是所谓的长寿之乡巴马之类的地方。

 

【相关】

华尔街邮报李开复原文

立委随笔:猫论,兼论AI福兮祸兮

【猫犹如此,人何以忧,霍金之论谬矣】

有道的机器翻译http://fanyi.youdao.com/

【语义计算:李白对话录系列】

《朝华午拾》总目录

【语义网笔记:本体是名门闺秀,门当户对不容易】

AAAI 2018经典论文获奖者演讲:本体论的昨天和今天

李:
本体(ontologies)作为知识来源和知识基础 道理上对于 AI 以及需要知识及其推理的智能系统 应该广泛应用。但实际上使用却不多。作者指出了这个我们都意识到的问题 并没给出清晰的解释。其实 是有说法的。anyway AAAI 表彰这类工作是大好事。

漆:
Natasha这个工作在语义网还是有一定影响力的。她这几篇论文我读过,确实是跟一般做本体的人不一样,不是一个算法或者工具,而是一个工具群,而且还有医疗这块应用支撑。在本体匹配和融合方面的贡献还是很大的。当然,实用性应该也就那样了,毕竟还是大学的产物。

最近几年知识图谱兴起,本体也开始受到更多关注了,特别是palantir把本体用得很好,使得本体工程的实用性得到了更好的验证。但是本体构建的复杂度比较高,需要对业务和本体都有深入理解才能做好,这是本体工程的一个门槛。如何降低这个门槛,就是基于本体的知识工程实用化必须解决的问题。首先需要有一个很好用的工具,其次需要有好的知识工程师,工具演化,工程师的门槛就越来越低,否则工程师门槛比较高。

李:
其实无数系统都在用本体,不过大多是 system internal,临时自己凑的。因为 外面来的 太厚重 往往不接地气 不好用 或者 learning curve 大。

漆:
以接近需求为驱动做的,丑点无所谓

张:
就像每个人都有自己的世界观和概念体系一样

李:
自己做虽然不系统 但不妨根据需要慢慢丰富。用到 features 并对 features 做某种组织的系统 基本都在不自觉地用本体,这类系统多如过江之鲫。

张:
就像科班出身和自学成才的区别

李:
外来的为什么不好用,不仅厚重,而且常常歧义太多 太细 用到的概念 关键的节点和链条不多 却带过来一屁股屎 擦不干净。

张:
总是需要消化吸收

李:
我有切身体会。当年用 WordNet做NLP,先是想改造 用了一年 发现这屁股永远擦不完。索性横下心删除 连洗澡水把那孩子也倒掉 拉倒。然后 自己从头开始 往里面零星凑 等于自己做个试管婴儿。清爽多了。

从 NLP 用途看,董老师的 hownet 比 wordnet 强多了。就是这样 要以为拿来就能得心应手 也会失望。善用和改造一个外来本体 需要很多功夫和经验。本体还在积累和探索阶段,还没到知识大爆发其效用的时候。

秦:
对。知识工程学科贡献度太低了,这是不应该的。

李:
人工的本体语义大师们的几十年、一辈子的作品,往往为了逻辑完备性 做得太精巧 太细线条 hence 太歧义。高大上 就不容易接地气 不那么好用 而且厚重(本体的本性)。机器自动挖来的本体,譬如当年微软NLP根据词典定义挖出来的 MindNet,太粗糙 太庞杂 或太多 noise,二者对于一个需要做实际系统的人来说 都不那么好用。问题是,做实际系统的人 面临的是领域问题 本身有很多事儿要照顾 本体只是其中一环 很难兼做本体专家的工作。而本体是厚重的 by nature,也是自己的一滩 对于专门家的素养要求很高。两路专家 理论上应该精诚合作 方成大事 实际上却很难。你做的 我感觉大炮打蚊子 使不上力。我需要的 跟你解释不清楚。提供方与需求方 不接轨。造成了重复劳动 各自为政。 这种矛盾 太普遍常见了 各种对齐 标准化 都是试图解决它的某种努力 但总体而言 还没到本体大显神威的时机。

本体就好比一个名门闺秀 高不成低不就,应用就好比一个暴发户,看着闺秀流口水,可是没有好招儿娶进门 自己土包子 吸引力也不够。只好自家养个童养媳,虽然土气点儿 不性感 也不大拿得出手 上不了厅堂 不好示人。但下得了厨房 好使唤 脾性也对路 凑合过日子呗。

据说宋庆龄宋美龄这些大家闺秀 都遇到过本体同样的困惑和苦恼。幸运的是 两个人 最后各自找到了一个可以做自己爸爸或者叔叔的盖世英雄。否则 难以想象其高不成低不就的困境 如何破局。

HowNet,Cyc,还有 FrameNet 都有类似的苦恼。一律是大师所为,曲高和寡,一律没有得到预想中应该得到的广泛应用(参见:《语义三巨人》 )。反倒是领域的实体知识图谱,开始显示了巨大的应用价值。背后的本体却不见天日。可不少人还是隐隐觉得 本体是蓄势待发。

 

 

【相关】

语义三巨人

掌故:“白头宫女说微软”

【语义计算:李白对话录系列】

《朝华午拾》总目录

【猫犹如此,人何以忧,霍金之论谬矣】

Xander 虽然瘦小 却是个机灵鬼。自从引进 iRobot 扫地机器人,他就兴奋莫名。玩了一阵后 发现机器人好脾气,也好耍弄。只要站到机器人前进的方向 机器人立马停步 温良恭俭让。

机器人不仅礼貌,而且有些木纳和傻气。被阻挡后一边原地打转,一边试图探索东南西北各方向是否有前移的可能性。好不容易悟出一个新的移动方向,Xander飞身跃过,它又没脾气,只好继续原地打转。有时候 Xander 有意放他一马,继而偷袭。Xander 玩机器人如耗子,于股掌之前,乐此不疲,貌似颇得意。

前几天又学了新本事:学会了启动机器人。凌晨三点,夜猫子Xander 醒来,煞是无聊, 于是启动机器人耍耍。夜深人静,楼道传来机器人扫地的动静,第一次着实吓了一跳。莫非霍金说的机器人自主意识,控制世界的神话提前实现了?见了活鬼。起身察看,原来 Xander 在一旁窃喜。

机不猫欺。猫犹如此,人何以忧?霍金之论谬矣。

http://fanyi.youdao.com/ helps to translate the above into English (with minimal post-editing):

Xander, though small and small, is a smart guy. He was excited by the introduction of the iRobot sweeping robot. After playing for a while, he found that the robot was good-natured and could play games. As long as the robot is in the direction of the robot, the robot will stop immediately.

Robots are not only polite but also somewhat wooden and silly. After being blocked, it is trying to explore whether there is a possibility of forward movement in any directions of south, east, north, or west. It was not easy to find a new direction of movement, Xander flew past.  He had no temper, so he had to continue to spin around. Sometimes Xander deliberately set him free and then attacked him.  Xander, playing with a robot like a mouse, before the palm of his hand, happy, seeming to be proud.

A few days ago he learned a new skill: he learned to start the robot. At 3 a.m., Xander, who sleeps late, wakes up and is bored and starts the robot to play with. In the dead of night, there was a robot sweeping from the floor, and the first time it happened, it was a real shock to me. The robot's autonomous consciousness, the myth of controlling the world is realized in advance?  Did I see a ghost? When I got up to look, I found Xander was pleased he had this trick.

【李白宋郭90:句法与逻辑和语用的纠缠】

宋:
@wei 张三是打李四的凶手。其中,张三一打,是一凶手,两个依存关系交叉,你是怎样处理的?

白:
凶手有个X坑,动名皆宜。

宋:
@白硕 这个坑的语义是什么?

白:
使其成为凶手的事件

李:
“张三是打李四的凶手”的问题,这是句法与逻辑的纠缠,不在一个层次。“是” (表示上下位关系,taxonomy)与“的”(表示所属或限定的关系)在逻辑上没有节点地位,只有关系意义,纯粹是一个句法形式,是一个小词。因此,逻辑上的关系没有依存交叉,逻辑上,“张三” 与 “凶手” 发生 ISA (上下位)关系,“张三” 与 “打” 发生逻辑主语关系。这不是交叉 而是同一个起点。见下图:

【SV: 张三,打】
【VO:打,李四】
【限定:打(李四),凶手】
【ISA:张三,凶手】

这四个 binary 的逻辑依存关系没有交叉。反映了本句的逻辑语义,“是”,“的”,都是小词,没有作为节点的逻辑地位。

Me:
至于句法的依存结构,那是另一个平面的事体:

白老师所说的“凶手”挖了个【刑事案件】的坑,用得好的话,可以帮助句法消歧:因为 “打李四的凶手” 有一个句法歧义在:“打”的是“李四”,还是“凶手”?从“打人” 的本体知识,可以得知打人属于刑事案件(寻衅滋事),正好填“凶手”的坑,比“李四”更加合适。但其实要真用上这个知识,无论是经过常识推理,还是利用大数据的语义相偕的统计,里面还有不少沟沟坎坎,并不是那么容易。其他的消歧的 heuristics 也有,似乎更好用。

“打李四的二儿子的凶手”,“打” “李四”,“打” “二儿子”,还是“打” “凶手”?

白:
匹配这种X的原则:1、S优先;2、如果是N,表“事件”的类别名词优先。二儿子二者都不是,优先级最低。“打李四的黑社会团伙的凶手”有歧义了。凶手属于团伙、团伙属于李四的可能性存在。这种解释下,“凶手”的坑仍未填上,且处在“挨打”境地。关键是,“黑社会”、“团伙”、“凶手”负sentiment一致,搞成一伙很顺,偏要黑吃黑很拧巴。坑填上了,sentiment却拧巴,这不好接受。

李:
在 “打 【human-1】的............【human-m】的【human-n】”的模式里面,“打” 最不可能的宾语是 【human-n】,虽然理论上不能排除。排除其他知识,“打” 最可能的O 是 【human-1】,打嘛,打不了那么远。动宾有某种就近原则的 heuristic 在。但是,如果 【human-1】的【human-2】里面,【human-2】有个很大的坑,需要一个【human】所有者,麻烦就来了:“二儿子” 恰好是 这么一个 【human-2】,他一定有个“老子” 的坑。除了孙猴子,没有老子的儿子是不存在的。于是,“二儿子” 要抢“李四”这个可能的老子,“打” 也根据就近原则想“打”这个“李四”。

白:
各种heuristics角力的最佳模型还是神经。

李:
打不赢还是打得赢,天知道。也许“神经”知道,谁知道呢。不知道神经什么时候能够把这些个鸡零狗碎的 heuristics 都考虑进去,省得专家费这个脑子。关键是,费尽了脑力,还是“测不准”。

白:
“打李四的二儿子的犯罪事实”:李四占位置优势,二儿子占大坑优势,犯罪事实位置最远,论坑反而要“打”当萝卜,填“打”的坑不占任何优势。这就是角力。任何一种heuristics只是从一个侧面做贡献而已。但自身暴露的弱点也会埋下祸根。是没爹更坏,还是没“爹”更坏?

李:
因素一多,人肯定干不过机器。但前提是不是有一个巨大的标准答案在(带标),数据不稀疏,然后一锅炒去看角力。

白:
“的”字的嵌套顺序也很有意思。

李:
“的” 不知道什么时候开始进入,继而被滥用的。古汉语的 “之” 可没有现代的 “的” 这么被滥用。有了 “的” 汉语裸奔性得到极度夸张。修饰语之间的内在次序约束被打破,想到啥(修饰语)说啥 根本不过脑子 直接就蹦出来。蹦出来后加上个 “的” 就齐了,显得符合语法。没有 “的” 的话,一个 NP 的前修饰语 怎么摆弄 很有讲究 各种约束。超过两个 的 以上的 NP 没有好东西。语文老师应该一律打回去重做。

白:
比如“张三打李四的二儿子的女朋友的犯罪事实”。又出来一个“女朋友”是张三的,还是二儿子的,的问题。其实就是一个“当量”问题,一个坑顶几个位置。一个首选位置顶几个次选位置。等等。一个反过来抢萝卜的猪队友相当于扣掉几个位置。如此等等。这个“当量”也就是神经里的权值。

李:
想到另外一个语义计算的问题:在句子 “我穿中号鞋大吗” 里面,这个“大”是怎么个说法?“大” 前有四个先行者:1. “我” 2. “穿” 3. “中号鞋” 4. 整句:“我穿中号鞋”。“大” 貌似针对的是 “中号鞋”,这样的话,那就是后置定语或后置补足语了,但感觉总有一点不对劲。比较:

(1) 中号鞋大吗
(2)中号鞋穿起来大吗
(3)中号鞋我穿起来大吗
(4)中号鞋对于我大吗
(5)中号鞋对于我的脚大吗

感觉, (5) 具有理解客观性形容词“大”所需要的完整信息:【对象:我】,还有 【小对象:脚】(二者是整体与部分的关系,这也是情感分析(sentiment analysis)中针对主观形容词(如“好”、“坏”)的大小对象的常见形态:“iPhone X 的屏幕很好”,其中【对象:iPhone X】,【小对象:屏幕】)。

“鞋” 可以从本体知识里面引申出【小对象:脚】出来,所以 3和4 在引申以后具有完整的信息。(1) 最差,需要对话双方有相当的默契和 shared 背景和上下文,才可以相互理解,否则就是无厘头,缺省了关键信息。(2) 缺乏大对象(主体),理解也不完整,反问或追问的话,应该问:谁穿“大”呢?“大”对谁而言呢?

郭:
@wei “我穿中号鞋大吗?” 觉得你的问题问偏了。

首先,这句dependency parsing应该没问题。那么,问题其实在语用。就是说,你丢给我这句话,我怎么接?

先回想下你自己的逻辑:
1. 中文可用两极对照来指代属性:“大小”就是指“size”
2. 两极中的一极是default:“大小”里的“大”就是这个default.

按此,这样三句,其实等价:

“我穿中号鞋 大 吗?”
“我穿中号鞋 小 吗?”
“我穿中号鞋 尺寸对 吗?”

这样,我已经有理由做一步 reduction,理解你其实要我帮忙回答:

“我穿中号鞋?”

或者更简单地:

“我 穿 什么尺寸 ?”

这就好办了!

李:
不错,不错。

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【NLP随笔:词法内部结构休眠,句法可以唤醒】

下班路上有一个关涉词法句法的灵感,有点意思,随笔记下,省得忘了。

开问:对于词典列举了的词条,还要不要记录内部词法呢?

当然,既然列举了,词法应该不重要了,一切都是绑架。(如果要记录词法,所记录的词法也是绑架。)词条就是一团泥巴,爱怎么捏都行,一切看方便和需要。尽管绑架不需要讲道理,自然也就不必讲词法,但是反观人对词条的语言学认知,其实还是在无法有法之间的灰色,并不真地就是一团漆黑,进了词典就都是黑箱子了,其实也有灰箱子,甚至相当白的箱子在内。

举个例子来说明这种灰色的法与非法状态。

“细心” 是一个2词素的词条 在所有的现代汉语词典里面 通常贴个形容词A的标签。因为它非常典型地起一个形容词的句法作用,与其他形容词同义词“认真”、“仔细”、“刻苦”类似:

(1)做定语:细心人。(认真人。仔细人。刻苦人。)
(2)做状语:细心做事儿。(认真做事儿。仔细做事儿。刻苦做事儿。)
(3)做谓语:她很细心。(她很认真。她很仔细。她很刻苦。)

语义上,“细心”挖了一个【human】的坑,“她”正好跳进去。无论句法上做定语状语还是谓语,逻辑语义上,“细心”都应该挂上这个【human】。

句法语义之下是词法,如果从词法内部看,这几个词条是不同的,而这一点对于人其实并不是黑箱子,而是有相当透明度的,可以轻易认定:

“细心”在词法内部是一个名词性结构N(而不是对外的形容词A),词法关系是“细”修饰“心”:细的心。

“认真”稍微模糊一些,但一般人感觉还是词法内部的动宾结构V(而不是对外的形容词A),词法关系是:“认”【这个、一个】“真”。

“仔细”的词法关系应该是并列,而被并列的两词素都是形容词A,倒是与句法A赶巧一致了,说的是“又仔又细”、“且仔且细”。

“刻苦”不太敢肯定,词源上看,“刻”是动词,“苦”是形容词,也可以做名词。内部词法结构是动宾,还是并列,存疑,先挂起来。

总之,同是句法形容词的几个同义词,内部词法结构可以完全不同。回到开题的问题,这种对于人(起码是语言学家)可以看见的词法结构,需要不需要在词典里面标记呢?

乍一看,似乎不需要,因为一般来说词法的目的是支持句法,句法的目的是支持(逻辑)语义,总之是通过形式的表象,解码语义的内涵,这就是 deep parsing 和 NLU 的真义。既然句法词类(A)、句法角色(定、状、谓)、逻辑语义(修饰【human】)都可以清晰地解析出来,回头再去深究词法内部的小九九,貌似无益。就让它深眠在语言结构的层级体系(hierarchy)的最底层,永远不见天日。

但是,既然不是黑箱子,人就不会永远放过,偶见天日还是有的,特别是在段子或俏皮话里面:

A:你怎么形容她?
B:两只巧手,一颗细心。

see,在人脑的语言认知过程中休眠在词法内部的N,居然冲破了句法A的标配属性浮现出来,成为堂堂正正的句法N,与量词结构搭配构成名词短语,听上去一点也不拗口。为什么那么自然,因为休眠唤醒了,因为他原本就是名词。

看来,休眠唤醒的确是人类认知语言的一个机制。如果我们想要模型休眠唤醒这个机制,那么词法内部的结构作为休眠的种子,就应该先在词典里面埋下来,它才可能被唤醒,发芽成语。

结论:词法内部结构,还是记录下来为好,如果真要做深度自然语言理解的话。

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【立委随笔:猫论,兼论AI福兮祸兮】

猫咪是个有意思的存在,这种意思必须得亲身交互才好体会。看别人养猫和自己领养一只猫,感受还是不同。

人类在漫长的历史中把凶悍的野虎驯服为乖巧的家猫,这里面肯定有很多故事不为我们所知。我们现在感知的只有乖巧讨喜。首先是猫对主人的讨好的各种方式,让人不由心软和爱怜。你把手伸过去,他就跳起来拿脸去蹭。你把脚伸过去,他就在你脚背上打滚,然后拿眼睛注视着你的表情。

     

猫咪最引人注意的自然是那双大而深邃的眼睛,白日显威 夜里发光。猫眼看世界 整天两眼滴溜溜转,让人搞不清它都在想些什么,肚里藏着多少秘密。当它两眼随着你的一举一动转来转去 你一方面感受到陪伴和关注,一方面不免狐疑 是不是养了一个哑口侦探 哪天开口说话了 有多少难为情会突然爆发。好处也有。猫眼的炯炯目光多少约束了人的行为 狠斗私字一闪念 从狠斗任何不雅不轨开始:勿以恶小而为之。

猫咪的好奇心和探索精神 令人惊叹。由于种种理由 诸如害怕走失 被碾压 染上艾滋病 误食毒物 摔伤 等等,house cats 室内圈养 不外放 可猫咪对外部世界的好奇心始终不减。猫咪可以几个小时守候在门前 盼望主人归来 更盼望主人哪天开恩。至于窗台 阁楼天窗 更是猫咪的最爱,它就那般优雅端庄地坐着,静观窗外的车水马龙 人来狗往。閱尽天下事 不喜不怒 而好奇之心不灭。

至于室内的自由世界 但妨有一丝缝隙 无论地库暗道 犄角旮旯 它必钻进去 嗅着鼻子 地毯式探索 绝对不留盲区。冰箱冷库 只要开门 也不畏严寒 试图往里钻。这是什么精神?这是生命不息 探索不止的大无畏精神。

猫咪最大的缺点是好吃贪睡,还有懒做。食为天 睡为地 天地性也 真心算不得缺点。人家能睡到自然醒 也是前世修来的福分 不像摩登时代的人类 创造了极大财富 自己却深陷劳碌 不得好活 连个囫囵觉都难得一眠。

至于懒做 更无从计量。自从四害被人类几乎赶尽杀绝以后 抓老鼠的KPI便无法下派 猫咪整日晃荡 游手好闲 无所事事便无可避免。天下本无事 何以事之?

自从工业革命解放了体力劳动以后 据说人工智能在不远的将来就要取代80%以上的脑力劳动 人类很快就要面临猫类的宿命。没有劳动指标KPI的多数同胞如何自处 将成为新时代难题。

反观猫咪 一辈子,没有老鼠可抓甚至连老鼠的面也见不着的猫咪 整天忙些啥呢?修身养性 爱惜羽毛 没完没了清洁自己 一尘不染 这就是它给自己立下的任务。难怪宠物店姑娘说得很肯定 你根本不用给猫洗澡 任何尘土和肮脏 它都会舔得一干二净。猫有洁癖,永远清清爽爽,大小方便后 也收拾得不露痕迹。

换了人类 在大面积失业面前 还能如此镇定自若 独善其身吗?在人类找到失业恐惧症的解药 消减贫富分化,废除按劳分配按资分配制度,摈弃歧视无业游民视之为二等公民等陈腐观念之前,人工智能的进步福兮祸兮 真地难说。也许我们在自掘坟墓而不自知。这倒不是机器自主思维 控制人类那种匪夷所思的杞人之忧 这是人类自己的精神文明严重落后于物质文明的真切困境。这种困境早已显现 只会日深。机器解放了体力之后的几百年来 人类生存质量的重要指标 普罗的幸福指数 并没有随之提升。现代社会的焦虑和精神堕落 其实更加普遍化 病入膏肓。

我相信AI可以代替一多半的人类白领工作,只是不好设时间表,不知道这种替代发生这一次AI周期,还是下一个周期(假设每个周期大约15年的话)。无论这个周期还是下个周期,这种改变的速度还是远远快过人类的心理准备和社会机制的相应改变,所以隐隐感觉不是好事儿。AI 可以缓行。

在水牛城的时候,楼下住着一对老年夫妇,老头儿曾经是我们那个村的老村长(mayor),平时聊天,全是9斤老太今不如昔的论调:首先是世风日下,他的三个儿女全部是离婚收场,两个儿子找了新欢(与秘书结婚,抛弃了结发妻子)一个嫁了军官的女儿40多岁被离婚。其次是中产阶级的缩小。他的中产阶级定义就是有稳定工作,四五万年薪的那种(作为比较,当年软件工程师年薪七八万),包括蓝领。在他们那代人中,一个熟练工人可以在一家公司干一辈子,享受中产阶级的优越生活。虽然发不了大财,但这是一股社会稳定的力量,对知识和学历的要求不高,生活张弛有度,有车有房可旅游,有业余爱好,八小时工作,加班双薪或三倍,可以体面地生活一辈子。这种 good old days 是一去不复返了

其实川普这次上台,很大程度上是由于这些被新时代抛弃的草根,坠落到贫民但又放不下身段学不了新技能的原中产阶级。其实学新技能也不是最终的解决之道。人类必然面临工作市场的加速萎缩,有技能也无法保证免除失业。更可怕的还不是失业,而是失业的威胁和恐惧。新时代的人比起老一代,job security 江河日下。

 

【相关】

《朝华午拾》总目录

【李白王89:模糊语义与真假歧义,兼论PSG与DG】

李:
里面关涉所有的词法现象,包括 open compounding (合成词),重叠(reduplication)etc,morphology is a mini-syntax

白:
这是西方语言学者的思维惯性所致,把形态变化外化了

李:
但 词法 与 lexicon 还是不相称的吧,前者是规律 后者是库。前者是“法”后者是“典”。

在语言学教科书里面,词法是一个动态模块,词典是一个静态模块(资源)。当然到了专家词典,那是NLP里面的创新,超越了传统的语言学界定。

白:
法+典
比如外界常说,汉语的morphology不发达,狭义理解形态变化不发达是对的,词法不发达就说不通了。至少我们构词法、离合词都算是发达的

李:
这里面其实还是有一些说法的。开放合成词 open compounding 是超出词典的构词法,占据了汉语构词法的大部。语言学上 通常认为这个东西处在词法句法的中间地带,不像词的词尾形态变化(inflection)和 语缀派生词(derivation)那样包裹在词法内部。因此,说汉语morphology贫乏也不无道理。如果从汉语的语言历史来看,就更是如此。

其实 无论从理论概念上 还是实践中,把词典绑架不了的所谓合成词这种中间地带的现象 看成是句法的初级阶段,而不是看成是词法,是合适的。(至于词典可以枚举的合成词,无论是黑箱子还是半透明,那都不是事儿,反正是围在词典的围墙内【离合词除外,需要有特殊的与句法接口的机制】)
理由如下:

1. open compounding 与句法的组合规律 总体上有一体性

2. 语素(lets say,bar 0)组合成合成词(bar 1),合成词组合成(初级)词组(group, bar 2),词组组合成(基本)短语(base XP,bar 3),基本短语组合成嵌套短语(bar 3.x),嵌套短语组合成谓语(VP, bar 4),谓语与主语组合成子句(clause,bar 5)

这一切其实都是一个句法单位(我的导师刘先生称之为动态句素,非常精辟)越来越大的过程。

在 bar 1 与 bar>1 中切一刀,前者叫 morphology 后者叫 syntax,其实有相当的任意性。主要依据是发现 open compounding 与词典枚举的 compounds 在句法进一步组合过程中,基本上可以同等对待,而且词典枚举不枚举也是有相当的任意性的。

这其实就是 structural configuration(x-bar concept) 利用离散值在逼近嵌套(或递归)句法组合的过程中的归类角度而已。

上面的离散值分为 5 个 bars,比通常的 x-bar theory 细一点,换一个角度去抽象或 generalize, 也可以分为3层:词,短语,分句。也可以分为四层:词,词组,短语,分句。总之,既然这些分类具有任意性,而层层组合又具有一体性,那么把合成词组合排在句法里面垫底,是合理的。

今天还想到一个与此相关的句法界的老问题:说的是 有一种结构歧义 普遍存在 但一般也不影响交流 说者是模模糊糊说 听者是模模糊糊听 只是遇到较真的人 或者说段子抠字眼的人 才会把歧义凸显出来说事儿,多数人不较这个真。

说的是修饰语所修饰的句素的范围歧义:mod1 mod2 H,到底是 [mod1 [mod2 H]] 还是 [[mod1 mod2] H]? 逻辑语义上,这是结构歧义无疑,对应了不同的解读和至少是细微的语义差别,但实际交流中,who cares

有意思的是,by default 乔姆斯基短语结构分析法基本是第一种结构分析,mod1 不是修饰 H,而是修饰 【mod2 H】这个group;与此对照,by default,依存文法采用的是中心词分析法,说的是第二种解读,mod1 修饰的是 H,mod 2 也修饰的是 H

对于这种普遍存在的结构歧义,两种解读都可以找到各自的语言事实依据(XOR),也都有更多的语言事实支持这种“真歧义”,但这个真歧义多数人不介意而已。

提出这一点是想说:1. 这种歧义在多数交流和落地场合 可以打马虎眼 不必认真对待;2. DG 和 PSG 默认出来的结构在这个普遍现象中是相左的,不等价,两个表达法互相转换的时候,需要注意这一点。

wang:
学习了

白:
靠H代表,才能统一。

李:
h 的代表性与人民代表类似。说是代表了人民吧,好像也不对,人民对他通常无感,他对人民也不负责,说不能代表吧 法理上的确是代表。还是语言共同体聪明:糊里糊涂说 糊里糊涂听。邓小平理论就是 不争论。语言与逻辑的分野 在这里表现最充分。语言使用中从来没有感觉出那么多的逻辑歧义。交流绝大多数时候真滴就是一笔糊涂账 大家还都基本认账 只有偶然遇到什么特殊情形 才较真起来。特殊情形包括 说段子。也包括 打官司。因此法律合同与口语相差甚远 那是把所有人当贼防 不得不采取的表达方式。

王:
说得好!

白:
说something是可以糊涂的,没问题,太正确了。说which one是可以糊涂的,有点难。mod1是形容词-副词兼类,mod2是只能作定语的成分时,存在副词优先的现象。

“好漂亮的花”不是【好 【漂亮的 花】】而是【【【好 漂亮】的】花】

王:
H就是公司的法人代表。一个公司总得有个头H(Head),来代表公司。通常情况下,基本上H就代表公司出来说话,在该出面的时候,能承接的很好,能保证以企业级为单位的事务运转,简洁而高效。--这个时候H就是代表很好。但他完全代表公司的全部数据面吗?不可能,也不需要,只要能有这个H牵头,且能保证各层结构有序运转就好。员工大众需要有这样个代表,企业上头管理部门,也需要这样一个代表,而这种衔接,就是最经济的。语言学,想必也类似。

在H完全代表不了的,情况下,可能再需要配一个或几个副手,一起代表就基本能把问题解决了。H有时信息不自足的情况下的一种选择。比如,介宾情况。介也许就是介绍主人 的介绍人吧。

@白硕 照白老师这样一说,感觉还是该分开的情况还是得分开,细节工作看来还省略不了。只有那些不必分开或不值得费功的情况,特别“左右搭接两相宜“的才不必细致分开。

李:
顺着前两天的思路,一个观察:有的歧义不重要,介于真歧义伪歧义之间。逻辑上的真歧义,语用上的伪歧义(因为人普遍不 care,因此也没必要要求电脑去 care,怎么着都可以)。譬如:“昨天-发布-了”,在 PSG 中,下列的结构歧义:

((昨天发布)了) vs (昨天(发布 了))

到了 DG 就没有歧义了(昨天(发布)了),反倒省心。

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【朝华点滴:百万架构图幻灯片的演进】

以前提过这个 million-dollar slide 的故事,今天找出来几张旧图,回看一路风尘留下的足迹,思绪不由飘向漫天风雪的水牛城,我旅美生涯的起点。美国是个伟大的国度,它为一个赤手空拳游离主流之外的异国流浪者提供了一个舞台,终使其跨越世纪的科研美梦成真

说的是克林顿当政时期的 2000 前,美国来了一场互联网科技大跃进,史称  .com bubble,一时间热钱滚滚,各种互联网创业公司如雨后春笋。就在这样的形势下,老板决定趁热去找风险投资,嘱我对我们实现的语言系统原型做一个介绍。我于是画了下面这么一张三层的NLP体系架构图,最底层是parser,由浅入深,中层是建立在parsing基础上的信息抽取,最顶层是几类主要的应用,包括问答系统。连接应用与下面两层语言处理的是数据库,用来存放信息抽取的结果,这些结果可以随时为应用提供情报。

话说架构图一大早由我老板寄送给华尔街的天使投资人,到了中午就得到他的回复,表示很感兴趣。不到两周,我们就得到了第一笔100万美金的天使投资支票。投资人说,这张图太妙了,this is a million dollar slide,它既展示了技术的门槛,又显示了该技术的巨大潜力。

这个体系架构自从我1997-1998年提出以后,就一直没有大的变动,虽然细节和图示都已经改写了不下100遍了,下面的两张架构图示大约是前20版中的,此版只关核心引擎(后台),没有包括应用(前台)。

1999 版

2000 版

2003 版

2003 版之二

2004 版

下面两个版本是天使或A轮投资人帮助美化来吸引其他投资人的:

 

九九归一,天变不变道恒不变,最终的架构图反映在我的【立委科普:自然语言系统架构简说】中的四张NLP联络图上:

 

【相关】

立委科普:自然语言系统架构简说

【美梦成真

《朝华午拾:创业之路》

《立委流浪图》

【语义计算:李白对话录系列】

《朝华午拾》总目录

【掌故:“白头宫女说微软”】

想到一个简单的区分NLP文傻和理呆的试金石:听到P和NP,首先想到介词和名词短语的是前者;首先想到计算复杂性的是后者。二者同时想到的是超人。这个群估计一多半是理呆,文傻属于珍稀品种,应予保护。

很长一段时间,听到 IE 我就想的是信息抽取这个改变了我人生道路的研究领域。而不是微软的那款破劳什子。

曾几何时,微软帝国征服世界,指哪打哪,不可一世。WordStar 后是 Word Perfect 教育了市场,可是 Word 一来,溃不成军。1-2-3 曾何等 popular,可 Excel 席卷过来,片甲不存。到了 Netscape 开拓了互联网的广阔疆土,IE 上场,集中优势兵力,泰山压顶。据说当年的微软 campus,帝国霸气毕露,臣民情绪激昂,日夜兼程,IE 团队的 QA组不间断测试与 Netscape 的各项指标的此起彼伏,直到全面压倒,于是在帝国为自己的对手举行了一场隆重的葬礼,场面壮观而感性。

那是怎样的一个帝国时代,微软股票连续分裂,仍不断上扬,记得在视窗95(?)发布的当天,全美的电视台全天候报道这个软件巨无霸,播音员把微软的OS和Office比喻为信息时代为自己开的现金账户,财源滚滚而来,来自全世界消费者。

就在微软如日中天的时候,1996年吧,我有幸一瞥帝国风采,作为他们NLP组 short listed 的候选人,被招去面试。从温哥华到西雅图 Redmond 总部,一个小小的候选人,HR 居然给订了头等舱和五星酒店。

Bill Gates 当时对NLP组寄予很高期望。MindNet 那个 demo 蛮 impressive 的,一个基于词典定义自动parsing建立起来的一个知识图谱。各种关系线条(其实基本等价于把维基百科map到图谱的内部数据结构去),很炫酷。可没人知道怎么用这个图谱。来自定义的知识,基本构成是一个本体知识库(ontology),并没有多少情报知识。落地显示价值方面有很大挑战,总之是探索了近十年,也没落地下来。后来据说是利用它和parsing,试图落地到MT。结果 Brill 来了,带领的机器学习组叫 NLG(NL Group,not NL Generation),几个月就做出了一个 MT 与 这个老牌的 NLP 组,做企业内恶性竞争,NLP 一败涂地。这是统计NLP碾压规则NLP的一个历史性案例,发力点是有海量自然带标数据(人工对照译文)的MT,也不奇怪。最终导致 NLP 组的大裁员。好像除了英语和日语,其他语种的NLP小组全部遣散。

要说情报知识图谱由于其情报性,由于大数据的信息过载,还有落地到产品、显示价值的一些空间,一个本体知识库要落地,就艰难多了。本体知识库,by nature,相对固定有限,可以人工穷尽,不像情报知识那样具有流动性,需要大数据的持续更新处理。你做得再花哨,毕竟是自动从数据生成的,必然具有噪音,而且逻辑不完备。你怎么跟董老师这样潜心30年研发出来的深思熟虑 精心设计的本体知识体系 HowNet(知网)去 pk 呢?所以战略上,MindNet 就走错了路。也是当时的条件所限。他们的那个基于规则的 parser,鲁棒倒是还鲁棒(比起多数局限于实验室的规则系统),但太粗线条了,精准远远不够。他们当年没有办法拿那种质量的 parser 去应对各种自然语言的文体和数据源,于是聚焦在词典的定义这个子语言上去细磨。定义的句式不外是 "a is b's c” 这样的句式,容易拉出一个本体知识链条出来。能想出这么一个应用不成熟技术的切入点,也真是难得。

记得当年还利用这个parser做过 grammar checking,在 Word 内。根本就无法用,几乎全是 false alarms。后来好像是找了另一家的 grammar checker 纳入了 Word,经过这么多年,终于变得可用了。当然,目前最好用的 Grammar Checker 并不在 Word 内,而是可自由下载的 Grammarly,已经渗透市场,无孔不入了。

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

 

【NLP答问2:实体语义和逻辑语义】

新人:
就是觉得自己的问题有些太外行了,不太好意思随便问

答:
外行内行,都是一个过程,只要有兴趣就好。《李白对话》 天马行空,属老人促膝恳谈; 也可以来一些答问对话,为缩小代沟做点实事。

嗨,上篇《NLP答问》刚贴到微博不到两小时,就2.4万阅读量了哈。可见答问的话题还是很符合公众兴趣点,人工智能教授马少平老师等有推荐和评论:https://weibo.com/2316531634/profile?topnav=1&wvr=6&is_all=1

你们说得都对//@南大周志华:目标代码吧,不是数据结构 //@马少平THU:用计算机实现不这样还能怎样?//@第五逻辑:所有的场景应用都是转化为计算机可执行的一种数据结构,这就是现阶段所谓的AI
@立委_米拉【NLP答问:关于parsing 和自然语言理解】 
立委_米拉
7分钟前 来自 微博 weibo.com
不争论 不争论。小平连大是大非姓社姓资都不争论,咱数据结构和目标代码有啥争论的。重要的是面对冰冷的现实,“这就是现阶段所谓的AI”,与自主机器人或机器智能没有一毛钱的关系,都是人类自己跟自己玩,机器不过就是玩具(或者也是吹牛的道具)而已。没霍金之流吹得那么高大上。

新人:
目标代码和数据结构不是一体的吗?

答:
CS的标准说法是: 程序(目标代码)= 数据结构+算法

我们在讨论的时候,侧重点是“理解”的表达形式(representations),就是结构树(tree),或图谱(graph),强调的是数据结构的一面。“理解”作为(智能性)动词,当然有算法的一面。所以周教授说是目标代码,才全面。

新人:
这样啊,受教了

答:
数据本身不一定是可执行的代码。结构树不过是“理解”的一种内部表达,无论是达成这个理解的过程(parsing),还是利用这个理解去落地到应用(semantic grounding to applications),都有一个NL算法的事儿。

前者(parsing)在我这里就是 cascaded FSA++ 的实现算法,后者(落地到信息抽取和数据挖掘场景)就是一个 subtree matching 的算法。这是就关涉算法的机制(formalism)而言,其实利用这个算法机制对系统各个模块以及模块中问题的处理过程,也还有个语言学算法的思路在内,不仅仅是在多层系统里面先做什么后做什么,还有各种数据流接口的设计等,如何防止错误放大,如何协调共性和个性,都与算法有关。

新人:
结构树是“理解”的一种内部表达,这个内部表达中已经包含语义的部分了吗?还是说语义包含在另一种内部表达的形式里,多种结构组成了“理解”的形式?

答:
结构本身就是最重要的语义部分。这是语言学的常识,也是多数计算语言学家的共识:学界术语叫 semantic labeling,在中国的NLP界,由于董振东前辈30年前的创新研究,这个语义被命名和普遍接受为“逻辑语义”。理解了一句话,最关键的就是要搞清楚一句话里面的那些语词概念的逻辑语义角色:【谁】(逻辑主语,施事)【对谁】(对象补足语)【做了】(谓语)【什么】(逻辑宾语,受事),【何时】(时间状语),【何地】(地点状语),【如何】(方式状语),【为什么】(原因状语)等等。

深度解析(deep parsing)所建立的结构树或图,就是要填写这些逻辑语义角色,填写好了也就是达成了语言理解的核心。

新人:
实体语义对于理解一个句子不重要吗?好像绕回了之前说的WSD那篇…(【NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈】

答:
什么叫实体语义?实体对应的是NE或NP,在句子中就是一个元素。在知识图谱里面,表达成一个画像(profile),uniquely 对应了真实世界的一个实体。

实体语义的重要是在领域落地的时候,而在领域独立的语句分析阶段,只要知道类别就好了,实体的语义或歧义(如果有歧义的话)可以先绕过去的。譬如,“约翰”这个实体,知道他是一个人名(NE)就够了,至于他究竟指的现实世界哪个实体,对于理解一个里面提到“约翰”的那个句子,并不重要。

但是如果要建立领域的知识图谱,实体语义就重要了,否则描述这个约翰的事件,张冠李戴到另一个约翰头上,语义落地的偏差就会把领域知识图谱(事件场景以及个人画像的语义网络)搞砸。

我这篇【NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈】)文的本义是说:WSD 一般来说不是 parsing 的瓶颈,而是可以推后到落地的时候去做区分。

新人:
是,想了下,只有在具体场景下,才能讨论实体语义。

答:
换句话说,语言学意义的理解首先看到的是结构和角色(“项链”),然后才是角色里面的每颗“珍珠”。所以说 deep parsing 是自然语言理解的皇冠和核心,是自然语言落地的核武器。

新人:
感觉清晰了很多。终于不纠结实体了…

答:
关键是,实体的歧义通常不影响结构和角色定位(即逻辑语义),而一个语句与其他语句的语义区分,主要就是结构和角色定位。这里面细究的话,逻辑语义结构里面有核心和边缘的区分。核心就是所谓 argument structure,这是以谓词为核心挖的几个“坑”,需要实体参与者(萝卜)来填坑的的结构,表达的是语义主干:【who】 DID 【what】 【to whom】这类。边缘的语义主要是可有可无的状语,可分为一二十种,表达的是语义的细节:时间,地点,条件,原因,让步,结果,程度,等等。

新人:
昨天插入语的那个badcase,是不是属于边缘的语义的部分?

答:
插入语当然是边缘语义,非常的边缘,提供某种语气。

新人:
感谢您愿意回答我这些基础的问题。我得赶紧补补课

答:
不必拘束。在你这个年龄段,保持好奇心和兴趣最重要,不要怕吃苦,一头扎进去几年,才能真正体味。我有个n万小时定律(《聊聊 NLP 工业研发的掌故》),虽然夸张了一点,但说的就是必须要有足够历练,才能一览众山小。

 

【相关】

【NLP答问:关于parsing 和自然语言理解】

NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【NLP答问:关于parsing 和自然语言理解】

【立委按】人工智能热潮下,进入自然语言领域的新人也随之增多。新人的好处是喜欢问问题。于是有了答问。

新人:
读过您的parsing方面的系列博文,parsing 及其落地应用的种种,很有意思的领域。把 parsing 这一块做好就非常 exciting 了,能落地就更棒啦

答:
必须落地。否则站不住脚。parsing 做好根本不是问题,已经做了N次了,been there done that()。NLP 是个力气活,但不是看不到头的活儿。达到接近专家的水平是验证过的。落地有所不同,落地需要找到切入点,需要有一套领域化的有效方法。

力气活指的是迭代:就是不断的迭代,每天迭代10次,一年就是3600次。设计思想和框架机制对路了,剩下的就是不断地根据数据制导,去修正系统,保证走在正路上,避免或尽可能减少 regressions,终会达到彼岸。

新人:
力气活是真的,我之前做 NLU badcase 分析,后来能看到准确率确实在上升。我相信迭代的力量。

现在的 parser 已经足够好了吗?您博客中提到的休眠唤醒机制,世界知识的引入,非确定性表达的问题都已经解决得差不多了吗?

答:
还没有,时间和人力的投入不够,一切重起炉灶,系统架构更加合理科学,但血肉不足。没关系,目标导向,急用先做。有些来不及做的,先放在那里。

新人:
想起您博客中各种奇怪的例子

答:
那是刁难系统的,多是语言现象的犄角旮旯,其实不值得太花力气。古怪的句子的好处是测试鲁棒性(robustness)或者测试有没有补救措施(backoff),主要精力还是应该花在统计性强的常用句子身上,不能被长尾牵着鼻子走。

做中文 parsing 特别让人兴奋,比做英语等 要有意思多了,后者太缺乏挑战性了。

新人:
嗯,中文本身很有魅力

答:

看上去一个字符串 人看着都头晕,如果能自动 parse 出结构来,很让人开心的。

新人:
“看上去一个字符串 人看着都头晕”这句感觉对 parsing 挺难的?

答:
不妨试试:


这个当然有问题,但很容易修正。现在的序列是:NP,CL,AP,这个 CL 是一个插入语,最后的结果应该是在NP与AP之间建立主谓关系,把插入语附加上,就完美了。(CL 是 clause,M 是定语,R 是状语。)修改后的结果:

这个结果还合理吧?

新人:
是不是把“看上去”作为RP,就能fix之前的问题了?

答:
主要还是带有插入语性质的 “NP人看着(都)AP",插入语“人看着”是 RP(副词性短语),“看上去”也是RP,但在句首,好办。

新人:
如果去掉“看上去”,整个句子是“一个字符串 人看着都头晕”,改之前的 parser 能解析正确吗?

答:
不能,因为没有处理好这个插入语。与“看上去”无关。插入语在语言中是很有限的表达法,迟早可以穷尽,原则上不是问题。

你以前做过什么parsing有关的工作?遇到过什么挑战?

新人:
之前做parser的离合词这一块。例如“吃了一顿饭”这样的结构,可以从语料中很容易统计到,例如“吃不吃饭”这样的就相对少,只能靠观察。当时是这么做的。首先从研究离合词的论文里找出一个两个字的离合词列表,例如'AB'。然后用'A.*B'在语料中筛选句子,对选出的句子做pos,然后统计'A.*B'中间'.*'的部分的pos组合,但是“吃不吃饭”这样的结构在词性标注的时候就没法搞定了。

答:
这不是简单的离合,而是夹杂重叠。A不AB,是一个相当普遍的现象,对于所有 V+N 离合词都有效的。退一步,V不V 也是一个确定的选择疑问句式。

“对选出的句子做pos,然后统计'A.*B'中间'.*'的部分的pos组合”

做POS 后,你在统计什么?

新人:
当时的需求是,判断"AxxxB"是不是词“AB”的离合现象。因为想提高泛化能力,所以想从语料里产生词性级别的pattern,比如“吃了一顿饭”对应的pattern是“v u mq n”(限定 v 和 n 是单字)。比如“吃不吃饭”词性标注的结果是“吃_v 不_d 吃饭_v”,从词性的层面就不能用“v d v”来匹配了

答:
那两个v是重叠,需要unification机制的,单看POS,根本没戏。如果只是统计 POS-序列,没有什么意义,

新人:
做完了才发现,确实没什么意义。。

答:
是啊,因为就是一个动宾结构,这个 POS 序列,与 NP 中的修饰语序列应该是一致的。

新人:
当时就我一个人在瞎做,都是我拍脑袋想的方法,比较挫

答:
这个不用做统计,就可以想见的。

新人:
能想出来的是有限的呀,肯定有想不到的情况。。

答:
离合词不难处理,它是搭配的一种。搭配现象的本质都是词典的搭配规定与规则的实例化(instantiation)的机制,就是词典与句法需要平台机制上有一个灵活的接口。英语的短语动词 take NP off;put NP on;subcat 句型中对 PP 的 P 的要求(borrow sth from sb),汉语中量词与名词,这些都是搭配现象。

"能想出来的是有限的呀,肯定有想不到的情况。" 但那不是离合词的问题,那是 NP 的问题。NP 当然有很多种组合可能,拍脑袋是想不全的。所以要数据制导,要迭代。类似你上面的语言调查,也是一种。所有的语言现象,不仅仅是NP,都需要数据制导。都有想不到的序列。不过从 POS 序列着手,是远远不够的。POS 太粗,根据 POS 做 NP 或做其他现象,最后都是窟窿。

新人:
是的,最后做了个 字+pos 的规则

答:
字 太细,POS 太粗,加在一起,抓了两头的确会好很多。但是 从字 到 POS 中间还有很多,譬如 【human】以及类似的一整套的本体概念网络(ontology)可以利用(譬如董老师的《知网(HowNet)》)。

新人:
【human】是什么意思?

答:
譬如 “演员”,“总统”,“那家伙”,。。。。就是语义概念标签。【human】是最常用到的标签了,比 N 细线条一些,比 “演员”这些关键词是粗线条了。所以说,一个系统不能光靠最粗的POS分类,也不能光靠最细的关键词,还需要语义概念的 ontology。

新人:
引入语义造成的歧义问题,是用句法来解决吗?比如“演员”是一首歌名

答:
引入并不造成歧义。要是有歧义,那个词不引入也还是歧义的。与引入无关。引入语义只会增加词的信息量,多一些可利用的手段。不是因为引入,所以需要消歧。歧义如果需要解决,也是那个词本身需要这么做。但很多时候,歧义是不需要解决的。

{演员 N},这里有两个信息:(1)演员(2)N。{演员 N 【human】【song】},这里多了两个信息。原来没引入之前,我们根本不知道 “演员” 是什么,不是什么。现在引入语义以后,我们至少知道了 “演员”不是人就是歌。它不可能是其他的1000种可能性,譬如 起码,演员 不是 【furniture】,不是【sentiment】,不是【location】。所以引入新的信息不是增加歧义了,而是大大缩小了歧义的可能性。

新人:
明白了

答:
至于区分歌与人,那个任务叫 WSD,很多应用可以绕过去不做。我写过一篇,说的就是 WSD 很难,但绝大多数应用不需要做(【NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈】)。

新人:
说实话我不是对 parsing 感兴趣,是对自然语言理解感兴趣,我想知道通用自然语言理解的道路在哪里,但是也不知道往哪个方向发力。

答:
parsing 与 自然语言理解 有什么不同?为什么对后者有兴趣,对前者无所谓?什么叫理解呢?

新人:
以前我一直觉得 parsing 和分词一样,是一种基础的组件。然后我觉得常识才是自然语言理解的核心。不过看了您讲文法和常识的那篇博客(【立委科普:自然语言理解当然是文法为主,常识为辅】),最近也在重新思考这个问题

答:
parsing 强调的是对语言结构的理解,WSD 强调的是对词的理解。粗略的说,语言理解至少包括这两个大的方面。既要知道这个词对应的是什么概念,也要知道这些概念在句子中表达怎样的关系。其实后者更重要。纲举目张啊。做一条项链光有珍珠不成,更需要的是串子,好把散落的珍珠连起来。

新人:
我说下我对自然语言理解的粗浅的想法啊。比如“我喜欢吃苹果”。从句法上很容易就能解析出来,但是计算机通过什么方式才能理解“我喜欢吃苹果”和“我讨厌吃苹果”的区别?虽然能通过词典知道“喜欢”和“讨厌”是不同的概念,那么要怎么这两个概念有什么方向什么程度的不同?然后要怎么表示这种不同?

答:
然后怎样呢?你前面的话没说完啊

新人:
我也不知道要怎么理解这种不同啊。确实,没有句法是不行的。

答:

1 计算机根本没有什么理解不理解。说计算机理解了人类,那是胡扯。说计算机不理解,也是高抬了机器。人类意义的“理解”根本不适合机器。

2. 所谓自然语言理解,那只是一个比喻的说法,千万不要以为电脑能自主“理解”(或者“不理解”)人类语言了。

3. 所以,自然语言理解的本质就是把语言表达成一个内部的数据结构,根据这个结构,比较容易地落地到应用所需要的方向去。譬如 情感分析的应用 需要区分正面情绪(如 “喜欢”)和反面情绪(譬如 “厌恶”)。

4. 换句话说,所谓理解,不过是人跟人自己在玩,与电脑智能没一毛钱的关系。

5. 既然是人自己跟自己玩,那就要看一个系统的内部表达(所谓理解)的设计能不能用有限的表达和逻辑,去捕捉无限的语言表达方式;能不能根据这个表达和逻辑,达到(或模拟)人在理解了语言之后所产生的那些效应。譬如人看了一句话 可以判断是什么情感,情感的强烈程度,谁对什么产生的情感,等等,因此可以得出舆情分析的结论,计算机可以不可以也达到类似的分析效果?

6 因此 脱离应用(理解以后的效应)谈理解,很难。应该通过应用来验证所谓理解。

7 所谓端到端的系统,就是直接模拟应用:里面的过程是黑箱子,叫不叫理解无所谓。

8 符号逻辑派的先理解后应用,不过是用人可以理解的方式把这个理解到应用的过程,透明化。透明化的好处,比较好 debug,可以针对性解决问题。这是黑箱子系统的短板。如果有海量带标(应用效果的标注)数据,黑箱子的好处是可以很快训练一个看上去很不错的系统。如果没有,标注数据就是一个令人生畏的知识瓶颈。

新人:
我是一直从类似微软小冰那种对话系统来考虑自然语言理解,所以不太能接受seq2seq的对话生成系统…

答:
闲聊系统,因为人的对话无时无刻不在进行,理论上有无穷的带标数据,其实可以训练出很好的以假乱真的闲聊机器人的。一个 MT , 一个 闲聊,这两个应用具有天然的海量数据,是少有的知识瓶颈不严重的应用方向。多数NLU应用没有这么幸运。所以不得不组织成千的标注队伍,还是赶不上应用现场的变化中的需求。

新人:
MT 感觉和闲聊机器人还是不一样?闲聊机器人的系统在单轮的时候可以以假乱真,但是在多轮的时候基本都不能维持对话的连续性。

答:
多轮的挑战可能还是源于稀疏数据,这是因为虽然对话的数据是海量的,但是从 discourse 的角度看一个完整的对话篇章,数据就可能很稀疏了。每个对话都是一个特定的话题,以及围绕这个话题的对谈序列。从话题和对谈序列的角度来看,数据就不再是海量的了。突破口应该在对于不同对话序列从篇章脉络角度做有效的抽象,来克服稀疏数据的短板,学会篇章的应对技巧,easier said than done,这个显然有相当的挑战性。篇章(discourse)向来是计算语言学中最不容易形式化的部分。

新人:
我个人觉得如果是通用/闲聊场景,即使有海量数据,对话的话题和序列还是很可能大部分和可获得的数据集的不一致。

答:
那自然,组合就会爆炸。爆炸了 当然数据就稀疏了。

新人:
很多场景还是有办法细分成小的垂直场景,然后通过在系统设计上做一些功夫来达到一个比较好的效果的吧?

答:
垂直当然有利多了。垂直了,就成了子语言,很多歧义也自动消解了。垂直了,就聚焦了,剩下的歧义也就好办了,词驱动(word-driven)也有了发力的场景。

 

 

【相关】

NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈】

立委科普:自然语言理解当然是文法为主,常识为辅

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白宋88:再谈量词搭配与名词短语自动解析】

白:
“所谓印太区域自古以来就是一个印太国家间互相交流、学习、融合的平台。”

一个-国家,赋予国家单数特征,与“间”矛盾。一个-间,不搭配。所以只好 一个-平台。这是利用subcat相谐性的传导来排除不合适的量词搭配。

李:
这么做量词搭配 感觉不大合算 实现繁难 还容易错。对于普适性量词如 “个” 和 “种” 最大的heuristic 是最大跨度原则 有更有效的实现办法。

先说老办法容易错。容易错 源于相谐的软性要求 和 排除法 的脆弱性。举个例子:

“我们可以建造100个印太国家间互相交流、学习、融合的平台。”

利用 “间” 的相谐 颇不容易。最大跨度原则最简单而且有效的实现就是 见到 “一个” 先挂起来。 然后 该干嘛干嘛 等定语从句 和 其他乱七八糟的前置修饰语都扫荡干净了 一头一尾 拼接一下就完了 无需额外发力。所谓原则 必有漏洞 一定可以找到反例。但比起一个一个的相谐排除法 感觉可靠性更大 更符合国人的表述习惯。国人特别喜欢用这种跨度很大的左右边界搭配的np:

一个 blah blah 又 blah blah 的 N
这种 blah blah blah blah 的 N

写着写着 突然觉得似曾相识 好像就这个量词话题 在某个时间点 说过几乎完全相同的话 相似的论点和论据。 懒得查了 也不好查 这种感觉很真切 说明聚焦一个领域唠嗑 免不了会有车轱辘话 也说明一个人的观点很难轻易改变 尤其是实践中提炼出来的观点。

汉语中框式结构很值得利用。量词结构是一,前置词后置词搭配是另一个常见的框式结构。

白:
不搭配和搭配是不对称的。不搭配一票否决,搭配就近解决,这两个原则一点都不矛盾。

李:
“一个间 还是 两个间?”

一票否决如何鲁棒呢?这里牵涉好几个层面的方法论问题:

第一 我们说的是强搭配还是弱搭配,“个” 与 “种” 通常被认为是弱搭配,基本上是一个名词的标配。

第二 维护搭配词典是一回事,维护不搭配词典 又增加了一个维度和工作。前者是系统标配知识 后者要不要费那费力气 可以讨论。

白:
一个间,有反例吗?可以探讨。遇到一个+NP+间,中间推理过程可以省,记住最终结果(NP+间结合,一个留下不结合)就ok。推理过程离线做,最终结果在线用。

李:
强搭配一票肯定 基本不错。如果要考虑更细致的话 大概是如果有多个强搭配 最大跨度胜出。不过 这已经有点吃力不见得讨好了,因为二分法的强弱搭配 忽视了强弱的连续性。强不搭配 如果维护的话,可以考虑一票否决。弱搭配 或 弱不搭配 还是不如最大跨度。

白:
维护不等于人工维护。

李:
“间” 是方位词 属于后置词。n+间 基本上是 PP,做状语为多,通常还到不了要与量词纠缠的环节。

宋:
@wei 说的框式原则,或者说括号原则,应该是认知层面的规则,应适用于各种语言,确实有用。

白:
间是催化剂,自己不参加有关量词的反应,但偶尔可决定量词搭配的方向。就如“张三与李四的婚姻”当中的“婚姻”,决定了“张三与李四”是序偶(ordered pair)还是列表(list)。后者有分配性,前者没有。“鲁迅的书不是一天能读完的”通过谓语部分的周遍性补语“完”,确定话题主语“鲁迅的书”是“例”还是“类”。都是这个道理。不一定亲自下场子,但对别人的subcat特征取值有决定性影响力。特征不是专门为句法一个任务抽取的(否则确实有是否值得的问题),如果背后有N个任务等着要特征,搂草打兔子,何乐不为。

李:
做量词搭配很多时候是醉翁之意不在酒。怎么讲?我们知道,最常见的量词词组是不定量词组 “一个”、“一种”、“一类”、【一+量词】或有定量词组“这个”、“这种”、“这类”、【这/那+量词】。这些量词组本身语义很虚,除了不定有定的语义(大体上是英文冠词的语义)外,量词本身几乎没有意义(汉语用量词的地方,对应到英语往往是空白),它附着对了或错了,对其头名词的语义解读影响不太大。但是,量词组对于名词短语(NP)起到了左边界的作用,因此量词与右边界头词(head word)的搭配,这种框式结构,对缺乏形态的汉语搞定NP这种最基本最常见句子成分,具有非常重要的形式指征的作用。

从框式搭配结构的角度看量词处理,我们发现,对于比较长的往往内含定语从句的名词短语,人在交流的时候也利用了这个搭配,总是先来一个量词组,等于是跟听众说,注意,我这里给你打左括号了,下面我要说一个具有N多修饰语的实体名词了。换句话说,如果没有量词搭配这种形式标识,为了交流的顺畅和避免歧义,国人不会这么经常地使用长NP。

鉴于此,在短语抱团的浅层解析过程中,善用量词搭配,在最大跨度原则的范围里,容忍某些“出格”或不和谐的修饰语,是解决长NP的非常有效的know-how之一。

 

【相关】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【李白洪87:人工智能,真的该让这样的哲学家走开】

李:
白老师在朋友圈转了一篇题目很吸引眼光的《人工智能研究中的“母语意识”刍议》,看了一半 看不下去,太经不起推敲了。 原来是哲学教授 社会科学战线的。难怪。(说这话总有点对不住我社科院母校的感觉。)

白:
量词携带语义标签,与“条”搭配的一般是两维差不多短、一维明显长的物体。所以,苗条品种的狗(狼狗、牧羊犬等)论“条”,臃肿品种的狗(京巴等)论“只”才是地道的。要想挑战远距离相关的量词搭配,必须把干扰项放在合适的句法位置才有意义,文中构造的“条-狗”搭配虽然隔了21字之远,但干扰项“只”却并不处在合适的句法位置,也许正常的词法或句法处理就可以把它消化掉,从而起不到任何干扰作用。

李:
他是假设量词搭配的实现者没有 parser 和 合适的分词系统,盲目寻找最近的直接量搭配。哲学教授的这种人工智能评论 让人啼笑皆非。文中似是而非 漏得像筛子一样的论点还有不少。譬如 常识的自然语言偏见,要说常识与文化偏见还有可能有那么一丝丝纠缠的可能的话,说自然语言偏见带入常识 就扯太远了。他还举例说计算机语言因为用了英语的一些词汇符号,因此也带入了英语偏见,这真是匪夷所思的论点。计算机语言的本性已经使得其词汇系统对任何自然语言偏见脱敏了。至于借用英语还是借用数字编号,不过就是个助记符的考量而已,与偏见何干?

洪:
@wei 作者徐英瑾 复旦哲学教授,最近也写过篇评价尼克ai简史的文章

李:
@洪涛Tao 徐教授怎么评价的?无论臧否,凭他上文那样的见识,忍不住想到的就是,歪评三国。

谈人工智能,还是人工智能专家靠谱。哲学家 企业家 媒体人士 包括名人(霍金等) 很多不值得认真对待。最近有:CCCF:周志华 | 关于强人工智能 ,周教授这篇言简意赅 是人工智能专家的科学普及。

洪:
徐英瑾评《人工智能简史》︱人工智能,真的能让哲学走开吗?_上海书评_澎湃新闻-

李:
哈哈, quote:“该书的第九章《哲学家和人工智能》主要就是为了挤对哲学家而写的,特别是为了挤对那些对人工智能有话要说的哲学家。这很大程度上也是基于国内大多数理工研究者对哲学的某种深刻的偏见,即:咱们的地盘,哲学家少插嘴。”

看完了。这个长篇评论蛮好玩,作为拼命要介入AI的哲学家的百般自辩,首先气势上矮了半截。@Nick Zhang 终于惹怒了哲学,而且在哲学界得到了免费marketging的效果。

这样见识的哲学家 挤对都多余了。但愿还有其他的哲学家高人在。读到最后,我倒是同病相怜地欣赏他的结句:“一切逆风而行者的坚定,均来自对风向转变的信心。”  但仅此一句而已。

 

【相关】

【关于人工智能】

【语义计算:李白对话录系列】

《朝华午拾》总目录

【语言学随笔:从缩略语看汉字的优越性】

董老师给了一个有趣的例子,发现对于汉语灵活的构词法带来的新出现的类似四字成语的简练表达,所有的巨头机器翻译系统都错得离谱:

“东方日报的上述评论说,以黑护商、以商养政、以政庇黑,警匪共治的恶劣政治生态,已经在一些地区出现。”

这里面很多表达法(以黑护商、以商养政、以政庇黑,警匪共治)蛮新的,很像是缩略语带来的新成语, 人还没来得及做翻译样板让机器学,机器自然一头雾水。神经机器翻译的亮眼成就本质上还是人工翻译的成就,人工没翻译过的,再牛的机器翻译也抓瞎。其实 这些新成语人理解没问题 翻译还是费思量。等优秀翻译琢磨出来最好的翻译 并在新语料中出现足够多次 相信机器很快就取法乎上 比翻译平均水平高 是可以期待的 (以前说过,成语的本质是记忆 而记忆电脑是大拿 人脑是豆腐)。问题在语料的搜集更新和重新训练能不能赶上新词涌现并流行的速度。

我自己来尝试翻译一下这里面的成语:

以黑护商、以商养政、以政庇黑,警匪共治

To protect businessmen by using black society
To sponsor politics by businessmen
To protect black society by politics
To maintain social order by police as well as black society

不知道及格否

郭兄说,@wei 我看不及格凡此种种十恶不赦之罪状,被你又是protect又是maintain,还有 sponsor 全漂泊了。中文四个字四个字的,那个味道,也被翻译得荡然无存。

可不是吗,用的都是正面动词(通常描述功能 benefit statement),至少不负面,而原句都是负面行为,满拧,肯定不及格。不急 总有高人会信达雅翻译出来,结果机器远超我 是铁定了 虽然我也学了一辈子英语和语言学。

想起来当年,“抓纲治国” 是我英语口试前遇到的难题(1977年高考口试,抓纲治国的翻译困境 在我的一篇 《朝花》 有记),后来发现官方翻译是:grasp the key link and run the country well,现在回看,绝对算不上高明 四字新成语的味道尽失。今天想了半天 终于为华主席的抓纲治国想出来一个可能更好的译法。请比较:

新华社翻译是: grasp the key link and run the country well
提议改成:Grasp the key manage the C

如果问什么意思,就解释说:Chairman Hua was following late Chairman Mao's political ideology on class struggle, but at the same time he wants to boost the economy.  So he phrased his new strategy as above, which means we should grasp the key-link of class struggle and hence manage the country well,

类似套路的缩略语新成语层出不穷,老的有:

五讲四美 (讲文明、讲礼貌、讲卫生、讲秩序、讲道德; 心灵美、语言美、行为美、环境美)
(哈,试了一下有道翻译,是:Five speakers four U.S.)

Five F's and four B's
5 focuses and 4 beauties

focus on manners, focus on courtesy, focus on hygiene, focus on social order,  focus on morality;
beauty in mind, beauty in speech, beauty in action, beauty in environment.

三要三不要
3 do’s 3 don’ts

要搞马克思主义、不要搞修正主义;要团结、不要分裂;要光明正大、不要搞阴谋诡计
follow Marxism, do not follow revisionism;
unite, do not split;
be fair and square, do not play tricks

一带一路
官方翻译是: one belt one road

不得其解,昨天才搞明白是中国倡导 由中国带头 沿着古丝绸之路 开发新的经济贸易开发区 一方面帮助消化过剩的产能 一方面带动区域经济 实现共赢 让区域内国家分享中国经济高速发展的火车头效益 从而树立中国崛起的和平领军形象。

感觉还有更多也许更好的选项 反正是成语 反正光字面形式 谁也搞不清真意 总是需要伴随进一步解释 不如就译成:

一带一路 ===》 one Z one P (pronounced as:one zee one pee)

怎么样,这个翻译简直堪比经典翻译 long time no see (好久不见)和  “people mountain people sea” (人山人海)了。认真说,Zone 比 Belt 好得多。

One zone one path.
One zone one road.
New zone old road.
New Silk Road Zone.

感觉都不如 one Z one P 顺口。

缩略语方面 一般而言 英语不如中文灵活多变而且不重样 汉字作为独立词素载体的优越性突显了。英语缩略语也可以非常灵活 任何常用的ngram术语 都可以用首字母缩略 简直太自由了 但由于字母的本性不是词素 而是临时借来代表词素 而且一共才有26个字母形式 结果是英语的缩略语造成的重复歧义 多到了成为行业黑话的程度。

ABC 可以是 (i)美国广播公司;(ii)人工智能 大数据 云;(iii)字母表的代称;(iv)起码知识;...... 以及另外一千种可能性。从术语到缩略语是直通道 多对一 反过来一对多则把人搞死 也无法快速查对搞定 徒增记忆负担。

汉字缩略语的撞车现象 则急剧减少。虽然汉字缩略语也需要词典绑架才能真正搞清原意 不大能从字面意义去蒙 但第一,望文生义比两眼一抹黑 让人体验好;第二 也是更重要的是,基本没有歧义的缩略语查找方便 随时可以查对绑架和纠正语义误差。比较:

共党 vs. CP
中共 vs. CCP
解放军 vs. LA
人民解放军 vs. PLA (其实“人民解放军” 中文完全可以缩略为 “人解军”)

为什么英语不能学中文 用词素 而不是用字母 来做缩略语呢?主要原因是英文合成词里面的词素 不如 汉字词素 独立 没有汉字词素的灵活性:一个汉字往往对应多个词素语义,在缩略语的场合,汉字还有“变色龙”的词素特征,就是说 一个汉字可以临时扩展自己的词素语义 临时代表这个汉字本来不具有的语义。这后一个特征 英文缩略语里面的字母也同样具有(临时代表的功能),但英语的问题在字母集太小 比汉字少了两个数量级,这个表达能力的优越性被其不可避免的歧义性完全遮蔽,反而成了流弊。与汉字词素大体对应的英语词素的平均长度大约四个字母 突然退到一个字母来代表 可见问题的严重。

汉字使成的这种灵活的缩略语构成法在流行的网络语中被推向极端,譬如:普大喜奔(普天同庆、大快人心、喜闻乐见、奔走相告)。这类有点过分了,几乎转变成完全的黑箱子了(类似黑话 行话了),但即便如此,也比英文用首字母缩略的手段高明,因为起码这种东西没有歧义,一查词典即可理解。

当然英语也可以变通,交叉使用字母和词(素),来多少规避一点缩略语歧义的缺点。People's Republic of China 的缩略语 PRC 就远不如混合式 PR China,上面的“抓钢治国”(grasp key manage C),“一带一路” (one Z one P),也是这个策略的体现。

把汉语归类成孤立语,总是带着点贬义似的,应该叫 独立语。词素极少不独立和自由的,因此构词特别灵活多样能产。口语中的词素音节 落实成汉字以后 又因为汉字形式比起语音形式的更具有沉淀性 加上汉字数量远多于音节数量使得汉字的表意性更少障碍(望文生义比听音生义更容易)使得其构词能产性和灵活性跨越了时代和地域。虽然说 语言学中 作为标记体系的汉字系统 常被认为是第二位的 不过是语言词素的一个载体而已,但汉字的确对汉语有一个非常正面的跨越时代和地域的反作用。汉字的这些方面的优越性是有根据的。

 

【相关】

【李白刘董85:汉字优越吗?】

【语义计算:李白对话录系列】

《朝华午拾》总目录

谷歌SyntaxNet是“世界上最精确的解析器”吗?

【立委按】老友郭兄盛赞自动有道翻译,说强过我常用的谷歌神经翻译。于是小试一次,翻译一下我自己的英语博客,除微量技术性编辑外,基本保留原译。以飨同仁。

我们都知道,自然语言解析相当复杂,在自然语言理解(NLU)及其应用中起着重要作用。我们也知道,一个突破到90%以上,解析的准确性接近于人类的表现,这确实是一个值得骄傲的成就。然而,按照常识,我们都知道,如果没有任何附加的范围或条件,你必须有最大的勇气来宣称“最”,除非得到了吉尼斯等权威机构的认可。对于谷歌宣称的“世界上最精确的解析器”,我们只需要引用一个系统来证明它是不真实的或具有误导性的。我们碰巧建了一个。

很长一段时间以来,我们知道我们的英语解析器在数据质量方面接近人类的性能,并且在支持真实生活产品方面是健壮的、快速的和扩展到大数据的。对于我们采取的方法,即语法工程的方法,这是主流统计分析以外的另一种“学派”,这是基于架构师的设计和他几十年的语言专业知识的自然结果。事实上,我们的解析器在5年前就达到了接近人类的性能,在收益递减的时候,我们决定不再大量投资于它的进一步开发。相反,我们的关注点转移到它的应用上,支持开放领域的问题回答和对我们的产品以及多语言空间的细致深入的情感分析。

几周前谷歌发布了SyntaxNet,我受到了来自我的许多同事,包括我的老板和我们的营销主管的各种渠道的消息轰炸。所有这些都提请我对“NLU最新突破”的关注,似乎暗示我们应该更加努力地工作,努力赶上这个巨人。

在我自己看来,我也从来没有怀疑过,另一学派在深度解析上还有很长的路要走,才能赶上我们。但我们处于信息时代,这就是互联网的力量: 来自一个巨人,真实的或具有误导性的新闻,均会立即传遍全世界。所以我觉得有必要做一些研究, 不仅要揭示这个领域的真实情况, 但更重要的是, 还试图教育公众和来到这个领域的年轻学者,一直存在也将永远存在两个学派,在NLU和AI(人工智能)领域。这两个学派实际上有各自的优点和缺点,它们可以是互补的,也可以是混合的,但是一个不能完全忽视或替代另一个。另外,如果只有一个方法,一个选择,一个声音,特别是NLU的核心,比如解析 (以及信息提取和情绪分析等),那么这个世界会变得多么无聊,特别是当大众“所青睐的方法”的表现还远不如被遗忘的那个方法的时候。

因此,我指示一位不参与解析器开发的语言学家尽可能客观地对这两个系统进行基准测试,并对其各自的性能进行一个苹果到苹果的比较。幸运的是,谷歌SyntaxNet输出语法依存关系,而我们的也主要是依存解析器。尽管在细节和命名惯例上存在差异,但在语言判断的基础上,结果并不难对比和比较。为了使事情变得简单和公平,我们将一个输入语句的解析树分解成二元依存关系,并让testor语言学家判断; 一旦有疑问,他会向另一位高级语言学家请教,或者被认为是在灰色地带,而那是很罕见的。

不像其他的NLP任务,例如情绪分析,在那里有相当大的灰色区域空间或标注者之间的分歧,解析结果其实很容易在语言学家之间达成共识。尽管两个系统(输出示例如下所示)所体现的格式不同,但在两个系统的句子树输出中对每个依存项进行直接比较并不困难。(对我们来说更严格的是,在我们的测试结果中使用的一种被称为“下一个链接”的修补关系在测试中并不算合法的句法关系。)

SyntaxNet输出:

Netbase 输出:

基准测试分两个阶段进行。

第1阶段,我们在新闻领域选择了英语形式的文本,这是SyntaxNet的强项,因为它被认为比其他类型的新闻有更多的训练数据。在新闻分析中公布的94%的准确率确实令人印象深刻。在我们的示例中,新闻并不是我们的开发主体的主要来源, 因为我们的目标是开发一个领域独立的解析器来支持各种类型的英语文本对于真实文本的解析,譬如从社交媒体(非正式文本)做情感分析, 以及用科技论文(正式文本)解析 来回答“如何”的问题。

我们随机选择了最近的三篇新闻文章,其中有以下链接。

(1) http://www.cnn.com/2016/06/09/politics/president-barack-obama-endorses-hillary-clinton-in-video/
(2) Part of news from: http://www.wsj.com/articles/nintendo-gives-gamers-look-at-new-zelda-1465936033
(3) Part of news from: http://www.cnn.com/2016/06/15/us/alligator-attacks-child-disney-florida/

以下是分析上述新闻类型的基准测试结果:

(1)谷歌SyntaxNet: F-score= 0.94。
(P为精度,R为召回,F为精度召回综合指标)

P = tp/(tp+fp) = 1737/(1737+104) = 1737/1841 = 0.94。
R = tp/(tp+tn) = 1737/(1737+96) = 1737/1833 = 0.95。
F = 2 *((P * R)/(P + R)]= 2 *((0.94 * 0.95)/(0.94 + 0.95)]= 2 *(0.893/1.89)= 0.94

(2)Netbase解析器: F-score = 0.95。

P = tp/(tp+fp) = 1714/(1714+66) = 1714/1780 = 0.96。
R = tp/(tp+tn) = 1714/(1714+119) = 1714/1833 = 0.94。
F = 2 *((P * R)/(P + R)]= 2 *((0.96 * 0.94)/(0.96 + 0.94)]= 2 *(0.9024/1.9)= 0.95

因此,Netbase 解析器在精度上比谷歌SyntaxNet好了约2个百分点,但在召回中低了1个百分点。总的来说,Netbase比谷歌在F-score的精确-召回综合指标中略好。由于这两个解析器都接近于进一步开发的收益递减点,其实没有太多的空间来进行进一步的竞争。

第二阶段,我们选择非正式文本,从社交媒体Twitter来测试一个解析器的鲁棒性看处理“退化文本”: 很自然,退化的文本总是导致退化的性能 (对人类和机器), 但一个健壮的解析器应该能够处理它,数据质量只有有限的退化。如果一个解析器只能在一个类型或一个领域中表现良好,并且性能在其他类型中显著下降,那么这个解析器就没有多大用处,因为大多数类型或领域没有像资源丰富的新闻类型那样有大量标记的数据。有了这种知识瓶颈,解析器就会受到严重的挑战,并限制其支持NLU应用的潜力。毕竟,解析不是目的,而是将非结构化文本转换为结构的一个手段,以支持不同领域中各种应用程序的语义支持。

我们从推特上随机选择100条推文进行测试,如下图所示。

1.Input: RT @ KealaLanae : ima leave ths here. https : //t.co/FI4QrSQeLh2.Input: @ WWE_TheShield12 I do what I want jk I ca n't kill you .10.Input: RT @ blushybieber : Follow everyone who retweets this , 4 mins

20.Input: RT @ LedoPizza : Proudly Founded in Maryland. @ Budweiser might have America on their cans but we think Maryland Pizza sounds better

30.Input: I have come to enjoy Futbol over Football

40.Input: @ GameBurst That 's not meant to be rude. Hard to clarify the joke in tweet form .

50.Input: RT @ undeniableyella : I find it interesting , people only talk to me when they need something ...

60.Input: Petshotel Pet Care Specialist Jobs in Atlanta , GA # Atlanta # GA # jobs # jobsearch https : //t.co/pOJtjn1RUI

70.Input: FOUR ! BUTTLER nailed it past the sweeper cover fence to end the over ! # ENG - 91/6 -LRB- 20 overs -RRB- . # ENGvSL https : //t.co/Pp8pYHfQI8

79..Input: RT @ LenshayB : I need to stop spending money like I 'm rich but I really have that mentality when it comes to spending money on my daughter

89.Input: RT MarketCurrents : Valuation concerns perk up again on Blue Buffalo https : //t.co/5lUvNnwsjA , https : //t.co/Q0pEHTMLie

99.Input: Unlimited Cellular Snap-On Case for Apple iPhone 4/4S -LRB- Transparent Design , Blue/ https : //t.co/7m962bYWVQ https : //t.co/N4tyjLdwYp

100.Input: RT @ Boogie2988 : And some people say , Ethan 's heart grew three sizes that day. Glad to see some of this drama finally going away. https : //t.co/4aDE63Zm85

以下是社交媒体推特的基准测试结果:

(1)谷歌SyntaxNet: F-score = 0.65。

P = tp/(tp+fp) = 842/(842+557) = 842/1399 = 0.60。
R = tp/(tp+tn) = 842/(842+364) = 842/1206 = 0.70。
F = 2 *((P * R)/(P + R)]= 2 *((0.6 * 0.7)/(0.6 + 0.7)]= 2 *(0.42/1.3)= 0.65

Netbase解析器: F-score = 0.80。

P = tp/(tp+fp) = 866/(866+112) = 866/978 = 0.89。
R = tp/(tp+tn) = 866/(866+340) = 866/1206 = 0.72。
F = 2 *((P * R)/(P + R)]= 2 *((0.89 * 0.72)/(0.89 + 0.72)]= 2 *(0.64/1.61)= 0.80

对于这些基准测试结果,我们将它留给下一个博客来进行有趣的观察和更详细的说明、分析和讨论。

总而言之,我们的作为真实产品基础的解析器在正式的新闻文本以较小的领先 (不到两个百分点,两个系统其实都已经接近专家的性能),在非正式文本中以15个百分点的巨大优势,均超过了谷歌的研究性系统SyntaxtNet。因此,可以肯定的是,谷歌的SytaxNet绝不是“世界上最精确的解析器”,事实上,在适应现实生活中的各种类型的现实世界英语文本时,它还有很长的路要走,才能接近Netbase解析器。

有道翻译 http://fanyi.youdao.com/  自动翻译自我的领英博客:
https://www.linkedin.com/pulse/untrue-google-syntaxnet-worlds-most-accurate-parser-wei-li/

 

[Related]

Announcing SyntaxNet: The World’s Most Accurate Parser Goes Open

Is Google SyntaxNet Really the World’s Most Accurate Parser?

K. Church: "A Pendulum Swung Too Far", Linguistics issues in Language Technology, 2011; 6(5)

Pros and Cons of Two Approaches: Machine Learning vs Grammar Engineering

Pride and Prejudice of NLP Main Stream

On Hand-crafted Myth and Knowledge Bottleneck

Domain portability myth in natural language processing

Introduction of Netbase NLP Core Engine

Overview of Natural Language Processing

Dr. Wei Li's English Blog on NLP