祝各位54青年节快乐 屏蔽留存

联合国福音,祝各位54青年节快乐

屏蔽已有 2257 次阅读 2016-5-5 02:38 |个人分类:立委随笔|系统分类:生活其它| 立委, 青年节, 黄西, 笑星

据传联合国最近规定,为防止老龄化,青年的定义区间改为 30-60,中年60-90,老年 90+,祝各位区间内or区间外群友54节快乐!

修改定义是世界上公认的最经济和universal的问题解决途径。譬如夏时制的实行,不就是把手表调整一下嘛,如今电子化了,连调整都自动化了。华裔笑星黄西(Joe Wong)在上次总统大选的时候,就给奥巴马出过很多良策:为了应对全球暖化,建议把摄氏当做华氏。原来100度高温,眨眼间就降到了40度了。

他还说,如果我当总统,我要用降低生产率的方式彻底解决失业问题,这样,一个人的活就让两个人来做,这就好比我们现在总统和副总统两人做同一份工作一样(见:《拿美国总统寻开心的华裔笑星黄西》)。

别说最近重贴【旧文翻新 - 立委外传】 ,不止一个朋友说我与黄西形似。既喜且叹,想到我的谐星潜质一辈子也没发挥出来。

真假黄西

在人生最迷茫的几个当口,怎么从来没想到去做 talk show 呢?回想起来,主要有两个原因:首先是形象问题,怕吓着观众。人要有起码的自觉性,亲友同事熟人忍了也就罢了,到舞台上影响市容,其心可诛。第二是英语带有浓重的口音,当年留校考试不就是口试弄砸了嘛。看了黄西才明白,什么形象啊,口音啊,不过是天上飘过两朵云,这都不是事儿!大家评评,咱形象、口音哪点儿不如他 Joe Wong。这事儿怎么直到“青年”要过去的时候才想到呢,早知如此,哪里还轮得到黄西去白宫撒野?既生瑜,何生亮,黄老弟造化啊。

什么事儿都不能深想。就说最近被投资家捧上天的VR(虚拟现实)黑科技吧,说白了,也不过是在“改变定义”的延长线上嘛,都是一个理儿。世界不美丽,带上美容眼镜儿就美丽了,就这么简单。

从小学习毛泽东主义,与天斗,与地斗,改天换地为己任,还下决心要解救世界上三分之二仍处在水深火热的劳苦大众,那是何等的豪情。豪情过后才发现啥也改变不了,伟大如毛委员也不得不承认,他掀起了文化大革命,啥也没改变,最多是改变了一点北京的郊区而已(见尼克松基辛格回忆录)。我们这辈还好,终于在步入“中年”前悟出了真理,与其改变现实,不如虚拟现实来得现实而可行。

其实宗教抚慰人心的特效也大抵如此,凡事相信,逆来顺受,换一个角度,就是换一个世界。世界观世界观,要紧的还是怎么去观。亿万富翁未见得平安喜乐,有信仰的底层百姓却可以开心过好每一天,去盐湖城教堂看看那些打心底露出灿烂笑容的虔诚优雅的妹子就会明白这一点。

我看好VR,正如我看好NLP。

【相关】

【旧文翻新 - 立委外传】 

旧文翻新:拿美国总统寻开心的华裔笑星黄西

【置顶:立委科学网博客NLP博文一览(定期更新版)】  

 


 

http://blog.sciencenet.cn/blog-362400-974961.html

上一篇:有那么老吗?
下一篇:【新智元笔记:中文自动分析杂谈】

 

3  武夷山 徐令予 邱敦莲

发表评论评论 (5 个评论)

删除 回复 |赞[3]hongyan123   2016-5-6 21:54
“朝闻道夕死可以”,世界观的最高境界就是,找个乐子!

删除 回复 |赞[2]徐令予   2016-5-5 09:36
忘记谢谢你了。我到今日方知我还是中年人中的小弟弟,太高兴了,出去喝一杯庆祝一下。
 回复  :   

2016-5-5 15:051 楼(回复楼主)赞|回复

删除 回复 |赞[1]徐令予   2016-5-5 09:31
好文,你不去做脱口秀真的是可惜了,少一个NLP专家又有什么关系? 
 回复  : 关系大着呢,万一非主流失传了呢。其实已经快失传了。

2016-5-5 15:061 楼(回复楼主)

【二代移民的东亚心】 屏蔽留存

【二代移民的东亚心】

屏蔽已有 3116 次阅读 2016-7-18 16:55 |个人分类:立委随笔|系统分类:海外观察| 认同, 种族, 中国心, 亚裔

也许是加州特别是湾区比较特别吧,IC 的硅谷亚裔移民多,在这里长大的亚裔青少年譬如我女儿形成了自己的种族认同趋向,表现在大小不同的种族圈里。

最认同的内圈是东亚人,包括大陆台湾香港、新马、日本、南北韩、菲律宾、印尼、越南等等。她虽然意识上知道自己是 Chinese,但日常生活和交友,基本是没有把中国人作为自己的最内的需要独立区分和认同的族裔圈。在她的观念中,东亚基本都是同种族的,没必要区别祖籍是东亚的哪个国家或地区。其中日本文化反而影响最大,主要是日本动漫带来的。这一点与我们第一代移民的感觉很不同。

她的第二个圈子包括了南亚的印巴人。印度人虽然肤色等都与东亚人不同,但是她还是相当认同和感到亲切的。原因大体有二:一是湾区印度人太多了,从小一起玩的同学很多都是印度孩子;二来,印度文化与东亚文化也的确有很多相同之处,家庭背景大多技术出身,重视教育,鼓励勤勉,比较低调友善。都是亚裔,相处容易。

第三个圈子开始涵盖老墨。主要原因与印度人类似,一是墨西哥人在加州很多,不少西裔背景的同学朋友,二是老墨也都很友善低调勤恳。

第四个圈子是白人,非我族裔的感觉开始凸显。其实,高中同学中也有三分之一以上的白人,但还是明显感觉到差异。学校里,亚裔的孩子与亚裔的扎堆,白孩子一般与白孩子玩儿。当年有意选了一个有相当白孩子比例的高中,就是为了让孩子有个接触更多种族的机会,结果学校里还是自然地人以群分。其他高中常常是压倒性的亚裔,就更无法认同非亚裔了。这是加州湾区。在内陆的那些白人压倒多数的州,亚裔孩子就被同化多了,因此这种种族差异的感觉也就少了。

最后的圈子是黑人。硅谷高科技区黑人很少,加上文化的迥异,也因此感觉最为遥远。

我觉得我女儿的种族认同圈和差异感,相当典型,代表了加州亚裔环境长大孩子的种族意识。譬如交朋友,就有意无意的从最内的东亚圈开始,逐步向外伸展,不到不得已,不愿意突破圈圈向外。有意思的是,择偶与一般交友不同,除了在东亚圈子里找以外,其次就是白人圈,很少在老印老墨更甭提老黑的圈子里找。前几天女儿自己还说,我们在加州环境长大,缺乏对白人和黑人文化的了解,这一课迟早要补回来,我们总不能一辈子不出加州啊。而她儿时在水牛城的亚裔小伙伴,如今已经完全被白人文化同化了,这个差别很明显。

所谓“我的中国心”(包括对祖国的乡愁和思念)也就是一代移民的心理和经验积淀而已,很难延续到二代,更甭提二代以下了。一切的中国文化的灌输都敌不过美国这个大熔炉。共产主义老祖宗说过无产者无祖国的话。现在的情形是,二代移民无祖籍国。他们即便寻根也是理性化的行为,而非感情的需要。大家熟知的二代或以下的华裔移民有前驻华大使骆家辉和CNN的前主播宗毓华(Connie Chung),他们是“黄皮白心”的典型,世界观和接人待物完全西化。

http://blog.sciencenet.cn/blog-362400-991395.html

上一篇:【随笔:台湾不可小觑】
下一篇:Is Google SyntaxNet Really the World’s Most Accurate Parser

 

6  武夷山 田云川 朱豫才 闵应骅 徐庆征 周健

发表评论评论 (3 个评论)

删除 回复 |赞[3]wzx666   2016-8-4 22:22
隐含“白人至上”的心理,类似女人嘴上的“不”。

删除 回复 |赞[2]闵应骅   2016-7-19 08:37
深有同感!

删除 回复 |赞[1]wangbin6087   2016-7-18 20:00
博主说得是。

社会财富过个家家? 屏蔽留存

【泥沙龙笔记:社会财富过个家家?】

屏蔽已有 2596 次阅读 2016-10-17 02:06 |个人分类:立委随笔|系统分类:海外观察| 慈善, 绝症, 忽悠, 社会财富, 扎根伯格

【名人大嘴,见怪不怪?】

我:
名人大嘴,见怪不怪了。
董老师一直在批评李彦宏的忽悠,说什么机器翻译要取代人的翻译。比起下面这个,是小巫见大巫吧, quote:

她想要和小扎一起,着手于“未来100年攻克所有疾病”的伟大理想。

【普莉希拉·陈落泪演讲】今天,扎克伯格和妻子陈宣布在未来10年捐出30亿美元协助疾病研究。陈在演讲中,回忆了自己贫穷的童年——作为一个华裔越南难民的女儿,想不到有一天竟开始有了改变世界的能力。她想要和小扎一起,着手于“未来100年攻克所有疾病”的伟大理想。L秒拍视频 @时差视频

声明一下:很钦佩,很感动,为小札和他妻子的赤心。可后者是医学博士啊,不仅仅是攻克所有疾病,而且给了时间期限,起点就是手里的钱和一片赤心。

没人觉得这个有些 way carried away 么?

明天我有钱了,我就宣布 200 年内,破解长生不老的千古之谜,实现秦始皇以来的人类最伟大的生命理想。

Mai:
@wei 金钱万能教
Lots of followers

我:
仔细看那个令人感动落泪的新闻发布会,医学博士也不是白当的,里面提到了一些“科学”。在那些术语的背后就是,医学革命不是不能解决癌症和其他绝症,而是缺乏经费,缺乏合作,缺乏原子弹一样的大项目。

洪:
语不惊人死不休,
有钱都想挣眼球。
伟爷何日高处就,
同样情怀也会有。

我:
现如今,小札和妻子有钱了,可以为这场革命发放启动资金。这么宏伟的目标,而且一两代人就可以完成,值得全世界政府和慈善家持续跟进。他们的角色就是做慈善天使吧?
标题是:Can we cure all diseases in our children's life time?
如果我说:no,这是骗人的大忽悠。是不是政治不正确,会被口水骂死?

洪:
追求不朽得不朽,
如此幻觉傻逼有。
凡人嗑药也喝酒,
富豪用钱㤰到头。

我:
更深一层的问题是,这些钱是他们的吗?由得他们胡来吗?

Mai:
和鲁迅先生所说,那个贺喜的客人说“孩子终究会死的”一样不受待见

我:
全世界的社会财富在一个确定的时间点是一个定数(按照我信奉的社会主义理论,社会财富乃全民所有,因为地球只有一个,因为人人生而平等,先不论)。这个财富交给大政府,通过税收,我们还是不放心,那会导致好大喜功的社会主义。所以要求减税,要求小政府,要求市场经济,指望万能的资本主义商品经济中“看不见的手”。但是流落到富豪手中的那一部分,则可变成为做慈善家而来的任性行为。

Mai:
病由心生,想用钱买健康,和始皇帝追求长生,智慧水准相若。

我:
谁来规范和justify这个花费?为什么胡乱或任性的巨额花费可以得到免税的政府扶持和社会的喝彩?

在所有富豪中,小札伉俪其实是我最喜欢的,简直就是孩子一样,童贞可爱。可是巨额财富落到孩子手上,简直比落到政府手中,更让人惊悚。一样是民脂民膏。很可能就被孩子过家家了。

细思极恐。

社会有反托拉斯法,理想的社会也应该有 反巨额财富spending法 去规范约束暴发户的任性行为。

RW:
@wei "War on Cancer" 是好事啊 。。。伟哥怎么啦?

我:
这个世界是钱太少,好事太多。风投还要有个 due diligence,这么大的 war 谁给做的 due diligence?好事多着呢。

RW:
比如说。。。?

我:
比如说:10x希望工程
100x红十字
1000x教育免费

如今政府难以取信于民了,红十字名声也臭了, 就暴发户花钱做慈善,还没臭,yet

廖:
尼克松搞过一个war on cancer 的项目,最后失败不了了之,浪费了无数老百姓的钱

我:
小札最好把钱给奥巴马或克林顿。专款专用,支持全民健保。不要让这天大的好事流产了 才是正道。唯一的超级大国,一个全民健保都搞不成,还谈什么攻克所有疾病?

100 年后,没有疾病了,这个日子还怎么过?所有的医学院都要关门,医生都要失业。失去疾病的同时,也失去了康复的指望。就如没有了死亡,也只有承受永远的生命之苦,煎熬永无止境,人生永世不得翻身。

四个字:细思极恐。

RW:
@廖 您是高手!
@wei
细思诚可贵,
极恐没必要。
若得长生乐,
两者皆可抛。

廖:
没有了疾病会有新的烦恼,这个大可不必担心。随着社会的发展某个行业逐渐消亡也是常有的事。
李瑞@全球鹰网络科技:
人生八大苦:生、老、病、死、爱别离、怨憎恚、求不得、五阴炽盛。
生老病死其实不苦,苦的是,因躁动的心所生出的痴心怨念。
爱却别离,于是忧愁怨恨滋生;
求而不得,于是恩怨情仇牵扯;
于是五阴炽盛:纷扰不断,皆源心乱。

洪:
冰冰年轻圆圆老,
伟哥也已伟爷瞧。
富起幻觉不想翘,
试用钱财打水飘。

Nick:
@wei 你到底哪活的,钱给政府也不行,自己造也不行?都给你做parser?

我:
@Nick  美国有很好的制度,使得暴发户不能变成世袭的贵族,“逼迫”他们把 90%+ 的钱财回馈社会,给他们一个慈善家的虚荣。
可是这个制度有一个重大的缺陷,就是慈善项目的 justification
任何spending,都必须有一个程序,现在是这个程序不到位,从而鼓励了财富任性。"zao" unchecked 也是犯罪。

当然就跟日本五代机一样,钱砸进去了,终归会有科技进步的。最后是 VOI 的问题。

毛:
按伟哥高见,私人如何花钱得要经过公民投票?
或者成立一个国家计委加以统筹?
又见《通往奴役之路》。

我:
对啊 当钱越过一个 thresholds 以后,那钱就不是私人的了。这时候 花钱的权利应该转向社会。任由私人的任性,无论出于多么善良的或虚荣的动因, 都是对人类资源的铺张浪费。就是某种制度缺失造成的合法犯罪。

毛:
这个threshhold怎么定?

行:
当美貌越个某个阈值是不是应被共妻?
私人财产已经被税收二次调整后就应自主支配,除了危害人类。

毛:
计划经济好?

我:
计划经济也许不好,但私人任性不比计划经济好。计划经济下 还可以有个制度性监管的空间。私人任性连这个空间都没有。

毛:
哦,那应该公私合营,社会主义改造,二次土改?

我:
小札的一百亿也许是任性,但也是唤醒

毛:
行,你是计划经济派

南:
不犯法即可

我:
税收是一个手段,但还是止不住任性挥霍

行:
按伟爷的理,您的财富远远超过全球的平均,是不是象那个老毛在湖南农考号召的,可以您家来搬东西?

我:
挥霍的背后就是不平等。

毛:
机会平等还是结果平等?

行:
全球还有几亿人赤贫饥饿,您经常晒美食算不算挥霍?是不是赞成穆加贝大爷把农场分给老兵

毛:
最不虚伪的就是把你的钱交公

我:
在资源总量恒定的情况下,一个项目的任性意味着其他项目的被剥夺。
每个项目后面都是人命。救了张三救不了李四。这个救谁 救多少的决定,无论如何不该是任性的私人决策。本质上与独裁者的长官意志,形象工程 ,并无二致。

行:
我坚定地站在这位老毛一边,坚决反对任何通往奴役的道路。

毛:
你的项目后面也有人命?

行:
伟爷,您的美食后面也是人命。
无论如何都该是任性的私人决策!
独裁者是剥夺。明抢!

我:
行者 我懂得你背后的逻辑,都是那个背景出来的。

毛:
好吧,说是社科院要重启计划经济研究,伟哥大有用武之地。

我:
你的通向奴役的说法我,混淆了度的概念。
如果是几个 million,或几十个 millions,fine,任性就任性。
如果是几百个亿 就不是一回事儿了

毛:
这些理论,我们从列宁那里听多了。

行:
当二次分配后的私人财富任由伟爷般的公意支配后,美国会变成天堂般的朝鲜

我:
这并不是说小扎这笔挥霍一定不对,也许歪打正着,也是可能的。 但正常理性的社会是不允许这样的。

行:
这个度站在津巴布韦老兵,站在陕北土坡的二流子来看呢?

毛:
为什么他会有几百个亿?
好吧,这个题目太大了,伟哥你自说自话吧。

我:
为什么有几百个亿?这是好问题。
因为他绝顶聪明,凭空创造出来的?
骗鬼吧。

行:
我们不怕因为有钱而任性而有权,我们怕因为任性的权力而有钱!

我:
他要是在月球创造了几百几千亿财富,爱咋玩咋玩。
他在地球赚钱,就得受到地球和地球人的束缚。

我:
共产主义破产。但共产主义与独裁计划经济的破产,并不自动为现存制度背书。

毛:
需要公民投票的不是他如何花钱,而是你的这些主张。好吧,stop。

行:
@wei 只是恐惧这个逻辑。
我觉得可以建议,呼吁。但权力仍归小札。

缘:
问题是他每次都出卖自己,把自己卖出一个好价格,交易自己。制度保证自由出卖自己。

我:
行者 我们讨论的是不同层面的问题。

行:
你推崇的集权就可以是2000亿造加速器但还在希望工程。

我:
最后一句 假如不是几百亿,而是再高几个量级呢?

行:
有钱就是可以任性。咱有钱 了买两碗豆浆,吃一碗倒一碗

我:
咱也任性 晒晒今天的地球恩赐:秋夜喜雨 秋日喜晴。
787382176509905677

南:
应该检讨财富的再分配模式而不是侵害个人权力

我:
@南 对。现存的是合法的 不合理怎么办 再检讨修正。并不意味着一检讨就只有回到共产主义一途。

http://blog.sciencenet.cn/blog-362400-1009158.html

上一篇:From IBM's Jeopardy robot, Apple's Siri, to new Google MT
下一篇:【语义计算:精灵解语多奇智,不是冤家不上船】

个性的自由发展 屏蔽留存

个性的自由发展

屏蔽已有 2126 次阅读 2015-8-19 22:37 |个人分类:立委随笔|系统分类:生活其它| 个性

从小学马克思的共产主义学说,就对这个概念很熟悉:在理想社会中,个性的自由发展是每个人自然的生活状态,没有人需要为五斗米折腰。个性的自由发展往往带来特别的创造性,成就了自我,也推动了社会 (也可能毁灭一个社会,或使社会大踏步倒退,如果是不受制约的独裁者所处的时代)。

最近研读联合国的《普世人权宣言》,这是早在我们解放前的四八年就吸取二战的教训通过发布的现代版圣经。宣言里面也多次提到个性自由发展是教育的终极目标。

在现实世界,无论中外,能做到个性完全自由发展的都是社会中的少数幸运儿,通常有某种贵族的特性。他们需要优越的家庭和社会环境,同时自身也具有杰出的品质。据说,达尔文的一生可以算是名人中的代表。

身边听过的故事也有。以前听过那个哈佛老爸的讲座。他最吹嘘的一点就是他成功地把一个天才儿子和白痴儿子都培养出来了(他自己也是一个很成功的人士,业余做房地产,市场拿捏得好,很快就家财万贯)。白痴儿子成为作家,自己出版了几本书,也算是找到了人生方向。

天才儿子据说进哈佛前就做过非常深的生物研究,绝对是科学家的材料,可是他进了哈佛选择了最容易的 major,就是中文。在哈佛期间,学业基本不花时间,多数时间用在社会活动上,一切凭着兴趣来,完全地自由发展。

后来呢,去了斯坦福做过一个 MBA 之类的,然后为纽约时报(?)创办儿童版,再后来做了 Bill Gates 的秘书,并且在 Gates 正式从 CEO 退职的那天,制作发布了轰动一时的短片《盖茨在微软的最后一天》,当时就看过,让人捧腹,据说极受盖茨欣赏,是富于幽默的成功公关。牛人啊。

如今呢,据说做了微软在台湾的老总。

这样的人,大学生活才真正是个性的自由发展。根本没有啥文科弱,不好找工作等俗人的顾虑。当然,他这个成功模式与李开复不同,也与打工皇帝唐骏不同,是很难复制的。(有意思的是,这三位都在微软做过高管。)

~~~~~~~~~~~~~~~~

别说,看毛主席的一生,功过政治评价先放在一边,也算是少有的个性自由发展的代表了,天生不是俗人。

他自从成年后一直是某种领袖,只短期在北大做馆员的时候受过一些大教授的气,记了一辈子仇。领袖角色先是山大王,家妻不知下落,也不影响先娶一个压寨夫人。

不愁吃喝,据说一辈子大半辈子都有专门的警卫或厨子,吃毛家红烧肉,那个年代还能做到肥多瘦少。也没愁过钱。最低潮也不过是党内斗争被靠边,没了实权,但还是苏维埃主席,被人供着。食有鱼,出有马,这还是他一辈子最倒霉的时期呢。

虽然是从土得掉渣的地儿走出来的,却出落得一辈子是精神贵族。

这两天一直在琢磨“个性自由发展”这个人类终极理想。发现迄今的人类社会,只有少而又少的幸运儿,达到了这个境地,99%+ 的人都是俗人,为生计疲于奔命。

毛是一个异类,自己走入自由境地。其他人大多是贵族血统。譬如达尔文。

拜伦应该也是自由的,他是不是贵族?

所谓英雄创造历史,指的就是这批在人类还不够文明的时代,由于独特的原因,个性自由发展到极致,不受他人约束,而影响了历史进程的人物。他们从自我实现这个角度极度圆满了。而对社会的进步或毁坏则要单论。是历史学家研究不完的话题人物。

http://blog.sciencenet.cn/blog-362400-914336.html

上一篇:易燃品应该堆放在一起还是隔离开来?
下一篇:如何对技术审美?

 

2  曹聪 尤明庆

英雄创造历史 (屏蔽留存)

英雄创造历史

屏蔽已有 3710 次阅读 2015-8-21 23:40 |个人分类:立委随笔|系统分类:人文社科| 毛主席, 个性发展

看毛主席的一生,功过政治评价先放在一边,也算是少有的个性自由发展的极限了。

他自从成年后一直是某种领袖,只短期在北大做馆员的时候受过一些大教授的气,记了一辈子仇。领袖角色先是山大王,家妻不知下落,也不影响先娶一个压寨夫人。

不愁吃喝,据说一辈子大半辈子都有专门的警卫或厨子,吃毛家红烧肉,那个年代还能做到肥多瘦少。也没愁过钱。最低潮也不过是党内斗争被靠边,没了实权,但还是苏维埃主席,被人供着。食有鱼,出有马,这还是他一辈子最倒霉的时期呢。

虽然是从土得掉渣的地儿走出来的,却出落得一辈子是精神贵族,高高在上。对着洋教授学术泰斗数落孙子似的。连美国总统来拜见也都极度谦虚,恭维有加。

这两天一直在琢磨“个性自由发展”这个人类终极理想。发现迄今的人类社会,只有少而又少的幸运儿,达到了这个境地,99%+ 的人都是俗人,为生计疲于奔命。

毛是一个异类,自己走入自由境地。其他人大多是贵族血统或处于养尊处优的上流阶层。譬如达尔文。

拜伦应该也是自由的,他也是贵族出身。

所谓英雄创造历史,指的就是这批在人类还不够文明的时代,由于独特的原因,个性自由发展到极致,不受他人约束,而影响了历史进程的人物。他们从自我实现这个角度极度圆满了。而对社会的进步或毁坏则要单论。三七开,七三开,还是五五开,都是历史学家研究不完的话题人物。

from 个性的自由发展 2015-08-19

http://blog.sciencenet.cn/blog-362400-914965.html

上一篇:易燃品应该堆放在一起还是隔离开来?
下一篇:如何对技术审美?

 

11  陈楷翰 罗教明 张能立 蔡小宁 李毅伟 李永丹 文克玲 马红孺 biofans yangb919 bridgeneer

发表评论评论 (54 个评论)

删除 回复 |赞[45]黄玉源   2015-9-4 17:35
好好理解邓小平提出的”坚持四项基本原则’的内容,认真的做好

删除 回复 |赞[44]黄玉源   2015-9-4 17:32
请你不要对毛主席的个人的怨恨,就要去否定毛主席的功绩。这是徒劳的。不要以为拿“文革‘中的一些错误为借口和堂皇的”理由“去想否定共产党的领导和毛泽东思想在中国人民心中的地位,这个问题很严肃。请注意了。即便是听邓小平话,那么就必须全面的听,他提出”必须坚持思想基本原则“,即在上世纪70年代后期,一部分别有用心的人利用中国共产党发扬民主的机会和“文化大革命”给党和国家造成的困难,宣扬无政府主义和资产阶级自由化的主张,反对社会主义制度,反对共产党的领导,反对无产阶级专政的政权,反对毛泽东思想的指导地位,从右的方面歪曲和反对十一届三中全会的路线。在这样两种思想倾向的影响下,造成了一部分青年思想混乱。针对这种情况,1979年3月30日,邓小平代表中共中央在北京召开的理论工作务虚会上作了题为《坚持四项基本原则》的讲话。邓小平在讲话中将我们党一贯所强调的思想政治方面的原则,科学地概括为“四项基本原则”,这就是“第一,必须坚持社会主义道路;第二,必须坚持人民民主专政;第三,必须坚持共产党的领导;第四,必须坚持马列主义、毛泽东思想。并指出,“这是实现四个现代化的根本前题”。邓小平提醒全党注意那种怀疑四项基本原则的思潮在一小部分人中蔓延,他指出“我们必须一方面继续坚定地肃清‘四人帮’的流毒,帮助一部分还在中毒的同志觉悟过来,并且对极少数人所散布的诽谤党中央的反动言论给予痛击;另一方面用巨大的努力同怀疑上面所说的四项基本原则的思潮作坚决的斗争。这两种思潮都是违背马列主义、毛泽东思想的,都是妨碍我们的社会主义现代化建设事业的前进的。”邓小平还论述了四项基本原则是完整的指导原则,论述了它的核心。他指出:坚持四项基本原则的核心,是坚持共产党的领导。并强调指出,每个共产党员不允许在这个根本立场上有丝毫的动摇。 

删除 回复 |赞[43]黄玉源   2015-9-4 17:25
则与什么“翻案”是两码事,请不要乱扣帽子。告诉你,我是在全国政协大会发言的几次的第一撰写者,请不要拿这些变换手法的伎俩来乱说话。

删除 回复 |赞[42]黄玉源   2015-9-1 09:59
所说的是仅仅动不动就拿“文革”来说事,去否定改革开放前的事情是错误的。
 回复  : 那可能我误解了您的意思。
不过,从你的行文中,确实很容易看出您有为文革翻案的意思,至少是想要否定 “全面否定文革”的既定共识,而且想要对毛主席对文革负有主要责任的历史定论翻案:

“文革期间除了武斗明显的那1年多比较乱之外,斗错了一批干部等人员(后来在1971年后陆续的回到工作岗位),也还有很多为国家好的事情和成就的。武斗和混乱、整的很多人也不是毛的意愿,是部分人利用混乱的机会,从中打击他人而谋取个人利益的。”

2015-9-2 04:241 楼(回复楼主)赞|回复

删除 回复 |赞[41]黄玉源   2015-8-31 11:23
前面的话可能带有些气的,也不能说博主要否定什么吧,但是可能不能老拿“文革”的一个较小阶段的错误的事情去排斥和否定许多我国解放后到改革开放的1978年之前的事情;文革期间除了武斗明显的那1年多比较乱之外,斗错了一批干部等人员(后来在1971年后陆续的回到工作岗位),也还有很多为国家好的事情和成就的。武斗和混乱、整的很多人也不是毛的意愿,是部分人利用混乱的机会,从中打击他人而谋取个人利益的。正如,改革开放后,也存在许多的明显问题和一些混乱的现象,比如社会的秩序问题、环境问题、遵纪守法意识和道德缺失、滑坡,贪腐现象很普遍了等等,但是也不能因此而否定了改革开放的许多策略是正确的,而后来能及时的调整,尤其是现在习主席这一任的领导班子的狠抓反腐、整肃官风和官纪,依法治国,大力建设好生态文明等重大措施,都是很好的,人民多欢迎。一个国家需要一个贯穿着而不断的文化和思想的脉络主线,不可能把历史和现在隔断开来吧。因为,只有发扬过去的好传统和好的作风和弘扬传统的文化,国家的人民才有个凝聚力、精神的依托和信心。
 回复  : 可以理解您的意思、角度和心情。

不过,全面否定文革应该是多数人的意志,正好也符合小平同志和执政党的意志。要给文革翻案,不太容易。

这就好比1949年前的国民党当政时期,还有军阀混战时期,再往前还有晚清,要按照你那盲人摸象地勘社会,最恶劣的朝代和社会都会找到一些好的事情。是不是凡事都要一分为二?推向极端的一分为二, 说了等于没说,因为没有价值取向,没有什么信息量。

2015-8-31 22:151 楼(回复楼主)赞|回复

删除 回复 |赞[40]黄玉源   2015-8-30 10:25
从博主在对我21楼处的回复看得出来,他是一个要否定改革开放前的从解放后到1978年之前的几乎所有的事情,因此,对毛主席才采用此种方式来评论的。

删除 回复 |赞[39]黄玉源   2015-8-30 10:23
不能用改革开放后的30年来否定改革前的30年,也不能用改革前的30年来否定改革后的30年的好的事物和事情,这是习主席说的。请做到这一点。

删除 回复 |赞[38]panyz1000   2015-8-26 21:09
我怕的是隐藏这些人内心的狂热与兽性,极端的暴力和血腥的野性,毛左朋友们原教旨主义情绪确实让我心有余悸,让中国大地时刻笼罩极权阴影。

hidden
删除 |[37]用户名   2015-8-26 14:24
评论已经被科学网删除
 回复  : 他比泼妇骂街更可怜。他这种,自生自灭吧,互骂或辩论都毫无意义。如果是年轻毛左,倒是更值得对待,因为他们可能重演文革。

2015-8-27 02:521 楼(回复楼主)赞|回复

删除 回复 |赞[36]侯成亚   2015-8-25 00:37
对你这种恶毒的人,怎么都不过分。

删除 回复 |赞[35]mirrorliwei   2015-8-24 18:00
to 34 楼:“人民群众是历史的创造者”是个说法。但是被记录在历史资料中的人物却一定不是“人民群众”。因此,如果从尊重史料的立场出发,就只能检验、研究出来“英雄创造历史”的结论。

删除 回复 |赞[34]柳竹浠   2015-8-24 13:16
(1)人民群众是历史的创造者,不能把英雄人物的历史作用与人民群众创造历史相提并论。宣扬“共同创造历史”论,本质上是鼓吹英雄史观的错误,是形式上的“二元论”实质上的历史唯心论。
(2)人民群众是历史的创造者,这是历史唯物主义的一个根本原理。人民群众不但创造了社会的物质财富、精神财富,而且是社会变革的决定力量。
(3)杰出的英雄人物在历史发展中有重要作用,但不能说英雄甚至人民群众与英雄人物共同创造历史。这是因为: ①人民群众的历史创造作用是杰出人物历史作用的基础。杰出人物的历史作用从属于并受制于人民群众的作用。 ②杰出人物的力量来源于人民群众。没有人民群众的支持,杰出人物就不可能产生,也不可能有任何作用。 ③杰出人物发挥历史作用的方向和程度、功过是非,都取决于是否符合历史规律和人民群众的利益、要求。 ④无论英雄人物作用有多大,都不能改变历史发展的趋势,而且杰出人物的失误,还要靠人民群众的实践来纠正。
总之,最终决定历史发展方向的是人民群众。

删除 回复 |赞[33]吴跃华   2015-8-24 11:31
质疑李维网友关于毛的文章http://blog.sciencenet.cn/home.php?mod=space&uid=1737936&do=blog&id=915473

删除 回复 |赞[32]洪建辉   2015-8-24 08:00
什么样的土壤出什么样的果子。看到现在还有那么多死忠粉丝,才知道三年灾害和文革有其必然性。
 回复  : 有土壤,文革不是没有回来的可能。微信群中有一类极左的帖子特别火,就是一种表现。

2015-8-24 21:441 楼(回复楼主)赞|回复

删除 回复 |赞[31]cmshd   2015-8-24 00:39
关于对毛先生的评价,确实存在不同的看法。初步统计,一般60年代以前的人中,出身草根阶层的评价多比较正面,那个年代出身所谓地富反坏右家庭和干部家庭的,多持负面;70年代以后出生的受改开媒体的影响,比较多元需要进一步统计和分析!

hidden
删除 |[30]用户名   2015-8-24 00:08
评论已经被科学网删除
 回复  : 不用骂他,毕竟是个老年人,虽然他骂人的时候一副血海深仇的样子。

2015-8-24 21:461 楼(回复楼主)赞|回复

删除 回复 |赞[29]Vulcan   2015-8-23 22:25
毛时代真的像楼下一些人说的那么美好?我经历了毛时代的农村生活(祖上都是农民),农民确实都有地种,不过不是自己家的地,一年到头吃不饱(欠生产队工分是普遍情况),“公平,和谐和幸福”,“社会风气好”,,,,不知这是哪里听来的?全是意淫!连家里母鸡生个蛋都经常被偷(可怜的鸡狗被偷了宰吃也是常事),村干部欺压普通农民是家常便饭。剥夺农民的自主土地,强行把粮食收归国有,人为划分农村和城市的对立,残酷剥削农民(绝大多数人),这叫“互助互惠”,”互敬互尊“?一派胡言!80年代初搞承包,农民立马从吃不饱到吃不完,自由时间还多得多,这难道不能说明问题?没饭吃的社会有什么值得好夸的?
 回复  : 盲人摸象说的就是这个。毛时代的“美好”的一面是有的,譬如民风淳朴,学雷锋的好人好事也常有,黄赌毒嫖基本绝迹,价格低廉多年不变(当然工资也多年不变),等。但是,把毛时代描述成那样理想的美好社会,无视毛时代的错误与灾难,从总体上来讲,就是对改革开放及其必要性的否定,对社会总体进步的否定,这个是摸象的盲人有意或无意为之的。

2015-8-24 21:531 楼(回复楼主)赞|回复

删除 回复 |赞[28]彭振华   2015-8-23 15:52
[18]lmnnml  2015-8-23 02:15
博主对我们伟大领袖毛主席恶毒攻击是有其阶级烙印的。 他的曾祖父在考上秀才(相当于小学毕业)后, 由于天资愚笨, 几次考试也考不上举人(相当于高中毕业,当然就不能考进士), 依仗家中是大地主有钱, 于是买了一个贡生的头衔(相当于副举人, 即中学肄业)。后来清朝被推翻, 功名无就,买贡生的钱财丢到水中, 心中愤愤 回到安徽的老家农村开了一个私塾。不干心于功名无着, 于是依仗家中是大地主的财力, 变卖了一些田地, 送其祖父一代留日, 但可能是祖传的基因不行,学习成绩不好, 回国后没有好工作(那个时代, 留日回来找不到工作的基本都是庸才),郁郁而早逝。 由其祖父管理一大片田地, 但其后的子女仍然没有能够出息, 坐吃山空。  到其父辈, 分了家产, 几乎吃不上红烧肉(所以博主对毛主席吃红烧肉非常嫉妒), 解放时几乎被划为富农。 所以对毛主席的土改非常不满。
以上都是博主自己说的。 从上面介绍博主的家世, 完全可以理解博主对毛主席仇恨的阶级根源。
 回复  : 说的不错,给你个小红花。

2015-8-24 00:051 楼(回复楼主)赞|回复

删除 回复 |赞[27]马建敏   2015-8-23 15:27
[3]Kexuerenwu  2015-8-22 00:10
”领袖角色先是山大王,家妻不知下落,也不影响先娶一个压寨夫人。”
好大的胆子!快跑!侯成亚来了!
----
绝了!

删除 回复 |赞[26]hongyi007   2015-8-23 11:57
能有大成之功者,多呈所谓“个性自由发展”的状况。而像毛泽东这样的人物,其才能与境遇结合之完善,堪称奇迹。
毛泽东的一生,是为国为民不息奋斗而有伟大成功的一生。

删除 回复 |赞[25]hongyi007   2015-8-23 11:38
达尔文并非贵族出身,但是其家庭很富裕。

删除 回复 |赞[24]侯成亚   2015-8-23 11:11
建议大家注意一下,看看科学网上这种土豪劣绅的余孽还有几个,以防被其妖言所惑。

删除 回复 |赞[23]侯成亚   2015-8-23 10:42
看博主的样子,也一大把年纪了。真奇怪,这种人当年怎么没被宋彬彬们打死呢?
 回复  : 您老发泄完没有?乍看,还以为是一个小年轻,新时代的红卫兵。为了观点和角度的不同,可以对无任何个人冤仇的人如此恶毒地谩骂诅咒。后来才看待您自称垂垂老矣,不由得心存恻隐之心。您老多发泄,把毒火全发泄出来,可以延缓老年痴呆。人之将老,其言不善,您老一辈子活得不容易,那就活个痛快吧,您要是还没诅咒完,再多多发泄,我也不删您,终身赦免您的恶毒。

Patro, forgive him, for he ain't know what he's doing.

2015-8-24 22:061 楼(回复楼主)赞|回复

删除 回复 |赞[22]徐绍辉   2015-8-23 09:49
任何对毛主席的诋毁都不得人心!蚍蜉撼树!

删除 回复 |赞[21]黄玉源   2015-8-23 09:05
在对待一个人物的评述方面,尤其是领袖,必须要认真、严肃和实事求是,不能偏激地讲话。假如一个人喜欢“自由”就能成事的话,那才怪了呢?那强悍、野蛮的日本帝国主义和8百万的国民党疯狂进攻的军队,以及在保家卫国的朝鲜战场上,面对如此大规模和力量强大的多国联合军队的进攻,是一个人以“个性自由发展”、不愿受拘束的方式就能把他们打败的吗?那是笑话!也很荒谬的。再什么“个性自由发展”到什么极致,可能连两个军(此处指军队的组成建制方面)都打不过的。主要是有伟大的气魄、宏韬伟略,精细、巧妙的战术及衷心地爱民、为民的情怀,只有毛主席这样伟大的军事家、战略家和政治家及如此一心为民的领袖,才能领导共产党和广大民众经过那么艰苦的长时期的战斗才能把中国从一个饱受帝国主义欺凌、殖民主义剥削、官僚、土豪、大资本家财团大肆勾结盘剥广大民众,极大多数人民穷困而盼望能够有光明和希望的殖民地、半殖民地、三座大山压制广大民众的国家解放出来,赶走了长期霸占在国内的所有帝国主义和殖民主义者,以及推翻了搞腐朽资本主义运作、两极分化、少数富人花天酒地,极大多数民众饱受欺凌和贫寒的腐朽政权,让农民有地种,工人当家做主人,社会各阶层民众能在均富的思想引领下,过着公平、和谐而幸福的生活,社会风气好,人们互助互惠,互敬互尊,团结一致,建设和保卫祖国,把我国建设为在世界有尊严、有影响力,帝国主义不敢再随意欺压和鄙视的、人民豪情满怀的国家。这是毛主席为领袖的时期取得的伟大功绩。我们要讲良心,要感恩,这涉及到品德问题,会影响到国内的许多年轻人,不记住恩情的人,就意味着以后没有人再去给予其恩惠;而且各顾各的社会和民族,将是凝聚力很低,力量不强的,而当外来势力在各方面削弱和打压、甚至入侵这个国家领土领海时,将会造成很严重的后果。内讧和内斗是一个国家容易被击败的主要原因;而扶正气、凝聚民心,团结奋斗,才是这个国家走向富强和卫国的正确道路。凡涉及到一个民族的素养问,不可随意乱讲着玩,影响很重要。因此,对于不负责任的、歪曲的说法,学者们和广大的民众应该马上给予驳斥。
 回复  : 黄老师似乎是老人,不怀疑您的认真严肃。至于实事求是,没有比您的毛时代的美好社会的描述离开事实更远的了。如果您描述是实事求是,改革开放的必要性就没有了。否定的是改革开放,这不是给您上纲上线,您可以保留您的毛主义。

2015-8-24 00:271 楼(回复楼主)赞|回复

删除 回复 |赞[20]蔡小宁   2015-8-23 08:45
如果毛生在美国,应该不会犯那么大错误。毛是天才,但是需要制度约束。

删除 回复 |赞[19]haishanzhidian   2015-8-23 08:34
没有无缘无故的恨,这种恨是不讲正义、不讲公理、不讲事实的。

删除 回复 |赞[18]侯成亚   2015-8-23 02:46
18楼:哦!这小丑果然是土豪劣绅的遗种。其实,不止他一个,科学网上恶意诋毁、污蔑毛泽东的,都是这一类社会垃圾。这是由他们的没落阶级的本性决定的,不可改变的。但必须揭露他们的丑恶盲目,不能任由他们胡作非为,惑乱视听。
谢谢提供资料!

删除 回复 |赞[17]侯成亚   2015-8-23 01:52
《求是》是中共中央机关刊物,它所发出的是中共中央的信息和声音。、
小丑们,不要再蚍蜉撼树了!

删除 回复 |赞[16]侯成亚   2015-8-23 01:44
凤凰网·资信栏目,2015、8、22、文章:《求是社长:”非毛化“言论无法撼动毛泽东历史地位》,卑劣的反毛i小丑们,可否一看?

删除 回复 |赞[15]侯成亚   2015-8-23 01:30
哈哈!还有人怕无权、无势、无钱、垂垂老矣的侯成亚!真鼠辈也!
要扫除一切害人虫,全无敌!

删除 回复 |赞[14]侯成亚   2015-8-23 01:14
如此挖空心思地诽谤一个一生为革命、为人民、过着苦行僧似的生活、逝后没给子孙留下如何物质财富的、已逝去的老人,良心何在?你就不怕遭报应吗?

删除 回复 |赞[13]侯成亚   2015-8-23 00:58
知道你坏,但不知道你坏到这种地步。诚所谓”头上长疮,脚下流脓“者也。

删除 回复 |赞[12]林中祥   2015-8-22 17:55
毛泽东是提着脑袋做事的,有多少人敢?所以你的文中他生活无忧的描述我觉得有失公允。他的亲人多少为革命牺牲了?至于他在革命时期到底伙食如何,我觉得还是要有点根据,长征时期要想吃好的都不可能特别是过草地,我觉得他这样的官,一般不会饿着,除非真是山穷水尽了。

删除 回复 |赞[11]曾杰   2015-8-22 15:05
贵族是世袭,英雄是自己闯出来,中国古代和现代美国都是英雄的文化,而欧洲中世纪才是贵族的社会。
当今华文世界(包括正规影视媒体),频繁出现贵族、土豪和教主等欧洲中世纪的词汇,很奇怪的现象!

删除 回复 |赞[10]杨正瓴   2015-8-22 13:37
《大清律例》,一夫一妻多妾制。

删除 回复 |赞[9]杨正瓴   2015-8-22 12:31
(1)秋收起义
http://cpc.people.com.cn/GB/33837/2534129.html
秋收起义是1927年9月9日。1927年10月,毛泽东率领经“ 三湾改编”后的 秋收起义部队到达井冈山。
  
(2)侠骨柔情:杨开慧等3位女共产党员革命人生
http://www.xinhuanet.com/chinanews/2011-06/24/content_23089755.htm
1930年10月24日,敌人包围了杨开慧的住所。
http://news.xinhuanet.com/ziliao/2004-10/18/content_2104977.htm
1930年11月14日,杨开慧英勇就义于浏阳门外识字岭,年仅29岁

删除 回复 |赞[8]杨正瓴   2015-8-22 12:17
民法
http://www.chinabaike.com/article/baike/1000/2008/200805111453820_5.html
从1929年5月~1931年12月分编陆续公布,共分总则、债、物权、亲属、继承5编,计1225条。这部法典承袭了德国、瑞士和日本等资本主义国家的民事立法原则和体系,但也保留了上述三次民律草案中的封建主义的内容。

删除 回复 |赞[7]杨正瓴   2015-8-22 12:06
(1)《毛泽东与贺子珍结婚》
http://jgstour.com/News.shtml?p5=1795
1928年5月28日,毛泽东同贺子珍在茅坪象山庵结为夫妻。毛泽东与贺子珍的外孙女孔东梅,在《听外婆讲那过去的事情—毛泽东与贺子珍》中提到:毛泽东和贺子珍在塘边村前后工作了40多天,回到茅坪象山庵后,他俩结合在了一起,那一天是1928年5月28日。他俩请来大媒人袁文才等10多人,在一起热闹了一番。没有举行什么仪式,两人也没有互赠贵重的纪念品。他们全部的家当就是两人的军用背包和身上穿的几件衣服。
  
(2)1930年11月14日,毛泽东的妻子杨开慧被杀于长沙市浏阳门外识字岭,年仅29岁。
  
(3)民法 (中华民国) - 维基百科,自由的百科全书
民法总则编于民国18年(1929年)5月23日公布,自同年10月10日施行。债编于民国18年11月22日公布,民国19年(1930年)5月5日施行。
   
木有问题。

hidden
删除 |[6]用户名   2015-8-22 10:35
评论已经被科学网删除

删除 回复 |赞[5]郑中   2015-8-22 10:21
社会分工越细,人性愈残,能力越单一。全面发展的个体在现实社会中还容易遭嫉妒、打压,个体的全面发展至今还是理想。

删除 回复 |赞[4]罗教明   2015-8-22 00:36
历史的非常时期:时势造英雄,英雄创造历史。
科学的非常时期:两朵乌云造就了爱因斯坦和普朗克,他们俩推翻了经典物理思想创造了现代物理。

hidden
删除 |[3]用户名   2015-8-22 00:10
评论已经被科学网删除

删除 回复 |赞[2]shiyongjin   2015-8-22 00:10
老毛是自由了,自由得无法无天,为所欲为,让其他绝大多数中国人不自由了。

删除 回复 |赞[1]陈楷翰   2015-8-21 23:58
李老师说的是,故西方的英雄主义一直就深入民心。

聊一聊世界语及老柴老乔以及老马老恩 (屏蔽存档)

泥沙龙笔记:聊一聊世界语及老柴老乔以及老马老恩

屏蔽已有 2303 次阅读 2015-10-3 16:36 |个人分类:立委随笔|系统分类:人文社科| 马克思, 恩格斯, Esperanto, 世界语, 乔姆斯基

黄: 世界语不能算是自然语言吧。

世界语算是准自然语言。诞生不自然,发展自然了。

毛: 实际上有用世界语于日常生活和交流的吗?

有啊,在 “世界语国(Esperantio)”,我有系列博文谈世界语传奇,有空光临:《我的世界语国》, 还有《朝华午拾:世界语之恋》,名字都挺文傻的。没想到混到理呆的群里来了。

黄: @wei 为什么许多革命者喜欢世界语呢?就是说革命者倾向于拥抱新鲜事物?有创新精神?

黄老师,我觉得所有人都会喜欢世界语,如果有时间领略的话,不带偏见的话。关键是,我们一辈子匆匆忙忙谋生,无暇顾及罢了。世界语是可以让任何喜欢语言的人入迷的东西,不仅仅是革命者。

毛: 革命者倾向于理想化

世界语的魅力和美丽,毛老这样的可以 fell in love,不能自拔的。

北: 语言能用不就得了 严谨不见得是好事,世界语就是垃圾,毫无美感

你不知道你在说什么。美感是一种平衡,你不能领略这种平衡的美妙。

毛: 我觉得这正是一个缩影:革命者倾向于理想化并把事情推向极致,但是在实际生活中却行不通。

北: 同意毛老师 一致化 理想化是革命理想的缩影。

美感既可来自规则的完善,也可来自事物的模糊和朦胧。要看你倾向于科技还是艺术。

北: 从美感来说 语言的最主要功能不是准确表达,反而是不准确的表达。

毛老说得对。Beauty is in the eye of the beholder. 情人眼里出西施。美感无法强求一律。但是严谨度是可以测量的,简洁度是可以测量的,歧义度也是可以测量的。

毛老写程序,会觉得某些程序很美,而文傻写的程序就不美即便 working。这也是语言的美。

毛: 对,物理学家和码农的美感肯定跟诗人不一样。

北诗人也不比洪诗人。诗人之间美感也有不同。

qj: 如果语言无比严谨没有歧义,各位也就没有这工作机会了也没得争辩哈哈哈

那是,要都是世界语,我就没啥活做了,也没的神侃了。是人都可以写个世界语 parser 出来。当然还是比电脑语言难,但是毛老写个 Esperanto parser 没问题。

北: 如果无比严谨 那就是计算机语言了。世界上觉得程序比小说好看的人是有,但是太少了,根本无足轻重。

毛: 世界语也做不到上下文无关吧?

关于美的争论是不毛之争,没有什么价值。

北: 但是可以肯定,如果大家都说世界语是不美的。因为没有了变化和差异性。

上下文无关不无关,是乔姆斯基的陷阱。真个儿满拧。根本就不该使用这个概念来对自然语言做归类。记得30多年前,曾经有很多的论文陷入这个争论,自然语言是无关的,还是敏感的,还是微弱敏感的(mildly sensitive),完全不着边际。还是白老师说得好,本来就是一个毛毛虫,非要画几个圆圈,然后讨论哪一个圈合适自然语言。这是乔姆斯基误导了一代人的一个典型例子。

北: 我知道北京世界语协会的活动地点,在取灯胡同一个饭馆。

中国世界语运动在改革大潮中已经七零八落了。大家忙着挣钱和谋生,少有世界语情趣了。

北: 世界语衰落是历史的必然。

可是我现在自己跟自己还常常说世界语。我女儿受我的影响也学了,所以我们手机 text 对方时候常常用世界语:kara mia, kiel fartas vi? amegas vin!

毛: NLP是大数据处理中绕不过去的一环,以后要是一点不懂这个就不足以言大数据了。

毛: 世界语在世界上的现状怎样?

世界语容易受到两种人的欢迎,一种是革命者,一种是理呆,特别是码农或者学逻辑的人。

大约几千万人吧。大的城市,无论哪里,大多有世界语俱乐部。

毛: 当年瞿秋白就是学世界语的,是吗?

北: 多为迂腐木讷的持左派意见者

很多名人都学过,迷恋或推崇。毛老要是学了,我担保你拍案叫绝。

毛: 但是这个东西毕竟不接地气。

不在这个,在它活生生地揭示了一个语言可以做到怎样的简洁,而仍然保持表达力的丰富。这种极致是难以想象的。

毛: 你讲的也有道理,当年我读《反杜林论》就有点拍案叫绝的味道。

柴门霍夫在简洁和易学里面所玩的平衡是极其艺术的,他在世界语方案发布之前,已经烂熟于心。

用了一辈子世界语,可以找到一些瑕疵,当年可以有另外的设计。但是总体而言,这是在领略一个超级天才的超级表演。自然语言被认为那么复杂、深奥、那么地不逻辑和强盗。到了柴大师手中,变戏法一样,变成如此规整简单,但它仍然不失自然语言的本性,而不是电脑的语言。

北: 那只是一套规则,不是活的语言,我觉得已经失掉了。

毛: 世界语  ------〉 共产主义,柴门霍夫  ----〉 马克思,世界语学者  ----〉革命者

北: 同意毛老的类比,我的实际感受也是如此。

简单说两句 馋馋您

所有的词类都是明确的,没有例外:

名词 -o

动词 -i (-as -is -os -us -u)

形容词 -a

副词 -e

有美丽  bel-a

就有丑陋: mal-bel-a

有 高: alt-a

就有矮: mal-alt-a

有兄弟 frat-o

就有姐妹: frat-in-o

毛: 世界语规则   ----〉 计划经济规则

有爸爸 patr-o

就有妈妈:patr-in-o

有好 bon-a

就有不好 ne-bon-a,or ne bona

这样的语言不是太单调么?是的,要简洁,就免不了单调一些。但是柴大师的高明之处在于,他在把实词规范化以后,有意定义了一批小词,这些小词是需要死记的,但是我们前面说了,这对每一个自然语言都是如此,是语言形式的重要的种类,可以枚举,而且常用,因此没有多少记忆负担。结果,一个语句的单调性被弥补了。因为语句总是由各种小词把实词联接在一起的。语句听起来就开始有跌宕,不再像一个机器人说的话了。

你说他有多了不起。

毛: 不讲世界语的人   -----〉小生产者、自发资本主义、自由主义者

不懂情调的人。

毛: 被翻译成世界语的文学作品多吗?

第一本是《圣经》,柴老自己翻译的。他还翻译了一些名著,以表明语言的表达性。后来的人有很多致力于名著的翻译,包括国内的世界语者。

北: 翻译量不说明问题 得看有没有读者

我的远房师兄周流溪教授翻译了《离骚》。

基本上,所有的名著都有世界语译本了。

毛: 但是这些努力基本上都白费了。

是小众,但是薪火相传,不会灭绝。总有一部分人会被迷住,因此传承。谁知道呢,也许哪一天世界大同了,需要立一个共同中立的标准语,为了反对歧视和政治正确,世界语被选中了呢。

英语成为实际的世界语,连我这个英语专业的人都不平。什么鸟语言,,居然堂而皇之统一了世界。英语丑陋之处太多了。

毛: 所以这个东西跟共产主义的相似度确实很高。

那乔老爷应该喜欢世界语了?

没有报道。他好像没有评论过。乔老爷作为超级语言学家,其实懂的语言不多。有很多批评说,他的语言学受到他的语言能力的局限。

Michaeོl Mi: @wei 柴门斯基的母语如果是汉语,或者其他非拉丁语,设计出来的世界语会是怎样的?抑或无解?

我觉得无解,柴老已经最大限度地把欧洲语言抹平了。

毛: 如果有人采访乔老爷,这世界语倒是个很好的话题。尼克?

如果要想进一步抹平印欧语系和汉藏语系,难度太大,很难自然起来。

毛: 那时候还没有程序设计语言。如果放在现在,柴氏也许会干脆就定义一种形式语言?

Michaeོl: 秀才认字读半边。抹平的难度应该不大。剩下的半边用来释义即可

反正我觉得柴门霍夫已经走到极限了,世界上怎么会有这样的语言天才。他就是个眼科医生而已,业余爱好语言,并没有语言学的培训。可是语感和对语言学的自发领悟是令人惊异的。只能说,这个世界上存在一些让我等小民高山仰止的人物。他就是一个。崇拜他不亚于崇拜乔姆斯基。

毛: 我正想问你,更崇拜乔老爷还是柴医生?

不赞同乔姆斯基,但是没有乔姆斯基,我们很多东西连一个 reference frame 都没有,无从讨论。

Michaeོl: 柴门应该是把etymology重新梳理了一遍而已。有人要是把说文解字也梳理一遍应该也可以,但中文最大的障碍是创新精神,除去迷信祖宗之法不可变的信徒后就不剩几个了,所以文字改革在中国会很慢 @wei 

乔氏还是胜于柴氏。乔氏是爱因斯坦级别的,柴氏还不到牛顿吧。

毛: 要论对于人类的贡献,对于生产力的促进,乔老爷高多了。

柴也到不了牛顿的级别。我看相当于当下在搞统一场论的那些人。

柴氏基本是个江湖艺人,不是乔老爷这样的理论大师。

毛老读《反杜林论》拍案叫绝。我在高中的时候,是读《政治经济学教程》拍案叫绝。因为读得太投入,后来在社科院修《资本论》(必修课),砖头一样厚的,轻松拿A,觉得马克思太啰嗦了。同样的论点 车轱辘转 反复论证 各个侧面 苦口婆心 不厌其烦。

毛: 我到现在还认为这本书不错。我觉得恩格斯的水平其实比马克思高。我是说《反杜林论》不错。

那个我没读。五体投地拜倒在马克思《资本论》以后很多年,才发现和认可了批判马克思的声音。

毛: 苦口婆心 不厌其烦其实倒是好的,但是《资本论》其实是《非资本论》,完全抹杀资本的作用明显脱离实际。

正是,藐视资本,无视资本的作用和价值,这种偏向是致命的。

毛: 所以,我觉得世界语学者有点像人民大学那些一辈子教马列的人。但还是要好一些,无用总比有害好。

马克思虽然是严谨的学者,至少写《资本论》比《共产党宣言》要冷静得多,但是骨子里他是带着对资本和铜臭的极端厌恶这种情绪去著述的。而对资本和铜臭的厌恶是如此的自然,我们都曾经历过,都有这种体验,都曾痛恨过这个金钱至上的社会风气。

毛: 我觉得他也不是那么严谨,把辩证唯物主义应用于历史研究,按说是很好的,但是他的历史唯物主义就说不上很严谨,把阶级斗争提得太高了。

那个不算。《资本论》本身从形式上看,是严谨的,引用一丝不苟,耗时几十年,呕心沥血,反复推敲。

也做了一些对情绪好恶的抑制,譬如认为虽然是剥削,仍然是在等价交换的框架了。这个等价二字(褒义词)就是压抑了对资本及其人格化的厌恶。

Nick: 恩格斯民科

毛: 他用的是演绎方法,但是演绎的出发点是公理,如果这个前提站不住,那么后面的逻辑运用都是白搭了。其实哲学家们在科学方面都只是民科的水平。

Nick: 恩格斯哲学也民科

毛: 我倒觉得他比马克思还好一些。

北: @Nick 应该叫民哲

Nick: @北 我是generally说票友的意思,比如说你是民鼓。

毛: 鹏兄这民鼓可比许多专鼓高多了。

北: 我的目标是民仁 谢谢

白: 伟哥楼歪了

白: 我赞同“世界语是垃圾”

RW: 白爷,愿闻其详

Nick: 我儿子这学期选了门social linguistics(?)的软课,选课主要原因就是老师答应老乔会来。我可以让他问问老乔他怎么看世界语。

美不美不好争,垃圾还是宝贝就更不好争了。你的美味是他人的毒药。

Michaeོl: One man's meat is another man's poison

北: 所以每个人只要真实地忠于自己内心表达观点就好了。因为每个人都只能代表自己

RW: @Michael 让我想起电影 汤姆叔叔小屋 里的一句台词

Michaeོl: @RW 这是新概念英语里一课的题目。在座都学过吧

北: 如果对于你是毒药 没必要因为对他人是美味 就考虑到底该怎么说

洪: https://www.esperanto-usa.org/en/content/noam-chomsky-me-and-esperanto 

Noam Chomsky, me, and Esperanto

Back in the 1970’s, I sent Noam Chomsky, the famous MIT linguist, a letter asking his take on Esperanto. His reply indicated some possible interest (at least, as I recall, on the part of his son), and so I showed his reply to my father, who sent him a letter urging Professor Chomsky to obtain a textbook and other materials and begin learning the language. Chomsky’s reply was, as close as I can recall, “I’m sorry that I cannot meet your expectations, but we all have our priorities. Otherwise life would be impossible.” And that was the end of that. I still have this correspondence, of course, but it is in storage back in the States (and I am in China), but I thought that this tidbit ought to be part of the annals of Esperanto.

Mike Jones

Beijing

28.Jan.2011

可惜大师没机会学。他priorities是批评美国。不过也是车轱辘话多。少一点车轱辘话,两个世界语也学会了。

毛: 这个Mike Jones是个什么样的人? 他2011年初在北京。

【相关博文】

《我的世界语国(1)》

【我的世界语国(2)】
【我的世界语国(3)】

【我的世界语国(4)】

《我的世界语国(5)》 

《立委随笔:Esperanto: 爱斯不难读》

《一小时学会世界语语法》

《乔姆斯基的“世界语”》

立委世界语文章 (1987): 《中国报道:通天塔必将建成》

ZT: 中外名人论世界语

《立委随笔:世界语跟宗教的关系》

《立委随笔:熵和世界语》 

立委世界语论文(1986): 《国际语到汉语和英语的自动翻译》

立委硕士论文:世界语句法分析立委硕士论文全文(世界语版)

朝华午拾:shijie-师弟轶事(3)疯狂世界语

中美关系杂谈

江城记事:每周一议(5): 中美关系杂谈

汉阳一江水 汉阳一江水 Today
 

每周一议(5)

         中美关系杂谈

       作者:立委兄

       这一周什么议题最火爆,当然是 中美 关系。现在的 中 美 关 系困境,没有最坏,只有更坏。在美帝国主义鼓噪下,大环境对中国很不利,放眼望去,朋 友  不多,环顾四周,敌 人  不少。 许许多多难解的扣,需要领导人大智慧、大勇气、大眼光才能化解。聪明、强硬、机智、坦率、勇敢、变通,邓公 就是一个非常好的榜样。

............

    2020庚子年,注定是不寻常的一年。今年灾难不断,注定要改变世界历史格局。生活在这大动荡年代,我们虽然提心吊胆,所幸我们能见证这一历史时刻。以后还会发生什么意外和惊诧,我们不知道,但历史正在改写,祝大家平安,活下去就是胜利!

三天前一个爆炸性新闻,震惊中美两国。

7月21日,美方突然要求中方在7月24日下午4时前关闭驻休斯敦总领馆,领馆人员被要求离开。关闭中国驻休斯敦总领事馆的行为十分罕见,可谓史无前例。而且限制在72小时以内,这么短的时限,明显带有羞辱性质,是可忍孰不可忍。

关闭领事馆,这是非常严重的外交事件,是中美建交以来最严重的国际双边纠纷。中国驻休斯敦总领事馆是中美建交以后中国在美国建立的第一个总领事馆,在中美关系上有象征意义。休斯顿是1979年  邓 公 访美的一站,邓 公 从美国牛仔手里接过牛仔帽在当时引起了轰动,成为中美友好交往的象征。

................

    这一点我们的胡主编感觉到了,他连续发文,表达心中的愤慨。

     中国外交部发言人汪文斌表示,这是美方单方面对中方发起的政治挑衅,严重违反国际法和国际关系基本准则,严重违反中美领事条约有关规定,蓄意破坏中美关系,十分蛮横无理。

.................

     美国这次做的太过分了,中方应该会有反制措施,这是外交惯例,不然大国就太没面子了。

   刚刚得到信息,中国政府宣布,为对等反制,关闭美国驻成都总领馆。

    后续美国还会有什么新一轮报复行为,不得而知。如果发生什么更严重冲突,我们已经见怪不怪,不太惊奇了。

..................

    白宫新闻发言人麦肯纳尼答道:我们在有关中国的问题上保留了所有选项。 

记者追问:总统没有排除任何选项?

麦肯纳尼说:是的,他没有排除在中国问题上的任何选项。

    考虑到中美关系急速恶化的现实,越来越多的人开始相信这样的基本判断:一切皆有可能。

 

    ..........

美国以及他的盟国加大了对中国的围剿,从美国政府放出风来看,有一招挺吓人的,........被禁止入境美国。世界的外交史上,还从来没有发生这种事情。

............

当记者问及  特 朗 普  是否愿意就贸易与中国展开对话时,特  朗  普直接否决说,我们无意再与他们进行任何对话,因为对话没有任何意义。

没有了对话,可以说是双方到了近乎冷战的状态。

外交事件不断升级,中国最核心利益之一,台海问题不断受到侵害,美国对台议案在美议会几乎都是全票通过。

美国 oo无pp人p隐j身 侦打jj一体机 飞行内陆侦察,并 主动 公开航线。

蓬佩奥 国务卿 公开宣称中国 南 海 主权 违法,美国两艘航母 战斗群游弋 在 南 海,肆意挑衅领海,不断触碰中国底线。

这几年来,中美关系险境环生,走到今天这步田地,比当年美 苏关系有过之而无不及,超过所有人的预料。美 国一环紧扣一环,一招比一招狠,一张比一张凶,露出了凶狠的本性!

.........

关于关闭驻休斯敦总领馆,美方有什么解释的?

美国国务院发言人奥特加斯在一份电子声明中说:“我们已经下令关闭中国驻休斯敦总领事馆,以保护美国的知识产权和美国人的私人信息。”

.........

     谁都知道,这些都是表象,不是根本原因

     中美的矛盾根本就不是贸易上的,也不是南海,也不是台湾和香港,中美真正的矛盾其实就是老大和老二问题,核心是 意   识 形 态 问题。

    我国外交部发言人汪文斌表示,一段时间以来,美国政府不断向中方甩锅推责,对中国进行污名化攻击,无端攻击中国的社会制度,.........。

中美双方走到如此地步,看来不是没理由的,冰冻三尺非一日之寒。...........

如果中美双方不能很好的解决目前的矛盾,没有危机管控机制,斗争升级,关闭对话,互相抖狠,那么爆发小规模军事冲突都有可能。

全面封锁中国,打掉我们的发展势头,那是大概念事件。

........

强硬、报复并不难,而冷静、灵活、隐忍需要更多的拿捏、阅历、智慧,其价值也远甚于前者,但愿双方领导都有这样的大格局。

 

    .................

   胡鞍钢、金灿荣、张维为、司马南等人  狂言狂语,给  战  狼带来激情,给民族带来灾难。

...........

 

金政委说:我们“蹲着都比日本高,还怎么韬光养晦!” 

张维为说:该我们给美国立规矩了。

胡总编说:我们可以把美国逼回成农业国去。

...........

 

    好在上层还算清醒,7月17日,华春莹在外交部例行记者会上回答法新社记者关于巴尔演讲中对中国的攻击时说,“中国从来无意挑战或者取代美国,无意与美国全面对抗”,“那些声称中国想超越美国成为超级大国、声称中国试图推翻现有规则体系的人,显然是以己度人,是对中国战略意图的严重误判和误读。”

    我们领袖也说:我们有一千条理由把中美关系搞好,没有一条理由把中美关系搞坏。

.......

 

   .........人类公敌蓬佩奥今天在尼克松故居纪念馆发表简短演讲,尼克松孙子的主持,是否有什么含意,我不知道。

    但这个演讲很重要,是美国最近政策的宣示,公布了未来美国对中国政策的新思路,应该好好研究。

   人类公敌蓬佩奥.....

    这个最新的演讲内容很反动,观点很明确,态度很坚定。他污蔑  我们  是bb 独 kk 裁, 他 挑 拨我 党 与人民鱼水关系。正式宣告美国 对华 接触 政策失败,而且宣布决不重蹈覆辙。强调 共 产 主义 与自由国家势不两立,提出组成“理念相近国家的民主联盟”,联手对抗“中国”,对中国采用“不信任并核查”策略,用强烈意识思态思维处理国际关系,思之极恐。

........

 

    由于种种原因,你们知道的,这篇每周一议不能深淡,就此打住,否则文章就不能面世了。(文章已删了又删,仍不知那里触发.....)

《语义计算群:AI 理性主义的终结是不可能的吗》

这注定是一本小众冷书。但愿所传承创新的符号自然语言学术,丝相连、藕不断。有如人工智能理性主义的潮起潮落,庶几留下一声历史的回响。谁知道呢,五十年河西,“神经”恐非历史的终结。钟摆回摆的时节,历史或被重新发现。

摘自《写在NLP小书出版之时》

宋:@wei 祝贺立委心血之作付梓!做科学,真知灼见;讲科学,深入浅出!

王:祝贺李老师出书,一定拜读!我觉得符号主义的香火是不会断的,因为无论符号主义还是统计主义,本质都是数学建模,都来源于对实际语料的考察(人工的或自动/半自动的),而且都有加入人类主观知识的操作空间(包括调整模型,引入新的变量或调整参数)。更深层次的争论点,也许出在“计算语言学/自然语言处理需不需要(或者有没有可能脱离)人类总结的关于语言的知识”这个问题上?

李:@王,谨慎(不)乐观。我是这样看的。

先回顾一下亲身体验。当统计MT取代规则MT的时候,虽然知道是大势所趋,心里是不服的。统计MT虽然鲁棒,普适性强,但质量难以恭维,心里总在嘀咕,给我资源我会杀回来的。但是到了神经MT的时代,那是彻底服了。给我再多的资源,我也无法逼近神经MT;这不是说规则系统不能对神经MT有补充、改良的作用,但最多也就是帮助神经擦屁股,担当不了主力。擦屁股的地方当然有,譬如帮助克服神经张冠李戴 指鹿为马的毛病,或者是在神经使不上力气的地方,譬如领域场景没有足够翻译数据可供训练的时候。

如果以MT作为前车之鉴,面对神经,以前对于规则的自信的确受到了挑战和挫折。但是好在 MT 是个特殊的 case,不但有几乎无穷的免费的人工翻译的平行数据做训练,还有更加无穷无尽的自然语言原始语料可做语言模型(我们每说一句话,就是做了一次标注,标注什么是合法的语言现象)帮助语句通顺。而规则系统的语言生成根本上是在那里拿每个词的译法凑,无论如何达不到语言模型的通顺度。

其他的 NLP 任务和场景呢?这就回到了对 AI 理性主义命运的看法。

不好说。现在有预训练,也是有无穷无尽的数据。理论上讲,等到预训练足够丰富发达,后面的语义落地就可以变得很薄。预训练好比是代替或隐含了句法结构解析。而且,词典习得(lexicon acquisition)乃至本体知识库的习得(ontology acquisition)与构建,很大程度上也是可以直接从原始数据开始的,最多是插入一些有限的快速人工校验。这样看来,预训练+词典习得+神经,保不定哪一天“终结”了NLP理性主义,也不是不可想象的。

果如此,是值得庆贺的。钟摆业已升天,使命已然完成,有什么必要盼它回摆呢?

谨慎乐观也是谨慎不乐观。因为迄今为止,垂直领域呼唤语言技术,嗷嗷待哺;这边厢闹得动静那么大的神经就是使不上力气,这种事儿我们在第一线看得多了。垂直领域NLP的主流,没标注数据就傻眼。

宋:理性主义永远不会灭绝。理性主义代表人类对于未知的好奇和探求,包括对于语言规律的好奇和探求,这是人类社会发展的基本动力之一。

詹:其实,“理性主义”跟“经验主义”这样的对立方式,至少在顾名思义的层面上,容易误解:好像凭经验办事,不够理性似的。要搞清楚这两个名词的来历,可能需要到哲学故纸堆里找半天。

从某种意义上,预训练模型应该也是比较理性的吧。语言学追求的是范畴化的知识表示,是可理解的清晰的语言模型(因果关系)。机器学习追求的是数据(输入:输出)之间的函数拟合关系(相关关系)。二者也不是矛盾对立的。

大数据+深度学习可以带来机器翻译的效果有明显提升,但同样明显的是,它还是没有理解句子的意思。要戏弄机器翻译系统,仍然是轻而易举的事情。这个不像围棋,深度学习的围棋智能,人类已经干不过机器了。语言不是竞争的游戏,而是合作的游戏。

在理论层面,我丝毫看不到预训练模型有什么能像人类那样理解语言的机制。人类理解语言有两个层次:(1)显式符号层次;(2)隐式认知层次。语言学,尤其是基于结构主义分布思想的语言学,基本上就是对显式符号层次的观察,并将语言知识范畴化、系统化。语言学家做的工作,跟预训练模型做的工作,没有本质的区别,只是分布颗粒度的区别。在细颗粒度尺度下,神经网络对符号分布的刻画(抛弃范畴化的分布)比语言学家的描述更准确。但是,”分布“ 跟 “语义”的差距还是很大的。“分布”只是冰山一角,看得见的“言语”。“隐藏的认知”可能才是“语言”的真相(全貌?)。

任正非:发展芯片,光砸钱不行,还要砸人
2019年05月21日 09:52 新浪科技综合
https://tech.sina.com.cn/it/2019-05-21/doc-ihvhiews3388256.shtml

要从大数据里学到“砸钱”、“砸人”、“砸锅”、“砸饭碗”的“意思”,我还看不到头绪。一个亿广告砸出一百个亿的销售额。人如何理解“砸”的意思的?是靠分布吗?

梁:先有了“砸了一大笔钱”之说,然后才类比地理解了什么叫“砸人”,[Chuckle]

詹:是,理解一定需要“类比”能力。不理解也可以翻译。现在的NMT机器翻译经常能翻得非常好。

梁:“砸”,我的想象是,一个人举起一个很重的东西,拼命向下摔。[Grin] 砸锅砸碗是本意,

詹:“砸锅”已经从本意引申出去了。“砸碗”也可以不真的砸“碗”了[Grin]

梁:如果一件事情被我搞砸了,那这件事对我来说应该是比较重要的事。

詹:真真假假,虚虚实实,语言不是“坚硬之物”,信息符号常常可以不费力气的“揉巴”变形。是的。“砸”里边有“力度大”这个“语义”。我怒砸一块钱赌特朗普连任。

梁:人的认知结构里,有重要不重要之说,很多词(概念)围绕着“重要”这个概念 build 起来。

詹:是的。一是“重要”,二是“举重若轻”。这两样加在一起,就厉害了。如果总是很实诚地“负重前行“,机器估计能胜任。问题更在于,“轻和重”,不是“物理”,是“心理”。

梁:是的,先是“物理的”,后来才引申为“心理的”。

詹:一旦从看得见的“物理的”,变成看不见的“心理的”,就不仅仅是“分布”的事情了。

梁:刚才想到“距离”这个词,明显一开始是一个物理概念,后来引申义有人与人之间的心理距离,比如还有网络空间距离,如果你我同在一个群里则距离为“1”。

荀:个人浅显理解:
1)理性和经验不是对立的。理性的表达,可以在各个语言的不同层级,可以是范畴化也可以实例化,也可以是两者结合,大数据支持下,可以给理性表达赋予概率和上下文。
2)理性和经验都是知识,理性表达一般认为是用人类已有知识和认识,但是机器使用隐式方式,采用了不为人所理解的方式,这样的方式也是知识。
3)经验主义不管用什么方法解决,结果总是要满足人对事实的解释。没有理性引导的经验主义是不存在的。
4)经验主义解决问题是有边界的,解决复杂问题理性方法不能缺位的。

詹:同意荀老师的观点。

Bu:宋老师,个人理解焦点问题是“知识是否必须是人能够理解的”。

理性主义是从“人理解的知识”出发建立模型。

这个苦恼对于其他领域(尤其是物理学)更甚:物理学家一直想理解世界;用DNN之后,效果好了,但是无法理解了。

宋:我们好奇宇宙是怎么来的,生命是怎么来的,语言是怎么发生的;我们好奇为什么盎格鲁撒克逊人和汉人隔着万里之遥,会同样发展出相近的句法体系,但词法体系非常不同,文字体系和语音体系完全不同……

Bu:宋老师的这个问题神经网络不好解答。

李:各位的讨论非常有意思。

宋老师说的理性主义,不是AI理性主义(符号主义),而是哲学理性主义,所问都是站得住的。乔姆斯基藐视机器学习和神经网络,甚至讥笑它们,说里面一点 science 都没有,也是从理性主义探索的哲学角度说话,但看不出能真正为符号主义辩护。连接人工智能实践与 理性主义探索的纽带,迄今看来也只有符号主义了,虽然后者常常流于浅薄。

的确,我们很容易知道 nmt 不是在理解层次上翻译的。我们也可以针对这点,去巧妙地 “调戏” nmt 软件,让它出洋相,暴露出无知的本质。但这不影响它的翻译能力超过人的平均水平。符号规则 mt 无论怎么显得 “理解” 了语言,“能力” 上就是不如 nmt。正是从这个意义上,我们也许可以承认 nmt “终结”了翻译领域的理性主义。基本上就是宣告:哥们儿,这儿没你什么事儿了。不仅现在没有,未来也看不出你啥价值来,你已经完全出局,还是退休吧。

推而广之,假如同样的奇迹在 mt 以外的 nlp 任务中发生,我们是以其理解不足而否认它的碾压呢,还是承认 它 终结了 理性主义的应用价值?

Bu:李老师的终极之问。

李:当然,上面的假如,还的确是一个巨大的问号。大概最多需要三到五年可以水落石出。

詹:一个NLP任务如果能重新定义为不需要理解,可以纳入end-to-end的框架,神经网络就能做好。

也许可以换个比喻?规则系统(我不倾向于使用理性主义来描述符号方法)像是自行车,神经机器翻译系统相当于汽车?不知这样类比是否恰当?汽车的速度当然碾压自行车,但是不是说自行车就要退休了,可能还可以再考虑?

梁:@詹卫东 汽车自行车的比喻我喜欢。不是说有了汽车,自行车就退休了,进博物馆了。

李:作为快速达到目的地的旅行工具,自行车和骑马一样,其实是退休了。自行车后来成了休闲锻炼或临时代步的工具,那是“发挥余热”,类似于给主流擦屁股。

实际上,语音处理曾经是以符号规则为基础的。现在还有人哪怕提一下语音需要理解/理性/符号吗?phonology 是语言学的重要分支,它不是简单的物理存在。但speech 的能力上,理性主义早已被终结了,到了甚至提起它,都像是个笑话。当年伤害语言学家、流毒最广的名言:“我每开除一个语言学家,系统性能就上升”,说的就是语音。

詹:说真的,我一直很好奇Jelinek真的这样说过吗?这不是明显高估语言学家的能力吗?语言学家建设的能力,和破坏的能力,都比较弱。我是这么认为的。

李:他说的是事实,不过用了政治不正确的方式。这个事实就是:理性主义在语音AI领域被终结了, terminated,period. 

梁:这里理性主义是指,与神经网络对立的那一派吗? sorry I am a little lost.

李:对,是窄义,AI 理性主义就是符号主义,因为AI中还貌似找不到不是符号逻辑的理性主义(体现)呢。广义的哲学的理性主义,当然是永远的。

做了一辈子符号主义,说老实话,内心有点瞧不起它。不是它不好使、不管用、没有内部机制和学问,而是它就像玩家家似的,自己跟自己玩,哄自己高兴,忽悠大众,具有很大的“欺骗性”。它的所谓“可解释性”,都是“编”出来的。这种“理解”,你要它多深刻, 它就多深刻,但与哲学上的人类理性,天壤之别。一个是里子(“玩家家”的游戏实质),一个是面子(可解释的人工智能),我们往往为了面子,拼命维护它背后的里子。也许金玉其外,败絮其中呢,LOL

当然,符号主义也不是那么不堪。他有一个万古长青的优越性,与生俱来的,不可动摇。就是它的可解释性/系统透明性所带来的定点纠错能力(debuggability)。这个优势怎么强调都不过分,这在工程上很重要。NLP 落地应用的有效途径,就是把它当成不断迭代打磨的语言软件工程。系统玩家家的好处是,人面对的不再是个黑箱 monster,而是个错误可追踪、可重复、可定点修复的代码。

宋:“博士以后辗转南下,机缘巧合……”(《写在NLP小书出版之时》)
其中“博士”是什么句法角色、语义角色?

白:@宋柔 是一个里程碑。若干个里程碑构成一个隐性的序结构,达到了其中某一个,就处于序当中的一个位置。“……以后”是时间化了的方位词。也可以说,时间只是在推理中出现,此处就是一个方位结构。表明在隐性序结构中的抽象“位置”关系。

宋:@白硕 你在说我前面提的一个问题:
“博士以后辗转南下,机缘巧合……”(李维《写在NLP小书出版之时》)
其中“博士”是什么句法角色、语义角色?
我觉得不一定存在一个序列。通常情况下,说“X以后”,X可以是表达一个事件的动词短语或事件性名词,如“发大水以后”“水灾以后”。这里是普通名词被看作事件名词,把“博士”看作意为“得到博士学位以后”的事件名词。类似的,“宴会以后”。只不过这个例子作为最常见的解释,“博士”指一个人,“以后”可以是时间词,相当于“后来”,但此处不是这个意思。

李:本来写的是“博士后”。觉得不妥,改成了 “博士以后”。前者被词典绑架了 不想让读者费力消歧(休眠唤醒 挺累的)只好再加一字。

宋:还是没逃出歧义。[Grin]

李:对。其实是 “博士阶段以后”,当时是个 abd (all but degree ) 而不是 phd,匆匆逃出来打工/创业,再回头去答辩已经是好几年后了。前后跨度七八年,到了学校规定的死期,再不搞定,学位就泡汤了。那种煎熬日子不好过,老觉得有个死刑幽灵在前面徘徊。当时的处境很尴尬,一边厢科研创业做得红红火火,既拿到投资人钱,又拿到政府基金;另一边论文导师非常难伺候,常常是不放行,但也没反馈。走题了,打住。

白:<名词>以后,就暗含一个序了。

詹:@宋柔 典型的事件名词如“车祸、大雨”直接加“以后”常见。不过“博士”不是事件名词,放在这个构式里,是被“压制(扭曲)”理解为一个事件。这应该是有一定条件的。“序列”是条件之一。小学、中学、大学(本科生)、研究生、博士,……是个序列。这个序列里的词,内部结构并不整齐。博士同时又可以指博士生。

白:比如坐地铁,“圆明园以后人就空了”意思是过了圆明园这站以后人就空了。

詹:语言的生成和理解(编码跟解码)都有隐形的认知框架在起作用。

白:各站的排列就是隐含的序结构

詹:隐含的东西有的会在分布中显现。数据够多,也许能捕捉到。但我觉得,永远也不可能靠数据去复原认知。工程上能靠大数据模拟复原一些,当然是很了不起的。绝对不应该讥笑,但也不值得大吹特吹。

荀:目标是:基于大数据分布做高频语言事实还原,并能参照人类知识做泛化,进行长尾计算。

詹:理性主义就是讲理。神经网络在宏观层面,当然是讲理的。它的所谓不可解释性,是微观的处理过程层面,非线性模型,其“理”超出了人类的认知能力。

白:少将以后就很难晋升了。背景序列是军衔。当然“少将”除了泛指,还可能特指。这是个歧义。记得贾彦德讲课把这类序结构归于所谓“语义场”。语义场一般都是人类自己弄出来的,可穷尽。

詹:语义场是李老师说的玩家家。可能从哲学层面看,要害正在玩家家。语言是可以“定义”的。定义就是玩家家。定义面向将来。数据只代表过去。我可以基于数据定义,我也可以凭空定义,只要“你懂的”。

荀:在工程上,定义语义场,也是标签化的过程,人可以定义精致的标签,也可以通过机器借助大数据。在分布意义下定义,不管哪种方式,能解决现场问题就是好的定义。

 

 

【相关】

《写在NLP小书出版之时》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

立委NLP频道(liweinlp.com)】

 

 

 

 

 

 

【科普随笔:NLP主流的傲慢与偏见】(留存)

见鬼:科学网连这篇后来正式发表在专业杂志上的文章也屏蔽了!留存于此。

 

上篇博文【科普随笔:NLP的宗教战争?兼论深度学习】匆匆写就发出以后,没想到在新浪微博上一夜间有好几万点击,而平时我在新浪转发的博文最多也不到几千点击。想来一是题目比较花哨(宗教,深层学习,都是容易引起热议的 buzz words),难逃标题党嫌疑;二来内容也容易引起这个领域的争论、不屑或共鸣。

需要说明一句,那篇里面关于深度学习的notes,是信口发挥,各位不要认真,因为对于这样崭新的东西我是老外,是想当然地瞎议论,难免牵强。万一从某个角度让人看出了“道理”,那也纯粹是瞎猫撞死耗子,不足采信。

不过关于NLP过去20年两条路线的宗教式斗争,我和很多同时代人都是亲历者,这方面的每一句话都是有根据、负责任,经过深思熟虑的,有过惨痛的经历或胜利的喜悦。

虽然统计学界有很多对传统规则系统根深蒂固的偏见和经不起推敲但非常流行的蛮横结论(以后慢慢论,血泪账一笔一笔诉 :),但是机器学习的巨大成果和效益是有目共睹无所不在的:机器翻译,语音识别/合成,搜索排序,垃圾过滤,文档分类,自动文摘,知识习得,you name it

摘自【科普随笔:NLP的宗教战争?兼论深度学习】

近来浏览几篇 NLP (Natural Language Processing) 领域代表人物的综述,见其中不乏主流的傲慢与偏见,令人惊诧。细想之下,统计学界的确有很多对传统规则系统根深蒂固的成见和经不起推敲但非常流行的蛮横结论。这些一览众山小的大牛聪明绝顶,居然如此偏见蛮横,可见宗教式思维定势的危害之深,深入骨髓,对青年学子个更是贻害无穷。(主流掌门人中也有有识之士,以后再论。)可怕的不是成见,成见无处不在。真正可怕的是成见的流行无阻。而在NLP这个领域,成见的流行到了让人瞠目结舌的程度。不假思索而认同接受这些成见成为常态。因此想到立此存照一下,以后再一条一条细论。下列成见随处可见,流传甚广,为免纷扰,就不列出处了,明白人自然知道这绝不是杜撰和虚立的靶子。这些成见似是而非,经不起推敲,却被很多人视为理所当然的真理。为每一条成见找一个相应的 crappy 规则系统的案例并不难,但是从一些特定系统的缺陷推广到对整个规则系统的方法学上的批判,乃是其要害所在。

  • 【成见一】规则系统的手工编制(hand-crafted)是其知识瓶颈,而机器学习是自动训练的(言下之意:没有知识瓶颈)。

  • 【成见二】规则系统的手工编制导致其移植性差,转换领域必须重启炉灶,而机器学习因为算法和系统保持不变,转换领域只要改变训练数据即可(言下之意:移植性强)。

  • 【成见三】规则系统很脆弱,遇到没有预测的语言现象系统就会 break(什么叫 break,死机?瘫痪?失效?),开发不了鲁棒(robust)产品。

  • 【成见四】规则系统的结果没有置信度,鱼龙混杂。

  • 【成见五】规则系统的编制越来越庞杂,最终无法改进,只能报废。

  • 【成见六】规则系统的手工编制注定其无法实用,不能scale up,只能是实验室里的玩具。

  • 【成见七】规则系统只能在极狭窄的领域成事,无法实现跨领域的系统。

  • 【成见八】规则系统只能处理规范的语言(譬如说明书、天气预报、新闻等),无法应对 degraded text,如社会媒体、口语、方言、黑话、OCR 文档。

  • 【成见九】规则系统是上个世纪的技术,早已淘汰(逻辑的结论似乎是:因此不可能做出优质系统)。

  • 【成见十】从结果上看,机器学习总是胜过规则系统。

   所列“成见”有两类:一类是“偏”见,如【成见一】至【成见五】。这类偏见主要源于不完全归纳,他们也许看到过或者尝试过规则系统某一个类型,浅尝辄止,然后遽下结论(jump to conclusions)。盗亦有道,情有可原,虽然还是应该对其一一纠“正”。成见的另一类是谬见,可以事实证明其荒谬。令人惊诧的是,谬见也可以如此流行。【成见五】以降均属不攻自破的谬见。譬如【成见八】说规则系统只能分析规范性语言。事实胜于雄辩,我们开发的以规则体系为主的舆情挖掘系统处理的就是非规范的社交媒体。这个系统的大规模运行和使用也驳斥了【成见六】。

上述每一条都可以写一大篇或一个系列来详细论证其荒谬蛮横,描述学界主流中存在的傲慢与热昏。可是不用着急,血泪账今后一笔一笔诉 :)

【系列姐妹篇】

【科普随笔:NLP主流最大的偏见,规则系统的手工性】

【科普随笔:NLP主流偏见之二,所谓规则系统的移植性太差】

【科普随笔:NLP主流之偏见重复一万遍成为反真理】

【其他相关篇什】

【科普随笔:NLP的宗教战争?兼论深度学习】

坚持四项基本原则,开发鲁棒性NLP系统

why hybrid? on machine learning vs. hand-coded rules in NLP

《立委随笔:语言自动分析的两个路子》

《朝华午拾:在美国写基金申请的酸甜苦辣》

《立委随笔:机器学习和自然语言处理》

【立委科普:从产业角度说说NLP这个行当】

不得不承认,看完这些偏见之后,我有点乱了。我同意“每一条都可以写一大篇”都可以引起大的讨论,对于是否偏,一时还难明。有些我已经不知何时“采纳”了,有些也不接受。---究竟是正是偏,也是引领方向的大问题。一方面应深入讨论,示明于众,纠偏于正时。另一方面,应采实践检验的标准以实证。
米拉宝鉴:确实应该展开讨论,不着急,慢慢来。所罗列的“偏见”有两类:一类是谬见,可以证明其荒谬,譬如说规则系统不能处理社会媒体,只能分析规范性语言。另一类就是“偏”见,盗亦有道,情有可原,虽然还是应该对其纠“正”。这类偏见主要源于不完全归纳,他们也许看到过或者尝试过规则系统某一个类型。 浅尝辄止,然后 jump to conclusion

【置顶:立委科学网博客NLP博文一览(定期更新版)】

原载 《W. Li & T. Tang: 主流的傲慢与偏见:规则系统与机器学习》
【计算机学会通讯】2013年第8期(总第90期)

《写在NLP小书出版之时》

这本NLP小书《自然语言处理答问》终于出版了,还是蛮感触的。看商务这个《汉语知识丛书》系列,所选皆中国语言学界前辈,如雷贯耳。大家小书,精华荟萃,忝列其上,不胜惶恐。尤其是朱德熙先生的学术经典《语法答问》,是当年入行的启蒙书之一,几十年来读了不知道多少遍。屡读屡新,高山仰止。

受本书体例所限,未能有题献致谢之处,不无遗憾。回想此书从酝酿到封笔,一波三折,几近难产,其间几十番校改亦似陷入死循环。如今终于付梓,回顾给予各种支持的老师、同事和亲友,心存感念。没有他们的鞭策和推举、合作和指正,便没有本书的面世。

题献还真考虑过,从学术启蒙和传承看,毫无疑问理应献给我的恩师,以示符号逻辑学派在中国的传承和发展。当时的设计是:

首先要感谢的自然是商务印书馆的责任编辑冯爱珍。两年多的策划布局、反复校正,体现的是商务老专家的敬业和严谨。商务在中国出版界的品质和口碑,原来是有这样一批一字不苟、精益求精的编辑精英撑起的。近三年无数的编辑通信往来,终于迎来了她的祝贺:

喜讯:祝贺立委力作即将问世,比肩国内一流语言学家

朱德熙、李荣、何九盈、李新魁、冯志伟、邢福义……大家小书,厚积薄发;尖端知识,深入浅出。

三十多年来,李维博士始终站在自然语言处理的前沿领域,专心从事研究和应用开发工作,不仅有深厚的理论积累,也建立了很好的自然语言处理系统架构。他熟知自然语言处理相关的各种方法,在很多方面具有独到的见解和思辨。本书是他厚积薄发的倾情奉献,讲述自然语言处理相关的理论知识和应用技术,深入浅出,简明实用。从事人工智能、自然语言处理等研究的专业人士,以及在读后学,将受益颇丰。

本书的主要理论与实践源自人工智能的理性主义路线(称为符号逻辑派),与近三十年来的经验主义主流(称为机器学习派)呈对比。其在自然语言处理领域的起点是乔姆斯基的形式语言理论。我有幸师从中国机器翻译之父刘涌泉和刘倬先生多年,又有多次机会亲聆前辈董振东教授教诲,也从前辈冯志伟教授处获得计算语言学的熏陶。去国后有博士导师Paul McFetridge、Fred Popowich 以及给我们讲授HPSG 的语言系主任Nancy教授,带领我进入基于合一的文法领域。那是30年来最后一波符号逻辑的学术热潮了,尽管看似昙花一现。博士以后辗转南下,机缘巧合一头扎进工业界担任语言处理技术带头人二十余年,致力于NLP规模化产品研发。这种独特的经历使我成为本领域计算语言学家中极少数的“幸存者”,有机会在符号路线上深耕,推出独有的理论与实践创新。

合作者郭进博士在关键时刻,高屋建瓴,挽救了此作,不致胎死腹中。郭兄也是近三十年的老相识了。当年他在中文分词领域叱咤风云,是大陆学界第一位在本行顶尖学刊《计算语言学》上发表论文的学者(实际上是这个中文处理基础领域的理论终结者)。二十年前我在 TREC 第一届问答系统得奖的时候,与郭兄在会上不期而遇。他约我彻夜长谈,一定要问我怎么做的系统,表现出的浓厚兴趣令人感动。作为语言学家,我从入行就步入了语言学逐渐从主流舞台出局的国际大势(见《丘吉:钟摆摆得太远》)。科班主流出身的郭兄摈弃门户之见,不耻下问,颇让我意外惊喜。后来我们就NLP两条路线的纠缠有过很多争辩讨论。早在与商务酝酿本书之前,郭兄就力促我著书立说,曰不要断了符号逻辑的香火。开始动手写才发现,要把事情说清楚很不容易。想说的话太多,但头绪繁杂,一团乱麻。写了一章,就陷入泥潭。我内心动摇,说放弃算了。郭兄指出,这是系统工程,不宜用你语言处理的那套自底而上(bottom-up)的归纳式梳理。终于说服郭兄出马,自顶而下(top-down)指挥,宏观掌控,约法三章,不许枝枝蔓蔓。毕竟是工程老将架构大师,布局谋篇如烹小鲜。此一生机,柳暗花明。人生有很多跨越时空的奇妙片刻,连缀成串,让人很难相信没有一种缘分的东西(见附录“零  缘起”)。

本书论及的话题都在两个微信群与群主及同行友人有过多次切磋,从中深受教益。一个是《人工智能简史》作者尼克的AI群,一个是白硕老师的语义计算群。本书申报过程中,承蒙清华大学人工智能教授马少平和北京大学中文系詹卫东教授的专业推荐。2017年,詹教授还特邀笔者上北大“博雅语言学”讲座论《洞穿乔姆斯基大院的围墙》。同年,受孙乐研究员邀请,出席中文信息学会2017年学术年会,马教授主持介绍我做了主题演讲《中文自动句法解析的迷思和痛点》。这些演讲为本书相关章节内容的宣讲与接收反馈提供了平台。高博提供服务的【立委NLP频道(liweinlp.com)】也为本书的相关话题及其背景提供了数字平台。

特别需要感谢的是老友米拉(mirror)对本书初稿的谬爱。米拉说:“有些伽利略科学对话的意思,有趣得很”。 他反复推敲,细致入微;其科学见识和文字功力使很多审改堪称一字之师。直到最后定版前,死期只剩五天,我说终于从死循环中出来啦,米拉坚持:“我再学习修正一版如何?换了人视点就不一样了。我试试吧,总是要完美些才好。将来是准备推荐夫人做学中文的教材呢。”让人哑然失笑。当年我因为喜欢米拉的文字隽永,为他编辑过《镜子大全》。这是投桃报李,还是惺惺相惜呢。

毛德操先生也是本书的助产婆。特别是关于乔姆斯基批判,我从毛老、尼克和白硕老师处得到的教益最多。毛老是计算机业界著作等身的专家,我跟他说:在您的多次蛊惑和鞭策下,我终于开始“著书立说”了。毛老激励道:“哦,好事情啊!我当然要拜读。说到符号逻辑派,正是现下AI界新秀们的缺门。不说钟摆是否一定会回摆,至少是互补。我觉得你的书会大有可为。你不妨先在中国出版,然后把它译成英文在美国再出一次。”我有些受宠若惊:“英文出版就不提了,美国出版界我两眼全黑,又是非主流的东西。本书价值也许要经潮起潮落的时间积淀后,才会显现。这也是为什么要咬牙写出来的理由。自然语言符号逻辑派本来已经断层。我第一步是想保证内容的学术性,要经得起时间和同行的批评。”毛老的很多建议非常精彩,令人折服,不妨摘要分享给本书的读者。

(1)前面应该有个introduction,要照顾初学者特别是跨行者。自然语言处理本来就是跨度很大,但是人家往往视作畏途,他们连乔姆斯基是谁都不知道。所以得要把门槛降下来。

(2)书的定位,我觉得不妨是:最有学术性的科普,最接近科普的学术。

(3)书的体裁采用问答,当然也是好的。问答的特点是提问方不作陈述,不表达观点,所以我想改成对话也许更好,就像伽利略的《关于两个世界体系的对话》。三方对话也许还要更好,一方是深度学习,一方是符号推理-乔姆斯基,还有一方是符号推理-乔姆斯基批判。

我的老同学王建军教授在学术严谨性与章节安排方面提出了很好的建议。特别感谢宋柔老师、周流溪老师的鼓励和建议。各种鼓励和帮助也来自同行友人周明、李航、裴健、张桂平、施水才、傅爱平、李利鹏、雷晓军、洪涛、王伟、陈利人、唐锡南、黄萱菁、刘群、孙茂松、荀恩东、薛平、姜大昕、牛小川、执正、严永欣、欧阳锋。在成书出版的过程中,笔者受到了公司领导周伯文、何晓冬、胡郁、高煜光、贾岿的支持,一并致谢。

在符号NLP落地应用的过程中,我不同时期的搭档和助手,Lars、牛成、Lokesh、李磊、唐天、林天兵、马丁,帮助实现了产品的规模化,显示了自然语言创新的价值。田越敏、孙雅萱、郭玉婷、侯晓晨、Sophia Guo 等同学仔细阅读了本书的初稿,她们的反馈意见保证了本书对于后学的可理解性。

做了一辈子工匠,著书立说从来没有正式列入我的人生计划。在两年的成书过程中,家人也跟着激动自豪,分享“一本书主义”的喜悦;尤其是老爸和太太的鼓励。 最后是女儿甜甜的贡献。讲解词典黑箱原理的时候,觉得可以采纳流行的段子作为插图。为避免无意侵权,只得求甜甜帮忙了。甜欣然应允,于是有了两幅女儿给老爹的书画图,别有趣味。

  

甜甜说画的就是我,我觉得蛮像,倒是画她自己不怎么像。老相册里找到几张带她小时候游玩的留影可做比照。回首过去20多年,女儿与NLP从来都是生活的两个圆心。女儿的贴心,让坐了一辈子NLP学术冷板凳的积淀压模过程,也飘过丝丝暖意。

这注定是一本小众冷书。但愿所传承创新的符号自然语言学术,丝相连、藕不断。有如人工智能理性主义的潮起潮落,庶几留下一声历史的回响。谁知道呢,五十年河西,“神经”恐非历史的终结。钟摆回摆的时节,历史或被重新发现。

夜阑人静,耳机中飘来秘密花园的名曲,那是新世纪《落雨的时节》(Sometimes when it rains)。余音萦绕,不绝如缕。

记于二零二零年七月十五日夜半苹果镇。

【附】

 

目  录

零  缘起     

壹  自然语言与语言形式   

贰  语言的符号模型 

叁  中文分词的迷思 

肆  词性标注的陷阱 

伍  语言递归的误区 

陆  乔姆斯基语言学反思   

柒  深度解析是图不是树   

捌  有限状态的机制创新   

玖  错误放大与负负得正   

拾  歧义包容与休眠唤醒   

 

零  缘起

自20世纪80年代起,人工智能领域见证了理性主义(rationalism)与经验主义(empiricism)的“两条路线斗争”。其中,自然语言学界的“斗争”结果是,文法学派(grammar school)与统计学派(statistical school)此消彼长,机器学习渐成主流,计算文法(computational grammar)则有断代之虞。

2018年,李维与郭进在硅谷就自然语言解析(natural language parsing)问题进行了十次长谈,回顾并展望文法学派的机制创新与传承之路,意图呼唤理性主义回归,解构自然语言,协同攻坚人工智能的认知堡垒,遂成此作。

李维,1983年入中国社会科学院研究生院,师从刘涌泉、刘倬先生,主攻机器翻译(machine translation),始涉足自然语言领域。毕业后在中国社会科学院语言研究所从事机器翻译研究,继而留学英国、加拿大,获Simon Fraser University(SFU)计算语言学(Computational Linguistics)博士。1997年起,在美国水牛城、硅谷,从事自然语言理解(Natural Language Understanding, NLU)工业实践20余载,为人工智能(Artificial Intelligence,AI)应用第一线的系统架构师。

郭进,1994年新加坡国立大学计算机科学博士,主攻中文分词(Chinese tokenization)和统计模型(statistical model),成果见于《计算语言学》杂志等。1998年赴美,先后在摩托罗拉、亚马逊、京东硅谷研究院等从事人工智能研究,探索将机器学习(machine learning)、自然语言处理(Natural Language Processing, NLP)等人机交互技术应用于互联网与物联网的解决方案。

 

【相关资料】

《丘吉:钟摆摆得太远》(W Li, T Tang 译)
【计算机学会通讯】2013年第12期(总第94期)      

《规则系统的移植性太差吗?》W Li, T Tang
【计算机学会通讯】2014年第8期(总第102期)                                                                  

《主流的傲慢与偏见:规则系统与机器学习》 W Li, T Tang
【计算机学会通讯】2013年第8期(总第90期)     

Critical Tokenization and Its Properties", J. Guo, Computational Linguistics, Volume 23, Number 4, December 1997

镜子大全

立委NLP频道(liweinlp.com)】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

 

 

 

《开场锣鼓: 立委论镜子》(留存)

对于镜子(又称米拉先生),立委的既定方针是坚决捧杀,捧得越高,摔得越重,直到他粉身碎骨,成就海外中文网络的绝代传奇为止。

谁叫他是无所不知的高人呢。还让人活不让人活?

==开场锣鼓: 立委论镜子==

镜子惯于借题发挥,自说自话。 (98622)
Posted by: liwei999
Date: July 18, 2007 11:23AM

镜子强调的是天然钻石有人工钻石所不具有的独特价值,哪怕它们的构成成分是完全一样的。镜子的体系是一以贯之的。

镜子比较超然,无意树敌,不是为了掐架而掐架。所有的人、事、物都是他话题的引子。跟侯宝林大师类似,一肚子学问和智慧,不能碰,更不能掐,一碰一掐就往外冒。

可惜,象老兄和无理这样的文理兼通又爱舞文弄墨者, (67868)
Posted by: liwei999
Date: March 24, 2007 10:29PM

不整一个博客,把文字汇集,使亲朋好友及爱好者,有个可去的地方观瞻,实在可惜。现在开博客,跟贴帖子一样简易。不求点击,只求不散失,readily accessible。一旦有了集中地,也好随时增删修改以求完美。

我跟镜兄说过这个意思,他可以编一部名垂青史的《新说文解字》,镜子大师不以为然,上帖自得其乐,帖后管他东西。高人的心态,或者真正看透了,我辈不好揣摩。

立委读镜子有感:一个人上帖子玄妙一次不难,难的是帖帖玄妙。

镜子的语言风格是独特的:隽永,玄妙,京味,幽默。
镜子语言不明白晓畅,不诗情画意。镜子为了抠字眼,或者展现其独特思维,用字有时甚至显得生硬。
但是他的生硬是有意为之,而不是无知的结果。
镜子的语言是一流的。
镜子创造的警语妙语禅语,让人有回味。
风格和个性是文学语言的生命。对错且不论,“镜语”堪称一绝。

确实有听不懂的地方,但也有茅塞顿开的时候。 (42067)
Posted by: liwei999
Date: December 18, 2006 02:29PM

各人背景不同,听后感觉不同正常。但是,比镜子高明的人,怕不多吧,自称的不算。

师妹冰冰雪泥这样的人,基本属于童言,偏偏不信邪。 (35318)
Posted by: liwei999
Date: November 21, 2006 08:22AM

难得保持这份童心。

人老了。顾忌就多了,什么场面呀语境呀资格呀大节呀,照顾情绪呀,说话开始转弯抹角。一不留神,成了老狐狸。

最佩服常识大师镜子先生,自创了一套自己形式系统,显得莫测高深,可大多表达的内容跟童言无异。

鹿兄好心人,明里暗里拿镜子大师教育我,说你看镜子那样多好,既切中要害,又免于攻击。

天哪,天底下不才一面镜子吗?这种“世界几百年,中国几千年才出的一个天才“(引自林彪)我要学,连北都找不着。

寸有所长,尺有所短。镜大师的莫测高深的”形式“,也丧失了一些听众,影响其”内容“的流传。话说回来,如果能明白晓畅,镜子的遭遇也就跟MM们无异了。

镜子的问题是跟“主旋律”偏离的问题 (46224)
Posted by: liwei999
Date: January 11, 2007 01:00PM

引起反弹是必然的。

从“啄木鸟说”,“白努力说”到现在的“太阳地球绕行说”,一步一步偏离正统,广大热爱科学、相信科学的群众对镜子先生的“堕落”非常痛心。

什么是”正统”?自从五四引进德先生赛先生,虽然现实中不能生根发芽,在思想意识上却自然成为了正统。以德赛二先生说事的往往占有天然的道德优势。不民主,假民主,不科学,伪科学,遂成杀伤力最强的武器。

请教镜子兄一个关于镜子的问题。 (47797)
Posted by: liwei999
Date: January 15, 2007 08:48PM

镜兄也是老网客了,您老比较玄,立委文科出身,常常跟不上。不过,有一事想跟您核实一下:

您老的高论,我虽然每次都认真读,限于知识结构,常常是半懂不懂,所以不敢妄加评论。不过,很多时候,我觉得您谈的也不过是“童言”,不过用了一套看上去比较玄的语言,居高临下,深入深出。但道理并不难懂。

上次我说您偏离“主旋律”,自然引起反弹,L 说我唯恐天下不乱。我接着说,不是从您的一个贴子,而是从您的系列贴子发现了您老的“堕落”,堕落到批评“迷信科学”这个L指认的“伪命题”。

谢指教。

“镜像”是个操作,对称性的操作。 (47806)
Posted by: mirror
Date: January 15, 2007 09:16PM

“伪命题”是个结论。对于结论性的东西,也就没有什么可以讨论的了。

如同一根圆柱可以看(投影)成矩形,也可以看(投影)成圆形一样,“结论”也可以改变的。

“迷信科学”与“相信科学”这两个状态,在某个时刻往往是不可区分的。通过某种操作,可以发现对绝大多数人,包括博士们在内,都是属于“迷信科学”,虽然他们主观上都是讲“相信”。

“相信”是一种状态,一个脑路处理问题的方式。这个方式并不是唯一的。所谓的“迷信”是对“相信”这种状态的一个表达法。有两种用法:1)认为“官定”方式之外的处理方式为“迷信”,2)相信有(唯一)一个处理方式的认识论。

通常镜某使用“迷信”是第二类的用法。

又及。{我觉得您谈的也不过是“童言”]的感觉相当贴切。 (47831)
Posted by: mirror
Date: January 15, 2007 09:53PM

比如有个数学上的定理:体里面,只有一个零。而到了“童言”,就是“体”里面,要有两个“零”了。

“居高临下”的感觉是个错觉。其原因是来自往“高”了看。望“远”处看就可以化解了。“深入深出”不敢当,不过是“点入点出”罢了。

家里有人写“童话”,也曾经谈过写作的话题。“童话”本身,实际上是大人要说的、想说的话。

谢两度回复指教。看样子文科课代表还没有太离谱。 (47854)
Posted by: liwei999
Date: January 15, 2007 10:21PM

我的理解方式不是从树木看森林,因为您的树木我不能总看明白。

但是“童言”的感受几乎是直觉似的,不必看清每一棵树,理解每一个论证步骤。这片林子是春景,还是秋色,远远瞅一眼大体就有数了。

文科的劣根性,而且是旧式的文科。

说难也难,说易也易,镜子是一以贯之的。 (118108)
Posted by: liwei999
Date: November 22, 2007 08:20PM

喜欢琢磨乔木司机的,也应该喜欢镜子。

玄是表象,一以贯之的是童言,连文科都懂。 (118110)
Posted by: liwei999
Date: November 22, 2007 08:29PM

枝节和形式可以剥去,细节无须弄清,主线就出来了。对于主旨,镜子可以说是苦口婆心,不厌其烦。

世界都是一种风格,缺乏多样性,该多么无趣。 (118132)
Posted by: liwei999
Date: November 23, 2007 01:17AM

马克思写《资本论》,特别是论价值和使用价值(劳动价值论)的时候,也是苦口婆心的,反复论证,冗余度不可思议。

公认的智者乔木司机,论美国外交和大众传媒,也是苦口婆心不厌其烦的。

这两位都是人类思想史上仅次于《圣经》的,most quoted men.

立委论镜子新篇:
 
立委和镜子,桥是桥,路是路!
作者: 立委 (*)
日期: 03/16/2010 21:16:26
立委按:这位仁兄新创名词“mirror立委”,连space都不放一个,把我和镜兄生绑在一起,也不怕挤得慌,甚至也不避同志之嫌。我虽然对镜子的妙语连珠很欣赏,也自愿担任《大全》总编,却没有同流的意愿。他的意见是他的,我的是我的。他横扫一切,我谨小慎微。他天马行空,我一步一个脚印。他是哲学家,我是泥瓦匠。他满纸荒唐言,我一把辛苦泪。他追踪热门话题,我只看风花雪月。他与科网随风起舞,我自岿然不动。他对权威指手画脚,我敬鬼神而远之。他无师自通,无所不能,我只懂信息抽屉,maybe 还有点儿机器翻译。他帖子里面引号多,让人头大;我帖子里面图片多,赏心悦目。他说的话只有两个半人真懂(其中一个是他自己,半个是立委),我的话浅入浅出,老妪能解。总之是天差地别的两个实体,一定要划清界限。他津津乐道的那些个飞机为什么会飞,饺子为什么要点水,月亮是地球的大奶还是二奶等等,我一点也不入,最多是看热闹而已。谁要是把这个反动学术权威批倒批臭,我乐观其成。

应“镜子没常识”。 (120733)
Posted by: mirror
Date: December 02, 2007 08:25AM

镜某是左手批精英,右手批大众,左右都是“道理”。以“常识”来批学术和以“学术”来批常识,两个都作,随心所欲。“护”中医而不信中医,“用”科学而不“信科学”;“护”大众而不媚多数,“用”洋医而不“唯洋医”。

——– 就“是”论事儿,就“事儿”论是,就“事儿”论“事儿”。

有网友评:这个是米拉大师全面的自我注解了。

回 《镜子大全》目录:
http://www.starlakeporch.net/bbs/read.php?45,23273

 

http://blog.sciencenet.cn/blog-362400-305296.html

上一篇:《甜甜花絮:Practice Makes Perfect》
下一篇:mirror - “冷眼”看用人的问题

 
 

收藏

《马斯克AI自动驾驶的背后:软件的内伤,硬件的短板》

红色的Y是最新的迷你型SUV,大众版的X

马斯克财产超过马云以后,据报道今天也超过了股神巴菲特。

总觉得他的财富有我们帮他免费义务做marketing的份儿,他欠了粉丝们和观察家们一大票广告费。特斯拉的广告支出一直保持零记录,省的钱都进了大股东的腰包了吧。

最近特斯拉又出事故了:《特斯拉和比亚迪撞上了!自动驾驶失控?特斯拉回应……》。这显然是软件问题,却说:“根据后台调取的数据,在事故发生时车主的双手处于脱离方向盘的状态,并且没有检测到制动信号。判定为车主当时操作不当,而非车辆的FSD硬件问题。” 废话,当然不是硬件问题,一台超级电脑本身会有啥故障?这套说法只是规避法律责任风险。即便司机手在盘上,但不做操作,也会说这一样是司机的责任,FSD 使用条款上早就写得明明白白,这是 beta(永远的 beta),后果自负。

车横插过来,以为 FSD 会自动让车,避免相撞,这是合理的,也是用户使用过程中迟早必然形成的预设。特斯拉 FSD 用户慢慢学会了或习惯了遇到有车加塞,不必去管它,因为 FSD 的基本功能就是要应对这种的。现在情况是,特斯拉是愚公移山,却宣称山已经移走。特斯拉的这套软硬件体系和算法对策一定会发生事故。它对长尾的办法,基本上是靠事故 trigger bug reports,然后收集数据,对于 bugs 各个击破。特斯拉不可能应对真正长尾。最后的成功,都是咱们这些小白兔们牺牲、受损的结果。特斯拉对付长尾靠的是大海捞针一样去收集长尾数据,然后做针对性特别训练,然后希望这特别训练的部分可以自然融合到自动驾驶的整体决策中。这个过程有与生俱来的缺乏透明性、不能确保定点纠错的黑箱模型的短板在。今天撞到大白货车上,就试图收集大白货车的各种图片视频,人工标注完然后教给机器,说这不是蓝天白云,而是货车。这部分训练是 CV(计算机视觉),并不直接训练自动驾驶决策(速度和方向的调整)。CV 在这一点提高了就被融入系统,希望它增强。但系统本身巨大无比,到底在具体场景达到多大效应依然是难以解释和追踪的。这才有同一种事故,会一而再发生的问题在,小白鼠牺牲一次是不够的。(第一起广为人知的最严重的致命事故是一位从事IT高管的特斯拉粉丝,它一头撞上一个横穿马路的白色大货车,同类的事故不久前在台湾也发生了,这次是横躺在路上白色货车,所幸无人伤亡)。而且适度泛化也不能确保。白车识别问题解决了,也许某种黄车又是问题了。软件方法论的短板,加上硬件跛脚没有激光雷达,不出事故才怪。如果配备激光雷达,上面提到的几个事故可以杜绝。马斯克夸张说凡是FSD用激光雷达,都是作死。说对于自动驾驶场景不 make sense。这完全是造价量产上的考量,却包装成 CV 软件技术上对于激光雷达的可替代性。纯属于误导。根本性解决方案是激光雷达技术进步,造价降低到可以普及量产。马斯克不过是打了个时间差,在硬件造价无法承受量产普及自动驾驶的时间,用软件瞎凑合,鼓吹 AI CV 无所不能。是 AI 泡沫成就了敢于冒险的马斯克。老友说得有道理:“小马同学的特点是用人类不敢干得事却把它干成了。利用CV合成3D图像,一旦做成就形成了entry barrier, 把google, apple, amazon etc. 甩在脑后了。” 然而很难说谁先到来,到底是激光雷达价格下来可以承受先来,还是cv几乎完美取代硬件先来?所以特斯拉也是在和时间赛跑。

回头看小白鼠们,我们都是傻瓜吗?不是,安全性上,特斯拉用户实际上是做了笔交易,牺牲了习惯性相信 FSD 而必然导致的麻痹性长尾危险,换取了 FSD 反应快过人类在其他场景带来的安全增强。每一个长尾事故的另一面,是 FSD 比人类快得多的自动规避风险案例。可是好事不出门,恶行传千里,媒体只报前者,后者媒体很少报道。但如果你去 google “tesla saved lives“,“Tesla saved animals” 、“Tesla avoided collisions”,你会发现很多案例和视频。人类其实很可怜,趋利避害也只能做到两害相权取其轻。当小白鼠不是不知道特斯拉忽悠自己的全自动是误导,而是貌似好过其他选项。

一年前的世界人工智能大会,马云与马斯克对谈AI,话不投机,基本是驴头不对马嘴。这几天咱中国又开世界人工智能大会了。马斯克远程现身,少不了鼓吹他的全自动(FSD)。回答会议提问L5这最高级别自动驾驶,会不会到来?马斯克拍着胸脯说:眼看就到了,就在今年。

先给一点背景信息。自动驾驶界对自动驾驶能力一般分为从低级到高级的五个 levels,大体如下:

美国汽车工程师学会(Society of Automotive Engineers)给出的评定标准,其主要内容是:

0级:无自动驾驶,由人类驾驶员全权操控汽车,可以得到警告或干预系统的辅助;

1级:驾驶支援,通过驾驶环境对方向盘和加减速中的一项操作提供驾驶支持,其他的驾驶动作都由人类驾驶员进行操作;

2级:部分自动化,通过驾驶环境对方向盘和加减速中的多项操作提供驾驶支持,其他的驾驶动作都由人类驾驶员进行操作。

3级:有条件自动化,由自动驾驶系统完成所有的驾驶操作。根据系统要求,人类驾驶者需要在适当的时候提供应答。

4级:高度自动化,由自动驾驶系统完成所有的驾驶操作。根据系统要求,人类驾驶者不一定需要对所有的系统请求做出应答,包括限定道路和环境条件等。

5级:完全自动化,在所有人类驾驶者可以应付的道路和环境条件下,均可以由自动驾驶系统自主完成所有的驾驶操作。

http://www.zhiding.cn/wiki-Autonomous_Car_Grade

按照上述标准,业内人士一直评定特斯拉刚到 L3水平。他就大嘴说 L5 指日可待。这是在偷换概念。业界的 L5 标准是业务 specs,马斯克的定义是工程 specs,前者到后者的转换,是工程实施的前提。但这个转变也可能有很多猫腻,夹进去私货。普罗大众哪里搞得清二者的分别,大多选择相信名人,偏听偏信,似是而非。

马斯克的工程specs是把自主驾驶或全自动驾驶分解为子任务:(1)召唤(summon):特斯拉听从主人召唤,从停车场自动开到路口接主人上车;(2)市区驾驶(city-driving):这又进一步分为一系列子任务,包括识别红绿灯过路口,路口自动转弯,等;(3)穿行高速(Navigate on Autopilot):从接壤市区的匝道上高速一直到从匝道下高速,接上市区驾驶,子子任务包括自动换线,自动从一条高速进入另一条高速等。 每个子任务一旦完成上线工程第一版,他就宣称已经实现,虽然质量不高、bugs 不断。按照他自己的这个全自动实现的标准,特斯拉的确已经完成四分之三的功能组件了。努把力,年底做到所谓全自动功能齐全(FSD feature complete)不是不可能。马斯克有一句话泄漏了天机:所谓 feature complete 的全自动,就是以非零的概率完成从家到办公室的点到点全程自动驾驶过程,人不需要参与。

这个标准也忒不讲理了,低到不能再低了,他好意思说出来,还敢声称 L5.  但从工程角度,他自有自己的道理 :全过程人不参与,哪怕只实现一次,也说明每个环节、每个 feature 都有 FSD 的应对。所以说 features 是 complete 了。能力、潜力或可行性算是证明了。这是从0到1的转变。其余的一切失误、bugs,都属于渐变提升的过程,那是从1 到 n,乃至无穷大,是无止境的。假以时间,就一定越来越好。

对比业务需求的L5定义,应该明白什么叫忽悠了吧。忽悠的化境,不过如此。并且还可以振振有词,貌似能自圆其说。这里面的 catch 就在,任何一个真正反映了业务需求的工程定义,都必然对 features 的质量规定了可量度的指标,这个指标绝对不是“非零概率”这样的地板门槛。

马斯克玩这套忽悠已经好多年了(四五年前就声称i已经有能力点到点从加州全自动驾驶到纽约,还定下了日子要给世界做演示,最后当然是天大的泡沫)。他吹过的牛皮、吹过的一个一个泡沫破灭,自定的死期一个一个错过,他居然不倒,反而以此获得荣耀。发现一个顶级的企业家,总是善于用短板和缺陷赢得生意和发展机会的。马斯克就是如此。他利用了硬件的短板(缺乏激光雷达)和软件的内伤(以场景枚举的再训练对付无限长尾)收获了自动驾驶领域最大的红利。这样下去,不用太久,世界首富非他莫属了。

特斯拉全自动驾驶无论硬件软件都不是第一流,也不是最安全,但它做到了工程量产和大众推广,这是其他一流自动水平的玩家都做不到的。这主要是工程改变世界,而不是仅靠科学。

前面说过,特斯拉玩的是蚕食策略,长尾现象一个一个做,最终希望逼近到这样一个程度,可以用数据说明,自动驾驶比人驾驶的安全性高了一个量级,事故减少了一个量级。这时候,没有道理不让自动驾驶接管,因为它更加 saves lives,这个思路本身无可非议。FSD 不能应对千变万化。但是,人也不能应对千变万化。我们上出租、火车、飞机,都是把性命交给他人或机器,明知道司机和机器不是100%安全的。特斯拉不需要达到 100% 安全,它只需要达到大幅超过出租司机的安全性,原则上就可以得到批准上路。何况,这个过程中,V2X 那边也在发展。社会也在进化,随着招之即来挥之即去的无人出租上路,越来越多的人最终会放弃买私家车,路上的机器驾驶比人驾驶越来越多。到了某个时候,除非特别批准,人类驾驶不准上路了,这时候安全性的问题基本消失了。

 

 

 

【相关】

《马斯克的AI牛皮》

《王婆不卖瓜,特斯拉车主说自驾》

是特斯拉的自驾AI牛还是马斯克牛?

《AI赚钱真心难》

https://ts.la/wei29218 :用这个推荐订购特斯拉,你我都可得到1000英里免费超冲。

《马斯克的AI牛皮》

马斯克名句:

The FSD price will continue to rise as the software gets closer to full self-driving capability with regulatory approval. It(At) that point, the value of FSD is probably somewhere in excess of $100,000.

随着软件在监管机构的批准下越来越接近完全自动驾驶能力,FSD(全自动驾驶软件包)的价格将继续上涨。最终的FSD价值可能超过10万美元。

吹嘘说这套FSD全自动驾驶软件一旦完全建成,它的价值应该在 10 万美金左右。一辆车才 4 万美金,软件能值 10 万。只有马斯克的大嘴可以吹得出来。但是这是垄断价格,你没法子。支持他这套AI牛皮的是这样的论证,看能不能自圆其说:

他说你买了一辆特斯拉 4 万,然后你按照现在的价格 8000 美元(昨天是 7000 美元)买这个还没有实现的全自动驾驶。你就具备了参加 Robo Taxi (无人出租车)网络的资格,到时候特斯拉在你睡觉的时候,就发指令把你家的特斯拉开出来服务客户,所赚取的钱两家分成。你啥也不做,结果一年就可以挣钱10万。你如果现在不买不到一万美刀的 FSD,到了能够赚钱的时候才购买FSD去加入它的赚钱俱乐部,也是可以的。但对不起,那时候 FSD 就要售价为 10 万了。你一年左右可以赚回来,也不亏,是不是?所以说,FSD 的价值随着功能的增强和全面是递增的。

多漂亮的一套说辞。商人(企业家)做到他这份上,真是开眼了。

软件的高价只能靠垄断。一旦出现竞争,软件的价格绝对是不断下降。但是马斯克底气足是因为他现在没有竞争。没人有能耐或敢于把FSD交付给市场和终端车主。其实以前为特斯拉提供辅助自动驾驶服务的 Mobileye 就跟它不相上下,差了还不到半步,而且也不依赖昂贵的激光雷达。但是这半步还是很难追赶,因为特斯拉是硬件软件一体的,而前者只提供软件解决方案。另外,特斯拉数据源源不断,这对于离不开大数据的AI神经网络训练是关键性优势,特斯拉的自驾性能预期提升速度会呈现加速度。其他的自动驾驶比特斯拉的表现强的不是一家两家,他们依赖昂贵的激光雷达,无法把这些高大上的自动驾驶AI能力融入量产电动车,交付给客户。特斯拉的AI垄断价格,估计还可以至少维持5年。(最新的消息是,中国有的厂家已经可以造出便宜可用的激光雷达了。那时候,特斯拉的垄断可能会被打破。)

马斯克还有一句名言,大意是:世界上所有的车,都是随着时间折旧贬值的。唯有特斯拉,是不断增值的资产(appreciating assets)。都什么年代了,还去买燃油车,只有大傻瓜才不买特斯拉。

论证这一点,马斯克使用了完全相同的 Robo Taxi 帮助你睡梦中赚钱的说辞。他说,维持这个无人出租车队的是特斯拉,而特斯拉自己不可能一夜之间造出来足够多的出租车。因此必须与特斯拉车主合作,让利分成。你作为车主,先投资买了特斯拉,一旦它成为摇钱树了,你就被特斯拉收编。

美丽的神话。但貌似逻辑上也没大的漏洞。无人驾驶出租,按照马斯克,是一两年内的必然,AI 本身的能力毋庸置疑,其安全性要远远超过人类驾驶。唯一的障碍是政府监管部门是否及时批准无人出租业务。

老友说:“要做无人出租车的话,电池容量要大大增加,或者做到无人自动充电”。

可不,马斯克本质是忽悠。他说的半真半假。他在一个访谈节目已经展示了无人自动充电的原型机。电池容量的问题,说是百万英里电池已经有技术突破,今年底可以量产。但电池是整个车成本的 40%,老的车总不会去给免费更换电池吧(购买FSD的老客户,特斯拉许诺免费更新电脑硬件到 HW3,也是费了很长时间还没做好,比起电脑硬件,电池硬件成分更大得多)。

不久前在某AI峰会上,二马(马云与马斯克)对谈,感觉是一个暴发户遇到了不食人间烟火、充满“爱”(AI)心的外星超人。这一眨眼,超人也成了暴发户!据最新报道,马斯克的财富已经超越马云。

 

IMG_4154

IMG_4137

 

 

【相关】

《王婆不卖瓜,特斯拉车主说自驾》

是特斯拉的自驾AI牛还是马斯克牛?

《AI赚钱真心难》

https://ts.la/wei29218 :用这个推荐订购特斯拉,你我都可得到1000英里免费超冲。

 

 

 

《王婆不卖瓜,特斯拉车主说自驾》

“车到山前必有路,有路就有丰田车”,这是改开以后进口汽车大举入境听到的最响亮的广告词,也是我们在特斯拉前最忠于的厂家品牌了。除了一度短期尝试过二手车马自达626和Honda CRV外,换过的四次新车都是丰田,从 Corolla 到 Camry,再到 Prius 和 Camry Hybrid。

如果没有电气化和AI革命,丰田作为贴心厂家也的确没有什么好挑剔了。人有惯性和惰性,估计就一辈子跟它了。可是半路杀出个特斯拉,一开始以为无缘,因为家里车库成了仓库,满是舍不得扔的陈年旧货,无地支持充电了。后来老友指出外面充电也很容易,这才搭上了特斯拉大篷车。

昨天新闻特斯拉一枝独秀,二季度疫情期间被迫停产两个月依然表现靓丽,大幅超过华尔街预期,交付了9万辆(分析家预期是7 万),其中有两万多 Model Y。眼看股票又一轮大涨,快天价了。丰田比特斯拉量产和交付能力大27倍之多,结果市值却被特斯拉超越。从来不乏唱衰(short)特斯拉的投机者,据说他们被坑惨了,有的几近破产。

特斯拉的魔力何在?到底有什么特别的实惠?

至少对我,特斯拉的自动驾驶(auto-pilot / full self driving)一劳永逸地解决了开车的三大隐患。这开车三大险,一辈子感觉有阴影:(1) 是换线; (2) 是上高速并线;(3) 是打瞌睡(疲劳驾驶)。

换线和并线对于我特别重要,是因为我比较笨(右脑欠发达?)。开了30年的车,迄今换线还不时会发怵。发怵的感觉就是在赌命、冒险。这种感觉很不好。现在好了,我要换线就只管打转向灯,然后半闭着眼睛由他去,不用先侦查敌情,后检查盲区。迄今为止,特斯拉自动换线已经实施了多少千万上亿次了,因为换线而引起的事故一次也没有过。这不奇怪,它有那么多眼睛(8个摄像头,12个超声波,外加1个前瞻雷达),又长于心算,换不过去它不会冒险。而通常情况下,它总能找到足够大的空档和机会。人就不同了。手脚笨的人心理素质差,错过机会的事情经常发生,不该冒险的时候,又常常糊里糊涂冒险。没法跟机器的冷静自若比。从来没见过机器发慌,只偶尔见过它换线刚要启动,突然重回原线,那是因为后面的空档被某人突然加速缩小了,它及时做出反应。

这第(2)项是从匝道上高速,心惊肉跳过不知多少次了,尤其是当年刚学驾驶的时候,那简直就是鬼门关。北美的有些路口设计得忒短,好像逼着你去撞车似的。谢天谢地,特斯拉现在接管了。当然,目前的感觉匝道并线还是不如换线让人放心。虽然也没听说过特斯拉因为并线出了事故,但是有时候还是觉得它有些鲁莽,让人心理感觉不好,有时候情不自禁自己要接管过来。希望这个功能进一步加强,不仅仅是确保并线的安全性,而且要寻找最佳并线策略,照顾驾驶者的玻璃心。

第(3)项是疲劳驾驶。这种事情身边的亲朋好友出事故、大难不死的,已经有若干起了(因此伤残、乃至一命呜呼的报道也见过不少)。我自己也有过若干次惊魂一刻的恐怖体验,一想起来就后怕:突然瞌睡受不了,多次挣扎后不知何时突然在高速上就打了几秒钟的盹,冥冥之中的恐惧之神又使得惊醒过来。高速路上的困倦感觉非常不好,惊醒后的感觉更加糟糕,总觉得是从死神身边走了一趟回来,往往心跳虚汗不止。虽然可以用逼迫自己下高速小睡片刻的办法来应对(现在也大多这样践行了),但实际上一辈子完全不冒险疲劳驾驶,估计谁都做不到。很多时候是自己在停与不停之间纠结,感觉还撑得住,总想再坚持一下,觉得掐大腿,唱革命歌曲、鬼哭狼嚎、喝浓茶或咖啡,以为总可以坚持到下一站,不必荒郊野外地下高速。现在,这个问题基本解决了。不是因为自动驾驶可以代替你的睡眠,而是因为:(1)由于 90% 以上的时候,自动驾驶功能使得你处于放松状态,同样的路程紧张感疲劳感大为降低,疲劳驾驶出现的几率大幅度降低;(2)万一打盹了几秒钟、几分钟,虽然规矩上不被允许,但有自动驾驶罩着,安全性上其实是没有问题的。

驾驶三险基本解决,而且只会越来越好,你说这个不是实惠什么是实惠。所以几乎所有的特斯拉车主自愿做自动驾驶的小白鼠、做被割的韭菜,自有其心甘情愿的道理。

 

【相关】

是特斯拉的自驾AI牛还是马斯克牛?

《AI 赚钱真心难》

https://ts.la/wei29218 :用这个推荐订购特斯拉,你我都可得到1000英里免费超冲。

 

 

 

《AI 赚钱真心难》

朋友圈看到关于风投之神孙正义的新闻《大溃败!今天,阿里最大股东断臂求生!》,令人感慨。

上帝似乎是公平的,他让上一波科技革命赚取太多的富豪,在新一波泡沫中吐回来,做了必要的死在沙滩上的前浪。他不亏,谁亏?What comes around goes around,这是最值得吐血的对象。

这一波AI泡沫,比上一波互联网泡沫,更加诡异。你说它全是泡沫吧,背后其实有很多干货。你说它是真的吧,除了马斯克特斯拉的自动驾驶和少数AI项目,绝大多数AI无法规模化落地,成为可以带来利润的生产力。这个诡异怪象让很多风投滴血,甚至把很多AI专家也搞糊涂了。

到底是巫术还是奇迹,为什么出不来产品,为什么靠AI赚钱这么难?

迄今为止,AI赚了钱或得了利的主要是三种人:第一种是赚了风投的钱,吐血的是大大小小的孙正义。第二种是搭了巨无霸的顺风车,那些IT大厂不惜巨资做AI,不是因为AI给他们做出了赚钱的产品,而是想靠炒作AI提升股价,最终是让股民买单。大厂无一例外不敢不上,不能不鼓吹AI,无论其创始人对AI是真了解还是门外汉。他输不起,泡沫起处,你不冲浪冒险,你连游戏都玩不了,入不了局。 第三种才是真正找到了市场切入点,把AI落地做成了规模化产品,占住了某个领域市场,也彰显了 AI 的威力。可惜,这第三类跟大熊猫似的,非常珍稀,而且多是九死一生侥幸生存下来的。包括特斯拉的自动驾驶,也是大难不死,现在才见到了曙光。

各大AI巨头及其团队和平台呢?就数他们的动静大,尤其是如今大数据的时代,讲的是机器算力和数据为王。有人形象地称之为“军备竞赛”,这使得过往在AI研究界领先的大学教授处于弱势,大学实验室在数据和机器两方面都无法匹敌IT大厂。其实要是细算,也不是大厂的AI平台在赚钱。看得见的最大利益还是AI的话题性和热度,对于帮助维持和提升股价极为有利。譬如谷歌搜索,这一波AI热之前的技术依然是主体。你要说新的谷歌搜索更加强大,是融入新的AI(例如知识图谱),那当然也没错;但本质上还是以前的关键词搜索以及广告模式在源源不断地赚钱。谷歌的 AI 平台说是全世界都在用,赚了多少钱?微软、亚马逊倒是靠云服务赚钱了,这云服务说是融入了 AI 也不能算错,但本质上是计算资源的优化,而不是AI,至少不是 硬核AI。Alexa 智能对话不是 AI 吗?也用到了云。但智能对话一直是赔本的买卖。可这是端口,就好像上一波互联网革命时门户网站是端口一样。不能不上,赔本也要做。希望寄托在AI的明天,而不是当下。

机器翻译本来是个可以赚钱的产业,也恰好是这一波AI神经网络突破的最好体现。可各大厂一拥而上的互联网免费服务模式,活活把这个产业做死了。总之,迄今为止,纯靠AI赚钱,而不只是烧钱,还是熊猫般珍稀。所以说AI是泡沫,大体是对的,只不过不经历这波泡沫,你没有通向明天的门票。

我帮助创业、服务了10年的 Netbase,现在看来算是在社会媒体大数据舆情自动挖掘的市场真正站住了。靠的是硬核AI语言技术,属于熊猫类 success story,连续多年被列为美国NLP市场屈指可数的几个 players 之一。但那也是侥幸,是在烧了七八千万投资以后才站住的。同期创业的几十家做舆情的AI初创,全部灰飞烟灭。算是尸骨堆里爬出来的熊猫,美国只此一家了,世界上真正的对手还有一家英国的 BrandWatch。

最后谈谈AI落地成功故事中的奇葩,特斯拉的自动驾驶。在众多自动驾驶的团队中,特斯拉自动驾驶眼看要成为软件摇钱树了。

特斯拉自动驾驶最新的版本是 2020.24.6.1,昨晚刚收到自动更新。主要改进是绿灯过十字路口不再需要用户首肯了,可以自己前行。这个功能它其实早就有了,就是压着不给用户,为了谨慎,或者为了吊人胃口。现在给了,被宣扬为向 city self-driving 进军路上的一个里程碑。为此,这套所谓的全自动驾驶(FSD,Full Self-Driving)软件从7月1号开始再加价1000美元,从现在的 7000 增加到 8000,这是想刺激还没有购买 FSD 的车主,赶快在提价前上车,为特斯拉 Q2 因疫情停工而疲软的营收添砖加瓦。这是AI赚钱的活生生的例子。

马斯克这么一来,特斯拉软件和硬件的比例进一步向软件倾斜了。约4万美元的模型三,其中自动驾驶软件就是一万,占了大约四分之一。这个比重在汽车制造企业是难以思议的高,属垄断价格,没有竞品。

一万软件是这样的:基本的辅助驾驶(叫 auto-pilot 功能,主要是自动直线行驶和自动跟车这两项)是以2000-3000美元的价格算在特斯拉的售价里面,现在是标配必选。可选项是所谓FSD,额外的7000美刀(过两天就是 8000),主要功能包括:自动进出停车位、自动换线、高速公路上全自动(包括高架桥自动选择匝道,从一条高速换到另一条高速)、识别并执行红绿灯、智能召唤,还有尚待实现的十字路口转向,最后就是马斯克所谓 feature-complete 的可以执行点到点的自动驾驶能力。虽然马斯克声称今年年底前完成 FSD feature complete,没有人认为他可以做到,FSD 本质上是在销售还没有完全实现的 AI 能力。

软件的特点是,一旦实现了功能,软件的复制成本基本是零,这就使得同样的成本投入,利润空间可以非常巨大,一切取决于用户的数量。马斯克是特别功于算计的商人(企业家),打着AI的招牌,不断压榨粉丝。其实到网上调研一下就知道,论先进性和性能表现,特斯拉的自动驾驶,比先进的系统,差距还很大。为了节省成本,坚决拒绝激光雷达精准测距的特斯拉,不得不依靠计算机视觉(CV,computer vision)实现自动驾驶,天然处于不利地位,只能在背后利用信息融合的算法来仿真激光雷达的景深测距效果,做起来非常吃力。但是,也正因为此,特斯拉是唯一真正把自动驾驶交付到普通客户手中的厂家,因此他有垄断定价权。没有第二家做到这一点。自动驾驶强的,成本下不来,无法量产和普及。自动驾驶刚起步的,还在非常有限的辅助驾驶里面出不来,无法让人体验到可以称得起自动驾驶的能力。谁说AI不能赚钱呢?运气之外,还是要看AI企业家的艺高胆大啊。

 

 

【相关】

大溃败!今天,阿里最大股东断臂求生!

【NLP自选系列2020专栏连载】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《大数据人工智能时代的无中生有》

最近玩自称经过大数据训练的智能人脸上色的软件(colorize app),把收集到的黑白照片一股脑送进去试验。看黑白时代的亲朋旧友的留影,一个个突然鲜活起来,让人惊喜。分享给老友怀旧,大家都感觉很神奇。先看看当年的女神夏梦的彩色还原,还有小花陈冲。对了,还有光彩照人的绝代风华奥黛丽·赫本。

 

 

 

 

不要看胳臂和腿,还有手,彩色背景下跟乌爪子似的。这个软件专注人脸上色,还没顾上其他。人脸上色还是很到位的,不温不火,非常自然。我当年的黑白婚照也重放光彩了哈:

记得在黑白时代,照相馆里面有为照片上色的服务。一切全手工制作,描眉画眼,粉腮白肤,总是透着一种假,根本不如电脑上色的圆润自然。

这是什么黑科技?答曰,这是大数据时代人工智能的拿手好戏。“无中生有”的极致,乃是大数据AI的特长。

前两天看【新智元】的两篇报道,均配有样例图示。第一则是《杜克大学:AI工具精细还原模糊图像,可瞬间将分辨率提高64倍》。

第二则是《中科院DeepFaceDrawing:只需提供小学生水平的简单线条,便可生成逼真肖像》。

老友说:这个太牛了,警察可以根据画师的画大大缩小搜查范围。没摄像头的地方,只有有人看到嫌疑人,都可以用到这技术。

将来的应用可能是这样,根据目击者得来的简单素描,通过参数设置,生成一系列清晰图片,唤起目击者的记忆和印象,从中选择最近的那张。所谓脑补,或曰想象,大抵如此。

以前一直有个误解,以为“想象”、“脑补”(包括通过常识、场景知识和专业知识进行脑补)这种东西是人工智能不可企及的区域。这种东西是不大容易说清楚的,是知识的积淀,经验的积累。传统的符号派人工智能也做过尝试(譬如建立巨大无比的常识库如 cyc,试图施行常识推理),但是终归是太繁复,灰色地带大,缺乏确定性,效果和效益都遭遇挑战。没想到如今大数据与人工智能的结合,特别是深度神经网络技术的突破,为这些东西打开了一扇奇迹般的大门。无中生有不再是美梦一场。

做过常规音影处理的同学都知道,高清度的对象降低维度(譬如从彩色降到黑白)到低清度,没有任何问题,因为信息是处于减少的状态。但逆过程就是挑战,因为需要“无中生有”。 这个挑战以前认为是不可克服的,巧妇也难为无米之炊呀。再大的魔术师也不能真正地无中生有吧?你看他台上从空盒子里面变出一只鸭出来,你心里明白那是假的。这只鸭子肯定是藏在哪里,魔术师用了障眼法,把观众唬住了而已。物质不灭,无中生有是绝对不可能的事情。魔术师自己也承认:魔术都是假的,各有巧妙不同。可人工智能的魔术却不是假的!

关于无中生有,AI老司机老毛说:其实也没那么神,数学上就有外推和插值,还有凭经验猜测,甚至可以随机插值。

这才叫知者不神,神者无知,hence 科普。人在无知的状态中,是很容易神化对象的,这是人的本性,否则人没法解释,也感觉不安。人工智能历史上有个现象,说的就是人对未知的神化,叫“伊莉莎效应”( 拙文《反伊莉莎效应,人工智能的新概念》有介绍)。古往今来所谓奇迹,大多是常态的神化。反过来,也不能因为AI从业者时刻在创造或大或小的奇迹,就失去了庆祝的欣喜。每天面对屏幕中自己创造的奇迹,体验无中生有的上帝般的自由,也是人生一乐。我们走在无尽的大路上,由必然王国逼近自由王国,虽不能至,心向往之。

抒发完职业豪情,回头细看无中生有的背后。物质固然不灭,可观念世界似乎有所不同,更富弹性。然而最大熵定律仍然决定了,信息世界只会越来越趋向混沌,而不是反过来变成清晰。信息补漏是需要资源和能量的,从哪里来的呢?三个字,大数据。当然,光有数据,没有AI能力也不行。这是大数据AI的时代。

孤立地看一张照片,模糊转清晰,黑白转彩色,没有可能凭空而来。但是,有了大数据就不同了。而且这种大数据是天然的“带标数据”(labeled data)。以前说过,机器翻译大数据是天然带标,因为有人类翻译的历史积累。因此特别适合做端到端(end to end)的深度学习,所能达到的翻译质量,比很多学了好多年外语的人的翻译还要通顺得多。现在遇到的这个场景是另一类“自然”带标大数据的端到端场景。无论黑白转彩还是模糊转清晰,所有这些需要“无中生有”的应用场景,都有一个共同特点,就是可以对于大数据对象做“反操作”,从而把自身变成无穷无尽的带标大数据。一切都是全自动的,不需要人工标注,这是多么理想的大数据学习应用场景,不出奇迹也难。把收集到的彩色照片,一锤子全部砸成黑白,端到端的对应就建立起来。剩下的就是拟合了。

这种学习出来的无中生有,会有问题吗?当然有。第一是方向可能偏了,“还原”出来的东西与心目中的印象产生或大或小的距离。第二是趋同,大数据的统计本性,结果是中庸化了。如果原来的对象有独特的特征,大数据脑补是很难还原出独特性的。

对于第一个问题,解决办法前面说了,可以通过某种参数,或者通过某种随机因素,生成一系列候选,而不是唯一的结果,总会有一款比较接近你的想象、记忆或原物。对于第二个问题,其实可以通过大数据的定向化来逐步解决。譬如专门对亚裔建立大数据,专项处理亚裔图像还原的工作。同理,还可以把南方人北方人分开训练。

无中生有的工作,我们20年前就开始做。当年给罗马实验室做项目,遇到的一个难题是历史文献都是全大写。我们的自然语言引擎见到大写,常常当成专有名词了,质量是断崖式下跌。当时,很多 teams (包括 BBN)组织力量标注大写的文献,然后重新训练系统。而我的团队与 IBM 是第一个差不多同时决定不为信息抽取的目标做重新训练,而是先训练一个大小写还原的前处理器。结果整体质量大幅度提升,虽然当时还没有深度学习,用的是传统的机器学习。这是因为恢复大小写的工作可以做得很好,有几乎无穷的自然带标的训练数据(同样是利用大小写规范的文档一锤子砸成全大写)。

至于符号派经典机器翻译中无中生有的故事,上次的科普《语言形式的无中生有:从隐性到显性》已经介绍过了。那根本没用机器学习,但是也还是可以通过蛛丝马迹“无中生有”地生成欧洲语言的形态(形态生成)。那个无中生有的原理不同,依靠的是源语言(中文)文字中的信息冗余,外加语言习惯里的种种  heuristics (表达的习惯性总结),有时候还要加上一些类似“常识”的概念相谐的“脑补”。但老式符号机器翻译中的无中生有终归感觉很吃力,“功耗”很大。在无中生有这个课题上,不得不说,对于任何具有源源不断天然带标大数据的场景,还是大数据深度学习的路子最为强大。深度学习一统机器翻译天下,说明了大数据AI的压倒性优势。同理,图片还原也必然是大数据AI的领地,我们会看到越来越多的应用。可以预见,黑白电影时代的佳作,最终可以自动还原为彩色。

 

 

【相关】

反伊莉莎效应,人工智能的新概念

语言形式的无中生有:从隐性到显性

【NLP自选系列2020专栏连载】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

乔姆斯基批判

已有 7986 次阅读 2015-6-15 00:01 |个人分类:立委科普|系统分类:观点评述|关键词:学者| NLP语言学乔姆斯基

【立委按:微信泥沙龙,谈笑鸿儒,高朋满座,信马由缰,言无所忌,摘之与同仁分享。】

【泥沙龙对话录】

今儿个咱要吐槽乔老爷,不吐不快。

开题:乔姆斯基,对领域的误导,或负面影响,与他对语言学的革命性贡献,一 样大。

他的hierarchy,是天才绝顶的理论,是不可泄露的天机,从而奠定了形式语言的基础,用来创造、解释,或编译计算机语言,是完美的指导。

可是,完美往上走一步,就可能成谬误。乔姆斯基拿这套理论,硬往自然语言套,导致整个领域,在所谓自然语言是free,还是sensitive,还是 mildly sensitive等不靠谱的争论中,陷入泥潭。

太多的人被引入歧途,理所当然地认定,因为自然语言复杂,因此需要 powerful的文法。这个 powerful,是世界上用的最误导的词。

工程师发现,有限状态好用,但经不起理论家的批判:你那玩意儿太低级,不够 powerful,只能拿来凑合事儿。

实际上,做过大工程的人都明白,对象的复杂,并不是使用复杂机制的理由,有本事使用简单机制对付复杂的对象,才是高手。

乔姆斯基最大的误导就是,用所谓自然语言的center递归性,一杆子打死有限状态,他所举的center递归的英语实例,牵强和罕见到了几乎可笑的地步,绝非自然语言的本性。结果一代人还是信服他了,彻底地被洗脑,理所当然以为必须超越有限状态才可以做自然语言深度分析。

为了所谓语言的递归性,人脑,或电脑,必须有个堆栈的结构才好,这离语言事实太远,也违背了人脑短期记忆的限制。世界上哪里有人说话,只管开门而不关门,只加左括号不加右括号,一直悬着吊着的?最多三重门吧,一般人就受不了了。就算你是超人,你受得了,你的受众也受不了,无法 parse 啊。说话不是为了交流,难道是故意难为人,为了人不懂你而说话?不 make sense 嘛。

既然如此,为什么要把不超过三层的center循环,硬要归结成似乎是无限层的递归?

(毛老:递归成了他的宗教。)

不错。乔老爷的递归误导语言学,坑了NLP太久。我对他的语言学不感冒,对他对NLP的误导,更感觉痛心。一个如此聪明强大的人,他一旦误导就可以耽误一代人。被耽误的这一代是我的前辈一代(上个世纪70年代80年代),他们在自然语言理解上的工作几乎一律为玩具系统,在实际应用上无所作为,从而直接导致了下一代人的反叛。老一代被打得稀里哗啦,逐渐退出主流舞台。

在过去30年中,统计NLP的所有成就,都是对乔姆斯基的实际批判,因为几乎所有这些模型,都是建立在ngram的有限状态模式的基础之上。


(洪爷:从乔姆斯基的所作所为,就能分出构造机器智能和解构人类智能难度上的差异。他五十年代略施小计就把形式语言夯成了计算机的Cornerstone,可是穷毕生精力,总是在重构其语言学理论。
毛老:如果没有乔老的那些理论,人们能做出计算机语言编译吗?)
洪爷:语法mapping到语义,总是要做的,不必须用形式语言,就像现在做nlp的人也不必须懂语言学。还是 David Marr,David Rumelhart 等立意高远,总想找到人机等不同智能实现上的共通计算机制。
刘老师:Marr 也是人神级别的
毛老:跟上面问题类似的是:如果没有图灵和冯诺依曼的理论,人们会造出计算机么?
洪爷:Babbage的分析机可行,Ada的程序/算法也早可行。其实,问题不在于出冯诺依曼还是马诺依曼,问题在于,不管他们的理论表面上如何不同,可能都受同样的约束,能力上可都能都等价。而Chomsky 研究的是这些约束能力。
毛老:那图灵不是更加么?
洪爷:Turing 从机器一侧,Chomsky从人一侧。)

洪爷说的是事实,过去三十年不懂语言学做NLP的占压倒多数。但那不是健康状态。不过,语言学里面也很混杂,进来的人很容易迷糊。但是,语言学里面确实有一些指导性的东西,了解与不了解大不一样。比如索绪尔,就值得琢磨。索绪尔说的大多是原则性的,有哲学的意味,是传统的非科学性的语言学,特别具有宏观指导意义,可以提醒自己不至于陷入细节的纠缠,而忘记了方向。他谈的是共性与个性的关系,语言和言语,规则与习惯,共时与现时,都很洞察、到位。

(白老师:我觉得线速、柔性很关键,多层次递归和远距离相关必须搞定。方法不限,八仙过海。)

那些已经搞定了,伪歧义也不是问题,都搞定了。有一种叫做cascaded FSA的方法,与软件工程的做法极其类似,就能搞定这些。前提是指挥者架构者不能失去全局,要胸怀索绪尔,而不是乔姆斯基。架构和interfaces设计好,下面就是模块的开发,匠人的干活,可以做到很深,接近逻辑表达,比chomsky的文法深。传统规则系统受乔姆斯基CFG影响太大,很不好用,而且也无线性算法,所陷入的困境与神经网络以及一切单层的统计系统类似。正如多层的深度学习被认为是AI的突破一样,有限状态一多层,一 cascade,以前天大的困难,递归啊远距离啊伪歧义啊,就消解于无形。

(白老师:数学上的函数复合。)

就这么一个简单的道理,结果至今批判规则系统的人,还在打稻草人,以为规则系统都是CFG那么愚蠢和单层。


乔姆斯基对nlp的误导,还在于它的短语结构的表达法。那个phrase structure破树,叠床架屋,为了追求所谓语言共性,太多的assumptions,既不经济也不好用,却长期成为 community standards,误导了不知多少人。起码误导了 PennTree,通过它误导了整个领域。,

(白老师:某种意义上,nlp是应用驱动的。与应用匹配,Ngram也不算误导。与应用不匹配,HPSG也算误导。抽象的误导不误导,让语言学家掐去吧。一个topic问题,扯了这么多年。)

语言学家打烂仗的事儿多了,说起来这与乔老爷也有很大关系。有个 self,相关的所谓 Binding Theory也是论文无数,大多垃圾,这与老乔的负面影响直接相关。为追求 universal grammar,和脱离语义的generalizations,走火入魔,大多是无谓的口水战争,既不能推进科学,也不能推进应用,唯一的好处是帮助了很多语言学博士的选题,培养出一茬接一茬的语言学博士。可是,毕业了还是找不到工作。老乔由于其超凡的智力和名气,帮助提升了语言学的地位,但他没有能力影响市场,结果是全世界语言学家过剩,懂得茴字五种写法的落魄腐儒,如过江之鲫,谁能给他们就业机会?


这里面的要害在,所有的语言分析,不可能为分析而分析,都是为了求解语义的某种需要,可老乔强调的语法纯粹性,要脱离语义才好研究终极的机制,这个argument有历史的革命意义,有某种学术价值,但非常容易形而上学和片面化,结果是语言学家脱离了目的,脱离了需要,在争论一种分析,或一个模型与另一种的优劣。其实这些相争的方案,只要系统内部相谐,都大同小异,根本就没什么本质区别,而且没有客观的可量度的评判标准,那还不打成一锅粥。

(刘老师:摆脱语义,直接进入语用?)

哪里,乔老爷是要直接进入共产主义,要世界大同。他对语义不感兴趣,更甭提语用。语义在他属于逻辑,不属于严格意义的语言学。句法语义是分割开来的两个范畴,句法必须自制。

(白老师:句法自制是错误的。)

对传统语言学完全不分家的那种分析,老乔有革命意义,也确实推进了结构研究,但凡事都是过犹不及。句法自制推向极端,就是本末倒置,失去方向。

我做博士的时候,在一个小组会上,举一些汉语的例子,作为证据反对一刀切的句法自制,说老乔有偏差,看到的语言事实不够,结果被我导师劈头盖脸批了一通,言下之意,不知天高地厚。我当然口服心不服。

问题是,我一辈子只思考一个问题,只要醒着,头脑里除了语言,就是文法,除了词汇,就是结构,突然有一天觉得自己通达了,看穿了语言学上帝,乔姆斯基。

原来,智商高,不见得离真理近,智者乔老爷,也不例外。

(洪爷:老乔不是上帝,他只是让咱看到来自造物主的理性之光。)

形式语言理论,非人力可为,绝对属于天机,单凭这,乔就是人神。

吐槽乔老爷,一次抱怨完,明儿依旧是偶像。

【后记】

到了我们的年代,俄语退居其后了,所以我本科的二外选的是法语,到研究生才选了俄语做三外,不过全还给老师了。虽然语言是还给老师,体悟到的语言学却长存,所以也不冤。到 30 年后的今天主持 multilingual program,带着参考书,我还一样可以指导法语和俄语的 NLP 研发,语言的不同,换汤不换药也。

不管我怎么批判乔姆斯基,我还是服他到不行:他老人家的威望可以把 Universal Grammar 这种乍听很荒唐的观念,转化成一个让人仰视的语言哲学理念。UG 的真理之光由此不被遮蔽。当然最厉害的还是他的 hierarchy 形式语言理论,那几乎不可能是人的理论,那是上帝之光,尽管乔老爷在描述的时候,不免机械主义,hence 造成了极大的误导。



【相关博客】

巧遇语言学上帝乔姆斯基

泥沙龙笔记:从乔姆斯基大战谷歌Norvig说起 

Chomsky’s Negative Impact

泥沙龙笔记:再聊乔老爷的递归陷阱

【置顶:立委科学网博客NLP博文一览(定期更新版)】

[4]tuqiang   2015-6-15 22:56乔姆斯基那一套可以做计算机里面数学式子的分析,离开自然语言差了十万八千里。

 回复  : 话说回来,没有自然语言的数学化研究和启示,他老人家也提不出形式语言理论来。至少从形式上,他能把人类语言和电脑语言统一起来,达到一种人力难以企及的高度。如果没有乔姆斯基,电脑理呆们打死也不会对词法分析,句法分析,语义求解,parsing 等感兴趣,并如数家珍地谈论这些语言学的概念。这是其一。

其二,正因文乔老爷自己也知道他的形式语言理论的抽象过头了,难以回到自然语言的地面,才有他穷其一生在自然语言的语言学方面的继续革命,革自己的命,花样翻新,试图找到一个终极的普遍文法的自然语言解构。这次他就没有那么幸运了,虽然在学界依然所向披靡,无人能敌,但却与电脑科学渐行渐远,被连接语言学和电脑应用的计算语言学领域所抛弃。也许不该说抛弃,但是自然语言领域大多把他当菩萨供起来,敬神鬼而远之,没多少人愿意跟他走。
2015-6-16 03:541 楼(回复楼主)

 

《聊聊 NLP 工业研发的掌故》

泥沙龙笔记:把酒话桑麻,聊聊 NLP 工业研发的掌故

尼克介绍的那个讯飞语音输入,简直是神器,向我们的语音同行,脱帽致敬。相信语音是统计的天下。Nuance作为源头的爱疯Siri和讯飞的语音,都快登峰造极了,叹服。

两年前 Nuance 语音以上,要往 text NLP (Natural Language Processing) 发展,找过我多次,作为他们新实验室头儿的候选人。互动了很久。这要是进去,可不是就进入了统计学家和精算师们的海洋,虎口啊(笑)。精算师们的头脑里压根儿就想不到统计外还有其他。

后来他们把老革命家Ron Kaplan 从微软 Powerset 挖去,做了他们这个部门的头儿。Ron 是 PARC实验室的老将。早期 FSA 算法研究的推手(之一)。他们当时的电脑硬件的限制,对线性和效率要求极为苛刻。他津津乐道的就是当年怎么在最苛刻的硬件条件下,做出名堂来。后来他想让我做他的副手,毕竟他老人家比我还老,希望找一个能带队伍打仗的。我们相谈甚欢,有很多共同语言,因为他也是规则派,线性派,也做过 deep parsing,有很多共同的感受。

这里面涉及NLP的一些掌故,就索性在这里说说。大家都知道的是,施乐的PARC实验室是世界上最著名的IT发明创造的发源地。他们有本事招揽天下最优秀的科学家和天才发明家,但没本事开发产品,都是为他人做嫁衣裳。于是成就了乔布斯,乔布斯又成就了微软,如此等等,才有我们今天的电脑和IT大业。

这件事儿对施乐很刺激。于是十五六年前,PARC 决定尝试肥水不外流。自己 spin-off 一些 start ups, 对 PARC 的成果做技术转移和产品孵化。其中搞NLP这块的,就spin off了一家叫做 Inxight 的公司,大家应该听说过,那是工业界的NLP leader。PARC 名声大啊,除了自己投资外,吸收其他投资也不难,前后圈了10+轮风投。他们在 PARC FSA(有限状态自动机)研究的基础上,推出一个 LinguistX 的平台,从浅层开始做起,Stemming, POS,NE,多语言。FSA 特别擅长 stemming (主要是削尾)和 morphology(词法分析),就是对词的各种分析。

这样唠叨下去,太慢,还是要长话短说。

总之是,一开始还不错,因为搜索引擎市场里面,做多语言的都要stemming,他们也就有了一些客户。可是世界上有多少家做搜索引擎?以前百家齐放还好,后来天下归一就难了。

如果可能,希望短话长说

总之是,NLP 做平台的,做 component technology 的,很难在市场生存发展。Inxight 在融资10+轮后,终于撑不住了。那些当年雄心勃勃要在工业界掀起NLP革命的Inxight的创始人们(四个创始人,我认识三位),也都跟我差不多,随着这个行业一同老去,还是看不到希望。(我个人算幸运的,先是赶上了世纪末的大跃进(互联网泡沫),如今又赶上了大数据,似乎见到了NLP真正的工业曙光)。

RW:@wei component technology 很难生存,这句话到位

他们也真能,圈了那么多钱,终于无疾而终。白菜价卖给了 SAP。

高科技的事情大多如此,一旦被巨头买下,科技创新就死,然后就是不了了之。

:不奇怪

见过很多这样的。这 Inxight 进了 SAP 就是如此。这里面的故事非常 telling,因为若干年后 SAP 与我现在的公司达成战略伙伴,要用我们的social这块。开始接触的时候,我说,你们的 Inxight 呢,不是听说后来也做了 sentiment 吗,而且是 NLP leader 出身啊。进一步接触才明白,那叫一个天壤之别。将别三日,江河日下啊,廉颇老矣不能饭,不足道也。

回头再说这 PARC,Inxight 虽然不成,这个“上世纪的技术” FSA 并没死,前仆后继者还有。Component technology 很难活,但是从这个源头,还是引出了另外两家步 Inxight 后尘的。一个就是 Ron 创立的 Powerset,Ron 是拿它做 parsing,向深度进军。另一家是BASIS,现在还活着,在旧金山,只做 stemming,多语言,那是向广度进军。

Powerset 其实很值得赞佩,因为他做的parser工业最靠谱(除了在下的外,呵呵)。但是钱要烧完了. 总得有个产品啥,它没有。只做出了一个技术 demo,证明 parsing 对搜索有用,比关键词高一筹。概念上证明了,关键词做不到的搜索,NLP parsing 是有用的。

RW:那怎么活?@wei

Nick:@wei powerset我还较熟悉。powerset现在还在吗?

还在,但跟死了一样,头儿和主要技术人都走了,技术本身基本也没融入微软产品。

Parsing 对搜索的好处是精准,因为语法结构的匹配代替了没有结构的关键词查询。譬如要搜索微软都并购过哪些公司,关键词就很难找到好的结果。可是Powerset 在 parsing 基础上的搜索或答问,就可以整出非常漂亮的结果。行内叫做 SVO search(主谓宾支持的结构化搜索)。结果一定是漂亮的,因为把句法结构加入了,微软必须是主语,并购必须是谓语,那么出来的结果就不会不干净。SVO 就是parse的主干,主谓宾,语言学叫 argument structure,是 parsing 的核心结构。

当时,Powerset 钱快烧完的时候,还想不出来做什么产品,Ron 的团队着急了。嚷嚷着超越Google,可是只有个高效的parser,没法说服人啊。于是想到,找一个什么不大不小的对象开刀合适呢,因为 parsing 是有成本的。他们口口声声,是要做下一代Google,取代关键词搜索。Google 最多是牛顿,Powerset 要做爱因斯坦。

这些宏观上的忽悠,完全没有问题,因为原理没错,parsing 是 keywords 的爱因斯坦,可是工程上有成本的考量啊。结果他们想了一招,拿 wiki 开刀。wiki 当时的那个量,还比较合适做demo,Ron 于是在互联网的大海找到了这么一滴水。

Nick:@wei 这是何时的事?

六七年前吧。他们于是把wiki parse 了一遍,做了一个 demo 给大家看,蛮impressive,于是,微软就买了。他们也算善终了,至少投资人没亏,小赚一笔。微软的心态,是不管三七二十一,只要宣称能取代Google 的技术,先拿下再说,管他消化得了消化不了。因此 Powerset 比 Inxight 的风投结果好,至少没有贱价出售。如果 Powerset 错过了微软这个冤大头,那就比Inxight 还惨。

RW:是不是最终又给微软毁了?

微软当然毁了它,比SAP 还不如。

Nick:貌似powerset还做search整合,把好几个搜索结果拿来从他们这过一下

前几年我做多语言deep parsing项目,招人的时候,去 Powerset 挖到一位,很能干的。本来高高兴兴做 parsing,是从 PARC 被 Ron 带出来的,后来微软吃掉后,被分配去做 query 的分析。query 在搜索是啥,不就是两三个词的组合么,一个做语言语法分析的人,现在必须抠那几个词,为了一些细琐的需要(应用上自然很重要),简直郁闷极了。这位其实懂很多欧洲语言,也有电脑素养,我挖他过来做大数据的语言分析,他自然很开心。Ron 不乐意了,曾明着跟我说过。可他也没法,他自己勉强在微软帮助支撑了两三年,最后还是去了 Nuance,祝他在 Nuance 可以开一个新局面。

Nick:parsing完再搜索vs搜索完parsing,哪个效果好?

这都扯到哪里了。这些掌故说起来一大车,包括当年的 Whizbang!那可是名校计算机主任亲自出来领头做的NLP 公司啊,特别擅长网页layout的机器学习,从中做信息抽取,最后比我的前一个公司 Cymfony 结局还惨。世纪之交高科技泡沫破灭,我们挺住了,开发了产品,他们的3000多万的投资人却中途撤资了,最后各种技术贱卖,100万即可买到所有的源码和技术说明,先找到我们,说是最适合的买主,我们当时没精力消化这些,后来是Inxight买了。

说起来话长,故事好听

再往前的掌故还有Answerlogic问答系统,也是在上一轮 bubble 时候闹腾得特欢的NLP 公司。钱烧完了,就完了。

RW:这句话经典![微笑]

所以说,这 NLP 要做成,不容易。不是技术不到位,技术参差不齐,但是优秀的引擎(精准、鲁棒、高效)是已存的现实。我敢打包票。

RW:是不是有ahead of the market 之嫌?@wei

技术不是问题(笨蛋不算,你要是找到一个只会忽悠的笨蛋,那是 due diligence 太差,怨不得人)。

Nick: 嗨,老套路,骂别人是为了夸自个。

可不,卖瓜王爷。不过,那也是客观事实,内举不避己,不能因为自己能就偏要说不能,最后还是要系统说话。

当然,这玩意儿要做好(精准达到接近人的分析能力,鲁棒达到可以对付社会媒体这样的monster,高效达到线性实现,real time 应用),确实不是一蹴而就能成的。这里有个n万小时定律。大体是,NLP入门需要一万小时(大约五年工龄),找到感觉需要两万小时,栽几个有意义的跟头需要三万小时,得心应手需要四万小时,等你做到五万小时(入行25年)还没被淘汰的话,就可以成精了。那是一种有如神助、如入无人之境的感觉,体会的人不多。打住。

高精的NLP技术虽然很难,但技术的确不是问题,问题在于产品。从 NLP引擎 mapping 到产品或产品的 features,这里面有千百种组合,哪种组合能在市场上站住,到目前为止基本是盲人摸象的过程。

RW: 否则不叫风投

为了减少盲目性,产品经理和制定产品策略的老总至关重要。

高技术公司的产品老总在宏观上了解NLP的潜力,同时深谙市场的卖点,了解客户的需求和痛点,可以具体制定产品和产品features的specs给 NLP developers,只有这样合作才能成事。

回尼克的问题, parsing 和搜索的关系。parsing 完再搜一定是效果好的,因为搜不到就backoff 到关键词。你可以肯定高于搜索,问题是成本。搜索完再根据情况调用parsing,也是可行的。

Nick:我就是这个意思。我印象当年powerset给我看的demo是先搜后parsing。

但是这个问题,更准确的表述应该是,一个query来了,有个 routing 的process,这个 routing 可以包括局部搜索探路,也可以包括其他的策略,总之是,应该可以找到一类 query,这类 query 最适合用 parsing 来回应。最好是那些关键词最难回应,而结构最拿手的。如果这个子集能大体确定,那么 parsing 在互联网搜索上是大有可为的。其实,目前的搜索巨头,在利用 parsing 的路上走得太慢。原因我不清楚,但是明显是利用不够。话说回来,如果巨头都能那么灵活,也就没有小公司的活路了。

Jing:用户量大了后用户的历史行为就间接人肉parsing了。

历史行为那是另一个侧面和角度,可以满足信息需求的一个部分。历史行为确实也等于间接利用了人工的parsing的结果,因为人在选择点击阅读某个网页的时候是扫描理解(parse)了链接上的标题的。但那不能涵盖 parsing 所能起的全部作用。

Jing:query understanding包括这个步骤。你前面提到的那个分去做query的哥们完全可以做这个呀

query understanding 是非常重要的一个环节,可是做的人痛苦啊,两三个词玩不出语言学的名堂来,没意思。做 text 的人面对的是整个互联网。query 是语言中的一个分子,那种感觉是不一样的。

【相关博文】

泥沙龙笔记:从乔姆斯基大战谷歌Norvig说起 2015-06-20

乔姆斯基批判 2015-06-15

把酒话桑麻,再泡一壶茶,白头老机译,闲坐说研发

【置顶:立委科学网博客NLP博文一览(定期更新版)】

 

已有 7109 次阅读 2015-6-27 22:17 |个人分类:立委科普|系统分类:科研笔记|关键词:学者| NLPparsing自然语言

【NLP自选系列:NLP 联络图 】

“NLP 不是魔术,但是,其结果有时几乎就是魔术一般神奇。”

余致力自然语言处理 (NLP) 凡30年余,其目的在求交流之通畅,信息之自由,语言之归一,世界之大同。积经年之经验,深知欲达此目的,必须启蒙后进,普及科学,同心协力,共建通天之塔,因作文鼓而吹之。处理尚未成功,同志仍需努力。

符号逻辑派的AI与规则系统的NLP,做了一辈子,可以回首一览了吧,老马识途,责无旁贷。样板戏《智取威虎山》里面,杨子荣怀揣一张秘密联络图而成为土匪头子座山雕的座上客。这是因为在山头林立的江湖,谁掌握了联络图,谁就可以一统天下。马克思好像说过人是社会关系的总和,专业领域又何尝不是如此。在关系中定义和把握 NLP,可以说是了解一门学问及其技术的正道。

 (NLP Word Cloud, courtesy of ourselves who built the NLP engine to parse social media to generate this graph )
 

一个活跃的领域会不断产生新的概念,新的术语,没有一个合适的参照图,新人特别容易湮没其中。新术语起初常常不规范,同一个概念不同的人可能使用不同的术语,而同一个术语不同的人也可能有不同的解读。常常要经过一个混沌期,研究共同体才逐渐达成规范化的共识。无论是否已经达成共识,关键是要理解术语的背后含义 (包括广义、窄义、传统定义,以及可能的歧义)。加强对于术语的敏感性,不断探究以求准确定位新概念/新术语在现有体系的位置,是为专业人员的基本功。本文将对NLP(尤其是符号NLP)相关的术语做一次地毯式梳理和解说。提到的所有术语,中文一律加双引号,英语置于括号内,大多有中英文对照。

在我们进入NLP 内部探究其奥秘之前,有必要澄清“自然语言处理”(NLP)的一般概念及其上位概念,以及与 NLP 平起平坐或可以相互替换的一些术语。

NLP  这个术语是根据自然语言这个问题领域而命名的宽泛概念。顾名思义,自然语言处理就是以自然语言为对象的计算机处理。无论为了什么应用,无论分析深浅,只要涉及电脑处理自然语言,都在 NLP 之列。所谓“自然语言”(natural language)指的即是我们日常使用的语言,英语、俄语、日语、汉语等,它与“人类语言”(human language)是同义词,主要为区别“形式语言”(formal language),包括“计算机语言”(computer language)。

自然语言是人类交流最自然最常见的形式,不仅仅是口语,书面语也在海量增长,尤其是移动互联网及其社交网络普及的今天。比较形式语言,自然语言复杂得多,常有省略和歧义,具有相当的处理难度(hence 成就了 NLP 这个专业及其我们的饭碗)。顺便一提,在自然语言灰色地带的还有那些“人造语”(artificial language)方案,特别是广为流传的“世界语”(Esperanto),它们的形式与自然语言无异,也是为人类交流而设计,不过是起源上不太“自然”而已,其分析处理当然也属 NLP。(笔者N多年前的机器翻译专业的硕士课题就是一个把世界语全自动翻译成英语和汉语的系统,也算填补了一项空白。)

与 NLP  经常等价使用的术语是“计算语言学”(Computational Linguistics, or, CL)。顾名思义,计算语言学是“计算机科学”(Computer Science)与“语言学”(Linguistics)之间的交叉学科。事实上,NLP  和 CL 是同一个行当的两面,NLP  注重的是实践,CL 则是一门学问(理论)。可以说,CL 是 NLP 的科学基础,NLP是 CL 的落地应用。由于 CL 与数理等基础学科不同,属于面相应用的学问,所以 CL 和 NLP 二者差不多是同一回事儿。其从业人员也可以从这两个侧面描述自己,譬如,笔者在业界可称为“NLP工程师”(NLP engineer),在学界则是“计算语言学家”(computational linguist)。当然,在大学和研究所的计算语言学家,虽然也要做 NLP 系统和实验,但学问重点是以实验来支持理论和算法的研究。在工业界的 NLP 工程师们,则注重 real life 系统的实现和相关产品的开发,奉行的多是白猫黑猫论,较少理论的束缚。计算语言学作为一个独立学科已经站住脚跟半个多世纪了(其主要学刊是《Computational Linguistics》,学会是 ACL,顶级国际会议包括 ACL 年会等)。

另外一个经常与 NLP 平行使用的术语是“机器学习”(Machine Learning, or, ML)以及近年来引起人工智能界革命性突破的“深度学习”(Deep Larning, DL)及其“深度神经网络”(Deep Neural Network)的算法路线。严格说起来,深度学习与 NLP 是完全不同层次的概念,前者是方法,后者是问题领域。然而,由于深度学习的普适性质,加之 DL 成为 NLP 领域(尤其在学界)的主流方法,很多人除了深度学习,忘记或者忽视了 NLP 还有语言规则的“符号逻辑”(symbolic logic)方法。在他们眼中,NLP  就是深度学习。其实,机器学习/深度学习并不局限于 NLP 领域,那些用于语言处理的学习算法也大多可以用来做很多其他“人工智能”(台湾同胞称“人工智慧”,Artificial Intelligence, or AI)的事儿,如信用卡欺诈监测(detecting credit card fraud)、机器视觉(computer vision)、DNA测序分类(classifying DNA sequences),甚至医疗诊断(medical diagnosis)。DL 是显学,研究力量和资源雄厚,发展换代快,文献汗牛充栋,里面又有很多方法和术语,追踪其前沿进展的同学,可以去看NLP 顶级会议的最新论文,或学刊上的文献综述。本文聚焦梳理的内容,属于符号逻辑、以知识和结构作为基础的NLP符号规则派。

在 NLP 领域,与机器学习平行的传统方法有“语言学家”(linguist)或“知识工程师”(knowledge engineer)专家编制的“语言规则”(linguistic rules),这些规则的集合称作“计算文法”(computational grammar),由计算文法支持(or 编译)的系统叫做“规则系统”(rule system)。

机器学习和规则系统这两种方法各有利弊,可以取长补短。统而言之,机器学习擅长“文件分类”(document classification),从宏观上“粗线条”(coarse-grained)把握语言现象。计算文法则擅长细致深入的语言学分析,从细节上捕捉语言现象。如果把语言看成森林,语句看成林中形态各异的树木,比喻的说法是,机器学习见林不见木,计算文法则见木不见林(本来这是很自然的互补关系,但人工智能这两大学派中,双方都有少数“原教旨主义极端派”不愿承认对方的长处或存在)。从效果上看,机器学习常常以覆盖面胜出,覆盖面的业内术语叫“召回”(recall),而计算文法则长于分析的“精度”(precision)。

由于自然语言任务比较 复杂,一个实用系统(real-life system)常常需要在在粗线条和“细线条”(fine-grained)以及召回与精度之间取得某种平衡,因此结合两种方法的 NLP “混合式系统”(hybrid system)往往更加实惠好用。一个简单有效的软件工程式结合方式是把系统建立成一个“松耦合”(loose coupling)的“后备式模型”(back-off model),对每个主要任务,先让计算文法做高精度低召回的处理,再行机器学习出来的统计模型(statistical model),以便粗线条覆盖遗留问题,增强召回。至于所谓融合两条技术路线的“紧耦合”(tight coupling )前景,研究界有识之士中的老专家和新锐都有呼吁和探索,认为很可能是下一代人工智能和NLP的突破口,会形成革命性的紧耦合“范式转变”(paradigm shift)。两条路线背靠不同的设计哲学,“经验主义”(empiricism)和“理性主义”(rationalism)。

人工智能及其NLP的历史上,两大学派各领风骚,此伏彼起,二十年河西,三十年河东。肯尼斯·丘吉(Kenneth Church) 是自然语言领域的先驱,“语料库语言学”(Corpus linguistics)和机器学习的开拓者之一。丘吉的长文《钟摆摆得太远》(A Pendulum Swung Too Far) 是一篇主流反思的扛鼎之作,详细回顾了两条路线在NLP领域此消彼长的历史印迹。

值得一提的是,“古典” AI 也倚重手工编制的规则系统,或称“专家系统”(expert system)。但是它与语言学家的计算文法有一个根本的区别:AI 规则系统通常远不如计算文法现实可行。AI 的规则系统不仅包括比较容易把握(tractable)和形式化(formalized)的语言(学)规则,还试图涵盖包罗万象的常识以及其他世界知识,并通过精巧设计的逻辑推理系统把这些知识整合起来,所谓“常识推理”(common sense reasoning)。可以说,古典 AI 旨在从本质上模拟人的智能过程,因雄心太大而受挫,以致多年来进展甚微。过去的辉煌也只表现在极端狭窄的领域的玩具系统(后来也发展了一些比较实用的专家系统),当时统计模型还是没有睡醒的雄狮。以 ML 为核心以“大数据”(big data)为支撑的统计方法的兴起,以及近年神经网络的突破,让古典 AI 相形见绌。把人类智能当作联接输入输出的黑匣子的“端到端”(end-to-end)的学习方法,已经成为现代AI的代表。由于方法学上的南辕北辙,以“知识表示”(knowledge representation)和“逻辑推理”(logical reasoning)为基础的古典 AI 符号学说越来越难担当实用“智能系统”(intelligent systems)的指导,智能系统的地盘逐渐为以统计学和信息论为基础的机器学习所占领。熊猫般珍稀的坚持古典AI的逻辑学家(如 cyc 发明人 Douglas Lenat 老先生)与擅长 DL 的统计学家虽然问题领域几乎完全重合,解决方案却形如陌路,渐行渐远。

还有一个几乎与自然语言处理等价的术语,叫“自然语言理解”(Natural Language Understanding, or NLU)。从字面上,这个义为机器理解语言的术语 NLU 带有浓厚的人工智能的烂漫主义意味,不象“机器处理语言”那样直白而现实主义,但实际上,使用 NLP 还是 NLU, 正如使用 NLP 还是 CL 一样, 往往是不同圈子人的不同习惯,所指基本相同。说基本相同,是因为 NLP 也可以专指浅层的语言处理,包括“浅层解析”(shallow parsing),而“深层解析”(deep parsing)才是 NLU 的题中应有之义。

此外,“自然语言技术”或“语言技术”(Natural language Technology)也是 NLP 的通俗化表达。

千头万绪,纲举目张,《弘·扬 | 首席科学家李维科普:自然语言系统架构简说》用了四幅联络图来讲解 NLP 的四个层面,分别是:

1. 语言层(linguistic level);
2. 抽取层(extraction level);
3. 挖掘层(mining level);
4. 应用层(app level)。
 

从NLP总体架构来看,这四个层次的子系统之间的关系,基本就是自底而上的支持关系:1 ==》2 ==》 3 ==》4。显然,NLP 的核心“解析器”(Parser)处于第一层, 而“问答系统”(question answering system)和“机器翻译”(machine translation)这样的系统则是第四层应用的例子。

需要说明的是,NLP 的对象自然语言有两种形式,语音(Speech)和文本(Text),因此NLP自然涵盖语音方面的两个重要方向:教电脑听懂人话的“语音识别”(speech recognition);教电脑说人话的“语音合成”(speech synthesis),统称“语音处理”(speech processing)。语音识别和语音合常常是文本处理(text processing)的前奏和后续。譬如 NLP 在手机上的应用如苹果的 Siri 就是先行语音识别,输出文本结果,再行文本解析,然后根据分析理解的结果采取行动(根据主人指令去查天气预报、股票、播放某支音乐等等)。

 
 
 

原载: 科学网—【立委科普:NLP 联络图

 

NLP自选系列:深度解析器是揭示语言奥秘的探测仪

自然语言的深度结构解析器(deep parser), 为语言奥秘的揭示与语言理解的应用开辟了道路,这方面的技术不再是科学幻想,而是已存的现实。我们身在其中,有责任为大数据时代的 parsing 技术的来临和潜力多做科普宣传。

01

开场词

“如果爱因斯坦在时空万物中看到了造物主的美,如果门捷列夫在千姿百态的物质后面看到了元素表的简洁,语言学家则是在千变万化的语言现象中看到了逻辑结构之美。这种美的体验伴随着我们的汗水,鼓励我们为铲平语言壁垒而愚公移山,造福人类。”

——摘自《弘·扬 | 首席科学家李维科普:语法结构树之美》

02

语言的奥秘:解构

话说这语言学里面有一门学问叫文法,学文法简单来说就是学画树。各种各样形态各异的树,表达了语言的多姿多彩,却万变不离其宗,奇妙啊。当年上帝怕人类同语同心去造通天之塔,乱了天地纲常,遂下旨搅乱了人类语言。印欧汉藏,枝枝蔓蔓,从此语言的奥秘就深藏不露。于是催生了一代一代文法学家,试图见人所不能见,用树形图来解剖语言的内部结构。

本来我们说话写文章都是一个词一个词往外蹦,这样出来的句子数学上叫线性一维。可这线性的东西到了文法家眼里就变了,一维变两维,线性变平面,于是产生了树形结构。

天机不可泄漏,泄漏者非神即仙。历史上有两位功力非凡的文法神仙专门与上帝作对,各自为语言画树,一位是依存文法大师,叫Tesnière(特氏),另一位就是大名鼎鼎的乔姆斯基(乔氏)。本文的结构图表示法(graph representations)取长补短,乃是以特氏依存关系为框架,适当辅以乔氏的短语结构而成。本文所有图示均是我们研发的多语分析器对语句全自动解析而成。

乔神仙(Noam Chomsky)特神仙(Lucien Tesnière)

语言的奥秘在于,语句的呈现是线性的,而语句背后的结构却是二维的。我们之所以能够理解语句的意思,是因为我们的大脑语言处理中枢能够把线性语句解构(decode)成二维的结构:语法学家常常用上下颠倒的树形图来表达解构的结果。树形图分析法(sentence diagramming)也一直是语言教学的一个手段。

计算语言学家的任务就是模拟这个语言解构的过程,创制解析器(parser),使解构自动化。这个任务一直处于自然语言处理(natual language processing, NLP)领域的核心,但长期以来大多是科学家的玩具系统(toy systems),或局限于实验室的原型系统(prototypes),其速度(speed)、精准度(precision)、覆盖面(recall)和鲁棒性(robustness)都不足以在真实语料的大数据场景应用。

而这一切已经不再是梦想,符合处理线速要求的高精准度和高覆盖面的鲁棒parsers已经是现实。这是大数据时代的技术福音。笔者在Netbase时期设计并带领团队研发的多语parsers就已经大规模投入(scale up)社会媒体大数据的应用,帮助自动挖掘针对任何话题或品牌的舆情与客户情报。

03

Deep Parsing 是语言技术的核武器

自然语言理解(natural language understanding,NLU)的关键就是模拟人的理解机制,这套机制的核心是 deep parser,其输入是语句,输出是语法逻辑结构。在结构图的基础上,很多语言应用的奇迹可以出现,如舆情挖掘,情报抽取,自动文摘,智能搜索,智能秘书,聊天机器人,心理疏导机等等。

对于看了树形图觉得眼晕的读者,不必明白细节,只要知道线性转成了平面就可以了,非结构转成结构乃是语言理解应用之根本。以下图为例,我们具体分析一下语言结构分析的结果表达。 

 上图叫作依从关系树形图。直观地说,所谓理解了一句话,其实就是明白了两种意义:(1)节点的意义(词汇意义);(2)节点之间的关系意义(逻辑语义)。譬如上面这个例子,在我们的自动语句分析中有大小六个节点:【Tonight】 【I】 【am going to enjoy】 【the 【song】 Hero】 【again】,分解为爷爷到孙儿三个层次,其中的逻辑语义是:有一个将来时态的行为【am going to enjoy】,结构上是老爷爷,他有两个亲生儿子,两个远房侄子。长子是其逻辑主语 S(Actor) 【I】,此子是其逻辑宾语 O(Undergoer)【the song Hero】,父子三人是语句的主干(主谓宾 SVO),构成语句意义的核心。 

两个远房侄子,一个是表达时间的状语(adverbial)【Tonight】,另一个表达频次的状语(adverbial)【again】。最后,还有一个孙子辈的节点【song】,他是次子的修饰语(modifier,是同位语修饰语),说明【Hero】的类别。

语言为什么要结构化?盖因语言是无限的,但结构是有限的。本文所示的的全自动解构树形图,用于语言大数据,就为各种数据挖掘(包括舆情挖掘)提供了结构化的情报宝库。对于信息使用者,这就是不尽的宝藏。

对于信息产品,语用语义当然是重要的,但是语义可以临时抱佛脚,结构则不同。用工程的话说就是,语言处理面对的是海量文本大数据,需要做 offline indexing, 不适宜纠缠过细的语义语用,而是应该先结构化了再说,存到数据库去。在应用的层面,通常需要的是领域场景的语用角度的语义(通过领域化信息抽取和文本挖掘)。这时候,做语义的条件已经成熟了。应用层面的语义一般是在一个特定的领域,或者为了一个特定的用场(产品),抽象层的语义纠缠因聚焦而简化,甚至自然化解了。面对大数据,对于难以预测的情报需求,可以直接对大数据所对应的结构图索引做在线即时检索,检索的时候加入适量的语义限制即可。这其实是下一代智能语义搜索引擎的并不遥远的革命性愿景。这样的句法和语义分工,在工程上是合理的。结构化是语言理解应用之本,结构化数据基础是满足语用需求做情报挖掘的质量保证。

 

04

婀娜多姿,风情万种

上得厅堂,下得厨房

本文所演示的各种树形图就是我们研发出来的文法机器人(parsers)自动生成的,虽然并非完美无缺,倒也风姿绰约。多语结构树没什么奥妙,大家的表达大同小异,都是秉承特神仙或乔神仙的体系。可是怎样达到这个结构,才是硬功夫。

下面以乔姆斯基上世纪五十年代末引发语言学革命的名句 “Colorless green ideas sleep furiously” 为例,请读者与我们一同欣赏多语 parsers是如何透过千差万别的具体语言的词汇词法的排列,解构出类似的句法结构:

我们每天面对的就是这些树木构成的语言丛林。在我的眼中,它们形态各异,婀娜多姿,变化多端而不离其宗(“语法”)。最关键的是,风情万种的结构丛林,已经不再是象牙塔里供人观赏的艺术模型,她上得厅堂,下得厨房,甚至对于随处可见错别字、不规范用法的社交媒体大数据,也一样适用。这是怎样一个语言奥秘的探测仪,她的作用和巨大潜力才刚刚开始!

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

NLP自选系列:文本大数据的信息抽取与情报挖掘(上)

李维博士:我之所长不过是大数据的一部分,即自然语言的文本挖掘这块儿。而对于大数据的非文本形式(譬如语音、图片、录像、数字记录等),大数据的云处理手段及其工程架构等,所知十分有限。因此,本文仅仅就自然语言文本挖掘,特别是对近年火热的社交媒体的挖掘,谈一点一己之见,抛砖引玉,供各位参考。

01

大数据热的背景

我们现在正处在一个历史契机,近几年发生了一连串值得注意的相关事件。其热门关键词是社交媒体、云计算、移动互联网和大数据情报挖掘。针对社交媒体内容利用云计算作为支撑的高新技术产业成为潮流。

社交媒体的持续升温,无论是用户还是其产生的内容,都以爆炸性速度增长,一场悄悄的社交媒体革命正在发生,它从根本上改变着社会大众以及企业对信息的接受和传播方式。传统的由媒体巨头主导经由电视、广播和报纸的自上而下的新闻和宣传的传播方式,正在逐渐让步于基于网络与网民的社交媒体的蛛网方式。最新的新闻(无论是天灾人祸、名人掐架还是品牌褒贬)常常发端于处在现场的网民或当事人的微博,然后瞬间辐射到整个互联网,传统传媒往往紧随其后。在这样的形势下,企业软件巨头纷纷把目光聚焦在对于社交媒体舆论和民意的跟踪上,视其为品牌和客户情报的重要来源。

回顾一下历史。2011年初,美国做市场情报的巨头之一 Salesforce 以三亿多美元 (326 million) 的价钱并购了社交媒体客户情报检测系统 Radian6,说明社交媒体中客户对产品的评价情报对于企业的重要性不容忽视。Oracle对从事云计算和社交媒体追踪的公司 RightNow 的并购更是高达15亿(1.5 billion)。HP在逐渐放弃低利润的 PC 和平板等硬件产业的同时,开始加强企业软件的投资力度,以120亿天价购并了从事文本情报的英国公司 Autonomy(12billion)。最后,接近2011年末的时候,全球企业软件的另一家巨头 SAP以 34 亿收购了云计算公司 SuccessFactors(3.4 billion),并决定与专事社交媒体深度分析的公司 Netbase 建立战略伙伴关系,分销并整合其社交媒体情报作为企业情报解决方案的重要一环。加上IBM自己的 Coremetrics Social 和 Adobe的 SocialAnalytics,可以看到所有企业软件巨头都曾不约而同看好社交媒体的情报价值。

当时在这个领域的投资和竞争非常激烈。不少华尔街主流投资公司加大对社交媒体 (social media) 分析系统公司的投资力度。如 Jive Software,连续得到 Sequoia Capital 两轮投资 (2007和2010)。Sequoia Capital 是“重中之重”的 投资大鳄,曾是如下名牌企业的最早投资商,战略眼光犀利:Apple、Google、Cisco、Oracle。

这股社交媒体和大数据挖掘热潮以后,各种初创公司如雨后春笋。记得当年在 Netbase 主持社交媒体客户情报挖掘产品的那些年,在我们的竞争对手的注视名单上一开始有四五十家。十多年下来,大浪淘沙,后来只剩下五六家公司真正在市场站住了,包括 Netbase 的老对手 BrandWatch。

对于中文社交媒体大规模处理的应用型软件,有不少企业做了不同程度的应用落地尝试,但比起西方语言的企业市场应用,还有很大的距离,to B 的市场成熟度也不够。中文网络信息的增长速度一直扶摇直上,最值得重视的是爆炸性增长的腾讯微信对个人网络及其社交方式的革命性影响,以及新浪微博在社会公共生活中的巨大影响。社交媒体所产生的巨量内容有如深埋的富矿,有潜在的巨大价值。

然而,迄今未见规模化落地应用,分析起来应该有好几个因素:(1)社交媒体大数据涉及隐私,不宜放任挖掘。事实上,微信数据是不对挖掘开放的。只有微博和一些论坛作为公开平台,其数据挖掘较少涉及隐私。(2)大数据挖掘应用的门槛很高,不仅仅是语言处理的能力需要有让人信服的数据质量(特别是精度),而且工程投入,包括存储、更新、检索都需要巨大的投入和积累;(3)就算大数据挖掘一切到位,挖掘出来的情报或知识图谱,到底如何应用还有很大的探索空间,目前还缺乏现场切入角度合适的规模化杀手级应用。尽管如此,从趋势上看,来自于文本大数据的源源不断的情报挖掘,终将成为信息社会不可或缺的软实力。

有人问,这一波热潮会不会是类似2000年的又一个巨大的泡沫?我的观察是,也是,也不是。的确,在大数据的市场还不成熟,发展和盈利模式还很不清晰的时候,大家一窝蜂拥上来创业、投资和冒险,其过热的行为模式确实让人联想到世纪之交的互联网 dot com 的泡沫。然而,这次热潮不是泡沫那么简单,里面蕴含了实实在在的内容和价值潜力,我们下面会具体谈到。当然这些潜在价值与市场的消化能力是否匹配,仍是一个巨大的问题。可以预见三五年之后的情景,涅磐的凤凰和死在沙滩上的前浪共同谱写了大数据交响乐的第一乐章。

回顾一下互联网技术公司的里程碑吧:

26年前雅虎以门户网站(Yahoo portal)先领风骚,谷歌以搜索 (Google search) 后来居上,脸书推出的社交网络(Facebook social)与推特(Twitter)的微博现已深入我们每个人的生活。国内社交媒体如新浪微博、腾讯微信等,下一个里程碑是什么?

Big data intelligence (大数据情报挖掘)

很多人这样预测,Google 首席科学家也列此为未来高新技术的大势所趋。所不清晰的是谁家会胜出。看样子是有志之士摩拳擦掌弄潮儿的时机了。

02

什么是大数据

顾名思义就是强调数据的量,但其实这个概念并不是那样简单。如果单纯论量,大数据不是今天才有的,而且数据的量也是一个积累渐变(当然可能是加速度增长)的过程。

所谓大数据,更多的是社交媒体火热以后的专指,是已经与时事背景相关联的数据,而不是搜索引擎从开放互联网搜罗来的混杂集合。没有社交媒体及其用户社交网络作为背景,纯粹从量上看,“大数据”早就存在了,它催生了搜索产业。对于搜索引擎,big data 早已不是新的概念,面对互联网的汪洋大海,搜索巨头利用关键词索引(keyword indexing)为亿万用户提供搜索服务已经很多年了。我们每一个网民都是受益者,很难想象一个没有搜索的互联网世界。但那不是如今的 buzz word,如今的大数据与社交媒体密不可分。当然,数据挖掘领域把用户信息和消费习惯的数据结合起来,已经有很多成果和应用。自然语言的大数据可以看作是那个应用的继续,从术语上说就是,text mining (from social media big data)是 data mining 的自然延伸。对于语言技术,NLP 系统需要对语言做结构分析,理解其语义,这样的智能型工作比给关键词建立索引要复杂千万倍,也因此 big data 一直是自然语言技术的一个瓶颈。

大数据也包括声音、 图片和录像等媒体。本文只谈文本大数据。

随着社交媒体的深入人心以及移动互联网的普及,人手一机,普罗百姓都在随时随地发送消息,发自民间的信息正在微博、微信和各种论坛上遍地开花。对于信息受体(人、企业、政府等),信息过载(information overload)问题日益严重,利用 NLP 等高新技术来帮助处理抽取信息,势在必行。

 

除了与社交媒体以及时事背景密切相关以外,大数据的当红也得力于技术手段的成熟。大数据的存储架构以及云计算的海量处理能力,为大数据时代的提供了技术支撑平台。在此基础上,大数据的深度挖掘才有可能跳出实验室,在具体应用和服务中发挥作用。

大数据时代只认数据不认人。In God We Trust. In everything else we need data. 道理很简单,在信息爆炸的时代,任何个人的精力、能力和阅历都是有限的,所看到听到的都是冰山一角。大V也如此,大家都在盲人摸象。唯有大数据挖掘才有资格为纵览全貌提供导引。

当然,这不是说,大数据挖掘就是完美的解决方案。但是,正如一人一票的民主选举也不是人类社会完美的体制,而只是最少犯错误的机制一样,大数据挖掘比任何其他个人或利益集团的分析,较少受到主观偏见的干扰。这是由大数据本性决定的。

大数据是忽悠么?吆喝多了,烂了,就跟转基因似的,本来是正经的研究,也要被人怀疑是忽悠,甚至骗局。要说忽悠,大数据有没有忽悠?当然有,应该说很多。所有的泡沫都是吹起来的,但特别大的泡沫之所以能被吹起来并且持续,就不仅仅是吹功可为。正如我演讲中说过的,大数据不仅仅是忽悠,一场革命也许在酝酿着。

03

大数据挖掘技术及其挑战

社交媒体火了,信息爆炸式增长,也有了大数据支撑平台,挖掘技术跟上了么?

面对呈指数增长的海量信息,人类越来越面对信息获取的困境。唯一的出路是依靠电脑挖掘。对付文本大数据的核心技术是自然语言处理(NLP),没有鲁棒高效的 NLP,电脑挖掘得不到什么有指导价值的情报。就说社交媒体对产品和服务的评价吧,每时每刻,无数用户的抱怨和推荐不断出现在网上,这些客户对产品的评价情报对于企业加强产品功能和研发新产品,具有很高的应用价值。可是怎么获取这些淹没在语言海洋中的情报呢?出路就是:1 自动分析;2. 自动抽取;3 挖掘整合。这就是我们正在做而且已经取得显著效果的工作。

社交媒体的特点是什么?概括来说,就是:1. 不断翻新的海量信息源;2. 满是不规范的字词和表达法。这就要求研发的系统,首先必须具有大数据处理能力( scalability),实验室的玩具系统无论其数据分析多么精准深入也是不行的;同等重要的还有分析系统的鲁棒性(robustness)。在这两者的基础上,如果再能做到有深度(depth)则更佳。深度分析的优势在于能够支持应用层面的以不变应万变。因为应用层面的变数大,不同的客户、不同的产品对于信息的关注点不同,所以抽取信息应该越灵活越好,最好能做到像目前运用搜索引擎或数据库查询那样方便。但数据的语言表达是千变万化的,要做到信息的灵活抽取,而不是根据事先预定的信息模板来抽取,那就需要相当的语言分析深度来支持一个逻辑化的语义表达。要一个系统既有 scalability,robustness,还要有 depth,不是一件容易的事儿。

在处理海量数据的问题解决以后,查准率和查全率变得相对不重要了。换句话说,即便不是最优秀的系统,只有平平的查准率(譬如70%,抓100个,只有70个抓对了),平平的查全率(譬如30%,三个只能抓到一个),只要可以用于大数据,一样可以做出优秀的实用系统来。其根本原因在于两个因素:一是大数据时代的信息冗余度;二是人类信息消化的有限度。查全率的不足可以用增加所处理的数据量来弥补,这一点比较好理解。既然有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。

从信息消费者的角度,一个信息被抓住一千次,与被抓住900次,是没有本质区别的,信息还是那个信息,只要准确就成。现在的问题是在一个查准率不理想的系统怎么可以取信于用户呢?如果是70%的系统,100条抓到的信息就有30条是错的,这岂不是鱼龙混杂,让人无法辨别,这样的系统还有什么价值?沿着这个思路,别说70%,就是高达90%的系统也还是错误随处可见,不堪应用。这样的视点忽略了实际的挖掘系统中的信息筛选(sampling/filtering)与整合(fusion)环节,因此夸大了系统的个案错误对最终结果的负面影响。实际上,典型的情景是,面对海量信息源,信息搜索者的几乎任何请求,都会有数不清的潜在答案。

由于信息消费者是人,不是神,即便有一个完美无误的理想系统能够把所有结果,不分巨细都提供给他,他也无福消受(所谓 information overload)。因此,一个实用系统必须要做筛选整合,把统计上最有意义的结果呈现出来。这个筛选整合的过程是挖掘的一部分,可以保证最终结果的质量远远高于系统的个案质量。总之,size matters,多了就不一样了,可以让噪音沉底。大数据改变了技术应用的条件和生态,大数据更能将就不完美的引擎。

 

下回篇将进一步讨论社媒大数据挖掘的重要应用等内容。敬请期待!

「弘•扬」:弘智益人,扬道解惑。每周大咖分享栏目,敬请关注。

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

NLP自选系列:自然语言系统架构简说

对于自然语言处理(NLP)及其应用,系统架构是核心问题,这里给出了四个NLP系统的体系结构的框架图,现在就一个一个做个简要的解说。

我把 NLP 系统从核心引擎直到应用,分为四个阶段,对应四张框架图。最底层最核心的是 deep parsing,就是对自然语言的自底而上层层推进的自动分析器,这个工作最繁难,但是它是绝大多数NLP系统基础技术。

parsing 的目的是把非结构的语言结构化。面对千变万化的语言表达,只有结构化了,patterns 才容易抓住,信息才好抽取,语义才好求解。这个道理早在乔姆斯基1957年语言学革命后提出表层结构到深层结构转换的时候,就开始成为(计算)语言学的共识了。结构树不仅是表达句法关系的枝干(arcs),还包括负载了各种信息的单词或短语的叶子(nodes)。结构树虽然重要,但一般不能直接支持产品,它只是系统的内部表达,作为语言分析理解的载体和语义落地为应用的核心支持。

接下来的一层是抽取层 (extraction),如上图所示。它的输入是结构树,输出是填写了内容的 templates,类似于填表:就是对于应用所需要的情报,预先定义一个表格出来,让抽取系统去填空,把语句中相关的词或短语抓出来送进表中事先定义好的栏目(fields)去。这一层已经从原先的领域独立的 parser 进入面对领域、针对应用和产品需求的任务了。

值得强调的是,抽取层是面向领域的语义聚焦的,而前面的分析层则是领域独立的。因此,一个好的架构是把分析做得很深入很逻辑,以便减轻抽取的负担。在深度分析的逻辑语义结构上做抽取,一条抽取规则等价于语言表层的千百条规则。这就为领域转移创造了条件。

有两大类抽取,一类是传统的信息抽取(IE),抽取的是事实或客观情报:实体、实体之间的关系、涉及不同实体的事件等,可以回答 who did what when and where (谁在何时何地做了什么)之类的问题。这个客观情报的抽取就是如今火得不能再火的知识图谱(knowledge graph)的核心技术和基础,IE 完了以后再加上下一层挖掘里面的整合(IF:information fusion),就可以构建知识图谱。另一类抽取是关于主观情报,舆情挖掘就是基于这一种抽取。我过去五年着重做的也是这块,细线条的舆情抽取(不仅仅是褒贬分类,还要挖掘舆情背后的理由来为决策提供依据)。这是 NLP 中最难的任务之一,比客观情报的 IE 要难得多。抽取出来的信息通常是存到某种数据库去。这就为下面的挖掘层提供了碎片情报。

很多人混淆了抽取(information extraction) 和下一步的挖掘(text mining),但实际上这是两个层面的任务。抽取面对的是一颗颗语言的树,从一个个句子里面去找所要的情报。而挖掘面对的是一个 corpus,或数据源的整体,是从语言森林里面挖掘有统计价值的情报。在信息时代,我们面对的最大挑战就是信息过载,我们没有办法穷尽信息海洋,因此,必须借助电脑来从信息海洋中挖掘出关键的情报来满足不同的应用。因此挖掘天然地依赖统计,没有统计,抽取出来的信息仍然是杂乱无章的碎片,有很大的冗余,挖掘可以整合它们。

很多系统没有深入做挖掘,只是简单地把表达信息需求的 query 作为入口,实时(real time)去从抽取出来的相关的碎片化信息的数据库里,把 top n 结果简单合并,然后提供给产品和用户。这实际上也是挖掘,不过是用检索的方式实现了简单的挖掘就直接支持应用了。

实际上,要想做好挖掘,这里有很多的工作可做,不仅可以整合提高已有情报的质量。而且,做得深入的话,还可以挖掘出隐藏的情报,即不是原数据里显式表达出来的情报,譬如发现情报之间的因果关系,或其他的统计性趋势。这种挖掘最早在传统的数据挖掘(data mining)里做,因为传统的挖掘针对的是交易记录这样的结构数据,容易挖掘出那些隐含的关联(如,买尿片的人常常也买啤酒,原来是新为人父的人的惯常行为,这类情报挖掘出来可以帮助优化商品摆放和销售)。如今,自然语言也结构化为抽取的碎片情报在数据库了,当然也就可以做隐含关联的情报挖掘来提升情报的价值。

第四张架构图是NLP应用(apps)层。在这一层,分析、抽取、挖掘出来的种种情报可以支持不同NLP产品和服务。从问答系统到知识图谱的动态浏览(谷歌搜索中搜索明星已经可以看到这个应用),从自动民调到客户情报,从智能助理到自动文摘等等。

这算是我对NLP基本架构的一个总体解说。根据的是近20年在工业界做NLP产品的经验。18年前,我就是用一张NLP架构图忽悠来的第一笔风投,投资人自己跟我们说,这是 million-dollar slide。如今的解说就是从那张图延伸拓展而来。

天不变道亦不变。

以前在哪里提过这个 million-dollar slide 的故事。说的是克林顿当政时期的 2000 年前,美国来了一场互联网科技大跃进,史称  .com bubble,一时间热钱滚滚,各种互联网创业公司如雨后春笋。就在这样的形势下,老板决定趁热去找风险投资,嘱我对我们实现的语言系统原型做一个介绍。我于是画了下面这么一张三层的NLP体系架构图,最底层是parser,由浅入深,中层是建立在parsing基础上的信息抽取,最顶层是几类主要的应用,包括问答系统。连接应用与下面两层语言处理的是数据库,用来存放信息抽取的结果,这些结果可以随时为应用提供情报。这个体系架构自从我15年前提出以后,就一直没有大的变动,虽然细节和图示都已经改写了不下100遍了,本文的架构图示大约是前20版中的一版,此版只关乎核心引擎(后台),没有包括应用(前台)。话说架构图一大早由我老板寄送给华尔街的天使投资人,到了中午就得到他的回复,表示很感兴趣。不到两周,我们就得到了第一笔100万美金的天使投资支票。投资人说,这张图太妙了,this is a million-dollar slide,它既展示了技术的门槛,又显示了该技术的巨大潜力。

前知识图谱钩沉: 信息抽取引擎的架构

「弘•扬」弘智益人,扬道解惑。每周大咖分享栏目,敬请关注。

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

NLP自选系列:文本大数据的信息抽取与情报挖掘(下)

弘·扬 | 首席科学家李维科普:文本大数据的信息抽取与情报挖掘(下)

李维博士:我之所长不过是大数据的一部分,即自然语言的文本挖掘这块儿。而对于大数据的非文本形式(譬如语音、图片、录像、数字记录等),大数据的云处理手段及其工程架构等,所知十分有限。因此,本文仅仅就自然语言文本挖掘,特别是对近年火热的社交媒体的挖掘,谈一点一己之见,抛砖引玉,供各位参考。

感兴趣的小伙伴可以点击上期内容:

弘·扬 | 首席科学家李维科普:文本大数据的信息抽取与情报挖掘(上)

04

客户评价和民意舆论的抽取挖掘

舆情(舆论情绪/舆论情势)是什么?是人民(或网民)的声音。

人民是由个体组成的,网民是由网虫组成的。网民的声音来自一个个网虫的帖子。网民声音的载体就是社交媒体大数据。在大数据的尺度下,个体声音的过细分类没有太大意义,因为只要数据足够大,其最终舆情结果(结论)是不变的。举例来说,10万个正面呼声,100万个负面呼声,其综合舆情结果并不会因为这10万中有2万love,8万like,负面中有20万hate,80万dislike 而有大的改变。无论如何计算,结论依然是天怒人怨。

大数据系统情报挖掘的真正价值何在呢?就是揭示冗余度支持的有统计意义的情报及其关联。在大数据的尺度下,个体情报的引擎查全率的不足不是问题,因为在大数据整体挖掘的背景下,样本空间的问题消失了。个体的不足或遗漏,不过是等价于样本空间缩小了那么一点点儿,对于统计情报的完备、性质和价值不具有负面影响。考虑到很多年来,统计情报都是手工 survey 而来,其样本空间由于预算以及时效的制约,大多是几千个数据点(data points)而已,统计人员一直在预算、时效和 error margin 之间挣扎。如今的大数据挖掘,随便一个调查都有百万甚至千万的数据点支持,与手工调查完全不可同日而语,样本空间的些微变化因此不能对情报价值造成伤害。总之,与其追求引擎的查全率,不如把精力放在查准率上,然后着力于应对数据量的挑战(scale up)。

采样大就可以弥补个体颗粒度的粗疏,这在机器学习领域被一再证明,也是很多统计学家不屑于语言学家精雕细刻雕虫小技的缘由之一。这么说,语言学可以退出舞台了?

并非如此。主要原因有二。

第一是大数据并非总存在。冷门品牌或者新出的品牌数据量就往往不够,另外很多分析要求会对数据进行切割,比如从时间维度的切割可以反映舆情的消长(trends),是制定决策时非常重要的情报,可是大数据一切割往往就成了小数据,没有语言学上比较细致的分析来弥补,舆情分析就不靠谱,没有足够的置信度。

第二是褒贬分析只提供舆情的一个概览,它本身并不是 actionable insights.  知道很多人喜欢或者不喜欢一个品牌,so what?企业还是不知道怎么办,最多是在广告宣传投资量的决策上有些参考价值,对于改进品牌产品,适应用户需求,褒贬舆情太过抽象,不能提供有价值的情报。这就要求舆情分析冲破两分、三分、五分的分类法,去发掘这些情绪的背后动因(reasons/motivation),回答为什么网民喜欢(不喜欢)一个品牌的问题。譬如挖掘发现,原来喜欢麦当劳的主要原因是它发放优惠券,而不喜欢它的原因主要是嫌它热量太大,不利减肥。这样的舆情才是企业在了解自己品牌基本形象以后,最渴望得到的 actionable 情报,因为他们可以据此调整产品方向(如增加绿色品种和花样,水果、色拉等),改变广告策略(如强调其绿色的部分)。

大数据给决策人(政府、企业或者犹豫如何选择的消费者)提供了一个前所未有的方便工具,去纵览有统计意义的舆情。这在以前只能通过小规模误差很大的人工问卷调查来做。如今自动化了,而且样本量高出好几个量级,这都拜科学技术所赐。

 

05

自动民调: 社媒大数据挖掘的重要应用

 

社媒大数据挖掘最重要的应用之一是自动民调,可以补充、加强并最终取代手工问卷调查。可以用来测量一场运动、战役、广告的效果,以及总统选情的检测等等。

自动民调(Automatic Survey)指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论,其技术领域即所谓舆情挖掘(sentiment mining),通常需要自然语言(NLP)和机器学习(Machine Learning)等技术作为支持。自动民调是对传统的问卷调查一个补充或替代。在社交媒体日益普及的今天,民间情绪和舆论通过微博、博客或论坛等社交媒体管道铺天盖地而来,为了检测、采集和吸收这些舆论,自动民调势在必行,因为手工挖掘面对大数据(big data)已经完全不堪负荷。

民意调查(poll)可以为政府、企业以及民众的决策提供量化情报,应用范围极其广泛。总统大选是一个突出的例子,对于总统候选人本人及其竞选团队,对于选民,民调的结果可以帮助他们调整策略或作出选择。产品发布是企业的例子,譬如 iPhone 11发布以后,民调的反馈可以帮助苹果及时发现问题。对于有意愿的消费者,民调的结果也有助于他们在购买、等待还是转向别家的决策时,不至于陷入盲目。

相对于传统的以问卷(questionnaire)调查为基础的民调,自动民调有以下几个突出特点: 

及时性。传统民调需要经过一系列过程,设计问卷、派发问卷(通过电话采访、街头采访、有奖刺激等手段)、回收问卷,直到整合归纳,所有程序都须手工进行,因此难以做到及时响应。一个认真的客户产品调查常常需要几天甚至几周时间方可完成。自动民调可以做到立等可取。对于任意话题,使用自动民调系统就像利用搜索引擎一样方便,因为其背后在不分昼夜地自动分析和索引有关的语言资料(通常来自社交媒体)。 

高性价比。传统民调的手工性质使得只有舍得不菲的花费,才可以做一项有足够规模的民调(样本小误差就大,难以达到民调的目的)。自动民调是由系统自动完成,同一个系统可以服务不同客户不同话题的各种民调,因此可以做到非常廉价,花费只需传统民调的零头。样本数可以高出手工调查回收数量的n个量级,是传统民调无法企及的。至于花费,通常的商业模式有两种,客户可以订阅(license)这样的系统使用权,然后可以随时随地对任意多话题做任意多民调。零散客户也可以要求记件使用,每个话题民调一次缴纳多少钱。 

客观性。传统民调需要设计问卷,这就可能有意无意引入主观因素,因此不能完全排除模糊歧义乃至误导的可能。自动民调是自底而上的自动数据分析,用的是归纳整合的方法,因此更加具有客观性。为了达成调查,调查者有时不得不施行物质刺激,这也产生了部分客户纯粹为了奖励而应付调查、返回低质问卷的弊端。自动民调的对象是民意的自然流露(水军和恶意操纵另论),基数大,也有利于降噪,这就保障了情报的客观性。

对比性。这一点特别重要,因为几乎任何话题的民调,都需要竞争对手或行业的背景。正面反面的舆论,问题的严重性等等,只有通过对比才能适当体现。譬如民调特朗普的总统竞选效益,离不开对比其对手希拉利。客户调查 AT&T 手机网络的服务,离不开比较其竞争者 Verizon。很多品牌实际上需要与一系列同类品牌做对比,才好确定其在市场的地位(如上图所示)。这种对比民调,虽然在理论上也可以手工进行,但是由于手工民调耗时耗力耗钱,很多时候调查者不得不减少或者牺牲对于竞争对手的调查,利用有限的资源只做对本企业的品牌调查。可自动民调就不同了,多话题的调查和对比是这类产品设计的题中应有之义,可以轻易完成。 

自动民调也有挑战,主要挑战在于人为噪音:面对混乱的社交媒体现实,五毛、水军以及恶意舆论的泛滥,一个有效的舆情系统必须不断与垃圾作战。好在这方面,搜索引擎领域已经积攒了丰富的经验可以借鉴。另一个挑战是需要对网络世界做两类媒体的分类(所谓push/pull的媒体分野)。民意调查切忌混入“长官意志”,客户情报一定要与商家宣传分开:同是好话,商家是王婆卖瓜,客户才是上帝下旨。这种媒体分类可以结合来源(sources)、语气(宣传类材料常常是新闻官方语气,而客户评价则多用口语和网络语)来决定,是有迹可寻的。

总之,在互联网的时代,随着社交媒体的深入民间,民间情绪和舆论的表达越来越多地诉诸于社交媒体。因此,民调自动化势必成为未来民调的方向和主流。其支持技术也基本成熟,大规模多语言的应用指日可待。

以总统大选为例。在特朗普对决希拉里时,我还在 Netbase 主持大数据产品的研发,手中有海量的推特数据以及我们研发的大数据挖掘的核武器,有独特的优势,可以见人所不能见。

虽然说推特是公开的社交媒体,人人可读,但没有语言抽取和挖掘,任何人或团体都难以看清全局走势。当年的选战瞬息万变,但大数据是不会骗人的,里面的跌宕起伏每日呈现在我的追踪系列里。当时主流媒体和民调一致认为希拉里要赢,特朗普自己也没料到自己会赢,连胜选演说都没预备好。希拉里这边更是有些得意忘形了,在选前的生日那天,希拉里发推特给自己庆生,标题是:祝未来的总统生日快乐!

就在这一片看好希拉里的预测中,我根据大数据挖掘结果,预测了特朗普的胜选。这可不是事后诸葛亮,都是有案可查的记录(有兴趣的读者可以关注后续报道)。

大选前一周的对比图:

这是当时24小时内的对比图:

这是一个月的涨跌对比:

至此局势基本清晰了:希拉里的确选情告急。大选真是瞬息万变啊,之前还是喜妈领先或胶着,而最后川大叔居然翻身了,选情的变化无常真是让人惊心动魄。

为什么会得出与主流民调相左的趋势预测呢?道理很简单,主流的手工民调落后于时代,数据采集点太稀疏,误差大,也没法及时反映变化的选情。这次大选后,不少朋友告诉我,从来没有如此真切地感受到大数据和语言技术的威力。

其实在前一轮的奥巴马总统竞选的时候,我们的工具就已经相当成熟,每次总统辩论,我们的舆情监测系统就在线实时展示辩论现场的舆情曲线变化,可即刻宣告辩论双方的得失和结果。奥巴马赢了第二次总统候选人辩论吗?舆情自动民调表明,奥巴马显然赢了这场辩论。人气曲线表明他几乎在所有议题上领先罗梅尼。仔细分析可以看出,对奥巴马真正具有挑战性的议题有二:一是他在第一任总统期间的经济表现(6:55pm时);二是批判他对中国不够强硬 (7:30pm时)。人气曲线反映了由我们自然语言技术支持的实时舆情挖掘。

06

实时监测: 大数据时代的危机管理

大数据挖掘第二个重要应用就是为公关危机提供实时检测和预警的工具。

话说这危机管理(risk management)在进入社交媒体大数据时代,确实成为一个大问题。老话说,好话不出门,坏话传千里。在微博微信的时代,岂止千里,有时候一件事被疯狂推转,能传遍全世界。如果没有危机管理的意识以及迅速发现和应对的技术手段和公关技巧,损失的就是企业的信誉,外加金钱。这一点大名鼎鼎的跨国公司西门子最清楚,由于公关处理失当,发现和应对的不及时不诚恳不懂心理学,惹恼了一位叫做罗永浩的胖大哥。老罗是大 V,嗓子亮,因此一个简单的产品质量问题(好像是西门子冰箱的门不太容易关严实)演变成一场社交媒体戏剧性的消费者维权事件。老罗愤而砸西门子冰箱的行为艺术和形象,成为家喻户晓的消费者维权的特征符号。西门子为此损失了多少银子,百万还是千万,只有他们自己可以算清楚,打落牙齿自己吞,这是傲慢的西门子的血的教训。

企业大数据运用的主要 use scenarios,其中 risk management 最容易打动客户,他们也最愿意花大钱帮助实时监控。一个可能的公关灾难从火种到无法收拾,里面可以调控的时间不长,他们希望电脑大数据监控能在第一时间发出预警,然后他们可以及时应对。

曾经测试中文系统一个月的微博数据,想看看系统对于类似危机的监测效果如何,结果发现了一个当时闹得沸沸扬扬的必胜客虾球广告事件,涉嫌侮辱视力残障人士。下面的 挖掘抓取令人印象深刻,显然这次事件严重影响了企业的社会形象,是一个不折不扣的公关危机。

好在必胜客管理层应对迅速,及时道歉,逐渐平息了事态。

07

大数据及其挖掘的局限性

先说它的不宜和禁忌。

1、这种挖掘不宜做预测,更适合做回顾。当然,历史是未来的镜子,回顾过去也未尝不能透出一点趋向的预测。

2、这种挖掘一般不提供问题的答案,特别是科学问题,答案在专家或上帝手中,不在网民的口水中。

3、大数据不是决策的唯一依据,只是依据之一。正确的决策必须综合各种信息来源。大事不提,看看笔者购买洗衣机是怎样使用大数据、朋友口碑、实地考察以及种种其他考量的吧。以为有了大数据就万事大吉,是不切实际的。值得注意的是,即便被认为是真实反映的同一组数据结果也完全可能有不同的解读(interpretations),人们就是在这种解读的争辩中逼近真相。一个好的大数据系统,必须创造条件,便于用户 drill down 去验证或否定一种解读,便于用户通过不同的条件限制及其比较来探究真相。

社媒是个大染缸,顽主比烂,僵尸横行,水军泛滥,大数据挖掘又有什么意义?无论是怎样大的染缸,它实际上成为最具规模、最便捷、有时甚至是唯一的普罗网民的舆情宣泄口。水军僵尸总会有对付的办法。社媒的混沌和杂乱不是不作为的理由。从情报角度,它可能不是富矿,但肯定是金矿,就看你有没有本事挖掘它。

有网友怕大数据挖掘误导读者。的确,大数据的操作和挖掘可能有 bug。但大数据提供的舆情全貌鸟瞰是其他手段代替不了的,而我们每个个体在日常接触中只能看到舆情信息海洋的一滴水。事实上,无视大数据更容易被自己的局限所误导。害怕大数据,就好比蒙上眼睛,世界就不见了一样可笑。

应该指出的是,挖掘本身虽然可能有 bug ,数据本身也有不少噪音,但它们对所有搜索的话题是一视同仁的,是独立于话题的。这些数据及其挖掘的不完善只要放在比较的框架中就不是严重问题。虽然具体语言中褒贬比例和分布可能不同,但是如果一个对象的褒贬指数放在其他对象的褒贬指数的背景(reference frame) 下来阐释,其解读就比较真实。比如,在过往的许多调查中,我们知道褒贬度降到零下20以后就很不妙,说明媒体形象差,老百姓很多怨气。有了这样一个历史积累,新的品牌或话题如果达到类似的指标,解读就不大会离谱了。

特别是我们做一个行业的多品牌调查和比较的时候更是如此。品牌A与品牌B的在舆情中的相对位置非常说明问题。系统的误差,质量的不完美,语言数据的不完整,以及语言现象的分布不匀,所有这些统统不再成为问题,除非这些差异是针对特定品牌的(这种现象基本不出现)。

这一点毛主席早就说过:有比较才有鉴别。

08

大数据创业的喜和乐

高新技术的好处在于做前人没做过的创新。创新的真义在于在技术手段面对应用现场的无数应用可能的组合方案中,在与用户的交互与市场的培育下,你找到了那一个很小子集中的一员。这个子集里的产品定义因应时代的召唤,生逢其时,不早也不晚,而且有技术门槛(entry barrier)。

如果你做到了这一点,你会发现,你的客户不乏热情先行者(early adopters),他们不吝啬溢美之辞,为了现实需求中疑难的解决。也有客户大喜过望,把他们不理解的语言技术,视为未来世界奇迹的提前来临。他们的欣喜会感染开发者。当这种感染不再是个案,而是每日在发生的时候,你不可能无动于衷,也不可能不加入客户成为创新的拥趸。

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

NLP自选系列:大数据告诉我们,特朗普如何击败希拉里

弘·扬 | 首席科学家李维科普:大数据告诉我们,特朗普如何击败希拉里

在上一期弘·扬 | 首席科学家李维科普:文本大数据的信息抽取与情报挖掘(下)中,李维博士以特朗普对决希拉里为例,大选前夕及时提出警示,各种自动数据分析表明,希拉里选情告急,特朗普胜算大增。本期内容将深入讨论大数据是如何预测这一过程的。

这是特朗普对决希拉里终极对决前一周的对比图:

从图中来看,希拉里的选情的确不妙,川大叔领先了。是不是因为FBI重启希拉里“邮件门”调查造成的结果?这是当时24小时内的对比图:

这是大选前9月-10月的选情涨跌对比:

至此局势基本清晰了:希拉里的确选情告急。大选真是瞬息万变啊,之前还是喜妈领先或胶着,而最后川大叔居然翻身了,选情的变化无常真是让人惊心动魄。

这是大选前最后一周的选情对比:

最后一周对喜婆很不利。过去24小时一直在零下20上下,而老川在零上10左右,有30点的差距:

看看更大的背景,8-10月的选情对比:

喜大妈好不容易领先了,此前一直落后,直到9月底,9月底到10月中是喜妈的极盛期,是川普的麻烦期。

至于热议度,从来都没有变过,总是川普压倒:

眼球数也是一样:

一年来的狂热度(passion intensity)基本上也是川普领先,但喜婆也有不有不少强烈粉她或恨她的,所以曲线有交叉:

这个 passion intensity 与所谓 engagement 应该有强烈的正相关,因为你痴迷或痛恨一个 candidate 你就愿意尽一切所能去投入、鼓噪、撕逼。

最好是赶快把川大叔的最新丑闻抖出来,这么多年,难道就留不下比电话录音更猛、更铁的丑闻证据。常识告诉我们肯定有 skeleton in the closet(把秘密藏进衣柜),可是这家伙太狡猾,可能一辈子做商人太过精明。但大选当时只剩下一周、先期投票已经开始。

电邮门是摧毁性的。FBI 选在大选前一周重启,这个简直是不可思议。比川普的录音曝光的时间点厉害。那家印度所谓AI公司押宝可能押对了,虽然对于数据的分析能力和角度,远不如我们的当时的平台丰富灵活。他们基本只有一个 engagement 的度量,连最起码的 sentiment classification 都没有,更不用说 social media deep sentiments 了。无论怎么说,希拉里最近选情告急是显然的。至于这种告急多大程度上影响真正的选票,还需要研究。

朋友提醒所谓社交媒体,其实是 pull 和 push 两种信息的交融,其来源也包含了不少news等,这些自上而下的贴子反映的是两党宣传部门的调子,高音量,影响也大,但并非真正的普罗网虫自下而上的好恶和呼声,最好是尽可能剔除前者才能看清真正的民意。下面的一个月走势对比图,我们只留下 twitter,FB,blog 和 microblog 四种社交媒体,剔除了 news 和其他社交媒体:

下面是only推特,大同小异:

对比一下所有的社交媒体,包括 news 网站,似乎对于这次大选,pull 和 push的确是混杂的,而且并没有大的冲突和鸿沟:

希拉里为什么选情告急?看看当时近一个月的希拉里云图,开始红多绿少了:

对比一下川普的云图,是红绿相当,趋向是绿有变多的趋势,尤其是第二张情绪(emotion)性云图:

再看看当时近一周的云图对比,舆论和选情的确在发生微妙的变化。这是川普的sentiment 云图:

下面是网民的针对希拉里来的正负行为表述的云图:

not vote 希拉里的呼声与 vote for her 的不相上下。对比一下川普当时10月最后一周的呼声:

vote 的呼声超过 not vote for him。如果这次希拉里输了,the FBI director Comey 居功至伟。因为自从录音丑闻以后,选情对希拉里极为有利,选情的大幅度下滑与 FBI 重启调查紧密相关。媒体的特点是打摆子,再热的话题随着时间也会冷却,被其他话题代替。这次的问题在,FBI 重启电邮门调查的话题还没等到冷却,大选就结束了,媒体和话题对选民的影响当下为重。而录音丑闻的话题显然已经度过了发酵和热议期,已经冷却,被 FBI 话题代替了。从爆料的角度,录音丑闻略微早了一些,可谁料到在这个节骨眼 FBI 突然来这么一招呢。

看看当时10月最后一周的#Hashtags,也可以了解一点社交媒体话题的热度:

这是当时10月最后一周有关希拉里话题的emoji图:

虽然说笑比哭还多,希拉里及其阵营和粉丝却笑不起来,一周内用到这个话题的emoji总数高达 12,894,243。这也是社交媒体的特点吧,用图画表达情绪。情绪的主调就是哭。邮件门终于炸了。

FBI director 说这次重启调查,需要很长时间才能厘清。现在只是有了新线索需要重启,不能说明希拉里有罪无罪。没有结论前,先弄得满城风雨,客观上就是给选情带来变数。虽然在 prove 有罪前,都应该假定无罪,但是只要有风声,人就不可能不受影响。所以说这个时间点是最关键的。如果这次重启调查另有黑箱,就更惊心动魄了。如果不是有背后的黑箱和势力,这个时间点的电邮门爆炸纯属与新线索的发现巧合,那就是希拉里的运气不佳,命无天子之福。一辈子强性格,卧薪尝胆,忍辱负重,功亏一篑,无功而返,保不准还有牢狱之灾。

可以预测,大选失败就是她急剧衰老的开始。

此前有个记者interview川普,川普一再说,希拉里这个犯罪的人,根本就不该被允许参加竞选。记者问,哪里犯罪了?川普说电邮门泄密,还有删除邮件隐瞒罪恶。当时还没有重启希拉里“邮件门”调查。记者问,这个案子不是有结论了吗,难到你不相信 FBI 的结论?川普说,他们弄错了,把罪犯轻易放了。

中间选民的数量在这种拉锯战中至关重要,当时的数量不少。中间选民如果决定投票,其趋向基本决定于大选前一周的舆论趋向。本来是无所谓是鸡是鸭的,如今满世界说一方不好,合理的推断就是去投另一方了。现在看来,这场竞赛的确是拉锯战,很胶着,不是一方远远超过另一方。当录音丑闻爆料的时候,那个时间点,希拉里远远超过川普,毫无悬念。“邮件门”爆发一个月不到,选情大变,就不好说了,迹象仍然胶着。

不过,反过来看,川普的 popularity 的确是民意的反映,他所批判的问题的确长久存在。而希拉里显然是体系内的老旧派,让人看不到变革的希望。人心思变的时候,一个体系外的人物也可以被寄托希望,至少他敢于做不同事情。

当时我想:上台就上台吧,看看他造出一个什么世界

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

NLP自选系列:漫谈语言形式

弘·扬 | 首席科学家李维科普:漫谈语言形式

语言形式是语言学的基础,对语言掌握得多的人,或受过语言学训练的人,看到的更多是语言共性,反映在作为表达手段的语言形式及其分类上。作为符号系统,语言说到底就是以形式来反映内容。语言的不同是形式的不同,内容一定是相同的,否则人不可能交流思想,语言的翻译也就失去了基础,这个道理老少咸知。
那么什么是语言形式呢?回答这个问题就进入语言学了。
如果我们要把内容和形式分开来研究(当然是分不开的,但是理论上可以,否则就没有乔姆斯基语言学革命了),什么是语言形式呢?乍一看语言,不就是 string 么?语音流也好,文字串也好。这个回答不算错,但那是太直观的答案。这个string是有单位的,所以至少可以说语言形式是一个 list of items,items 就是词(more precisely 词素)。list 就是词序。
所以,作为第一个抽象,我们至少得出了词序(word order,有时也叫 linear sequence)是一个重要的语言形式(语言的表达手段)。另一个重要的形式就是词,不过这个还不太够意思,太直感,不够理论,没有抽象。
作为语言符号,词和词素非常重要,它们是语言学的起点。收录词和词素的词典因此成为语言解析的基础资源。如果自然语言表达是一个封闭的集合,譬如,一共就只有一万句话,语言就简单了,可以死记硬背。电脑上实现就是建个库把这些语句词串,全部收进去。每个词串等价于一条“词加词序”的规则,全部词串的规则集合就是一个完备的文法模型。但是,自然语言是一个开放集。无法枚举无穷变化的文句。符号形式文法是如何依据语言形式形成规则,并以有限规则完成对无限文句的自动解析(parsing)呢?
以查词典为基础的分词 (tokenization),是文句解析的第一步。查词典的结果是“词典词” (lexicon word),包括词素(汉字也是词素,因此中文词典也蕴含着字典)。无限文句主要靠查词典分解为有限的单位,词典词加上少量超出词典范围的“生词”,一起构成词节点序列 (tokenlist)。词节点序列很重要,它是文句的形式化表示 (formalized representation),是自动解析的对象和初始数据结构。
我们说的每句话很难穷举,而且即便列举了,也无法抽象。没有抽象,就没有掌握,人就不可能学会语言表达不同的思想。人脑不比电脑,容量很可怜的。所以,探究语言形式要研究词是个什么玩意儿。这就进入了语言学最基本分支了,叫 morphology(词法),可以称 small syntax,就是一个词范围内的结构。对于有些语言,morphology 很繁复,譬如俄语,拉丁语。对于有些语言,morphology 很贫乏,或者可以说没有 morphology,譬如汉语,英语。
撇开这些语言的元件中的构造性差别,我们在研究“词“的时候,第一眼看到的差别是它的两大类别。一类叫实词(notional words,or open-ended vocabulary),原则上是一个开放的集合;一类是虚词或小词,即功能词(function words or closed vocabulary),是可枚举项。
这个分类很重要,因为作为语言形式,能够掌握的必须是 finite 的集合。对于功能词,因为数量有限,没有问题。功能词就是介词,连词,疑问词,感叹词之类,其实延伸一下也可以包括前缀、后缀等材料(叫词缀),在所有的语言中都是有限量的,出现频率高,可以死记的。它本身就是语言形式,原则上无需抽象(虽然也给他们简单分类),因为可以枚举。
到此,我们至少得到了三个具体的语言形式了:1 词序;2. 小词;3 词缀。语言的不同不是形式的不同,而是形式的倚重和比例的不同,下面还要讲,这才是有趣的语言学。
那么实词呢?实词当然也是语言形式,但是因为是开放集,必须给他们分类才好形式化。除了成语和习惯表达法,一般来说,你总不能用枚举的办法为每一个实词写规则吧(真有这么做的,在很窄的领域),人脑也是在实词词类的基础上总结抽象的。实词于是有大类(Part of Speech), 名(noun)、形(adjective)、动(verb)三大类。副词(adverb)一般不算单独的大类,往往是形容词派生而来,或者与形容词同形。只有少部分原副词(original adverbs)属于小词的范畴,可以枚举。
实词三大类还是太粗,对于语言的抽象和掌握不够用,于是可以进一步再分类。特别是动词,有一种很重要的句型再分类叫 subcat(subcategorization),是重要的语言手段,就是区别所谓单宾语子类,双宾语子类,宾语+补足语的不同子类,等等,所有的大辞典后面的附录都有的。再进一步,词汇的语义分类(lexical semantic classification,人啦,动物啦,家具,地点,机构等的分类)也可以加入进来,作为语义的形式化手段,可以用 WordNet 或者董振东老师的《知网》,这就把语义甚至常识偷偷引进句法了。
总结一下语言形式,1 词序, 2 小词, 3 词缀, 4 词类(包括子类)
 
这些子类都是有限的吗?子类当然是有限的,分类的目的就是让理论上无穷的词汇,转变成有限的分类(包括子类),以便掌握和运用。朗曼词典列出的英语 subcat 类有30多个,牛津大辞典好像列出了20个左右。大同小异,颗粒度略有不同。其实常用的动词句型子类也就是不到10个。汉语的传统词典不列句型小类,但是语言所后来出的《动词用法词典》,还有《汉语800词》等,开始分子类,并标注了。
语言形式这么一分,自然语言一下子就豁然开朗了,管它什么语言,不外乎是这四种形式的交错使用,比例搭配和倚重不同而已。所谓语法,也不外是用这四种形式对语言的现象及其背后的结构做描述而已。
英语的规则是否比汉语清晰?对,英语确实比汉语清晰,德语法语又比英语清晰(虽然英语历史上是从德语法语杂交而来的,“不幸”的是后来走了汉语的道路)。这里的所谓”清晰“,是指这些语言有显性的形式来表达结构关系,而汉语缺乏这种显性形式,因此做汉语自动分析就显得难。什么是显性的形式?譬如词法中名词的性(gender)、数(number)、格(case),动词的时(tense)、体(aspect)、态(voice)。这些词法范畴是以显性的后缀(词尾)形式来表达的,但是汉语没有。
而文言文更加缺乏显性形式。文言虚词就那么几个,不如现代汉语的小词丰富,因此比现代汉语更难(将来退休以后,准备接受极限挑战,就做文言 parsing 玩儿)。现代汉语的形式化相对容易一些。
凡是 morphology(各种词缀)复杂的语言,通常不需要运用词序的手段,也较少依赖小词。譬如俄语,还有世界语(Esperanto),“我爱你”,就三个词,可以用六种词序表达,排列组合。世界语算是准自然语言。诞生不自然,发展自然了。为什么语序自由呢,因为有宾格这样的后缀形式,跑到哪里都是动宾的关系。当然就不需要依赖语序的形式了。
回来谈为什么汉语不如西方语言严谨?因为汉语发展过程中,没有走语词综合(利用词缀)的道路,而是坚持在分析(利用小词)的道路上走到黑。从语言学的高度,词缀也好,小词也好,其实也都是差不多的材料(形式),但是,词缀的范畴化,比起小词,要发达得多,因此严谨得多,也冗余得多。可以举例说明。
动词变位、名词变格等形态词缀手段,使得有结构联系的语词之间产生一种显性的一致关系 (agreement)。譬如,主谓 (subject-predicate) 在人称和数上的一致关系,定语与中心词在性数格上的一致关系等。关系有形式标记,形态语言的结构自然严谨得多,减少了结构歧义的可能。丰富的词缀减低了语言解析对于隐性形式和知识的依赖。
什么是隐性形式?隐性形式就是词类和各种子类。为什么说是隐性,因为需要标注才能显性化、形式化。那些词本身并没有这些标记。如果用后缀“标注”了,那就成显性形式了。譬如,“兄弟”在汉语是名词(noun),这个是查词典得到的,或者是POS程序查上下文标注的(如果有歧义的话),不是这词本身的印记。但是 frato(兄弟)在世界语就不需要词典标注,因为有名词后缀 -o。再看汉语的复数“兄弟们”,这里用了小词“们”,世界语呢,用后缀 -j,fratoj。乍看,这不一样么,都是用有限的语言材料,都是显性的表达。但是,汉语的复数概念表达是有时候显性有时候隐性,这个“们”不是必需的,而有数这个范畴的西方语言(包括世界语)却是永远的显性,那个后缀是不能省略的。
“三个兄弟没水喝”——这里的兄弟就没有小词“们”,而且汉语文法规定了不允许在数量结构后面加复数的小词,硬把显性的表达转变成了隐性的表达。这样的语言是不严谨的,因为信息冗余度不够。换句话说,严谨的语言较少倚赖上下文来确定其结构语义,不严谨的语言离不开上下文,兄弟的复数意义需要上文的数量结构。
有同学说汉语据说是“意合”语言,没有文法。这就言过其实了。没有没有文法的语言。汉语不是没有规则,只不过规则比较细琐繁多,规则所利用的条件更多用到隐性形式而已。汉语文法的确比较宽松,宽松表现在较少依赖显性形式。语句的顺畅靠的是上下文语义相谐(常识上合不合理),而不是依靠严格的显性符号规则。譬如词缀、小词、词序,显性形式的三个手段,对于汉语来说,形态基本上没有,小词常常省略,语序也很灵活。
先看小词,譬如介词、连词,虽然英语有的汉语基本都有,但是汉语省略小词的时候远远多于英语。这是有统计根据的,也符合我们日常使用的感觉:汉语,尤其是口语,能省则省,显得非常自由。对比下列例句,可见汉语中省略小词是普遍性的:
① 对于这件事,依我的看法,我们应该听其自然。
    As for this mater, in my opinion, we should leave it to nature. 
② 这件事我的看法应该听其自然。
    This mater my opinion should leave to nature. 
类似句子②在汉语口语里极为常见,感觉很自然。如果尝试词对词译成英语,则完全不合文法。汉语和英语都用介词短语 (prepositional phrase, PP) 做状语,可是汉语介词常可省略。这种缺少显性形式标记的所谓“意合”式表达,确实使得中文的自动化处理比英文处理难了很多。
好,总结一下,什么是语言形式,形式有四种,词序,小词,词缀,分类。只要从这四点出发,很多现象都好捕捉。语言大不了就是围绕实词的概念,用这些手段连接起来,表达概念之间的关系意义
其实“语言形式”这个话题,还没引申来谈,谈起来还有很多有趣的东西,譬如词缀与小词之间的关系,相互补充和替代的作用,语言发展中倚赖词缀的综合道路,以及倚赖小词的分析道路,以及两条路线的斗争,等等,以后有闲再谈。

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

NLP自选系列:语义三巨人

弘·扬 | 首席科学家李维科普:语义三巨人

坚持语义和知识为基础的语言处理路线,是一条繁难艰辛的道路。语义是个大泥坑,能够驾驭它的人均非等闲人物。在计算语义界,有三位长期坚持超领域语义的顶天立地的大学者(如果要算第四位,也许应该包括英国的人工智能大师Wilks教授,他早年做过基于语义模板的纯语义机器翻译实验。再往前追溯,人工智能领域早期也有不少先驱者,不过都是在极为狭窄的领域尝试一些玩具知识系统)。这三位学者前辈是,坚持常识推理的 cyc 的 Lenat 教授,格语法(Case Grammar)和框网(FrameNet)的开创者 Fillmore 教授和《知网(HowNet)》的发明人中国机器翻译前辈董振东教授。他们对自己思想和信念的坚持、执着、反潮流和勇于实践,令人景仰。

这些智者的成果都有某种超时代的特征,其意义需要时间去消化或重新认识。可以预见,将来某个时候,当机器翻译和自然语言理解的应用项目穷尽了浅层可用的低枝果实之后,知识系统将会被进一步发掘、利用和欣赏。但目前多数项目还没有到山穷水尽的时候,急功近利是绝大多数项目和产品的固有特征,而且多数主事者也往往缺乏远见。绝大多数语言处理业者遇到语义和知识都是绕着走。

Dr. Douglas Lenat  三位语义巨人中探索知识最深入和纯粹的是 Lenat 教授,他带领团队手工开发的 cyc 知识系统,试图从常识的形式化入手,利用常识推理帮助解决语言理解等人工智能核心问题。可惜这套庞大的系统太过复杂和逻辑,在实际应用上有点像大炮打蚊子,使不上劲。

Charles J.Fillmore  Fillmore 教授是享誉世界的语义学家,他的格语法理论影响了一代自然语言学者,包括中国和日本自然语言处理领域的领军人物董振东教授和长尾真教授。

董振东教授  中国机器翻译和中文信息处理前辈、知网发明人。曾任中科院计算机语言信息中心语言知识研究室主任。

在很长一段时期,董振东教授是中国NLP、MT与世界的接口。知网(HowNet)是董老师的丰碑,它像一所常识百科,深藏着人类认知形式化的金子。

事实上,董教授语义思想的核心概念“逻辑语义”就来源于 Fillmore 的深层格 (Deep Case)。然而,Fillmore 本人的语义发展与董教授的创新发展走上了语义颗粒度不同的两条道路,前者的成果为 FrameNet,后者的结晶是《知网(HowNet)》。

可以从构建NLP应用系统的角度来看 FrameNet 和 HowNet 的不同语义层次,即,从分析器(parser)和应用(applications,包括机器翻译,信息抽取等)的分工合作的关系来看。

我个人觉得,FrameNet 过细(成千上万的 Frames 组成一个 hierarchy,即便只取上层的常用的 Frames, 也有几百个),不仅很难达到,而且实用上没有太多的好处。FrameNet 的提出,是格语法框架的自然延伸、扩展和细化,语义理论上有其位置和意义。但是在实用上,FrameNet 的地位很尴尬,他既不像句法层的主谓宾结构( SVO argument structure) 那样简洁和好把握,也不可能达到语用层的信息抽取模板(IE Template)那样可以直接支持应用(因为信息抽取是依赖领域的,而 FrameNet 原则上是不依赖领域的,或者最多是在语言学与领域之间起某种中介桥梁的作用)。

这样一来,从实用角度,与其分析到 FrameNet (这个太繁难了) 再行信息抽取,不如直接从 argument structure 进行(这个靠谱多了,very tractable),虽然理论上前者的抽取应该更加简单直接一些,但是由于 FrameNet 分析工作难度太大,终归得不偿失。换句话说,FrameNet 从使用角度看,语义做得过了(over-done),用起来不方便,没有多少实际利益。退一步回到句法为基础的 argument structure 如何呢?

Argument structure 立足于句法结构,主要论元最多不超过三个(up to 3 arguments):逻辑主语,逻辑宾语,逻辑补语,加上谓词 governor,构成一个四元组,非常简洁,与各语言的词典句型信息 subcat 相呼应,易于掌握和实现。再加上10来个带有逻辑语义分类的状语(时间、地点、条件、让步、结果等)和定语(颜色,材料,来源等)。这样的中间表达作为语言分析(parsing)的目标,作为应用的基础,已经可以应对绝大多数应用场合。Argument structure 中的逻辑宾语和逻辑主语有其独特的概括能力,对于利用句法关系的语义限制排歧多义词和做知识挖掘具有特别的价值。

HowNet 不满足于此,它的体系是对句法为主的 argument structure 进一步细化,譬如逻辑宾语细化到 “patient”、“content”、“target”、“PatientProduct”、“ContentProduct”和“possession” 等子类角色。最终达到具有90多个逻辑语义角色的相对纯粹的语义表达。HowNet 就是这样一个概念知识体系,逻辑语义是连接这些概念的主要工具。

从主谓宾定状补这样简练的句法关系,深入到逻辑语义的角色,再进一步把逻辑语义细化,常常的表现就是信息表达的浓缩和冗余。HowNet 这样精细的逻辑语义,不仅反映了一个依存概念到主导概念的逻辑结构关系,而且反映了主导概念的子类信息(hence 冗余了)。

例如,对于宾语的细化  “patient”、“content”、“target”、“PatientProduct”、“ContentProduct”,“possession” 等,显然是蕴涵了主导概念(谓词)的子类信息,而这些子类信息本来是已经附着在谓词上的。譬如作为 possession 的宾语,其谓词只能是 have、possess、own 这个小子类。信息表达的冗余意味着即便没有深入到细化的逻辑语义,系统并没有本质上的损伤,因为如果需要的话,细化信息依然可以通过句法关系节点的限制条件即时得到查询。

对于逻辑主语逻辑宾语等进一步细化的必要和利弊,我个人觉得是可以讨论的。首先是任何细化都是有开发和处理的代价的。更重要的是,其必要性究竟如何?从追求纯粹语义和逻辑、追求纯净的独立于具体自然语言的元语言表达的角度,我们总可以找到证据,证明细化是必要的。但是在应用现场,我们也可能发现,对于绝大多数应用,细化并无必要。

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

NLP自选系列:语法结构树之美

弘·扬 | 首席科学家李维科普:语法结构树之美

我们知道,语句呈现的是线性的字符串,而语句 结构却是二维的。我们之所以能够理解语句的意思,是因为我们的大脑语言处理中枢能够把线性语句解构(decode)成二维的结构:语法学家常常用类似下列的上下颠倒的树形图来表达解构的结果(所谓 parsing)。 


上面这个树形图叫作依从关系树形图(dependency tree,常常用来表达词或词组之间的逻辑语义关系,与此对应的还有一种句法树,叫短语结构树 phrase structure tree,更适合表达语句单位之间的边界与层次关系)。直观地说,所谓理解了一句话,其实就是明白了两种意义:(1)节点的意义(词汇意义);(2)节点之间的关系意义(逻辑语义)。

譬如上面这个例子,在我们的自动语句分析中有大小六个节点:【Tonight】 【I】 【am going to enjoy】 【the 【song】 Hero】 【again】,分解为爷爷到孙儿三个层次,其中的逻辑语义是:有一个将来时态的行为【am going to enjoy】,结构上是老爷爷,他有两个亲生儿子,两个远房侄子。长子是其逻辑主语(Actor) 【I】,此子是其逻辑宾语(Undergoer)【the song Hero】,父子三人是语句的主干(主谓宾,叫做 argument structure),构成语句意义的核心。两个远房侄子,一个是表达时间的状语(adverbial)【Tonight】,另一个表达频次的状语(adverbial)【again】。最后,还有一个孙子辈的节点【song】,他是次子的修饰语(modifier,是同位语修饰语),说明【Hero】的类别。

从句法关系角度来看,依从关系遵从一个原则:老子可以有n(n>=0)个儿子(图上用下箭头表示),而儿子只能有一个老子:如果有一个以上的老子,证明有结构歧义,说明语义没有最终确定,语言解构(decoding)没有最终完成。虽然一个老子可以有任意多的下辈传人,其亲生儿子是有数量限制的,一般最多不超过三个,大儿子是主语,次子是宾语,小儿子是补足语。比如在句子 “I gave a book to her” 中,动词 gave 就有三个亲儿子:主语 【I】, 宾语【a book】,补足语 【to her】. 很多动词爷爷只有两个儿子(主语和宾语,譬如 John loves Mary),有的只有一个儿子(主语,譬如 John ran)。至于远房侄子,从结构上是可有可无的,在数量上也是没有限量的。他们的存在随机性很强,表达的是伴随一个行为的边缘意义,譬如时间、地点、原因、结果、条件等等。

自然语言理解(Natural Language Understanding)的关键就是要模拟人的理解机制,研制一套解构系统(parser),输入的是语句,输出的是语法结构树。在这样的结构树的基础上,很多语言应用的奇迹可以出现,譬如信息抽取、自动文摘、智能搜索等。

在结束本文前,再提供几个比较复杂一些的语句实例。我把今天上网看到的一段英文输入给我们研制的parser,其输出的语法结构树如下(未经任何人工编辑,分析难免有小错)。




说明:细心的读者会发现上图的结构树中,有的儿子有两个老子,有的短语之间互为父子,这些都违反了依存关系的原则。其实不然。依存关系的原则针对的是句法关系,而句法后面的逻辑关系有时候与句法关系一致,有时候不一致。不一致的时候就会出现两个老子,一个是与句法关系一致的老子,一个是没有相应的显性句法关系的老子。最典型的情形是所谓的隐性(逻辑)主语或宾语。

譬如第一个图示中的右边那棵结构树(严格地说,这不是树结构了,应该叫做结构图)中,代词「I」就有两个老子:其句法老子是谓语动词「have learned」,它还有一个非谓语动词(ING形式)的隐性的逻辑老子「(From) reading」,也做它的逻辑主语 (who was reading? "I")。再如第二个图示中的语法结构图中,定语从句的代表动词「were demonstrating」的句法老子是其所修饰的名词短语「students」,但逻辑上该名词短语却是定语从句动词「were demonstrating」的主语(actor)。有些纯粹的句法分析器(parser)只输出句法关系树,而我们研制的parser更进一步,深入到真正的逻辑语义层次。这样的深层分析为自然语言理解提供了更为坚实的基础,因为显性和隐性的关系全部解构,语义更为完整。下面再“秀”两句中文的自动解析的句法树,看着也许更亲切些。

我们每天面对的就是这些树木构成的语言丛林。在我的眼中,它们形态各异,婀娜多姿,变化多端而不离其宗(“语法”)。如果爱因斯坦在时空万物中看到了造物主的美,如果门捷列夫在千姿百态的物质后面看到了元素表的简洁,语言学家则是在千变万化的语言现象中看到了逻辑结构之美。这种美的体验伴随着我们的汗水,鼓励我们为铲平语言壁垒而愚公移山,造福人类。

 

NLP自选系列2020专栏连载

【语义计算:李白对话录系列】

《朝华午拾》总目录

NLP自选系列2020专栏连载

【立委按】公司希望我开个每周NLP专栏,正好也是个自选整理和修正的机会。汇集于此。

NLP自选系列2020专栏连载目录

 

NLP自选系列:自然语言系统架构简说

NLP自选系列:文本大数据的信息抽取与情报挖掘(上)

NLP自选系列:文本大数据的信息抽取与情报挖掘(下)

NLP自选系列:大数据告诉我们,特朗普如何击败希拉里

NLP自选系列:漫谈语言形式

6   NLP自选系列:语义三巨人

7   NLP自选系列:语法结构树之美

NLP自选系列:深度解析器是揭示语言奥秘的探测仪

NLP自选系列:NLP 联络图

10  NLP自选系列:语言形式的无中生有:从隐性到显性

11 

12 

13 

14 

15 

【小随感】

请用两个英文词说明白你是做什么的。回答是:Structurize unstructured. 听上去有点像 make sense of nonsense. 如果只能用一个词呢?显然是 parsing。 总之是在无序中创造有序 属于非熵化的豪迈之举。问有啥用? 回答是:Text in. Database out.  再问 最终目的?回答是 消灭白领 包括丽人。想想也够缺德的 …… 白领看着文档,往数据库输入表格的事儿 是最常见的办公室风景吧。镜头也很美,尤其是白领丽人 一头秀发。坐在电脑前录入,跟弹钢琴似的。可惜,此景熬不过办公室自动化的浪潮,逃不过被机器化的宿命。时间表上看,在人类还没有琢磨明白如何应对这一次工业革命的人员下岗替代方案前,机器上岗肯定先行完成。都说人类因此可以解放做创造性工作。其实谁也不清楚,群体创造,还是群体堕落,哪个先来。因此,为自动化忧虑,也不算是杞人忧天,因为与AI泡沫不同,这是可以看见的。过程已经开始,只会加速进行。