丹尼尔·马尔科维茨:生活如何成为一场无止境的可怕竞争

立委按:一个繁荣无比的现代社会 结果是没有人真正快乐。输者输 赢者其实也输了。这种社会肯定是站不住的。问题是 看到现代社会问题的 越来越多 越来越切实。但解决方案是一个很大的问题。但如果连问题都不面对 又有什么希望解决它呢?作者说,不能坐视精英社会不平等最后走向社会崩溃,总是要做点什么。既然现代化 全球化 资本主义化 精英化 没有带给人类更美好的社会,那么其他的路线都是可以考虑的选项了:包括川普的保护主义和建造大墙;包括桑德斯的社会主义;也包括杨的ubi方案。还有其他什么出路?

精英社会把成就看得比其他一切都重要,这让每个人——甚至富人——都很痛苦。也许有出路。

The Atlantic 杂志 2019年九月刊
丹尼尔·马尔科维茨
耶鲁法学院教授,《精英陷阱》的作者

1987年夏天,我从得克萨斯州奥斯汀的一所公立高中毕业,前往东北去耶鲁。然后,我花了将近15年的时间在不同的大学学习——伦敦经济学院、牛津大学、哈佛大学,最后是耶鲁法学院——一路上获得了一系列学位。今天,我在耶鲁大学法学院教书,那里的学生与我年轻的自己惊人地相似:他们绝大多数都是职业父母和高水平大学的产物。我把自己老师给我的优势传授给他们。他们和我都把我们的繁荣和种姓归功于精英选拔制度。

20年前,当我开始写关于经济不平等的文章时,精英制度似乎更像是一种对于不平等的疗法,而不是一种原因。精英制度的早期倡导者支持社会流动性。例如,20世纪60年代,耶鲁大学校长金曼·布鲁斯特(Kingman Brewster)将精英录取引入大学,明确目标是打破世袭精英。校友们一直认为他们的儿子有与生俱来的权利跟随他们去耶鲁;现在,未来的学生将根据成绩而不是家庭背景来获得入学许可。精英选拔制度——有一段时间——用才华横溢、勤奋努力的局外人取代了自满的局内人。

今天的精英仍然声称通过才能和努力,使用对任何人开放的手段来取得进步。然而,在实践中,精英制度现在将狭隘精英之外的所有人都排除在外。哈佛大学、普林斯顿大学、斯坦福大学和耶鲁大学从收入分配最高的1%家庭招收的学生总数超过了收入分配最低的60%的家庭。校友子女优先、裙带关系和彻头彻尾的欺诈继续给富有的申请者带来腐败优势。但是,偏向财富的主要原因还是要追溯到精英选拔制度本身。平均来说,父母年收入超过20万美元的孩子在SAT考试中比父母年收入4万到6万美元的孩子高出250分。来自最贫困的三分之一家庭的每200个孩子中只有一个达到耶鲁的平均SAT分数。与此同时,顶级银行和律师事务所,以及其他高薪雇主,几乎完全从少数精英大学招聘。

勤劳的局外人不再享受真正的机会。根据一项研究,每100个出生在最贫困的五分之一家庭的孩子中只有一个会侪入前五分之一的富裕阶层,每50个出生在中产阶层的五分之一家庭的孩子中只有不到一个会加入前五分之一。绝对经济流动性也在下降——自本世纪中叶以来,中产阶级孩子收入超过其父母的可能性已经下降了一半以上——中产阶级的下降幅度大于穷人。精英选拔制度将这种排斥定义为达不到标准,给经济伤害增加了道德侮辱。

公众对经济不平等的愤怒经常针对精英机构。皮尤研究中心称,近五分之三的共和党人认为大学对美国不利。今年早些时候大学入学丑闻引发的强烈而广泛的愤怒引发了一场深刻的怨恨。这种愤怒是合理的,但也是扭曲的。对裙带关系和其他不光彩的精英优势形式的愤怒——这种行为含蓄地宣扬精英理想。然而精英制度本身是一个更大的问题,它正在摧毁美国梦。精英制度创造了一种竞争,即使每个人都按规则行事,也只有富人才能赢。

但是,富人到底赢了什么?即使精英制度的受益者现在也因为它的要求而受苦。它诱捕富人就像它排斥穷人一样肯定,正如那些设法爬上顶峰的人必须拼命工作,无情地利用他们昂贵的教育来获取回报一样。

没有人应该为富人哭泣。但是精英制度给他们带来的伤害既真实又重要。诊断精英制度对精英的伤害会带来治愈的希望。我们习惯于认为减少不平等需要给富人增加负担。但是因为精英制度下的不平等事实上对任何人都没有好处,所以逃离精英制度的陷阱实际上会让每个人受益。

精英们在幼儿时期首先面临精英压力。父母——有时不情愿,但觉得别无选择——让他们的孩子报名接受精英教育,这种教育不是以实验和游戏为主,而是以培训和技能或人力资本的积累为主,其宗旨是被精英大学录取,并最终获得一份精英工作。纽约、波士顿和旧金山等城市的富裕家长现在通常要向10所幼儿园提出申请,进行一系列评估和面试——所有这些都是为了精英幼儿园评估4岁儿童的申请。申请精英中学和高中重复了这一磨难。贵族儿童曾经陶醉于他们的特权,精英儿童现在是“计算”他们的未来——他们通过各种自我展示的仪式,踩着雄心、希望和担忧的节奏为精英之路无休止地计划自己。

学校鼓励孩子们这样操作。例如,在东北的一所精英小学,一名教师贴出了一个“每日问题”,学生们在回家之前必须解决这个问题,尽管没有给他们留出时间来解决这个问题。这项练习的目的是训练五年级学生通过多任务处理或牺牲休息时间来榨取他们附加的学习时间。

这种要求是需要付出代价的。精英初中和高中现在通常布置每晚需要三到五个小时的作业。疾病控制和预防中心的流行病学家警告说,学校作业会导致睡眠不足。富裕学生比贫困学生表现出更高的吸毒和酗酒率。他们也遭受抑郁和焦虑的折磨,其比率是全国同龄人的三倍。最近对硅谷一所高中的研究发现,54%的学生表现出中度至重度抑郁症状,80%的学生表现出中度至重度焦虑症状。

尽管如此,这些学生还是有充足的理由像这样鞭策自己。几十年前接受30%申请者的精英大学现在只接受不到10%。某些院校的变化甚至更加引人注目:芝加哥大学直到1995年还录取了71%的申请者。2019年,它承认其录取率不到6%。

当精英进入职场时,竞争会加剧。在职场中,精英机会只被抓住机会所需的竞争努力所超越。一个财富和地位依赖于人力资本的人在选择工作时根本不能考虑自己的兴趣或爱好。相反,她必须把工作当作一个从人力资本中获取价值的机会,尤其是如果她想要足够的收入来为孩子购买保证自己优秀品质的精英教育。她必须致力于一个狭窄的高薪职位,集中在金融、管理、法律和医学领域。贵族一度认为自己是一个休闲阶层,而精英阶层则以前所未有的强度工作。

1962年,当许多精英律师的收入大约是他们现在收入的三分之一时,美国律师协会可以自信地宣布,“普通律师每年大约有1300个收费小时”。相比之下,2000年,一家大型律师事务所同样自信地宣称,“如果管理得当”,2400个计费小时的配额“并非不合理”,这是“希望成为合伙人所必需的”的委婉说法。因为不是律师工作的所有时间都是收费的,所以2400小时的收费很容易要求一年中每周从早上8点到晚上8点工作6天,没有假期或病假。在金融领域,“银行家的工作时间”——最初是以19世纪到20世纪中期银行规定的10到3(上午10点到下午3点)的工作制命名的,后来更普遍地被用来指代任何轻松的工作——现在已经被讽刺性地命名为“银行家9到5”,是从这一天早上9点开始,一直持续工作到第二天早上5点。精英管理者曾经是“组织人”,被终身雇佣束缚在公司等级制度中,奖励资历高于业绩。今天,一个人在组织结构图上爬得越高,她被期望工作得越努力。亚马逊的“领导原则”要求管理者“坚持不懈地保持高标准”,并“交付成果”。公司告诉经理们,当他们在工作中“碰壁”时,唯一的解决办法就是“爬上墙”。”

每周工作超过60小时的美国人报告说,他们平均希望每周少工作25小时。他们这么说是因为工作使他们遭受“时间饥荒”。一项2006年的研究发现,这影响了他们与配偶和孩子建立牢固关系、维持家庭、甚至过上令人满意的性生活的能力。哈佛商学院(Harvard Business School)最近一项高管调查的一名受访者自豪地坚称,“我晚上给孩子们的10分钟比花在工作上的10分钟伟大一百万倍。”只有十分钟!

优雅地或至少冷静地承受这些时间的能力已经成为精英成功的标准。一家大公司的一名高管接受了社会学家阿丽·拉塞尔·霍奇奇德(Arlie Russell Hochschild)为其著作《时间捆绑》的采访。她观察到,展示了自己技能和奉献精神的有抱负的经理面临着的“最终淘汰赛”是这样的: “有些人会火冒三丈,变得古怪,因为他们一直在无休止地工作……而高层的人非常聪明,工作得像疯子一样,而且不会火冒三丈。他们仍然能够保持良好的心态,保持家庭生活在一起。最终是他们赢得了比赛。”

一个从自己的人力资本中获取收入和地位的人,完完全全是把自己置于老板的支配之下——为了工作他必须耗尽自己。精英学生极度害怕失败,渴望那些传统的成功标志,即使他们看穿并公开嘲笑那些仅仅是“金星”和“闪亮的东西”。就精英员工而言,他们发现越来越难通过工作来追求真正的激情或获得意义。精英制度将整代人囚困在被贬低的恐惧和不真实的野心中: 总是饥饿,但从来没有找到,甚至不知道正确的食物。

精英阶层不应该——他们也没有权利——期待那些被排除在精英特权和利益之外的人的任何同情。但是忽视精英制度对富人的压迫也是一个错误。富人现在不是无所事事地而是费尽心力地统治着社会。曾经批判贵族不平等的常见论点,并不适用于基于努力和技能回报的经济体系。这位每周工作百多个小时的银行家的不懈努力,使她免受不劳而获的指控。那么,更好的办法是说服富人,他们所有的工作并没有真正得到回报。

他们可能不需要你想象的那样去说服他们。随着精英阶层的精英陷阱越来越收紧,富人自己也开始反对现行制度。要求工作/生活平衡的悲哀呼声越来越高。大约三分之二的精英员工表示,如果新工作需要更多的精力,他们会拒绝升职。当拉里·克莱默还是斯坦福法学院院长时,他警告毕业生,顶级律所的律师们陷入了一个似乎永无止境的循环: 更高的工资需要更多的计费时间来支持他们,更长的时间需要更高的工资来证明他们的合理性。他哀叹道,这个系统服务于谁的利益?有人真的想要吗?

逃离精英陷阱并不容易。精英们自然会抵制那些有可能削弱他们优势的政策。但是现实是,如果不压榨自己,使自己的内心生活变得贫瘠,就不可能从自己的人力资本中致富,而那些希望拥有自己的蛋糕并吃掉它的精英其实是在欺骗自己。建立一个让更广泛的人群能够获得良好教育和工作的社会——这样,爬到最高层就不那么重要了——是缓解现在驱使精英们坚持自己地位的压力的唯一途径。

如何做到这一点?首先,教育——其利益目前集中在为富裕父母苦练孩子——必须变得开放和包容。除非私立学校和大学的学生中至少有一半来自收入分配最底层三分之二的家庭,否则它们应该失去免税地位。公共补贴应该鼓励学校通过扩大招生来满足这一要求。

一个平行的政策议程必须改革职场,重点扶持那些无需经过精心培训或没有高学位的工人所生产的商品和服务。例如,卫生保健系统应该强调公共卫生、预防保健和其他主要由执业护士监督的措施,而不是需要专科医生的高科技治疗。法律系统应该部署“法律技术人员”——并非所有人都需要法学博士——来管理日常事务,如房地产交易、简单遗嘱,甚至是无争议的离婚。在金融领域,限制外来金融工程并支持小型地方和地区银行的法规可以将工作转移给中等技能的工人。管理层应该接受将控制权分散到高管之外的做法,以增强公司其他人的权能。

克服精英不平等的主要障碍不是技术上的,而是政治上的。今天的情况引发了不满和普遍的悲观情绪,可以说近乎绝望。政治学家杰弗里·温特斯在他的著作《寡头政治》中调查了从古典时期到20世纪人类历史上的各个时代,并记录了将收入和财富集中在一个狭窄的精英阶层中的社会的变化轨迹。几乎在所有情况下,这种不平等的消除都伴随着社会崩溃,譬如,军事失败(如罗马帝国)或革命(如法国和俄罗斯)。

然而,还是有希望的。历史的确清晰地展示了从集中的不平等中有序复苏的一个例子: 在20世纪20年代和30年代,美国通过采用新政框架来应对大萧条,新政框架最终建立起本世纪中叶的中产阶级。至关重要的是,政府再分配不是这一进程的主要引擎。政府建立的广泛共享的繁荣主要来自于一个促进经济平等而非等级制度的经济和劳动力市场——通过大幅扩大受教育机会,如《GI 法案》,将中等技能的中产阶级工人置于生产中心。

这些安排的更新版本今天仍然可用;教育的重新扩张和对中产阶级工作的重新重视可以相互加强。精英阶层可以收回闲暇时间,以换取收入和地位的降低,而这是他们可以轻松承受的。与此同时,中产阶级可以重新获得收入和地位,重居美国生活的中心。

重建民主经济秩序将是困难的。但是经济民主给每个人带来的好处证明了这一努力的合理性。不去应对可能导致的社会暴力崩溃让我们别无选择,只能尝试。

这篇文章改编自丹尼尔·马尔科维茨即将出版的书《精英陷阱》。它出现在2019年9月的印刷版上,标题是“精英制度的悲惨赢家”

搜狗机器翻译 译自:How Life Became an Endless, Terrible Competition

摘选老友芒果的评论,说得非常到位:

精英选拔制度不仅加剧贫富分化,阻碍阶层流动,而且身处其中的精英也深受其害:为了维持从自身人力资本中得来的财富和社会地位,他们得忍受超长工作时间,对自我兴趣自我表达的压抑,与家人关系的稀薄。(文中只提过一句而没有展开的是,这种高度倾扎的环境得来的利益并未如表面看那么美好。诚然数字上精英与大众薪酬差距越来越大,精英的社会环境也与大众越来越区隔,但正因为教育回报率高,社会环境区隔厉害,薪酬大部分是花在bid up positional goods,如学区房,如各种显示身份地位的消费品。如果大家不bid up,这些positional goods也属于这些人,不过代价少得多。所以disposable income没有看起来那么多)。

但这是个囚徒困境,谁先放弃谁输的,所以这个既得利益者也受害的制度的改革势在必行,否则只会迎来社会各阶层的离心。可惜作者提出的制度改革比较天真,nurse practitioners和legal technician代替医生和律师做一部分简单工作或许可行,但社会中,像这类硬性准入制度严苛的职业其实不多。强行用区域金融机构代替大行只为中低技能人士提供工作机会更是天真得可怕,我对这种理想主义戒心比对现状的不满还要强烈些。

但有没有希望呢?我觉得现在的技术条件是有的。精英选拔制度的基石,是winner-take-all,是符合狭窄一揽子选拔标准中的佼佼者能广泛的服务一大群人。但如此的“效率”并非我们的天性,我们天性中渴求知识,渴求推进认知的极限,渴求自我表达,渴求真实的人际关系,渴求与自然,与本土的连接,渴求有缺陷的美,如果社会价值鼓励多元化(真实的多元化,不是口号),相信大部分人都能寻得安身之所。

社会制度相应的变化,就是一个强健的安全网络,能容忍各种试错,能护扶年轻人的勇往直前不怕跌倒,让what doesn’t kill you makes you stronger不仅是一句鸡汤而能理直气壮成为他们的信念。当然,在美国,一个很重要但一直被忽略的,就是社会对基础研究的投入,想想如果当初的bell labs在美国到处开花。。。聪明的年轻人不用只往花街律师医生这几行里面挤了。

立委后记:

Great great thesis.  Right to the point on problems of modern society.  Is the solution feasible ?

一个繁荣无比的现代社会 结果是没有人真正快乐。输者输 赢者其实也输了。这种社会肯定是站不住的。问题是 看到现代社会问题的 越来越多 越来越切实。但解决方案是一个很大的问题。但如果连问题都不面对 又有什么希望解决它呢?

所谓左派的抬头或流行 与其说是人们认同他们 不如说是人们不能接受/忍受现状。既然现代化 全球化 资本主义化 没有带给人更美好的社会 那么其他的路线都是可以考虑的选项了:包括川普的保护主义和建造大墙;包括桑德斯的社会主义;也包括杨的ubi方案。还有什么出路呢?作者说,不能坐视精英社会不平等最后走向社会崩溃,总是要做点什么。

但这位象牙塔教授的作者还是太过书生气。她在诊断和刻画过度竞争的现代精英社会的社会矛盾和道德不平等方面,力透纸背。但在提供方案方面,简直是天真,看不出任何可行性,还不如摇唇鼓舌的政客。譬如,她说 精英阶层既然不幸福 不堪重负,那就退一步 少拿钱,把机会分给中下层一些。她建议说 社会应该下放一些工作。感冒发烧不值得去看医生,可以改去看赤脚护士。大体就是这个思路。道理是有的 没有实现的切实路线。

相关:

原文:How Life Became an Endless, Terrible Competition

精英陷阱

搜狗机器翻译

miserable-winners/594760/

杨安泽的UBI答问:作为自由红利的全民最低收入保障

华裔民主党总统候选人杨安泽 (Andrew Yang)在其网站解答了有关其竞选纲领UBI的种种问题。借助有道机器翻译后稍加编辑,分享如下:

华裔民主党总统候选人杨安泽 (Andrew Yang)

自由红利的定义

在未来的12年里,每3个美国工人中就有1个面临着因新技术而失业的风险,而且与以往的自动化浪潮不同,这次新工作的出现速度不够快,数量不够多,无法弥补这一损失。为了避免前所未有的危机,我们必须找到一个新的解决方案,这与我们以前所做的任何事情都不同。这一切都始于自由红利,这是所有美国成年人的普遍基本收入,没有任何附加条件,是建立一个稳定、繁荣和公正社会的基础。

什么是自由红利(freedom divident)

自由红利是全民基本收入(UBI:Universal Basic Income)的一种形式,是一种社会保障,在特定的治理人口范围内为每个公民提供一定数量的资金,而无需通过考试或满足工作要求。每个UBI计划在数量或设计上都可能不同。

杨安泽将在2020年以民主党人身份竞选总统,以实现自由红利。他为美国提出的这种形式的UBI是一套每月1000美元,或每年12000美元的保证付款,支付给所有18岁以上的美国公民。是的,这意味着你和你认识的每个人每月都能从美国政府那里得到1000美元,没有问题。

为什么杨安泽想要在美国实施自由红利?

杨安泽希望实现自由红利,因为我们正在经历世界上有史以来最大的技术变革。到2015年,自动化已经摧毁了400万个制造业工作岗位,世界上最聪明的人现在预测,未来12年,三分之一的美国劳动者将因自动化而失业。我们目前的政策还不足以应对这场危机。甚至我们最具前瞻性的政治家也没有做好准备。

随着技术的进步,工人们将能够停止从事最危险、重复和枯燥的工作。这应该会让我们感到兴奋,但是如果美国人没有收入来源——没有能力支付食品杂货,没有能力买房,没有能力为教育存钱,也没有能力建立一个有信心的家庭——那么未来可能会非常黑暗。我国目前的劳动参与率只有62.7%,几十年来的最低水平,每5名劳动年龄人口中就有1人不在就业市场。随着自动驾驶汽车和其他技术的出现,这将变得更加糟糕。

由简单的增值税资助的自由红利将保证所有美国人都能从自动化中受益,而不仅仅是大公司。自由红利将为美国人提供基本生活所需的资金,同时使我们能够找到更好的工作、创业、重返校园、照顾我们所爱的人或为下一个机会而努力。

有关杨安泽为何如此坚定地相信自由红利的更多信息,请阅读他的著作《对普通人的战争》。

谁将在杨安泽的计划中获得自由红利?

每个18岁以上的美国公民每月都可以免费领取1000美元,无论其收入或就业状况如何。无任何附加条件。是的,这意味着从2021年1月开始,你和你认识的每个人每月都会收到1000美元的支票。

在你现在的收入基础上,如果再加上每月1000美元,你会怎么做?让我们找出答案。

我们如何支付自由红利?

这可能比你想象的要容易。杨安泽提议通过整合一些福利项目和实施10%的增值税来资助自由红利。目前的福利和社会项目受益人将在他们目前的福利和无条件1000美元现金之间做出选择——大多数人更喜欢没有限制的现金。

增值税是对企业生产的商品或服务征收的一种税。这是一种公平的税收,它使那些擅长隐藏利润和收入的大公司更难逃避支付他们应该缴纳的公平份额。增值税并不是什么新鲜事。世界上193个国家中有160个已经征收了增值税或类似的东西,包括欧洲所有国家,它们的平均增值税为20%。

支付自由红利的方式将来自4个方面:

  1. 当前的支出。我们目前每年在福利项目、食品券、残疾人等方面的开支在5000亿到6000亿美元之间。这降低了自由红利的成本,因为已经获得福利的人将有选择,但将没有资格在现有福利之外获得全部1000美元。

    此外,我们目前在医疗保健、监禁、无家可归服务等方面的开支超过一万亿美元。我们将节省1000 – 2000亿美元,因为人们会更好地照顾自己,避免进急诊室、监狱和露宿街头,而且通常会更有功能。自由红利将通过帮助人们避开我们的制度短板来为自己买单,而这正是我们的成本飙升之时。一些研究表明,给贫穷的父母1美元可以导致多达7美元的社会成本节省和经济增长。
  2. 增值税。我们现在的经济规模大得令人难以置信,达到19万亿美元,仅在过去10年就增长了4万亿美元。如果增值税达到欧洲水平的一半,将会产生8000亿美元的新收入。随着技术的进步,增值税将变得越来越重要,因为你不能从机器人或软件那里征收所得税。
  3. 新的收入。把钱交到美国消费者手中会促进经济增长。罗斯福研究所预计,美国经济将增长约2.5万亿美元,创造460万个新就业岗位。这将从经济增长和活动中产生大约8000亿至9000亿美元的新收入。
  4. 对高收入者征税和开征污染税。通过取消社会保障上限,实施金融交易税,结束对资本利得/附带利息的税收优惠,我们可以减少金融投机,同时为自由红利提供资金。我们可以在此基础上再增加一笔碳排放费,这笔费用将部分用于资助自由红利,以弥补支付该项目成本所需的余额。

自由红利的好处是什么?

自由红利将以许多积极的方式改变社会,有证据表明这一点。各种UBI计划的试验已经带来了各种各样的好处——有些是意料之中的,有些是出乎意料的。以下是其中的一些:

UBI鼓励人们去找工作。当前的许多福利项目在受助人找到工作时即取消福利,有时使他们的经济状况比受雇前更糟。UBI适用于所有成年人,无论他们的就业状况如何,所以受助人可以自由地寻求额外收入,而大多数人都是这样做的。
UBI通过无附加条件的覆盖减少了官僚空间,确定谁有资格获得保险要简单得多,管理福利的成本也大大降低。

UBI提高了工人的议价能力,因为有保障的、无条件的收入给了他们拒绝剥削工资和恶劣工作条件的筹码。雇主不能像以前那样对员工颐指气使。

UBI增加了创业精神,因为它提供了公司早期初创时期的基本需求,并在业务失败时充当安全网。它也给了你更多的消费者,因为每个人都有更多的可支配收入。罗斯福研究所发现,UBI将创造460万个就业机会,并使经济持续增长12%。UBI将是我们所见过的促进就业、创业和创造力的最大催化剂。

UBI改善了接受者的心理健康,因为它减少了匮乏、贫困和财政不安全的状况,而这些是数百万人的主要压力来源。

UBI帮助人们做出更明智的决定。研究表明,处于经济不安全困境的人认知能力的下降相当于13个智商点。UBI将为人们提供安全保障,让他们把精力集中在重要的事情上,比如他们的家庭。

UBI改善身体健康。随着经济安全程度的提高,人们更不容易受到压力、疾病和自我毁灭行为的影响。UBI在加拿大的一项实验显示,住院率下降了8.5%。

UBI增加了艺术创作、非营利性工作和对所爱之人的关爱,因为它为那些对这类工作感兴趣的人提供了一份补充收入,而这些工作并没有得到市场的支持。

UBI提高了劳动力市场的效率,因为更少的工人被困在不合适的工作岗位上。国家生产力将会提高,因为人们将能够找到更有价值的工作,并促进更高的工作满意度。

UBI通过减少家庭暴力、虐待儿童、经济压力和冲突来改善人际关系。它确保每个人对自己的未来有更乐观的看法,并有能力摆脱虐待关系。

一个稳定的资金来源可以改变人们的生活,这是惊人的。如果我们接受自由红利,我们就能在美国体验到这一点; 我们是人类历史上最富有、技术最先进的社会。是时候投资到我们的人民身上了。

想象一下你和你认识的每个人的生活中,每个月多出1000美元,你们会怎么花? 事情会如何变化?

它会与社会保障或退伍军人伤残福利叠加吗?

那些为国家服务并因此而面临残疾的人,除了享受自由红利外,还将继续享受他们的福利。

社保退休福利与自由红利叠加。既然这是人们一生都在为之付出的一种利益,那么这笔钱就应该被恰当地视为属于他们的,他们不需要二者选一。

SSDI基于挣得的工作权益。SSI则是一个基于经济状况的福利项目。你可以同时获得SSDI和自由红利。大多数合法残疾人同时接受SSDI和SSI。在自由红利制度下,那些合法的残疾人可以在领取SSDI和自由红利,或者领取SSDI和SSI,之间做出选择,看哪一个组合更慷慨。

即使是一些每月在SSI中获得1000美元以上的人也会选择自由红利,因为它没有先决条件。自由红利消除了这些要求,并保证收入,不管其他因素。

有证据支持自由红利吗?

在世界各地进行的无条件现金福利试验已证明是减少贫困最成功的方法之一。世界银行(World Bank)已经证明,那些担心现金接受者会把钱浪费在毒品或酒精上、停止工作或生更多孩子的推测是错误的。很多这样的行为实际上减少了

自1998年以来,共发表了461篇这方面的研究论文。你可以在这里看到它们

在过去的50年里,已经有超过30个这类现金福利项目被研究。以下是我们推荐的几个:

Mincome实验,加拿大马尼托巴省(减少住院和不减少工作时间)
纳米比亚大型试点项目(减少犯罪、减少辍学和改善健康)
直接给予项目,肯尼亚(增加资产和营养,不改变毒品和暴力)
在这里查看所有这些项目

数据很清楚——给人们钱能让他们过上更好的生活。但先把数据放在一边,自己想想。如果每月多给你1000美元,你会怎么做? 你的家人和朋友呢?

自由红利将使我们的社会变得更加美好; 我们需要的是勇气和意志来关心和投资我们的人民。

我从未听说过自由红利和全民基本收入。它是从哪里来的?谁支持它?

保障每个公民从政府中获得收入的想法由来已久,最早记录于文艺复兴时期。在美国,这是由开国元勋托马斯·潘恩(Thomas Paine)继承的,他把这笔钱称为“自然遗产”。

UBI和类似的现金项目早在1918年工业革命期间的20世纪中期就开始升温。随着发达国家的产量超过以往任何时候,这个想法重新浮出水面,并得到了米尔顿·弗里德曼(Milton Friedman)和哈耶克(F.A. Hayek)等众多诺贝尔经济学奖得主的大力支持。

20世纪60年代,马丁·路德·金(Martin Luther King Jr.)表达了他的支持,还有来自125所大学的1000多名经济学家联名致信尼克松总统,要求提供收入保障。

1970年,尼克松总统在众议院通过了一项法案,将保障最低收入的想法纳入其中。它在参议院夭折,因为民主党人试图寻求更高的收入保障。

如今,这个想法得到了马克·扎克伯格(Mark Zuckerberg)、罗伯特·里奇(Robert Reich)、埃隆·马斯克(Elon Musk)、比尔·格罗斯(Bill Gross)、理查德·布兰森(Richard Branson)、塔-内希西·科茨(Ta-Nehisi Coates)、诺姆·乔姆斯基(Noam Chomsky)等许多人的支持。从奥巴马总统到自由意志主义者卡托研究所(Cato Institute),更多人表达了对研究这一想法的兴趣。

全民基本收入并非新概念——它是一个老概念,但其时代已经到来。

以下是多年来支持全民基本收入的一些人:

马丁·路德·金(1967年): “我现在确信,最简单的方法将被证明是最有效的——解决贫困的办法是通过一项现在被广泛讨论的措施来直接消除贫困: 提供收入保障。”

理查德·尼克松,1969年8月: “我的建议是,联邦政府在每个美国家庭的收入下建立一个基金会……对于不能照顾它自己的家庭,不论这个家庭在美国的任何地方。”

米尔顿·弗里德曼(诺贝尔经济学奖得主),1980年: “我们应该用一个单一的全面的现金收入补充计划——负所得税——来取代具体福利计划的杂七杂八。这将使我们当前的福利制度更有效率、更人性化。”

伯尼·桑德斯(Bernie Sanders), 2014年5月: “在我看来,每个美国人都至少有权享有最低生活水平……实现这一目标有不同的方式,但这是我们应该努力实现的目标。”

巴拉克·奥巴马(Barack Obama) 2016年10月: “随着人工智能得到进一步整合,社会可能变得更加富裕,生产和分配、你工作多少和你挣多少之间的联系会变得越来越弱……我们将在未来10年或20年讨论无条件的免费资金。”

埃隆·马斯克,2017年2月: “我认为我们最终会实现全民基本收入……这将是必要的……机器人不能做得更好的工作将会越来越少。我想说清楚。这些都不是我希望发生的事情; 但我认为这些事情很可能会发生。”

马克·扎克伯格,2017年5月: “我们应该探索……全民基本收入,让每个人都有缓冲去尝试新想法。”

为什么我们现在需要自由红利?

自2000年以来,科技已经取代了400万美国制造业工人的工作,摧毁了整个中西部地区的社区。随着科技的新发展,专家们预测在未来的12年里,三分之一的美国人会因为新科技而失业。

在29个州,卡车司机是最常见的工作,有350万司机,其中94%是男性,另有1200万工人在全国各地的卡车停车站和汽车旅馆里为他们提供支持。当卡车开始自动驾驶时会发生什么?

我们正在经历人类历史上最伟大的经济和技术变革,我们的制度却跟不上。如果没有自由红利,随着越来越多的工作由软件、人工智能和机器人完成,我们将看到机会减少。当人们没有钱花的时候,市场就不能很好地运转。自由红利是帮助社会通过人类历史上最大的自动化浪潮实现转型的重要一步。

关于我们为什么需要自由红利的详细说明,请阅读杨安泽的著作《普通人的战争》。

自由红利会对经济产生什么影响?

罗斯福研究所发现,如果每个18岁以上的成年美国公民每年接受1.2万美元的基本收入,到2025年,美国经济将永久性增长12.56%至13.10%,即2.5万亿美元左右,劳动力市场将增加450万至470万人的工作机会。

这是因为把钱交到人们手中会促进经济增长,尤其是当人们需要钱并愿意花钱的时候。想象一下,密苏里州的一个小镇上有5000名符合条件的居民。12000美元的自由红利将为社区带来6000万美元的额外收入,其中大部分将用于当地。然后想象一下,在这个国家的每一个社区,无论大小。各地的社区将拥有更有活力的地方经济,创造更多的就业机会,并催生新的企业。

这会不会导致严重的通货膨胀?

联邦政府最近在没有通货膨胀的情况下,印了4万亿美元用于银行救助。我们的自由红利计划主要使用经济中已经存在的资金。在货币经济学中,主流理论认为通货膨胀是建立在货币供应变化的基础上的。自由红利的货币供应量变化很小,因为它是由增值税提供资金的。

很有可能,一些公司会提高价格,以回应人们有更多的购买力,增值税也会小幅提高价格。然而,各公司之间仍将存在价格竞争。随着时间的推移,技术将继续降低大多数允许降价的商品的价格(如服装、媒体、消费电子产品等)。我们目前经历的主要通货膨胀发生在由于政府监管或不适用而难以自动化的行业——主要是住房、教育和医疗保健。真正的问题不是自由红利,而在是否允许技术和自动化降低不同行业的价格。

人们不会把钱花在毒品和酒精等愚蠢的东西上吗?

数据没有显示这一点。在许多向穷人发放现金的研究中,毒品和酒精的使用并没有增加。事实上,很多人用它来试图减少他们的酒精消费或物质滥用。例如,在阿拉斯加,人们经常把从该州获得的石油红利计入子女的教育支出。穷人会对他们的钱不负责任、挥霍无度的观点似乎是一种偏见,而不是事实。

当人们拥有更大的经济安全时,决策就会得到改善。给人们提供资源将使他们能够做出更好的决定来改善他们的处境。正如荷兰哲学家罗格尔·布雷格曼所说:“贫穷不是缺乏品格。就是缺钱。”

人们不会停止工作吗?

几十年来对现金转移项目的研究发现,只有新妈妈和上学的孩子在接受直接现金转移时工作时间更短。在几项研究中,高中毕业率上升。在某些情况下,人们甚至工作得更多。引用哈佛大学和麻省理工学院的一项研究,“我们发现(现金)转移对工作行为没有影响。”

在我们的计划中,每个成年人每年只能得到12000美元。在许多地方,这还不足以维持生活,当然也不足以让你获得舒适的生活或提升。要想取得有意义的进步,人们仍然需要走出去工作。

生活成本的变化呢?难道大城市不需要比农村地区更多的钱吗?

每个符合条件的自由红利接受者,无论在哪里,每月都将获得1000美元。按地区改变美元数额将会增加昂贵的官僚机构。此外,自由红利实际上将帮助更多的美国人生活在他们想要的地方。美国人口普查局(Census Bureau)的数据显示,美国人在各州之间的流动达到历史最低水平,导致经济和劳动力市场停滞不前。搬家需要很多钱,而美国人也越来越缺钱。自由红利将使人们和家庭更加流动,并在人们寻求新环境和机会时提高劳动力市场的活力。

在一些地方,每月1000美元比其他地方要经花得多。自由红利将带来许多社区的复兴,因为人们可以利用某些地区生活成本较低的优势,而不是蜂拥进入昂贵的大都市区。

为什么要给富人自由红利?

通过给每个人发放自由红利,接受政府现金转账的羞耻感就消失了。此外,它还消除了任何人留在一定收入范围内领取福利的动机。如果像Andrew的计划那样,通过增值税来支付,那么富人很可能会向这个体系缴纳的税比从这个体系中得到的要多。

为什么我们不能对那些失业的人进行再培训呢?

培训很重要 – 可不幸的是,数据表明,再培训计划难以大规模展开。行业调整援助计划(TAA)是一个为失业的制造业工人设立的联邦计划,该计划的成员中只有37%的人从事他们接受再培训的工作。密歇根州的“不让一个工人掉队”计划发现,该计划实施后,三分之一的成员仍处于失业状态,与未参加该计划的同龄人40%的失业率相似。在2003年至2013年间离开工作岗位的密歇根工人中,约有一半人后来靠残疾福利,未能接受再培训以适应新的工作。

许多最有可能失业的工人都是中年人,已经过了壮年。许多人都有健康问题。再培训将是困难的,许多雇主将更愿意雇佣工作要求较低的年轻员工。

目标岗位现在正在移动——当某人通过再培训计划时,他们再培训的工作可能已经改变或自动化了。技术会变得越来越好。此外,要想知道谁应该接受再培训也很难。如果一个商场关门了,其零售工人要接受再培训吗? 呼叫中心呢?

虽然培训计划是一个好主意,但我们应该承认,从历史上看,我们在这方面做得非常糟糕,即使我们知道岗位流失正在发生。在多个行业对大量人口进行再培训是不现实的,也无法解决新技术带来的人口迁移问题。

我没有看到机器人。实施UBI是不是太早?

不。“机器人”不一定是会走路会说话的机器人来敲你的门。当软件取代成千上万的服务台工作人员或汽车开始自动驾驶时,甚至当一个购物中心因为现在每个人都用电脑购物而关闭时,机器人时代就开始来临。

我们正处于自动化的第四局。自2000年以来,已有400万个制造业工作岗位被抢走,科罗拉多州的自动卡车已经在运送货物。如果我们再等下去,我们就没有时间了。《平价医疗法案》(Affordable Care Act)花了7年时间才全面生效。在失业危机全面爆发之前,是时候让自由红利成为现实了。

想了解更多关于劳动力和技术趋势的信息,包括机器人是如何出现和取代工人的,请阅读4月3日由阿歇特出版的Andrew的书《普通人的战争》(the War on Normal People)。

如果自由红利如此伟大,为什么我们还没有这么做呢?

在20世纪60年代末,我们的支持率非常接近——实际上在1969年众议院通过了该法案,之后由于民主党人想要一个更高的层级,该法案在参议院陷入停滞。1000名经济学家在一封信上签了名,表示这对经济来说是件好事。

从那时以后,我们就被洗脑了,认为对人们有益的东西并不对经济有益,但对大公司有利的东西才是。

我们还没有这么做的原因是,我们宁愿把钱给富有的公司,并希望钱能慢慢流下来——我们更信任机构,而不是我们的人民。这是我们必须改变的。我们必须赋能我们的人民,从每个个人和家庭做起,重建我们的经济。

这会导致大量移民到美国吗?

250年来,美国一直是世界上最受欢迎的移民目的地。对公民身份的高要求并不新鲜。的确,随着自由红利的落实,对公民身份的需求可能会上升。然而,只有公民才能获得自由红利,而美国已经是世界上公民之路最为漫长的国家之一。自由红利将使公民身份变得更有意义。

这个不就是共产主义/社会主义吗?

不。从定义上讲,共产主义是一场革命运动,旨在建立一个在共享生产所有权基础上的无阶级、无金钱、无国籍的社会秩序。社会主义的核心原则是生产资料的国有化,即政府占领亚马逊和谷歌。自由红利并不是这些东西,实际上它与资本主义是如此的天衣无缝,它预计在8年内使经济增长2.5万亿美元。

实际上,自由红利是资本主义在自动化浪潮和劳工失业潮中得以延续的必要条件。市场需要消费者作为销售产品的对象。自由红利是一种具有底线的资本主义,使得人们不会陷落下去。

难道雇主们不会开始降低工资吗?

雇主们已经让他们的员工做得更多而支付更少的薪水。自1973年以来,企业生产率增长了72%,但美国的工资仅增长了9%。UBI将把权力交到工人手中——用持续的、无条件的现金来支付他们的开支,美国人将能够对他们愿意接受的工作条件更加挑剔。

有了UBI,人们自然想做的工作——比如教师、教练或艺术家——可能会少付一些钱。但是人们不愿意做的工作实际上需要支付更多的工资,因为工人不一定要接受那份工作。

这听起来太棒了! 我该怎么做才能让它发生呢?

杨安泽的竞选不仅仅是UBI。它致力于建设一个把人民和生活质量放在首位的社会。UBI只是第一步。

在这里为竞选活动做捐献

帮助我们实现普遍的基本收入。如果我们有勇气赋能我们的人民,我们就能创造一个自由和富足的社会。让我们把人性放在首位 – 以人为本。

有道机器翻译 from https://www.yang2020.com/what-is-freedom-dividend-faq/

【相关】

华裔总统候选人杨安泽的高光时刻

华裔民主党总统候选人杨安泽 (Andrew Yang)竞选网页

Andrew Yang:The War on Normal People

36 项UBI社会实验

有道机器翻译

金灿荣教授提到的【厉害了我的国】

立委按:偶然听到金灿荣教授在点评中美贸易摩擦升级的一个演说。他提到美国中情局定期发布更新的《世界概况》(The World Factbook),对中国经济有准确的描述,笑称,比发改委还要正面,就是一本【厉害了我的国】的英文版。出于好奇,上网查到了他说的这个报告,的确精细客观,大概是美国的智囊团专家和中国通们撰写的,具有不错的参考价值,利用搜狗机器翻译稍加编辑如下,以飨读者。

背景

中国的历史文明至少可以追溯到公元前1200年;从公元前3世纪开始,在接下来的两千年里,中国在一系列帝国王朝的统治下,时而团结时而不团结。在19世纪和20世纪初,这个国家饱受内乱、大饥荒、军事失败和外国占领的困扰。第二次世界大战后,毛泽东领导下的中国共产党建立了专制的社会主义制度,在确保中国主权的同时,对日常生活实行严格控制,并导致数千万人丧生。1978年后,毛泽东的继任者邓小平和其他领导人专注于市场经济发展,到2000年,产量翻了两番。对大多数人来说,生活水平已经显著提高,但政治控制仍然很严格。自1990年代初以来,中国增加了在国际组织中的全球外联和参与。

人民与社会

人口: 本条目给出了美国人口普查局基于人口普查、人口动态统计登记系统或与最近过去相关的抽样调查以及对未来趋势的假设所做的估计。总人口是衡量该国对世界及其所在区域潜在影响的一个总体尺度。注:从1993年的概况介绍开始,一些国家(主要是非洲国家)的人口估计已经明确考虑到了死亡率。

更多人口字段列表
1,384,688,986(东部时间2018年7月。)
与世界的国家比较:1
国籍:这个条目提供了公民的识别术语——名词和形容词。国籍字段列表
名词:中文(单数和复数)
形容词:中文
族裔群体:该条目提供了族裔群体的有序列表,从最大的族裔群体开始,通常包括总人口的百分比。

族裔群体字段列表
汉族91.6%,壮族1.3%,其他(包括回族、满族、维吾尔族、苗族、彝族、土家族、藏族、蒙古族、侗族、布依族、瑶族、白族、朝鲜族、哈尼族、黎族、哈萨克族、傣族和其他民族)7.1% (2010年东部时间。)
注:中国政府正式承认56个民族

语言:此条目提供了每个国家使用的语言列表,并指定了任何官方的国家或地区语言。当数据可用时,每个国家使用的语言根据将每种语言作为第一语言的总人口的百分比进行细分。对于那些没有可用数据的国家,语言根据流行程度按等级排列,从最常用的语言开始。

语言字段列表
标准中文或普通话(官方;普通话,以北京方言为基础,越语(粤语)、吴语(上海话)、闽北(福州)、闽南(福建-台湾)、湘语、赣语、客家方言、少数民族语言(见少数民族条目)
注:壮族是广西壮族的官方语言,岳是广东的官方语言,蒙古语是内蒙古的官方语言,维吾尔语是新疆维吾尔文的官方语言,吉尔吉斯语是新疆维吾尔文的官方语言,藏语是西藏的官方语言

宗教:这个条目是信徒从最大群体开始的有序的宗教列表,有时包括总人口的百分比。世界主要宗教的核心特征和信仰描述如下。巴哈伊教——由米尔扎·侯赛因·阿里(又名巴哈伊·阿卜杜拉)于1852年在伊朗创立,巴哈伊教强调一神论,信奉一个永恒的超验上帝。它的指导重点是鼓励地球上所有民族的团结,以实现正义与和平。

更多宗教字段列表
佛教18.2%,基督教5.1%,穆斯林1.8%,民间宗教21.9%,印度教< 0.1%,犹太教< 0.1%,其他0.7%(包括道教(道教)),非附属宗教52.2%(美国东部时间2010年)。)
注:官方无神论者

年龄结构:这一条目提供了按年龄划分的人口分布。按性别和年龄组分列的信息如下:0-14岁(儿童)、15-24岁(早期工作年龄)、25-54岁(主要工作年龄)、55-64岁(成熟工作年龄)、65岁及以上(老年人)。人口的年龄结构影响一个国家的关键社会经济问题。人口年轻的国家(15岁以下的比例很高)需要加大对学校的投资,而人口较老的国家则需要加大投资。。。更多年龄结构字段列表
0-14岁:17.22%(男性128,270,371/女性110,120,535)
15-24岁:12.32%(男性91,443,139/女性79,181,726)
25-54岁:47.84%(男性338,189,015/女性324,180,103)
55-64岁:11.35%(男性79,340,391/女性77,857,806)
65岁及以上:11.27%(男性74,277,631人/女性81,828,269人)(2018年东部时间。)
人口金字塔:人口金字塔

抚养比:抚养比是一个人口年龄结构的量度。他们将可能在经济上“依赖”他人支持的个人数量联系起来。受扶养人比率将青年(0-14岁)和老年人(65岁以上)的比率与工作年龄组(15-64岁)的比率进行对比。受扶养人比率的变化表明了人口年龄结构变化带来的潜在社会支助需求。生育率水平。

更多相关性比率字段列表
总抚养比:37.7 (2015年东部标准时间。)
青年抚养比率:24.3 (2015年东部标准时间。)
老年抚养比率:13.3 (2015年东部标准时间。)
潜在支持比率:7.5 (2015年东部标准时间。)
数据不包括香港、澳门和台湾

中位年龄:这个条目是将一个人口分成两个数量相等的群体的年龄;也就是说,一半的人比这个年龄小,一半的人比这个年龄大。它是一个单一的指数,概括了一个人口的年龄分布。目前,中位年龄从尼日尔和乌干达的15岁左右到几个欧洲国家和日本的40岁或以上不等。请参阅“年龄结构”条目,了解

政府

国家名称:本条目包括美国地名委员会批准的国家名称的所有形式。国家名称字段列表
传统长型:中华人民共和国
传统简称:中国
当地简称:中国
缩写:PRC
词源学:英文名字来源于公元前3世纪的秦统治者,他们组成了中国古代的第一个帝国王朝;中文名字“中国”翻译成“中央民族”或“中央王国”

政府类型:此条目给出了政府的基本形式。主要政府术语的定义如下:绝对君主制——君主不受阻碍地统治的政府形式,即没有任何法律、宪法或合法组织的反对。无政府状态-政府权威缺失导致的无法无天或政治混乱的状态。独裁主义–辉格党的一种政府形式。。。更多政府类型字段列表

共产党领导的国家

首都:该条目给出政府所在地的名称、地理坐标、相对于协调世界时(世界时)的时差和在DC华盛顿观察到的时间,如果适用,还提供夏令时的信息。在适当情况下,还增加了一个特别说明,以突出那些有多个时区的国家。

名:北京
地理坐标:北纬39° 55,东经116° 23
时差:世界协调时+8(标准时间比DC华盛顿早13小时)
词源:中文意思是“北方首都”

注:尽管面积很大,但整个中国都在一个时区内

行政区划:本条目通常给出美国地名委员会(BGN)批准的数字、指定术语和一级行政区划。行政区划字段列表
23个省、5个自治区(自治市)和4个市(市)

省份:安徽、福建、甘肃、广东、贵州、海南、河北、黑龙江、河南、湖北、湖南、江苏、江西、吉林、辽宁、青海、陕西、山东、山西、四川、云南、浙江;(见关于台湾的说明);

自治区:广西、内蒙古(内蒙古)、宁夏、新疆维吾尔自治区、西藏(西藏);

直辖市:北京、重庆、上海、天津

注:中国认为台湾是其第23个省;参见香港特别行政区和澳门特别行政区的单独条目

独立:对大多数国家来说,这个条目给出了主权实现的日期,以及从哪个国家、帝国或托管。对其他国家来说,给出的日期可能不代表严格意义上的“独立”,而是一些重要的建国事件,如传统的建国日期或统一、联邦、邦联、建立、政府形式的根本改变或国家继承的日期。独立字段列表

1949年10月1日(中华人民共和国成立);值得注意的较早日期:公元前221年(秦朝统一);1912年1月1日(清朝被中华民国取代)

国庆节:这个条目给出了主要的国庆庆祝活动——通常是独立日。国家假日字段列表

国庆节(中华人民共和国成立纪念日),10月1日(1949年)

宪法:本条目提供一个国家的宪法信息,包括两个子字段。历史子字段包括以前宪法的日期以及制定和实施最新宪法的主要步骤和日期。对于以前有1-3部宪法的国家,列出年份。更多宪法字段列表

历史:以前的几个;最近于1982年12月4日颁布
修正案:由全国人民代表大会常务委员会提出或者得到全国人民代表大会五分之一以上成员的支持;通过需要国会成员三分之二以上的多数票;修订了几次,最后一次是在2018年(2018年)

法律制度:本条目提供了一个国家法律制度的描述。还包括一些国家关于对立法行为进行司法审查的声明。几乎所有国家的法律体系通常都以五种主要类型的要素为模式:民法(包括法国法、拿破仑法典、罗马法、罗马-荷兰法和西班牙法);普通法(包括美国法律);习惯法;混合或多元法律;和宗教法(包括伊斯兰法)。更多法律系统字段列表:

受苏联和欧洲大陆民法体系影响的民法;立法机关保留解释法规的权力;注-2017年初,全国人民代表大会通过了《民法通则》,迈出了通过新民法典的第一步

国际法组织的参与:这一条目包括一国接受国际法院和国际刑事法院管辖权的信息;59个国家有保留地接受了国际法院的管辖权,11个国家无保留地接受了国际法院的管辖权;122个国家接受了ICCt管辖权。附录二:国际组织和团体解释了国际法院和国际刑事法院的不同任务。国际法组织参与领域清单

没有提交国际法院管辖权声明;ICCt的非缔约国

公民身份:该条目提供与获得和行使公民身份有关的信息;它包括四个子领域:出生公民身份是指根据出生地获得公民身份,即出生地法,而不管父母的公民身份如何。血统公民身份仅描述根据血统原则获得公民身份,或通过血统获得公民身份,父母中至少有一方是国家公民,出生在美国领土范围内。更多公民字段列表

出生公民身份:否
仅限血统公民身份:父母中至少有一方必须是中国公民
承认双重国籍:不
入籍的居住要求:虽然理论上入籍是可能的,但实际上却极其困难;居住是必需的,但没有具体说明

选举权:这一条目给出了选举权的年龄,以及选举权是普遍的还是受限制的。选举权领域列表

18岁;普遍的

行政部门:该条目包括五个子条目:国家元首;政府首脑;内阁;选举/任命;选举结果。国家元首包括国家名义领导人的姓名、头衔和就职日期,他在官方和仪式上代表国家,但不得参与政府的日常活动。政府首脑包括被指定管理政府行政部门的最高行政人员的姓名、头衔。更多行政部门字段列表

国家元首:习近平主席(自2013年3月14日起);副总统王岐山(自2018年3月17日起)
政府首脑:李克强总理(自2013年3月16日起);常务副总理韩正(自2018年3月19日起)、孙春兰(自2018年3月19日起)、刘禾(自2018年3月19日起)、胡春华(自2018年3月19日起)
内阁:由全国人民代表大会任命的国务院
选举/任命:全国人民代表大会间接选举产生的总统和副总统,任期5年(无限期);上次选举于2018年3月17日举行(下次选举将于2023年3月举行);总理由总统提名,全国人大确认
选举结果:习近平再次当选总统;全国人民代表大会投票——2,970票(一致);王岐山以2969票当选副总统

立法部门:该条目有三个子字段。描述子字段提供了立法结构(一院制——单一议院;两院制——上院和下院);正式名称;成员席位数;选区或投票区的类型(单一席位、多席位、全国范围);选举投票制度;和成员任期。选举子字段包括上次选举和下次选举的日期。选举结果子字段列出了政党/联盟的投票百分比。更多立法部门字段列表

说明:一院制,全国人民代表大会(最多3000席;由市、区、省人民代表大会和人民解放军间接选举产生的成员;成员任期5年);注-实际上,只有中国共产党(CCP)、其8个同盟独立党和CCP批准的独立候选人当选
选举:上次于2017年12月至2018年2月举行(下次将于2022年底至2023年初举行)
选举结果:选票百分比-国民大会;按政党分列的席位—-国民议会;构成—-男性2,238人,女性742人,女性24.9%

司法部门:该条目包括三个子字段。最高法院子字段包括一个国家最高级别法院的名称、法官的人数和头衔以及法院审理的案件类型,这些通常基于民法、刑法、行政法和宪法。一些国家有独立的宪法法院。法官遴选和任期子字段包括负责提名和任命法官的组织和相关官员。更多司法部门字段列表

最高法院:最高人民法院(由340多名法官组成,包括首席法官和13名大法官,组成一个民事委员会和法庭,处理民事、经济、行政、申诉和上诉以及通信和运输案件)
法官遴选和任期:由全国人民代表大会任命的首席法官(NPC);限于连续两届5年任期;由首席大法官提名并由NPC常务委员会任命的其他大法官和法官;NPC确定的其他法官和法官的任期
下级法院:高级人民法院;中级人民法院;区县人民法院;自治区人民法院;国际商事法院;军事、海事、交通和林业问题特别人民法院
注:2014年末,中国公布了一项多年司法改革计划;2018年继续取得进展


政党和领导人:除非另有说明,本条目包括截至每个国家上次立法选举的重要政党、联盟和选举名单。政党和领导人实地名单
中国共产党或CCP·[·习近平]
注:中国有8个名义上独立的小政党,由CCP控制

国际组织参与:本条目按缩写字母顺序列出主题国家是其成员或以其他方式参与的国际组织。国际组织参与领域列表

亚行、非行(非区域成员)、亚太经合组织、北极理事会(观察员)、东盟区域论坛、东盟(对话伙伴)、国际清算银行、金砖国家、CDB、CICA、埃及、粮农组织、FATF、20国集团、24国集团(观察员)、5国集团、77国集团、IADB、原子能机构、国际复兴开发银行、民航组织、国际商会(国家委员会)、ICRM、国际开发协会、农发基金、国际金融公司、红十字与红新月联会、IHO、劳工组织、货币基金组织、海事组织、IMSO、刑警组织、海委会、国际移民组织(观察员)、IPU、国际标准化组织、信息技术事务办公室、国际电联、拉美一体化协会(观察员)、多边投资担保机构、西撒特派团、马里稳定团

在美国的外交代表:此条目包括使团团长、办事处地址、电话、传真、总领馆所在地和领事馆所在地。附加注释的“任命大使”一词指的是向国务卿而不是美国总统提交全权证书的新大使。这些大使履行所有外交职能,除了会见总统或出席总统出席的活动,直到他们在白宫正式递交国书。更多外交代表在美国

特派团团长:崔天凯大使(自2013年4月3日起)
衡平法院:DC华盛顿州西北国际广场3505号,20008
电话:1 495-2266
传真:1 495-2138
总领事馆:芝加哥、休斯顿、洛杉矶、纽约、旧金山

美国外交代表:此条目包括代表团团长、大使馆地址、邮寄地址、电话号码、传真号码、分支机构位置、总领馆位置和领事馆位置。美国驻外代表机构名单

特派团团长:特里·布兰斯塔德大使(自2017年7月12日起)
大使馆:北京100600安家楼路55号
邮寄地址:采购订单AP 96521
电话:86 8531-3000
传真:86 8531-3300
总领事馆:成都、广州、上海、沈阳、武汉

国旗描述:独立国家的旗帜由其属地使用,除非有官方认可的当地旗帜。一些有争议的地区和其他地区没有国旗。标志描述字段列表

红色,有一个大的黄色五角星和四个较小的黄色五角星(排列在朝向旗帜中间的垂直弧线上),位于上提升侧角;红色代表革命,而星星代表中国共产党统一的四个社会阶级——工人阶级、农民阶级、城市小资产阶级和民族资产阶级(资本家)

国家象征:国家象征是动物、花卉或其他抽象的象征——或一些独特的物体——随着时间的推移,它们已经与一个国家或实体紧密地联系在一起。并非所有国家都有国家标志;一些国家有不止一个。国家符号字段列表

龙,大熊猫;民族颜色:红色、黄色

国歌:一种普遍爱国的音乐作品——通常以歌曲或赞美诗的形式——唤起和颂扬一个国家或其人民的历史、传统或斗争。国歌可以被一个国家的宪法、颁布的法律或简单的传统正式认可为国歌。虽然大多数国歌都有歌词,但有些没有。国歌列表

名称:《义勇军进行曲》
歌词/音乐:田汉/聂耳
注:1949年通过;国歌虽然在文化大革命期间被禁止;它最初是1935年中国电影《暴风雨中的儿女》的主题曲

经济

自20世纪70年代末以来,中国已经从一个封闭的中央计划体系转变为一个更加市场化的体系,在全球扮演着重要角色。自1978年以来,中国以渐进的方式实施改革,提高了效率,使国内生产总值增长了十倍以上。改革始于集体农业的逐步淘汰,并扩大到包括价格的逐步自由化、财政权力下放、国有企业自主权的增加、私营部门的增长、股票市场和现代银行体系的发展以及对外贸易和投资的开放。中国继续奉行产业政策、国家对关键部门的支持以及限制性投资制度。从2013年到2017年,中国是世界上增长最快的经济体之一,平均每年实际增长率略高于7%。根据购买力平价来衡量,中国在2017年是世界上最大的经济体,在现代史上首次在2014年超过美国。中国在2010年成为世界上最大的出口国,在2013年成为最大的贸易国。尽管如此,中国的人均收入仍低于世界平均水平。

2005年7月,中国转向参考一篮子货币的汇率制度。从2005年年中到2008年末,人民币兑美元升值逾20%,但从全球金融危机爆发到2010年6月北京宣布将恢复逐步升值,人民币汇率实际上一直与美元挂钩。从2013年到2015年初,人民币对美元保持稳定,但从2015年年中到2016年底,在资本大量外流的背景下,人民币贬值了13%;2017年,人民币对美元恢复升值——从2016年底到2017年底,升值幅度约为7%。2015年,在人民币被纳入国际货币基金组织特别提款权篮子后,中国人民银行宣布将继续谨慎推动人民币的完全自由兑换。然而,自2015年末以来,中国政府加强了对海外投资的资本管制和监督,以更好地管理汇率和保持金融稳定。

中国政府面临诸多经济挑战,包括:(一)降低国内高储蓄率,相应降低国内家庭消费;(b)管理其高公司债务负担,以维持金融稳定;(c)控制用于为基础设施刺激融资的表外地方政府债务;(d)为有抱负的中产阶级,包括农村移民和大学毕业生提供更高工资的工作机会,同时保持竞争力;(e)抑制房地产部门的投机性投资,同时不大幅减缓经济;(f)减少工业产能过剩;(g)通过更有效的资本配置和国家对创新的支持来提高生产率增长率。沿海省份的经济发展比内陆省份取得了更大进展,到2016年,超过1.693亿移徙工人及其家属已迁往城市地区寻找工作。中国被称为“独生子女政策”的人口控制政策的一个后果是,中国现在是世界上老龄化速度最快的国家之一。2016年,中国放宽了独生子女政策,允许所有家庭生育两个孩子。环境恶化——特别是空气污染、土壤侵蚀和地下水位持续下降,尤其是在北方——是另一个长期问题。由于侵蚀和城市化,中国继续失去可耕地。中国政府正在寻求增加煤炭和石油以外的能源生产能力,重点是天然气、核能和清洁能源开发。2016年,中国批准了《巴黎协定》,这是一项应对气候变化的多边协定,并承诺在2025年至2030年间实现二氧化碳排放峰值。

2016年3月公布的政府第十三个五年计划强调,需要增加创新和刺激国内消费,以减少经济对政府投资、出口和重工业的依赖。然而,与经济再平衡相比,中国在补贴创新方面取得了更多进展。北京方面已承诺让市场在资源配置方面发挥更具决定性的作用,但中国政府的政策继续偏向国有企业,并强调稳定。中国领导人在2010年承诺到2020年将国内生产总值翻一番,第十三个五年计划包括到2020年至少6.5%的年经济增长目标来实现这一目标。近年来,中国在被认为对“经济安全”至关重要的领域重新支持国有企业,明确寻求培育具有全球竞争力的行业。中国领导人还通过重申国家在经济中的“主导”作用破坏了一些市场化改革,这一立场有可能阻碍私人主动性,并随着时间的推移降低经济效率。2017年经济增长略有加速——这是自2010年以来首次出现这种增长——给了北京更大的空间进行经济改革,重点是金融部门去杠杆化和2015年末首次宣布的供应方结构改革议程。

GDP(购买力平价):这一项给出了一个国家在某一年生产的所有最终产品和服务的国内生产总值(GDP)或价值。一国按购买力平价(PPP)汇率计算的国内生产总值(GDP)是该国生产的所有商品和服务的总价值,按该年美国市场价格计算。这是大多数经济学家在考察人均福利和比较各国生活条件或资源使用情况时更喜欢使用的衡量标准。更多GDP(购买力平价)指标

23.21万亿美元(美国东部标准时间2017年)
21.72万亿美元(美国东部标准时间2016年)
20.35万亿美元(美国东部标准时间2015年)
注:数据以2017年美元计算
国家与世界的比较:1

国内生产总值(官方汇率):这一项给出了国内生产总值(GDP)或一个国家在某一年生产的所有最终产品和服务的价值。一个国家按官方汇率计算的国内生产总值(OER),是以本国货币计价的年度国内生产总值(GDP),除以当年美国与该国的双边平均汇率。该方法计算简单,可以精确地测量输出值。许多经济学家在衡量一个经济体相对于其他经济体所保持的经济实力时,更倾向于采用这种方法。更多GDP(官方汇率)字段列表

12.01万亿美元(美国东部标准时间2017年)。
注:由于中国的汇率是由法定汇率决定的,而不是由市场力量决定的,因此官方的GDP汇率指标并不能准确地衡量中国的产出;以官方汇率计算的GDP大大低估了中国相对于世界其它地区的实际产出水平;在中国的情况下,按购买力平价计算的GDP是比较各国产出的最佳指标

GDP -实际增长率:这一项给出了经通货膨胀调整后的GDP年增长率,并以百分比表示。增长率是逐年增长的,而不是复合增长。GDP -实际增长率字段列表

(2017。6.9%)
(2016。6.7%)
(2015。6.9%)
国家与世界的比较:21

国内生产总值-人均(购买力平价):这一项是按购买力平价计算的国内生产总值除以同年7月1日的人口。GDP -人均(PPP)字段列表
16700美元(2017年美国东部时间)。
15700美元(2016年美国东部时间)。
14800美元(2015年美国东部时间)。
注:数据以2017年美元计算
国家与世界的比较:105

国民储蓄:国民储蓄是减去最终消费支出(家庭和政府)从国民可支配收入,包括个人储蓄,加上业务储蓄(资本消耗的总和津贴和留存业务利润),加上政府储蓄(税收的超额支出),但不包括外国储蓄的过剩商品和服务的进口/出口)。这些数字以GDP的百分比表示。更多国民储蓄总额
占GDP的45.8%(美国东部时间2017年)。
占GDP的45.9%(美国东部时间2016年)。
占GDP的47.5%(美国东部时间2015年)。
国家与世界的比较:6


GDP——按最终用途划分的构成:这个条目显示了一个经济体中谁在进行消费:消费者、企业、政府和外国人。该分布给出了家庭消费、政府消费、固定资本投资、存货投资、货物和服务出口、货物和服务进口对GDP的贡献率,如果数据完整,将占GDP的100%。家庭消费包括居民家庭和非营利性机构的支出。更多GDP构成,按最终用途字段列出

家庭消费:39.1%(美国东部时间2017年)
政府消费:14.5%(美国东部时间2017年)。
固定资本投资:42.7%(美国东部时间2017年)。
存货投资:1.7%(美国东部时间2017年)。
商品和服务出口:20.4%(美国东部时间2017年)。
商品和服务进口:-18.4%(美国东部时间2017年)。

国内生产总值(GDP)——按来源行业划分的构成:这个条目显示了一个经济体中生产发生在何处。该分布给出了农业、工业和服务业对GDP的百分比贡献,如果数据完整,将占GDP的100%。农业包括农业、渔业和林业。工业包括采矿、制造业、能源生产和建筑业。服务包括政府活动、通讯、交通、金融和所有其他……国内生产总值-成分较多,按行业原产领域列出

农业:7.9%(美国东部时间2017年)。
所属行业:40.5%(美国东部时间2017年)
服务:51.6%(美国东部时间2017年)

农产品:这个条目是一个主要农作物和产品的有序列表,从最重要的开始。农产品

农业总产值居世界首位;大米、小麦、土豆、玉米、烟草、花生、茶叶、苹果、棉花、猪肉、羊肉、鸡蛋;鱼、虾

行业:这个条目提供了以年度产值最大开始的行业的排序。行业领域清单

工业总产值居世界首位;采矿及矿石加工、铁、钢、铝等金属、煤炭;机械制造;武器;纺织品和服装;石油;水泥;化学物质;肥料;消费品(包括鞋类、玩具、电子产品);食品加工;运输设备,包括汽车、火车、机车、船舶、航空器;通讯设备,商业空间运载火箭,卫星

工业生产增长率:这一项给出了工业生产(包括制造业、采矿业和建筑业)的年增长率。工业生产增速

(2017。6.1%)
国家与世界的比较:40

劳动力:这一项包含劳动力总数。劳动力市场

8.067亿(美国东部时间2017年)
注:截至2012年底,中国劳动年龄人口(15-64岁)为10.04亿
国家与世界的比较:1

劳动力-按职业:这一项列出了劳动力按职业部门的百分比分布。农业包括农业、渔业和林业。工业包括采矿、制造业、能源生产和建筑业。服务包括政府活动、通讯、运输、金融和所有其他不生产物质产品的经济活动。如果数据不完整,则分布总数将小于100%,由于四舍五入,分布范围可能在99- 101%之间。更多劳动力-按职业领域列出

农业:27.7%
工业:28.8%
服务:43.5% (2016 est.)

失业率:这一项包含了失业劳动力的百分比。可能会注意到大量的就业不足。失业率字段列表

(2017。3.9%)
(2016。4%)
注:数据为城镇登记失业人数,不包括民营企业和外来务工人员
国家与世界的比较:48

贫困线以下人口:国家对贫困线以下人口比例的估计是根据对各子群体的调查得出的,调查结果按每个群体的人数加权。各国对贫穷的定义差别很大。例如,富国通常采用比穷国更慷慨的贫困标准。贫困线以下人口实地名单

(2016。3.3%)
注:2011年,中国设定新的贫困线为2300元人民币(约合400美元)

按比例计算的家庭收入或消费:家庭收入或消费数据来自家庭调查,调查结果根据家庭规模进行了调整。各国在收集和调整数据时使用不同的标准和程序。基于收入的调查通常会比基于消费的调查显示出更不平等的分配。调查的质量随着时间的推移而提高,但在进行国家间比较时仍需谨慎。家庭收入或消费按比例或份额实地列名

最低10%:2.1%
最高10%:31.4% (2012)
注:数据仅适用于城镇家庭

家庭收入分配-基尼指数:该指数衡量一个国家家庭收入分配的不平等程度。该指数是根据洛伦茨曲线计算出来的,在洛伦茨曲线中,累计家庭收入与从最贫穷家庭到最富裕家庭的排列数量相对应。指数是(a)一个国家的洛伦茨曲线和45度辅助线之间的面积与(b) 45度线下的整个三角形面积的比值。基尼指数字段列表

46.5 (2016)。
46.2 (2015)。
国家与世界的比较:31

预算:这一项包括收入、支出和资本支出。
收入:2553万亿美元(美国东部时间2017年)。
支出:3.008万亿美元(美国东部标准时间2017年)。

税收和其他收入:这一项记录了国家政府在指定时期内的税收总额和其他收入,以GDP的百分比表示。税收包括个人所得税、企业所得税、增值税、消费税和关税。其它收入包括社会贡献——如社会保障和医院保险支出——赠款,以及来自公共企业的净收入。将数据正常化,即总收入除以GDP,可以方便地比较……更多税收和其他收入

占GDP的21.3%(美国东部时间2017年)。
国家与世界的比较:141

预算盈余(+)或赤字(-):这一项记录了国家政府收入和支出之间的差额,以GDP的百分比表示。正数(+)表示收入超过支出(预算盈余),负数(-)表示相反(预算赤字)。将数据正常化,即预算余额除以GDP,可以方便地进行各国间的比较,并表明一国政府是储蓄还是借款。更多预算盈余(+)或赤字(-)字段列表

-3.8%(占GDP的3.8%)(美国东部时间2017年)
国家与世界的比较:152

公共债务:这一项记录了所有政府借款减去以本国货币计价的偿还额的累计总额。公共债务不应与外债混淆,外债反映了私营部门和公共部门的外币债务,必须由外汇收入提供资金。公债上市

占GDP的47%(美国东部时间2017年)。
占GDP的44.2%(美国东部时间2016年)。
注:官方数据;数据涵盖中央和地方政府债务,包括2011年中国审计署报告正式承认的债务;数据不包括政策性银行债券、铁道部债券和中国资产管理公司债
国家与世界的比较:111

通货膨胀率(居民消费价格):这一分录提供了居民消费价格与上一年度居民消费价格的年度变动百分比。通货膨胀率(居民消费价格)字段列表
(2017。1.6%)
(2016。2%)
国家与世界的比较:88

中央银行贴现率:这一项提供了一个国家的中央银行对商业银行、储蓄银行为满足资金暂时短缺而提供的贷款收取的年化利率。央行贴现率字段列表

2.25%(美国东部时间2017年12月5日)
2.25%(美国东部时间2016年12月31日)
国家与世界的比较:117

商业银行优惠贷款利率:这一项提供了一个简单的平均年化利率,商业银行收取的新贷款,以国家货币计价,向他们最值得信用的客户。商业银行优惠贷款利率领域上市

4.35%(美国东部时间2017年12月31日)
4.35%(美国东部时间2016年12月31日)
国家与世界的比较:160

狭义货币的股票:该条目,也被称为“M1,”包括流通中的货币总量(纸币和硬币)+活期存款以非银行金融机构持有的本国货币计价,州和地方政府,非金融公共企业和私营部门的经济,以一个特定的时间点。各国货币单位已按资料提供日期的收盘价兑换成美元。更多狭义货币领域的股票上市

8.351万亿美元(美国东部时间2017年12月31日)。
7.001万亿美元(美国东部时间2016年12月31日)
国家与世界的比较:1

广义货币存量:这个条目覆盖所有的“狭窄的钱,”加时间和储蓄存款的总量,信用社存款、货币市场基金机构,中央银行之间短期回购协议和商业银行存款,和其他大型非银行金融机构持有的流动性资产,州和地方政府,非金融公共企业和私营部门的经济。各国货币单位在收市时已兑换成美元。更多的股票在广义货币领域

8.351万亿美元(美国东部时间2017年12月31日)。
7.001万亿美元(美国东部时间2016年12月31日)
国家与世界的比较:1

国内信贷存量:指金融机构向中央银行、国家和地方政府、公共非金融企业和私营部门提供的以国内货币计价的信贷总量。各国货币单位已按资料提供日的收盘价兑换成美元。国内信用领域股票上市

27.34万亿美元(美国东部时间2017年12月31日)。
23.02万亿美元(美国东部时间2016年12月31日)
国家与世界的比较:1

公开上市股票的市值:这一项是指公开上市公司发行的股票的价值,其价格在指定期间的最后一天在全国股票市场上确定。它只是每股最新价格乘以在特定交易所上市的所有公司的流通股总数。上市公司股票市值实地挂牌

7.335万亿美元(美国东部时间2016年12月)
8.234万亿美元(美国东部时间2015年12月)
8.518万亿美元(美国东部标准时间31日)。
国家与世界的比较:2

经常账户余额:这一项记录了一个国家在特定时期内货物和服务的净贸易,加上租金、利息、利润和股息的净收入,以及与世界其他地区的净转移支付(如养老基金和工人汇款)。这些数字是按汇率计算的,即,而不是按购买力平价(PPP)计算。经常账户余额字段列表

1649亿美元(美国东部时间2017年)
2022亿美元(美国东部时间2016年)
国家与世界的比较:3

出口:这一分录以船上交货价(不含运费)计算出口商品的美元总额。这些数字是按汇率计算的,即,而不是按购买力平价(PPP)计算。出口领域清单

2.216万亿美元(美国东部标准时间2017年)。
1.99万亿美元(美国东部标准时间2016年)
国家与世界的比较:1

出口-合作伙伴:这个条目提供了一个贸易伙伴的排名顺序,从最重要的开始;它有时包括总美元价值的百分比。出口-合作伙伴字段列表

美国19%,香港12.4%,日本6%,韩国4.5% (2017)

出口-商品:这一项提供了价值最高的出口产品的清单;它有时包括总美元价值的百分比。出口-商品领域的清单

机电及其他机械,包括电脑及电讯设备、服装、家具、纺织品

进口:这一分录提供了按到岸价格(成本、保险和运费)或离岸价(船上交货)计算的进口商品美元总额。这些数字是按汇率计算的,即,而不是按购买力平价(PPP)计算。进口领域清单

1.74万亿美元(美国东部标准时间2017年)。
1.501万亿美元(美国东部标准时间2016年)
国家与世界的比较:2

进口-商品:这个条目提供了价值最高的进口产品的列表;它有时包括总美元价值的百分比。进口-商品领域的清单

电气和其他机械,包括集成电路和其他计算机部件、石油和矿物燃料;光学、医疗设备、金属矿、机动车;大豆

进口-合作伙伴:这个条目提供了一个贸易伙伴的排名顺序,从最重要的开始;它有时包括总美元价值的百分比。进口-合作伙伴字段列表

韩国9.7%,日本9.1%,美国8.5%,德国5.3%,澳大利亚5.1% (2017)

外汇储备和黄金:这一项是指在指定期间终了时,为满足一国的国际收支需要而可供中央货币管理局使用的所有金融资产存量的美元价值。这一类别不仅包括外汇和黄金,还包括一个国家在国际货币基金组织中持有的特别提款权及其在该基金中的储备地位。外汇储备和黄金领域上市

3.236万亿美元(美国东部时间2017年12月31日)。
3.098万亿美元(美国东部时间2016年12月31日)
国家与世界的比较:1

债务-外部:这个分录给出了欠非居民的公共和私人债务总额,这些债务应以国际认可的货币、商品或服务偿还。这些数字是按汇率计算的,即,而不是按购买力平价(PPP)计算。债务-外部

1.598万亿美元(美国东部时间2017年12月31日)。
1.429万亿美元(美国东部时间2016年12月31日)。
国家与世界的比较:14

外国直接投资在国内的存量:这一项是指截至所述期间结束时,其他国家的居民- -主要是公司- -在本国直接进行的所有投资的累积美元价值。直接投资不包括购买股票的投资。外商直接投资股票——境内上市

1523万亿美元(美国东部时间2017年12月31日)。
1.391万亿美元(美国东部时间2016年12月31日)
国家与世界的比较:7

外国直接投资存量- -外国直接投资:这一项是指截至所述期间结束时,由本国居民- -主要是公司- -直接在外国进行的所有投资的累积美元价值。直接投资不包括购买股票的投资。股票直接对外投资——境外上市

1.383万亿美元(美国东部时间2017年12月31日)。
1.227万亿美元(美国东部时间2016年12月31日)。
国家与世界的比较:10

汇率:这个分录提供一个国家货币单位在指定期间的平均年价格,以每美元当地货币单位表示,由国际市场力量或官方法令决定。括号内是国际标准化组织(ISO) 4217个字母的国家交换媒介货币代码。每日收盘汇率并不列在《世界概况》中,而是用于转换股票价值,更多汇率字段列表

人民币(元)兑美元
7.76 (2017)。
6.6446 (2016)。
6.2275 (2015)。
6.1434 (2014)。
6.1958 (2013)。

地理 ………

能源: …………

通讯: …………

交通: …………

军事与安全: …………

跨国问题: …………


( thanks to 搜狗MT https://fanyi.sogou.com and 有道MT http://fanyi.youdao.com/

【相关】原文链接:

https://www.cia.gov/library/publications/the-world-factbook/geos/ch.html

华裔总统候选人杨安泽的高光时刻

民主党总统候选人初选辩论第二夜,终于迎来了华裔候选人杨安泽(Andrew Yang)的高光时刻。绝对精彩,一鸣惊人。第一次辩论由于现场争抢话语权不够有力而失利后,这次他是精心准备了,没有一个多余的字,句句戳心,无可挑剔。对主流议题提出了独特的视角和前瞻性解决方案,具有新鲜的冲击力。

请看辩论现场杨辩的翻译(thanks to 有道MT):

Opening Statement

BASH: Andrew Yang?

YANG: If you’ve heard anything about me and my campaign, you’ve heard that someone is running for president who wants to give every American $1,000 a month. I know this may sound like a gimmick, but this is a deeply American idea, from Thomas Paine to Martin Luther King to today.

Let me tell you why we need to do it and how we pay for it. Why do we need to do it? We already automated away millions of manufacturing jobs, and chances are your job can be next. If you don’t believe me, just ask an auto worker here in Detroit.

How do we pay for it? Raise your hand in the crowd if you’ve seen stores closing where you live. It is not just you. Amazon is closing 30 percent of America’s stores and malls and paying zero in taxes while doing it. We need to do the opposite of much of what we’re doing right now, and the opposite of Donald Trump is an Asian man who likes math.

(APPLAUSE)

So let me share the math. A thousand dollars a month for every adult would be $461 million every month, right here in Detroit alone. The automation of our jobs is the central challenge facing us today. It is why Donald Trump is our president, and any politician not addressing it is failing the American people.

(APPLAUSE)

开场白:

BASH: 安德鲁·杨?

杨: 如果你听说过我和我的竞选活动,你一定听说过有人竞选总统,他想给每个美国人每月1000美元。我知道这听起来像是一个噱头,但从托马斯·潘恩(Thomas Paine)到马丁·路德·金(Martin Luther King),再到今天,这是一个深刻的美国理念。

让我来告诉你为什么我们需要这么做,以及我们是如何支付的。我们为什么要这么做?我们已经有数以百万计的制造业工作岗位被自动化了,你的工作很可能就是下一个。如果你不相信我,就问问底特律的任何一位汽车工人。

我们怎么负担?如果你看到你住的地方的商店关门,请在人群中举手。不仅仅是你。亚马逊关闭了美国30%的商店和购物中心,并且在这一过程中不缴一分钱的税。我们需要做与我们现在所做的相反的事情,而与唐纳德·特朗普相反的,是一个喜欢数学的亚洲人。

(掌声)

让我来分享一下这里面的数学。每个成年人每月1000美元,仅在底特律将是4.61亿美元。工作岗位的自动化是我们今天面临的主要挑战。这就是为什么唐纳德·特朗普(Donald Trump)当上了我们的总统,而任何不解决这个问题的政客都辜负了美国人民。

(掌声)

TAPPER: Thank you. Thank you, Governor Inslee.

Mr. Yang, I want to bring you in. You support a Medicare for All system. How do you respond to Governor Inslee?

YANG: Well, I just want to share a story. When I told my wife I was running for president, you know the first question she asked me? What are we going to do about our health care?

That’s a true story, and it’s not just us. Democrats are talking about health care in the wrong way. As someone who’s run a business, I can tell you flat out our current health care system makes it harder to hire, it makes it harder to treat people well and give them benefits and treat them as full-time employees, it makes it harder to switch jobs, as Senator Harris just said, and it’s certainly a lot harder to start a business.

If we say, look, we’re going to get health care off the backs of businesses and families, then watch American entrepreneurship recover and bloom. That’s the argument we should be making to the American people.

(APPLAUSE)

TAPPER: Thank you, Mr. Yang.

TAPPER:谢谢。谢谢你,英斯利州长。

杨先生,我想带你进来。你支持全民医保。你如何回应英斯利州长?

杨:嗯,我只是想分享一个故事。当我告诉妻子我要竞选总统时,你知道她问我的第一个问题吗?我们要怎么对待我们的医疗保健?

这是一个真实的故事,而且不仅仅是我们。民主党人谈论医疗保健的方式是错误的。作为做生意的人,我可以明白告诉你,我们当前的医疗保健系统使得雇人很难,很难对雇员好,给他们实惠,并把他们当作全职员工,也很难换工作,当然也更加难以创业。

如果我们说,看,我们要把医疗保健的重负从企业和家庭的背上卸下来,然后看美国的企业家精神的复苏和繁荣。这才是我们应该向美国人民提出的论点。

(掌声)

谢谢你,杨先生。

【关于移民议题】

LEMON: Mr. Yang, your response?

杨安泽的UBI答问:作为自由红利的全民最低收入保障

(APPLAUSE)

YANG: I’m the son of immigrants myself. My father immigrated here as a graduate student and generated over 65 U.S. patents for G.E. and IBM. I think that’s a pretty good deal for the United States. That’s the immigration story we need to be telling.

We can’t always be focusing on some of the — the — the distressed stories. And if you go to a factory here in Michigan, you will not find wall-to-wall immigrants; you will find wall-to-wall robots and machines. Immigrants are being scapegoated for issues they have nothing to do with in our economy.

(APPLAUSE)

莱蒙:杨先生,你有什么看法?

(掌声)

杨:我自己就是移民的儿子。我父亲作为研究生移民到这里,为通用电气和IBM申请了65项美国专利。我认为这对美国来说是一笔不错的交易。这就是我们需要讲述的移民故事。

我们不能总是把注意力集中在那些痛苦的故事上。如果你去密歇根州的工厂,你不会发现到处都是移民;你会发现到处都是机器人和机器。移民被当作替罪羊,他们与我们的经济困境毫无关系。

(掌声)

【关于刑事司法议题】

TAPPER: Thank you, Mr. Vice President.

YANG: May I, please?

TAPPER: Mr. Yang, your response?

(APPLAUSE)

YANG: I speak for just about everyone watching when I say I would trust anyone on this stage much more than I would trust our current president on matters of criminal justice.

(APPLAUSE)

We cannot tear each other down. We have to focus on beating Donald Trump in 2020.

I want to share a story that a prison guard, a corrections officer in New Hampshire said to me. He said, we should pay people to stay out of jail, because we spend so much when they’re behind bars. Right now, we think we’re saving money, we just end up spending the money in much more dark and punitive ways. We should put money directly into people’s hands, certainly when they come out of prison, but before they go into prison.

TAPPER: Thank you, Mr. Yang.

(APPLAUSE)

TAPPER:谢谢你,副总统先生。

杨:我可以插一句吗?

TAPPER:杨先生,你有什么看法?

(掌声)

杨:我可以代表在场的每一个人说,在刑事司法问题上,我相信这个舞台上的每一个人,远远超过相信我们的现任总统。

(掌声)

我们不能拆散彼此。我们必须集中精力在2020年击败唐纳德·特朗普(Donald Trump)。

我想分享一个监狱看守的故事,新罕布什尔州的一名狱警对我说。他说,我们应该付钱让人们远离监狱,因为当他们在监狱里时,我们花了很多钱。现在,我们认为我们是在省钱,我们只是以更加黑暗和惩罚性的方式花钱。我们应该把钱直接交到人们手中,在他们出狱之后,但也在他们入狱之前。

谢谢你,杨先生。

(掌声)

LEMON: Mr. Yang, why are you the best candidate to heal the racial divide in America — your response?

YANG: I spent seven years running a non-profit that helped create thousands of jobs, including hundreds right here in Detroit, as well as Baltimore, Cleveland, New Orleans. And I saw that the racial disparities are much, much worse than I had ever imagined.

They’re even worse still. A study just came out that projected the average African-American median net worth will be zero by 2053. So you have to ask yourself, how is that possible? It’s possible because we’re in the midst of the greatest economic transformation in our history. Artificial intelligence is coming. It’s going to displace hundreds of thousands of call center workers, truck drivers — the most common job in 29 states, including this one.

And you know who suffers most in a natural disaster? It’s people of color, people who have lower levels of capital and education and resources. So what are we going to do about it? We should just go back to the writings of Martin Luther King, who in 1967, his book “Chaos or Community”, said “We need a guaranteed minimum income in the United States of America.” That is the most effective way for us to address racial inequality in a genuine way and give every American a chance in the 21st Century economy.

(APPLAUSE)

LEMON: Mr. Yang, thank you very much.

莱蒙:杨先生,为什么你是治愈美国种族分裂的最佳人选?

杨:我花了七年时间经营一家非盈利机构,帮助创造了数千个就业机会,其中包括底特律、巴尔的摩、克利夫兰和新奥尔良的数百个就业机会。我发现种族差异比我想象的要严重得多。

更糟的是,一项刚刚出炉的研究预测,到2053年,非洲裔美国人的平均净资产中值将为零。所以你要问自己,这怎么可能?这是可能的,因为我们正处于历史上最大的经济转型时期。人工智能即将到来。这将导致成千上万的呼叫中心工作人员和卡车司机失业——而这是29个州最常见的工作,包括这个州。

你知道谁在自然灾害中受害最深吗?是有色人种,他们的资本、教育和资源水平较低。那么我们要怎么做呢?我们应该回顾一下马丁·路德·金(Martin Luther King)的著作,他在1967年出版的《混乱还是社区》(Chaos or Community)一书中说,“我们需要美国有保障的最低收入。”这是我们以真正的方式解决种族不平等问题、让每个美国人在21世纪的经济中都有机会(分享经济红利)的最有效方式。

(掌声)

莱蒙:杨先生,非常感谢。

BIDEN: – in research for new alternatives to deal with climate change.

BASH: Mr. Yang, your response?

BIDEN: And that’s bigger than any other person.

YANG: The important number in Vice President Biden’s remarks just now is that he United States was only 15 percent of global emissions. We like to act as if we’re 100 percent, but the truth is even if we were to curb our emissions dramatically, the earth is still going to get warmer.

And we can see it around it us this summer. The last four years have been the four warmest years in recorded history. This is going to be a tough truth, but we are too late. We are 10 years too late. We need to do everything we can to start moving the climate in the right direction, but we also need to start moving our people to higher ground.

And the best way to do that is to put economic resources into your hands so you can protect yourself and your families.

拜登:在寻找应对气候变化的新选择的研究中。

巴什:杨先生,您有什么看法?

拜登:这比其他任何人都重要。

杨:拜登副总统刚才讲话中提到的一个重要数字是,美国的温室气体排放量只占全球的15%。我们喜欢表现得好像我们是百分之百的,但事实是,即使我们大幅减少排放,地球仍然会变暖。

今年夏天我们可以看到它在我们周围。过去四年是有记录以来最热的四年。这将是一个残酷的事实,但我们已经太迟了。我们晚了10年。我们需要尽一切努力让气候朝着正确的方向发展,但我们也需要让我们的人民搬到更高的地方。

最好的方法是把经济资源放在你的手中,这样你就可以保护你自己和你的家人。

TAPPER: Thank you, Senator Gillibrand. Mr. Yang, in poll after poll democratic voters are saying that having a nominee who can beat President Trump is more important to them than having a nominee who agrees with them on major issues. And right now, according to polls, they say the candidate who has the best chance of doing that, of beating President Trump is Vice President Biden. Why are they wrong?

YANG: Well, I’m building a coalition of disaffected Trump voters, independents, libertarians, and conservatives, as well as democrats and progressives. I believe I’m the candidate best suited to beat Donald Trump and as for how to win in Michigan and Ohio and Pennsylvania, the problem is that so many people feel like the economy has left them behind.

What we have to do is we have to say look, there’s record high GDP in stock market prices, you know what else they’re at record high is? Suicides, drug overdoses, depression, anxiety. It’s gotten so bad that American life expectancy had declined for the last three years.

And I like to talk about my wife who is at home with our two boys right now, one of whom is autistic. What is her work count at in today’s economy. Zero and we know that’s the opposite of the truth. We know that her work is amongst the most challenging and vital.

The way we win this election as we redefine economic progress to include all the things that matter to the people in Michigan and all of us like our own heath, our well being, our mental health, our clean air and clean water, how are kids are doing.

If we change the measurements for the 21st century economy to revolve around our own well being then we will win this election.

(CROSSTALK)

TAPPER: Thank you, Mr. Yang. Congresswoman Gabbard, your response?

TAPPER:谢谢你,吉里布兰德参议员。在一次又一次的民意调查中,民主党选民表示,对他们来说,有一个能够击败特朗普总统的候选人比有一个在重大问题上与他们意见一致的候选人更重要。现在,根据民意调查,他们说最有可能击败特朗普总统的候选人是副总统拜登。为什么他们错了?

杨:嗯,我正在建立一个由心怀不满的特朗普选民、独立人士、自由主义者、保守派、民主党人和进步人士组成的联盟。我相信我是最适合击败唐纳德·特朗普的候选人。至于如何在密歇根州、俄亥俄州和宾夕法尼亚州获胜,问题是很多人觉得经济已经把他们甩在了后面。

我们要做的是,看,股票市场的GDP达到了创纪录的高水平,你知道处于创纪录的高水平的还有什么吗? 自杀,药物过量,抑郁,焦虑。情况变得如此糟糕,美国人的预期寿命在过去三年里下降了。

我想谈谈我的妻子,她现在和我们的两个儿子在家,其中一个患有自闭症。她的工作在今天的经济中起什么作用? 0,我们知道这是与事实相反的。我们知道她的工作是最具挑战性和最重要的。

当我们重新定义经济发展时,我们赢得这次选举的方式包括所有对密歇根人民和我们所有人都重要的事情,比如我们自己的健康,我们的幸福,我们的精神健康,我们干净的空气和干净的水,孩子们过得怎么样。

如果我们改变对21世纪经济的衡量标准,使之围绕我们自己的福祉,那么我们将赢得这次选举。

(相声)

谢谢你,杨先生。国会女议员加巴德,你怎么看?

BASH: Mr. Yang, Mr. Yang, women on average earn 80 cents, about 80 cents for every dollar earned by men. Senator Harris wants to fine companies that don’t close their gender pay gaps. As an entrepreneur, do you think a stiff fine will change how companies pay their female employees?

YANG: I have seen firsthand the inequities in the business world where women are concerned, particularly in start-ups and entrepreneurship. We have to do more at every step. And if you’re a woman entrepreneur, the obstacles start not just at home, but then when you seek a mentor or an investor, often they don’t look like you and they might not think your idea is the right one.

In order to give women a leg up, what we have to do is we have to think about women in every situation, including the ones who are in exploitive and abusive jobs and relationships around the country. I’m talking about the waitress who’s getting harassed by her boss at the diner who might have a business idea, but right now is stuck where she is.

What we have to do is we have to give women the economic freedom to be able to improve their own situations and start businesses, and the best way to do this is by putting a dividend of $1,000 a month into their hands.

(APPLAUSE)

It would be a game-changer for women around the country, because we know that women do more of the unrecognized and uncompensated work in our society. It will not change unless we change it. And I say that’s just what we do.

(APPLAUSE)

巴什:杨先生,杨先生,女性的平均工资是男性的平均工资是80%,男性挣一个美元的工作,女性才能得80美分。哈里斯参议员希望对那些没有缩小性别薪酬差距的公司进行罚款。作为一名企业家,你认为严厉的罚款会改变公司支付女性员工的方式吗?

杨:我亲眼目睹了商界的不平等,尤其是女性在创业和创业方面的不平等。我们必须在每一步都做得更多。如果你是一名女企业家,障碍不仅来自家庭,而且当你寻求导师或投资者时,他们往往和你长得不一样,他们可能认为你的想法不正确。

为了给女性提供帮助,我们必须做的是,我们必须考虑到各种情况下的女性,包括那些在全国各地处于被剥削和虐待处境和关系中的女性。我说的是女服务员,她在餐馆里被老板骚扰,她可能有一个商业想法,但现在却被困在原地。

我们要做的是给女性经济自由,让她们能够改善自己的处境,创业,最好的办法就是每月给她们1000美元的红利。

(掌声)

这对全国的女性来说将是一个游戏规则的改变,因为我们知道,在我们的社会中,女性做了更多不被认可和没有报酬的工作。除非我们改变它,否则它不会改变。我要说这就是我们要做的。

(掌声)

TAPPER: Thank you. Thank you, Congresswoman.

Mr. Yang, Iran has now breached the terms of the 2015 nuclear deal after President Trump withdrew the U.S. from the deal, and that puts Iran closer to building a nuclear weapon, the ability to do so, at the very least. You’ve said if Iran violates the agreement, the U.S. would need to respond, quote, “very strongly.” So how would a President Yang respond right now?

YANG: I would move to de-escalate tensions in Iran, because they’re responding to the fact that we pulled out of this agreement. And it wasn’t just us and Iran. There were many other world powers that were part of that multinational agreement. We’d have to try and reenter that agreement, renegotiate the timelines, because the timelines now don’t make as much sense.

But I’ve signed a pledge to end the forever wars. Right now, our strength abroad reflects our strength at home. What’s happened, really? We’ve fallen apart at home, so we elected Donald Trump, and now we have this erratic and unpredictable relationship with even our longstanding partners and allies.

What we have to do is we have to start investing those resources to solve the problems right here at home. We’ve spent trillions of dollars and lost thousands of American lives in conflicts that have had unclear benefits. We’ve been in a constant state of war for 18 years. This is not what the American people want. I would bring the troops home, I would de-escalate tensions with Iran, and I would start investing our resources in our own communities.

(APPLAUSE)

TAPPER: 谢谢。谢谢你,国会女议员。

杨,在特朗普总统宣布美国退出2015年核协议后,伊朗违反了该协议的条款,这使得伊朗离制造核武器又近了一步,至少有能力制造核武器。你说过,如果伊朗违反协议,美国需要做出“非常强烈”的回应。那么,杨现在会如何回应呢?

杨: 我想采取行动缓和伊朗的紧张局势,因为他们是在回应我们退出这项协议的事实。不仅仅是美国和伊朗。还有许多其他世界强国也参与了这项多国协议。我们必须试着重新达成协议,重新协商时间表,因为现在的时间表已经没有意义了。

但我已经签署了一项承诺,结束永远的战争。现在,我们在国外的实力反映了我们在国内的实力。到底发生了什么? 我们在国内四分五裂,所以我们选了唐纳德·特朗普(Donald Trump),现在我们与我们的长期合作伙伴和盟友之间的关系也不稳定、不可预测。

我们要做的是开始投资这些资源来解决国内的问题。我们已经花费了数万亿美元,在冲突中失去了成千上万的美国人的生命,而这些冲突的好处并不明显。18年来,我们一直处于战争状态。这不是美国人民想要的。我将把军队撤回国内,我将缓和与伊朗的紧张局势,我将开始在我们自己的社区投入我们的资源。

(掌声)

TAPPER: Welcome back to the CNN Democratic presidential debate. It is time now for closing statements. You will each receive one minute. Mayor de Blasio, let’s begin with you.

TAPPER:欢迎回到CNN民主党总统候选人辩论节目。现在是结束陈述的时候了。你们每人将得到一分钟。白思豪市长,让我们从你开始。

TAPPER: Mr. Yang?

YANG: You know what the talking heads couldn’t stop talking about after the last debate? It’s not the fact that I’m somehow number four on the stage in national polling. It was the fact that I wasn’t wearing a tie. Instead of talking about automation and our future, including the fact that we automated away 4 million manufacturing jobs, hundreds of thousands right here in Michigan, we’re up here with makeup on our faces and our rehearsed attack lines, playing roles in this reality TV show.

It’s one reason why we elected a reality TV star as our president.

(LAUGHTER)

(APPLAUSE)

We need to be laser-focused on solving the real challenges of today, like the fact that the most common jobs in America may not exist in a decade, or that most Americans cannot pay their bills. My flagship proposal, the freedom dividend, would put $1,000 a month into the hands of every American adult. It would be a game-changer for millions of American families.

If you care more about your family and your kids than my neckwear, enter your zip code at yang2020.com and see what $1,000 a month would mean to your community. I have done the math. It’s not left; it’s not right. It’s forward. And that is how we’re going to beat Donald Trump in 2020.

(APPLAUSE)

TAPPER:杨先生?

杨:你知道上次辩论后那些人不停地说些什么吗? 并不是说我在全国民调中排名第四。谈的是我没有打领带。我们不是在谈论自动化和我们的未来,包括自动化让400万个制造业工作岗位消失的事实,就在密歇根这里,成千上万的工作岗位消失了。我们化着妆,排练着相互攻击的台词,在这个真人秀节目中扮演角色。

这就是为什么我们选了一个电视真人秀明星当了我们的总统。

(笑声)

(掌声)

我们需要集中精力解决当今的真正挑战,比如美国最普通的工作可能在十年后不复存在,或者大多数美国人无法支付账单。我最重要的提议,自由红利,将使每个美国成年人每月获得1000美元。这将改变数百万美国家庭的游戏规则。

如果你更关心你的家庭和孩子,而不是我的领带,请在yang2020.com输入你的邮政编码,看看每月1000美元对你的社区意味着什么。我算过了。这不是蛇么左派,也不是右派,而是向前看。这就是我们如何在2020年击败唐纳德·特朗普。

(掌声)

【相关】

华盛顿邮报: https://www.washingtonpost.com/politics/2019/08/01/transcript-night-second-democratic-debate/?noredirect=on&utm_term=.f895d8fa66aa

youTube:

看看这个剪辑。七分多钟:
https://www.youtube.com/watch?v=M97zgXh89jM&t=335s

还有辩论后CNN采访:

Andrew Yang and Anderson Cooper, Post Debate Interview (July 31, 2019) 




《李白王116:句法的脑补,情报的冤家(2/2)》

李:@宋柔 老师说了不少我正想说的话 I cannot agree more,譬如:

“当然。我完全同意语义的重要性,只是觉得词汇语义+事理常识+专业知识,实在是无边无际,难以控制。某个句子可以采用某种语义关系加以解释,但可选用的语义关系非常多,机器怎么就能选对了语义关系进而做出正确的解释?大数据并非万能。所以,挖掘句法的硬约束还是有意义的。一些硬约束其实还没有挖掘出来。”

句法做深做透做得细线条 — 直到暗度陈仓碎片化引入常识语义 — 以后,句法这个“独角戏”可以唱很远,留给纯粹需要语义、事理的休眠唤醒部分就会大量减少。如果句法模块解决了90%+的逻辑语义,语言学知识成为解析的主力,留下不到 10% 交给语言学外的其他知识,岂不多快好省。其实 甚至那个 10% 还在不断缩小中 因为在句法解析不断迭代细化的过程中,硬性约束(或硬性+非系统性的碎片化软性约束)搞定的现象越来越多,无须留给后面的语义语用模块做。留给下一步的现象,理论上是句法有意留下的,包括真歧义。当然 也可以说 殊途同归,因为上面提到的细线条句法 已经不是纯粹句法了。

POS feature 公认为句法特征,POS 下面的 subcat 通常也认为是句法,再往下是 sub-subcat 直到词汇驱动的个性规则,最后到搭配和成语,其实是句法渗透到语义的地盘了。只要句法用特征(features)这种隐性形式(而不是词序、小词、形态这些显性符号的形式),句法就为碎片化语义和常识开了一道门缝。但这里的语义带入不是系统性的。换句话说 句法约束与语义约束是一个频谱 没有一道鸿沟。但是句法为主语义为辅、句法模块先于语义模块、句法系统话语义碎片化,则是一条解析路线。争的就是路线(“路线斗争”),所做的 功/工,无论哪条路线,也都有很多相交。

特征(features)是灰色地带的标志和桥梁。既然句法 可以用 N,V,NP 这样的特征 当然也可以用细线条的 food,person-action 这样的特征。前者普遍接受为句法 后者说是语义 但形式上不过就是命名的粗细而已。看句法 hierarchy 是如何逼近语义灰色地带的:

(1) SVO 传统规则的 VP rule:V + NP –> VP

这是经典句法 漏得跟筛子似的 但可以 cover 英语和汉语的很多现象(在汉语的表现差一些)。

(2)Subcat 句型规则: Vt + NP –> VP

用到 subcat 标签 Vt 了,不再涵盖动词的全集,漏洞是弥补了一些,但仍很多例外。

(3)SVO 完整句型:NP + Vt + NP –> NP:S + VP(Vt+NP:O)

这个用到了SVO完整句型,更可靠一些了。

(4)T1 SVO T2 上下文规则,如:
句首 + (NP + Vt + NP) + 标点 –> NP:S + VP(Vt+NP:O)

这条开始用到上下文约束了,有了前后条件,句法更加精准,差不多板上钉钉了。上下文也有更复杂的情况,所以光靠 T1 T2,也不是天衣无缝:但句法可以晚上睡觉睡得踏实一些了。进一步细化条件也可以的。

(5)细线条T1 SVO T2 上下文规则:
句首 + (NP + Vt + NP) + 句末 –> NP:S + VP(Vt+NP:O)

这是铁案,纯句法完全搞定。至此 没有常识语义什么事儿了,哪怕是nonsense(“鸡吃了我”),逻辑语义也是可以解析的。

(6)暗度陈仓的碎片化语义句法规则:EAT-V + FOOD-N –> VP(V+N:O)

开始带入常识语义了。虽然没有查验更大的上下文,但因为带入的语义(相偕)弥补了长度的不足,还是相当可靠的。也可以 argue 这实际上不是句法规则 而是语义规则,但放在句法 hierarchy 的一端,与句法规则的另一端 V + NP 形式上无异 不过是符号的颗粒度、概括性不同而已。

(7)动宾搭配规则:吃 + 亏|西北风|药 –> VP(吃+N:O)

这是 rule hierarchy 细化的极端,算是句法语义规则吗?搭配这类词典与句型交叉的东西 说它是词典化的句法 没问题。里面暗藏的语义相谐和常识的印迹是非常的强烈,句法语义已经分不清了。

所谓 hierarchy 就是说 上述n层规则可以组织成为一个系统 保证细颗粒度和高精度规则具有优先权。这样的暗度陈仓又自成体系的句法 叫唱独角戏也好 叫偷梁换柱也好 总之 留给系统性常识的空间已经不多了 90%+ 现象不需要等到“纯语义”出场。

从符号逻辑的匹配和演算来看 什么是句法 什么是语义 二者区别何在呢?给一万个词做N的标签 给一千个词做 Vt 的标签,写一条符号模式 V + N –》VP(V+N:O), 全世界都同意这是句法。如果给一千个词做个 FOOD标签,给50个词做 EAT 的标签,然后照猫画虎写一条模式:EAT + FOOD –> VP(EAT+FOOD:O), 突然就变成语义/常识规则了。不就是标签的概括面大小不同吗 所有的机制手段演算方式都不变,这个模式的所有句法变式也不变:

Vt+N ==> 把+N+Vt ==> N+被+Vt
EAT+FOOD ==> 把+FOOD+EAT ==> FOOD+被+EAT

ontology 中的 taxonomy 链条也是恒定不变的:

EAT –> Vt –> V
FOOD –> N

所有的标签都是隐性形式 只要开始使用隐性形式 想不让“语义”溜进来都难。除非句法不允许隐性形式(不许给词标签 不许抽象 不许查词典),只允许用显性形式:词序+直接量(词本身和前后缀词素和形态), 否则论约束条件,句法语义的边界必然是灰色的。(但句法模块与语义模块、语用模块是可以分开的。)

白:这个分明是暗度陈仓,细线条的特征就是轻量级的语义。无后续手段的句法标签例如s标了也是糊弄,不如不标。按这个说法,伟哥90%的所谓句法在我这里都是轻量级的语义,好的坏的暂且不论。

李:退一步 只使用显性形式的句法 也就是差不多一律只使用 ngram 去枚举语言现象 是不是句法就纯粹化 不受语义侵入了呢?其实也不是 因为所谓强搭配(洗+澡)的现象 实际上就是 直接量+词序 的规则 :吃 + 亏|西北风|药 –> VP,算不算句法?里面有没有语义约束?不仅有,而且是最强的语义相谐。

白:CFG无法把“吃亏”的原有形式和被穿插、被逆序的形式联系在一起。必须使用transformation,但这样一来毛毛虫又变长了。完全可以不这么处理的。

李:以前论过语言的句法形式 说主要就是:1 词序; 2 小词(直接量); 3. 形态(词尾直接量)和其他的前后缀(直接量);4. 句法词法特征。到了 4 就跳进黄河洗不清了,因为句法词法特征与语义特征的区别 只对人类玩符号逻辑的游戏有意义 对于机制和实现都是同样的东西,每个特征就是划个圈,代表一个集合,完全可以等价地用直接量的“逻辑或”来表达,这就从隐性形式等价转回为显性形式了。最后还有 5,被有意无意漏掉: 5. 实词(直接量)。据说实词是开放集,不提倡用直接量写规则(强搭配呢,例外?)。

白:直接量聚类可以获得标签。

李:从现在的算力看 实词直接量在 ngram(譬如 n<=5) 的范围内,全部死记住其组合 根本就不是问题。这就等价于 词直接量+词序 的规则形式,算句法还是语义呢?应该还是句法 不过就是沾染了人认为具有语义味道的句法。老话说 句法的基础是形式 语义的基础是概念。一旦概念利用同质的特征来形式化表示以后 语义也是(隐性)形式了,自然可以进入形式句法。

白:这些标签叫不叫语义不是一个理论问题,而是一个习惯问题。隐性只是相对于傻瓜而言。对于具有聚类和分类功能的系统来说,被称为隐性的很多特征也都是明摆着的。

李:这是在论证句法和语义从定义上就是模糊的,没有清晰界限和鸿沟的。句法为主的路线 可以不露痕迹带入语义,而且是句法发展的自然结果。不能说 a+b 是句法 换成 x+y 就不是句法了。都是 符号+符号的位置啊。从模式的形式化或形式化的模式来看 没有任何区别。但那个深度本身是一个渐变的频谱 pos — subcat — subsubcat — wordsense。而且 对于深度的归类 本质上就是符号逻辑的游戏 说白了就是一个助记符。

wang:我觉得词法、句法、语义本身概念还是很清晰的,只不过为了实现他们的分析,采用的方法很难区分界限了,感觉也没有必要区分界限,只要能解决问题就好。方法上把它们分得再清晰,不解决问题,也无意义。符号描述内容的深度,确实会触及到语义。除非,N, V,adv,adj … 这些符号,不过这些符号 现在来说,法力不大。助记符,是一方面,这分类的限制级别,对匹配效果影响很大,粗粒度,细粒度,什么都靠它。在匹配时,不是固定的级别,弹性适应才好。过粗,泥沙混进来了,过细,则无徒了。

白:对实现来说,叫什么不重要,是什么才重要。关键是,叫句法,显得这句法神秘无比。好混饭吃。叫语义,可以有N板斧挑战你,没想好就望风而逃吧。利用人们心目中的语义其重无比、其玄无比的印象,把轻量级的语义打翻在地再踏上一万只脚:让你冒充语义!声称用了语义者,一定拖家带口,拖泥带水,不干不净而且注定hold 不住。声称用了句法者,一定清清白白、简简单单、干干净净,而且让其他拘泥于真句法者不明觉厉。

wang:同意白老师,以最终解决问题为看点。可以先不拘泥于叫法。其实现在很多技术和方法都是杂糅的,单纯清口的一道菜,很难满足客人的胃口。若扯起语义挂名的系统,很多人就会追问那种语义,什么级别的语义,,,,非时一番解释后,发现对自身系统也没什么收益。语义盘子大,要么是沾点边就马上算,要么只要没覆盖到主要点上马上,就会视为伪语义。自然语言处理系统,尤其汉语,就必须走句法语义相结合,才能走大,不必去硬性区分泾渭之界。谁占得比例多大,结合的有效果就好,至少目前来说,看不出什么黄金比例。

李:其实 这年头是相反的。句法老掉牙了 谁都不尿它。要是说常识 事理 世界知识 领域图谱,才勉强能站得住 为符号学派发点声。毕竟语义、知识听上去高大上 那边厢黑箱子里面讨论未来的时候,也还是免不了要吆喝一声要常识 才可望有个奔头,否则就该到了终结者末日了。下一个突破点在哪里,说句法太寒碜 说知识才拿得出手。印象中几个院士也在说知识,没听说人还说啥句法的。

说法/吆喝不论,加了语义约束的句法叫是句法模块,是因为它与句法的运作模式没有变化。主要目标也依然是结构化:把线性输入变为树图输出。到了下一步的语义模块,运作模式就不再是线性输入了,而是在图里面做文章了。目的的重点也改变了,结构化已经基本完成,语义模块的任务变成:1. 逻辑语义细化(句法角色映射到逻辑语义角色);2. WSD。对结构化的部分重建(休眠唤醒)也算是一个语义模块的子任务。

句法模块:string –》graph/tree 句法
语义模块:graph –》逻辑语义+WSD 语义

白:大s小s,硬s软s,这种标签对于我们的体系来说是不重要的。我们更看重一些像C-Command这样的无语言学色彩的纯数学条件,比如:两个成分结合,一个携带了残坑,另一个携带了已填坑的萝卜,二者的源头都不是当下的中心词而且相谐,此时要不要建立萝卜和残坑的二元句法关系。

“象鼻子长”,象标成大s又如何,实质是鼻子的宿主。“王冕死了父亲”,王冕标成s又如何,整个句子标成svo又如何?王冕实质是父亲的宿主,死仍是不及物的。在我们的体系里,宿主有直接而明确的体现,没主语什么事儿。“张三又吃食堂了”,就算把食堂标成o又如何?吃什么还是不知道。假装把“吃”填的满满的,没解决根本问题,等能解决根本问题的词语出现时,却没位置了。小三就是这么上位的。

“张三又吃食堂了,那么油腻的面条他也忍受得了。” 面条出来了,位置却没了。句子复杂一点,就会遇到各种企图上位者。把它们挡在门外的最好办法就是相谐性检查。这是通过一个中间件进行的,一点不麻烦,与句法之间也不会发生除了优先级动态调整之外的任何其他牵连。这个检查做完了,句法设定的初始优先顺序如果没有发生改变,就相当于尊重句法了,也可以说是给句法把了一道关。但是不能因此说保镖无用。后句中心词是“忍受”,“面条”作为非中心词萝卜,与“忍受”有填坑关系。

两句以谓词“吃”与“忍受”的“合并”结合,各自携带着自己的辖域形成一个更大的辖域,这时候辖域内的未饱和坑就暴露出来了。“Food”坑是前句中心词“吃”的亲儿子,不是残坑,所以属于“单边飞线(中心词与非中心词的hidden link)”,优先级高于“双边飞线”。所以已填坑萝卜“面条”和未饱和坑“吃”的关系被摆上了桌面。查中间件的结果是,二者相谐。后来的正主儿“面条”登堂入室,先到的小三“食堂”该降格早已在处理前句时降格了,大家井水不犯河水。这个过程怎么看都是在帮句法啊。

“一辆车坐六个人”“六个人坐一辆车”,语义上没区别,我们给出的句法标签拓扑上也没区别。但语序上是两套不同的svo。如果不做相谐性检查,这样的s和o就算标了,给谁用呢?谁会用呢?等语义落地?我们在做相谐性检查的时候,这部分就已经落地了。

大家看到的似乎是除了词例外长得一模一样的两张图,但实际上,两个坑有语义差异,两个萝卜也有语义差异,这些语义差异引发的内部的较量已经完成,可以说提前撇下句法进入语义了。相应语义标签,在下一阶段开发完成后也会提供出来。记得当年长者的同学窦祖烈先生的汉英机器翻译系统就栽在我给他出的这个例子上:“这辆车能坐六个人”被翻译成“This car can sit six people”。后来我说,把“坐”换成“载”试试?老先生这个高兴啊……

加“把”会不会有利于坐实所谓逻辑宾语?不一定。

“食堂”过坑门而不入,都赶上大禹了。虽然被“把”加持了,该不是你的位置,仍然不给你。这里也遇到一个问题,就是原来“食堂”从名词降格而来的“地点状语”的身份不见了,成了补语“穷”的正牌萝卜。既然正牌,还降什么格?系统目前是这个逻辑。但是状语标签没了似乎也不对。既然都“把”了,总得给谓语动词留点什么念想吧?不能混同于普通名词。应该是降格之前做补语的萝卜,降格之后做谓语的修饰语,两不误才对。

【相关】

《李白宋115:常识是句法的脑补(1/2)》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《每周一歌:英语名曲 – Because I love you》

英语名曲:’Cause I love you (背景:硅谷腹地原生态盐碱沼泽地)

这是家喻户晓经久不衰的英语名曲,真正百听不厌。背景风光是硅谷腹地桑塔克拉拉237号公路旁的盐碱沼泽地,政府辟为野生动物保护区。虽然地近闹市,这一大片海湾末端的沼泽完全原生态。

周深 – 我是真的爱你 (背景:硅谷南边的天线山脊)

原唱是梁静茹 周深唱歌很用心 喜欢他。

天线 skyline blvd 是把硅谷与太平洋一号分开的山脊路线 最喜欢山顶村子的那片红木和绿地。

从 Saratoga 那个downtown 开进山里 曲曲弯弯就到了 skyline 右转一直开 一路很野的保留地 但路很好开。skyline 很好的路 但是山里有些岔路非常艰险 有一次不小心跟着GPS进了山里岔路 两边是悬崖 中间一条忽隐忽现的窄小土路 那叫一个后怕 只能硬着头皮蜗牛一样缓慢前行,爬一样一个多小时才慢慢开出山来。

宠物大片,主演牛顿、卡塔拉与赞他

《每周一歌:Terri Clark – Just the Same》

Terri Clark – Just the Same (background footage of Silicon Valley and Highway No 1)

第一次听到乡村女歌手 Terri Clark 是25+年前 在加拿大的电视上 那时候她的 mtv 在热播 just the same 的音乐片 演绎了一个消防队员家庭的故事 消防队员救火回来 满身烟土 terri 与孩子扑上去迎接 那个短片让人感动 terri 的嗓音浑厚苍凉 她一贯穿着也很阳刚的样子 但歌声里面还是藏近了温柔亲情。 后来也听过一些她的其他的歌 嗓音无可挑剔 但觉得都不如这一首的感情深挚 于是一直保留在 iPod / iPhone 的五星榜上 听了几十年。觉得值得每周一歌推荐给朋友。

youTube: Just the Same MV

好像是乔布斯说的 说歌曲与影视不同 歌曲可以反复听 而再好的影视最多也就看三五遍到头了。其实 老歌是可以陪人一辈子的 每个人心中都有一套自己的歌曲集 是人生不同阶段的积累和回忆。

记得当年热播的还有 Shania Twain 的 any man of mine 很欢快跳跃 音乐片也很时髦性感 让人联想到陈方圆刚上电视春晚的形象做派。

YouTube Shania Twain: Any Man of Mine

同时期的电视 还熟悉了两位女歌手 一位是后来红透半边天的 Celine Dion 另一位是与盲人歌手 Andrea Bocelli 对唱 Time to say goodbye 的 Sarah Brightman, 这都是 pre-iPod 时代的老歌 也都陪伴了一辈子。

【泥沙龙笔记:带标大数据这道坎迈不过去,不要侈谈AI革命】

李:前两天与NLP主流的权威人士聊人造智能的现状和前景。我问,人造智能这么牛,你给我找一个在自然语言方面没有标注大数据,靠非监督学习落地成功的案例。只要一例。

其实主流里面就是找不到一例(非主流有,但大家习惯性视而不见)。主流里面规模化成功的全部是监督学习,全部靠大数据。应了那句话,多少人工,多少智能。

毛:你这要求太苛刻了。咱们人小时候不也要靠爹妈教吗?@wei

李:不对,爹妈教的不是大数据。孩子跟父母学的是小数据,举一反三,不是举100返1。当然乔姆斯基认为那不是爹妈的功劳 也不是学童的功劳,是上帝的功劳,固化遗传的。

白:人工用在语料上还是用在资源上,才是区分技术路线的关键。

李:同意。前者简单野蛮粗暴,容易推广,后者需要精心设计。

在带标大数据的这道坎迈不过去前,不要侈谈人造I的革命。

有些疑似不需要带标大数据的有效学习,可以一一讨论。看看到底是不是无监督学习突破了,知识瓶颈化解于无形了。

MT 不用说了,无穷无尽的带标大数据。人类翻译了多少年,而且还会一直翻译下去,或者利用MT然后修订编辑。活水源源不断。好处是免费,是人类正常翻译活动的副产品。

白:小数据带标、大数据聚类,小数据循聚类举一反三。实际就是协同推荐。

李:好,看看大数据聚类,clustering 的本性就是非监督,有成功案例吗?clustering 是个好东西 但是独立规模化成功的,几乎不见。

白:加上小数据,不是纯聚类。

李:对。以前有一个路子,貌似有部分成功,就是先聚类,然后人工少量干预(给好的聚类起一个名字、把混进革命队伍的异己分子手工踢出去之类),然后利用所起的名字作为带标数据,把聚类(clustering)转换为可以落地有价值的分类(classifciation)。狸猫换太子,多少就克服了大数据短缺的知识瓶颈,聚类–》分类,曲线救国。

白:带标小数据更关键。

李:那也是一途 叫 seeds,boot strapping,找个办法来 propagate,用得巧的话,也有部分成功的,算是弱监督学习。

白:聚类是纯几何行为,不知道对什么敏感。小数据告诉你该对什么敏感。两轮驱动,不可偏废。大数据聚类可以提供疑似窝点,小数据一举捣毁。不是所有疑似窝点都值得捣毁。聚类是等势线(超曲面)相互包围的拓扑。

毛:立委你这不是抬杠吗,也没人说AI已经等同于人类智能呀。

肖:用户分群很有用啊,例子很多很多。聚类方法找异常也有很多成功应用,比如反欺诈。

李:聚类的结果 粗线条应用大概是有的,在宁可错杀一千的应用场合,或有当无的场合,聚类可松可紧,拿来就用,总之是有统计基础,作为参考,强过看不见。细线条就傻了。只要用眼睛和脑袋去检视过聚类结果的,大都有这个体会:这玩意儿说它不对,还长得蛮像,说它对吧,米锅里 到处可见老鼠屎。经常的感觉是鸡肋 食之无味 弃之可惜,用又不敢用,对接吧 可费劲了。词典习得 (lexicon acquisition),聚类用得上,最后的难点还是在对接上,就是聚类以后的标注(起名字),并让标注与现有的知识体系对接上。

白:不需要,有内部编号即可。以xor为例。聚类可以聚出四个象限。不需要为每个象限取名。如果小数据指向一三象限,就把这两个聚类的内部名称贴一个外部标签。聚类按小数据的指引,当粗则粗,当细则细。不能只用一个尺度,小波的成功就是借鉴。记得工厂里钣金,师傅领锤,力道不大但是都在点儿上,徒弟力大但不能乱锤,必须跟着师傅走。小数据是师傅,大数据是徒弟。

李:这个形象。

最近的NLG(自然语言生成)方面的成功,是因为语言模型在深度学习的时候 强大了。生成的句子 比我们普通人还顺溜。我们受过这么多年教育 还免不了文法错误 语句不顺。机器生成的句子 越来越“超越”人类了。怎么回事?

原来 NLG 比 MT 还邪性 还牛叉,MT 还需要双语的翻译大数据,NLG 面对的是单一的语言,数据无穷无尽,文满为患,这是一个极端的 raw corpus 居然等价于 labeled corpus 的现场。我们每个人写文章 都是潜在给 NLG 提供标注服务。自然语言语句与词汇随机发生器发出来的字符串 的不同,全部体现在每一篇人类撰写的文章里面。它不出色才怪呢。NLG 可以预见将来有大发展,在应用文写作等方面。有孩子的 可以放松他们的语文训练了,将来他们只要学会善用机器 就没有写不出规范的文章的。

白:大家写文章全一个味儿,也是问题。应该以强风格的作家为吸引子,形成若干漩涡,你接近某个漩涡,就持续往里面吸。至少不能千人一面。

肖:(NLG)现在摘要还写不好。

李:孩子不必特地去修应用文写作课,反正后来会有电脑帮忙写文字的。这就跟我小时候钢笔字写得狗爬似的,一直难受 羡慕小伙伴每天练字 让人看得赏心悦目。(当年喜欢一个女孩子 一半看脸蛋 一半看她写的字。)结果 我成年后 除了签字 就几乎没有写钢笔字的机会。

以前要成为(文科)大学者,最为人津津乐道和崇敬的是:

(1)记忆能力:过目不忘,检索起来可以闭着眼睛把典故的章节甚至页数指出来。社科院里面有很多这样广为传诵的奇闻逸事,尤其是关于钱锺书、吕叔湘这些老先生。

马:我认识一个理工科的教授,跟他聊天时,经常会说,那本期刊第几期第几页提到了这个问题。

李:(2)好书法。(3)诗词歌赋。这些到了机器,反而容易。

白:千万别提机器那个诗词歌赋,倒胃口。

李:感觉清华的《九歌》比不少郭沫若的诗词写得好。小时候看郭沫若带着西哈努克去山里面玩,诗性大发 口占一首,那个诗可真是纯粹应景 干瘪无味,就是平仄啥的应该整对了,论意境、诗味,啥都没有。

机器诗词倒胃口 也比不上郭沫若的那次表演(忘了是什么纪录片了),印象极深刻 不是好印象 而是坏印象。当然 艺术的鉴赏 见仁见智 不好说绝对。但往前看,机器做诗词 还有很多提升空间。人要熟读唐诗300首就很不容易了,机器灌输它个全唐诗去模仿,是小菜。人在时间限制下 需要应景作诗 提升空间就不大了。七步诗这样的天才 万里无一。

白:端到端、简单无结构标签、大数据是深度学习商业化的关键。但凡涉及到场景化、复杂结构和小数据,深度学习一定会不适应。是让应用迁就深度学习还是用技术改造深度学习,这不是个简单的选择。我主张:1、把标注的对象从“语料”迁移到“资源”;2、用带标小数据引领无标大数据;3、尊重领域专家、融合领域知识。

【相关】

【 立委小品:AI is fake I 】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

AI is fake I

The term Artificial Intelligence (AI), which traces its roots to the milestone Dartmouth’s historic conference, is quite a bit of an afterthought by the then thought-leaders of the time, with an emphasis on artificiality. It, in essence, defines the true nature of AI as a fake intelligence that simulates human intelligence. But we seem to often forget that.

Those commonly known as “vegetarian chicken” or “vegetarian duck” are soy products, generally classified under the category of “artificial protein”. The gap between “artificial proteins” and “animal proteins” is very comparable to that between “artificial intelligence” and “human intelligence”. Every vegetarian eating “vegetarian chicken” knows clearly that it is fake meat so they feel comfortable enjoying it with its great taste. In contrast, almost all media and the majority of users of AI products today rarely regard the nature of AI as fake intelligence. That is quite a surprise to me.

I don’t know if it’s just tabloid hype or it’s true. But the impression is fairly clear that those popular AI stars more and more often act like god. They seem to love to use super big words and philosophical metaphors which lead the mass to the belief of an equal sign between AI and human I. I don’t think it is so much a sense of mission as a sense of superiority and ego, and they just feel too good about themselves in mastering some magic of AI algorithms. It occurs to me that if you act like God, talk like God, over time you will believe you are God. In times of AI bubbles, people buy that; more importantly, media love that, and investors are willing to pay high.

My entire career has been engaged in “natural language understanding” (NLU), with a focus on “parsing”, which was for a long time widely accepted as the key to language understanding, the crown of artificial intelligence as some experts put it. As practitioners in developing industrial products, we know all these AI terms such as language understanding, machine learning, neural networks, plus AI itself, are just analogy or metaphors. AI models are just simulations, mechanical programs attempting to mimic intelligent tasks. But that is apparently not what has been depicted by media’s efforts for “AI marketing”, nor is it educated by the few AI stars at the spotlight. The public opinions or even decision-makers, shaped or influenced by such media, run more and more towards the opposite. So it might be high time to air a different voice and re-uncover the true nature. Artificial intelligence is fake intelligence by its very nature, filled with “artful deception”, as pointed out by Pierce in the AI history. His criticism has never been out of time. In fact, there is never a time with this much “artful deception” built into products such as intelligent assistants, so artful that we start getting used to it for the convenience.

What is “understanding”? Strictly speaking, the computer has zero intelligence except for its mechanical computation and memorization. Natural language understanding has always been a metaphor by convention, that is why the Turing test was purposely designed to define “artificial intelligence” by bypassing “understanding”. This is by no means to deny the breakthrough in recent years in the functional success stories of AI applications such as speech processing, image recognition, and machine translation.

We all have had personal life experiences when we were amazed at some functions performed by a non-human. As a child, I was amazed for quite some time that the radio could “talk”, how “intelligent” this box called radio was. My mother had been confined to a remote rural area in her childhood, and when she went to a middle school in the nearby town, she had a chance to see an automobile running on the road for the first time. She ran away in awe and years later described to me the shock at the time when a non-human machine was running so fast. That is beyond intelligent to her mind. We all had those first times of “intelligence” shock, the first time we had access to a calculator when I was a middle school kid, the first time we walked through an automatic door, the first time we went to the bathroom which automatically flushed the toilet, not to mention the first time we used GPS. All those fake intelligence behaviors look so true and superior to our modest being when we are first exposed to them. But now such “intelligence-like behavior” is all out, we all accept that it is non-I. By human nature, we tend to over-read the meaning when we do not understand something. We are shocked to see any “automatic” behavior or response from a non-human, regardless of whether the mechanism behind is simple or an algorithm with complexity. Such shock is easy to amplify, and it’s hard not to be fooled by wonders if we don’t understand the mechanisms and principles behind, which happens a lot around the media talks about AI. In recent years, the media and industry are never tired of “man-machine competitions”, in games and knowledge showoffs, in order to demonstrate that now AI beats human. Sometimes in my dreams, I have been haunted by similar images of human weight lifting champions challenging a crane to see who could lift the ton of steel with a single swipe.

In recent years, some celebrity CEOs in industry and legendary figures in the science community have seriously begun to talk about the problem of the emotional machines and the threat from machines equipped with super-human AI. It is often far fetched, citing functional AI success as autonomous intelligence or emotions. I would not be surprised when the topic is taken one step further to start discussing the next world problem as recreating hormones and reproductive systems in machines. Why not? Machines are believed to develop a neural network to become this powerful, it is a natural course to be reproductive and even someday marry humans for the man-machine hybrid kind. Science fiction and reality tend to get mingled all in a mass too easily today.

Nowadays, artificial intelligence is just like a sexy modal attracting all the eyeballs. Talking to an old AI scholar the other day, he pointed out that AI is, in fact, a sad subject. A significant feature of AI is to temporarily hold things whose mechanisms are not yet clear. Once the mechanisms are clear, it often becomes “non-artificial intelligence” and develops into a specialized discipline on its own. The plane is up in the air, the submarine is under the water, deployed everywhere in our land for decades. Do people who design airplanes and submarines call themselves artificial intelligence researchers? No, they are experts of aerodynamics, fluid dynamics, and have little to do with AI. Autonomous driving today is still under the banner of AI, but it has less and less to do with AI as time moves on. Aircraft has long been self-driving for the most part, no one considered that artificial intelligence, right? Artificial intelligence is not a science that can hold a lot of branches on its own. The knowledge that really belongs to artificial intelligence is actually a very small circle, just like the part that really belongs to human intelligence is also a very small circle, both of which are much smaller than what we anticipated before. What is the unchangeable part of AI then? We might as well return to some original formulations by the forefathers of AI, one being a “general problem solver” (Simon 1959).

(Courtesy of youdao-MT for the first draft translation of my recent Chinese blog, without which I would not have the energy and time in its translation and rewriting here.)

My original Chinese blog on this topic:

【 立委小品:AI is fake I 】

Other English blogs

The Anti-Eliza Effect, New Concept in AI

From IBM’s Jeopardy robot, Apple’s Siri, to the new Google Translate

Question answering of the past and present

【 立委小品:AI is fake I 】

有个关于翻译的疑问, AI 台湾翻译为“人工智慧”, 大陆不知谁最先翻译的,总之一直叫“人工智能”。两岸都没有采用更为贴切的翻译“人造智能”。

那些俗称为素鸡素鸭的大豆制品,一般归到 “人造蛋白” 类。“人造蛋白”(或植物蛋白)与“动物蛋白”的距离和区分,可比“人造智能”与“人类智能” 的差异,鸿沟比较清晰。“人工智能/智慧”的译法有很大可能误导或被误解,当然媒体与大众多半乐于误导或被误导,那是另一回事儿。

突然想到老川把除了 fox 外的主流媒体一律称为 fake news,也可以考虑把AI 叫作 fake intelligence,至少比老川靠谱得多,利人也是这么认为的:“AI被忽悠得大家都认为是真的了”。

不知道是小报的渲染,还是的确如此,总之印象是,被称为AI牛人的,常常做上帝状,无论说话口气,还是描画蓝图,与其说是使命感,不如说是优越感,自我感觉特别良好。

认真说,明明是artificial,如今开口闭口机器智能,甚至自主推理、自发情感,弄得跟真的似的。巧妙欺骗的时代,连国家首脑都难免受影响,整得风声鹤唳,草木皆兵。貌似狼来了,机器就要统治世界,人类末日即将来临。

我一辈子做自然语言理解(NLU),主攻语言自动解析(parsing),这曾经被广泛认为是语言理解的钥匙,人造智能的皇冠。那天群里老友说,“理解文章上,机器比90%读完高中的人差吧”,突然意识到类比与现实已经潜移默化到我们自己都可能不假思索混同和认同的时候,觉得也许可以试图做一点澄清了:

什么叫“理解”?严格说,电脑是0理解。所谓自然语言理解,不过是个比喻的说法,所以图灵测试一开始就绕过“理解”来定义“智能”。区别在于,符号派用一套看上去是模拟理解的符号推理的步骤,也就是在符号系统内自己跟自己玩,过家家的游戏。经验派甚至连这个模拟的过家家也不要了,端到端,别跟我扯理解,你理解了要做什么,给我把要做什么的任务定义出来,然后按照这个定义给我标注数据,越大越好,上不封顶。然后给你把这个任务做出来,照猫画虎。你说它理解了啥?毛都没有。说理解和智能,都是比喻,不改变artificial智能是fake的本质。这并不是要否认模仿的功能性成功。

小时候很长时间惊异于收音机“会说话”,不理解无线电啥玩意能够如此“智能”。记得看过一本书,里面描述凉山少数民族百姓第一次“被看电影”,下面观众惊吓莫名。我妈妈一直在农村读私塾,后来到城里读中学第一次见到汽车在路上跑,跟我描述过当时的震撼。25年前我母校语言学系教授第一次对着苹果电脑叫 “Open Computer”,用语音启动电脑的得意样子还历历在目。还有我们第一次用计算器,第一次走进自动门,上厕所自动冲洗马桶,更甭提第一次用GPS。所有这些fake智能,全是那么真切。可现在全部脱离 I了,成为 non-I。可见,“智能”这东西不仅仅界限模糊,而且很雷人。第一次见到任何非人类出面的“自动”行为或反映,甭管原理简单还是算法复杂,受众都会感觉震撼。这种震撼很容易放大,如果不理解背后的机制和原理,很难不被忽悠。

小时候还有一事儿,挺扎心的,手太笨学珠算、写钢笔字总也没大成效。好在用了电脑后,就几乎没“写”过字,字俊字丑没人知道,藏拙了。当年对于心算快的,算盘打得快的小伙伴,那叫一个羡慕。计算器出来以后,没听说过有人组织过人机算术挑战赛。可是后来的下棋,知识问答,机器翻译,却不断作为智能的里程碑载入史册。回头想想,不就在计算器的延长线上,一多半靠的是memory和computing吗。人跟机拼,傻呀。近几年来,不知怎的,我常常头脑出现一种诡异的画面:人类举重冠军组团挑战起重机,看谁能把“那成吨的钢铁,轻轻地一抓就起来”(盗自革命样板戏《海港》插曲)。媒体和业界乐此不疲的“人机大战”,除了噱头效应外,其实也是非良定义(ill-defined)的为多:苹果怎么好与梨子打架呢。

Artificial 智能,明明是假智能(fake intelligence),里面充满了“巧妙的欺骗”(artful deception,于今为烈,前辈皮尔斯历史上的著名的AI批判其实从来没有失效过,见 Church – 钟摆摆得太远(3):皮尔斯论】 ),如今整得跟真的似的。哲学上、伦理上、媒体上、国际政治上,如今都在说狼来了。

还好AI这个术语,追根溯源到达特茅斯那次历史性会议,起名还算知趣,强调的是人工/人造/仿造。但大家久而久之时间长了就忽略了定语 artificial,把电脑与人的智能和理解,混同了。加上科技小编和科幻的鼓噪,类比与现实貌似等同了。甚至一些名人也一本正经开始大谈机器具有情感的问题,自主智能到自发情感,就差说要与人类杂交生子了。下一个世界难题应该是机器中再造荷尔蒙与生殖系统。(理论上也并非绝对不可能。无机物突变为有机物,历史上应该是发生过的。不妨在人类高科技刺激下,再发生一次?)

隐约记得以前论过这个话题,一搜果然说过,而且说得还不浅:

“人工智能其实应该翻译为人造智能。人造翻译(或仿人翻译)与人工翻译可大不相同。但取法乎上仅得其中的古训不大灵了,古训忽略了量的概念。被取法者足够大量的时候 所得不止于中。AI 代替中庸 势在必行。取法乎众 可得中上,这是事实。但最好的机器翻译不如最好的人工翻译,这也是事实。因为后者有智能 有理解。而前者虽然号称神经了,其实连“人造的理解”(譬如 NLU)都没有。

现如今人工智能好比一个性感女郎,沾点边的都往上面贴。今天跟一位老人工智能学者谈,他说,其实人工智能本性上就是一个悲催的学科,它是一个中继站,有点像博士后流动站。怎么讲?人工智能的本性就是暂时存放那些机理还没弄清楚的东西,一旦机理清楚了,就“非人工智能化”了(硬赖着不走,拉大旗作虎皮搞宣传的,是另一回事儿),独立出去成为一个专门的学科了。飞机上天了,潜艇下水了,曾几何时,这看上去是多么人工智能啊。现在还有做飞机潜艇的人称自己是搞人工智能的吗?他们属于空气动力学,流体动力学,与AI没有一毛钱的关系。同理,自动驾驶现如今还打着AI的招牌,其实已经与AI没啥关系了。飞机早就自动驾驶了,没人说是人工智能,到了汽车就突然智能起来?说不过去啊。总之,人工智能不是一个能 hold 住很多在它旗下的科学,它会送走一批批 misfits,这是好事儿,这是科学的进步。真正属于人工智能的学问,其实是一个很小的圈圈,就好比真正属于人类智能的部分也是很小的圈圈,二者都比我们直感上认为的范围,要小很多很多。我问,什么才是真正的恒定的AI呢?老友笑道,还是回到前辈们的原始定义吧,其中主要一项叫做“general problem solver”(西蒙 1959)。

from 【尼沙龙笔记:宁顺不信,神经机器翻译的成就和短板】

这个话题足够重要,不妨从不同角度多说说、反复说,被热昏误导的人太多,吹吹冷风,听见一个算一个。

【相关】

English: “AI is fake I

【尼沙龙笔记:宁顺不信,神经机器翻译的成就和短板】

人工智能,一个永远没有结果的科学_马少平

【Church – 钟摆摆得太远(3):皮尔斯论】

反伊莉莎效应,人工智能的新概念

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《每周两歌:中外女声魅力嗓音,Allison与于文华》

首先,刚过去的周末,祝各位母亲节快乐!

母亲节请欣赏【于文华:想起老妈妈】。背景是上次探亲,正值江南油菜花的季节。我插队的村子的邻村 原来鬼不生蛋的深山老坳 如今是【美丽乡村】的典型了。

关于于文华,以前推荐过:“于文华绣花嗓子,甜美细腻。郁钧剑怎么配她?(别说,还就那嘎声嘎气的尹相杰配于的细嗓子,还有点特别的风味。)郁钧剑没唱过什么给人留下印象的歌曲,这一次照他的功底,老实说算是不错了,也难为他了。无奈于文华的演唱登峰造极,相比之下郁钧剑太平淡了。我们通常只听第一段于的演唱,一到郁钧剑就回头或跳过去。”

Allison is my all time favorite, with her unique voice.  The footage I shot is from a Costco tv demo plus the footage from the Apple Store in the new headquarters

【相关】

音乐欣赏随笔:Brad Paisley & Allison Krauss:威士忌安魂曲

立委随笔:网事如烟

《每周一歌:水姑娘》

风情万种的《水姑娘》,让人骨头松软的民族风

好像是水族的民歌。《水姑娘》周末放送 祝各位复活节快乐!

花红柳绿 风情如此。此乐只有地方有 绕梁三日不绝缕。不知道歌手是哪一位少数民族夜莺 “嗲”得如此上档次。

10年前从湾区草根舞蹈团的Mary老师处听得此曲 惊为仙乐 藏之深山。

画面应该是水乡写意之类。但要与亲友分享三个猫咪的近况,懒得单制作视频了,分享音乐和pets合二为一了。

三只猫只有一位 lady,katara 具有水姑娘的气韵 (也兼具铁姑娘的风餐露宿、攀缘跌打本领)。两位君子 牛顿忠厚 Xander 懵懂。片头片尾是苹果新总部的 Apple Store,这视屏就是在手机上用他家 iMovie 制作的,非常便利。

《李白113:白老师秘密武器二瞥(2/2)》

立委按:两载设计,三载实现,白老师的自然语言秘密武器日前曝光。十载孕育,如水流年。挑开面纱,犹抱琵琶,先者为快,一睹芳颜。

李:其实语言理解过程中究竟用到哪些知识,并不难确定。难的是 这些知识如何加分减分打群架。

白:人理解时也不过是在打群架,没高明到哪儿去。

李:如果不给设计师束缚,所有的知识都特征化,不限定范围和多少。然后假定神经可以搞定这些特征,那么 符号逻辑 实际上只剩下符号特征化的工作。逻辑由神经管了,果如此 自然语言理解离开终结就不远了。

白:不对。逻辑有两部分,一部分是有限的可选择的操作或变换,另一部分是何时何地选择何操作的控制策略。控制策略特征化应该鼓励,而所选择的操作的轨迹,是充分可理解、可定点修复的。表示-对表示的操作-选择操作的策略,这三者,我认为第三种是适合特征化、向量化、神经网络化的。这不仅不是终结,更是升华。同时也并不影响前两者的可解释性、可定点修复性和容纳复杂结构的能力。

“身份证”的主人在两句中不同。

李:设想对话场景:

A: 他要求我出示身份证
B:你出示了吗
A:出示了,结果没通过。
B:为什么?
A:因为他是检疫官,要求我出示我宠物的身份证。我以为他是警察,要求出示我本人的身份证呢。
B:这才叫场景的阴错阳差!你过的哪道关都没搞明白。

再如:“监护人向我出示了身份证,是想证明这孩子不是非法移民。”

hidden links 根据常识或常理而来,这就带来两个问题:

第一是,因为是常识、常理,而不是语言明确指明的信息,这些 hidden links 即便挖掘出来,也仍然是不重要的枝节边缘信息,更谈不上情报价值,因为一般人根据已知信息都可以推算出来。

第二是,因为是常识、常理,因此肯定有例外。例外常源于场景和背景的不同。如前面的对话场景的思维实验。

白:打群架好了,神经最擅长。

李:既不十分可靠 也没有新意 也许意味着常识介入理解应该有个限度。如果常识的带入,是帮助确定了情报,那就物有所值。如果常识的带入,不过是反过来为常识增加一个案例,信息还是常识,那就没啥意义。

白:

1,情报又不是落地的唯一领域。

2,即使情报,三个link有情报价值,一个link是这三个link的常识推论,那这推论人做还是机器做大不一样。你先抓到那三个links,人聚焦了看,然后人得出推论,黄花菜都凉了。机器直接得到四个links,能一样吗?

3,推论重要还是那三个重要,这得情报人员自己说,NLP不应该越俎代庖。常识是带变量的f(),只要里面的x是新的,f(x)就是新的。新的就可能有意义。常识都知道撤职了职务属性值就该变了。但是只要张三撤职是新的,张三职务属性值就应该变化为新的。就算常识是旧的,有常识和新事实共同参与的推论也是新的。另外,疑似知识、打过折扣的知识并非就没有意义,只不过置信度稍低而已。哪有那么多百分百置信度的事儿。谣言还满天飞呢。

李:有一定道理。

@白硕 他要求我出示身份证 / 他向我出示身份证。“出示” 一般认为是 3-arg:sb “出示” sth to sb: SVOC,现在看来 这个补足语萝卜 C(嫡系) 是被当成附加语(庶出)了。这不是主要问题,问题在 hidden links 因此也漏掉了。“他要求我出示身份证” 中,“我” 连上了 “身份证”,但是 “出示” 没有连上 “他”。逻辑语义上 向谁 出示呢?是向他的。

白:改成双宾了。这情形更可预期。

李:”他 为/替 我出示身份证”,“为” 与 “向” 的区别在句法如何利用?小词不同,句法有表示吗?还是指望接盘的 一个一个小词重新 check 来做区分?

白:小词会携带算子,把动态特征贴到自己修饰的成分上。目前只能说这么多。比如,一个“的”,无所谓跟谁相谐。但是“张三吃的”就必须明确自己的subcat。

李:fair 就是说 显示出来的 what 只是个架子,不是输出的全部。这其实是自然的。如果不在 link 上细化,那就在特征上细化。反正信息需要下传。

双宾句如何处理的呢?譬如:

他送了我一本书。
他把一本书送了我。
他送了一本书给我。
他给我送了一本书。
那本书他送我了。
那本书他送了我
他送一本书给了我。

白:

双宾句式,双宾句式加明示间接宾语的介词短语的互通,我们已经做得很透彻了。

李:两个 Lma 一个 Rma,等于是三个 args 句法都不做鉴别。下面接盘的,依靠什么来区分,去做 123 与 abc 配对。

白:这个自有办法。分母上的数字只是显示

李:怕下面接盘的 还要回头做部分句法

白:不需要,句法信息都带进去了。

李:句法上 Topic 与 synS 不区分,但是偏移量有区分,也算等价了。怎么知道 “我” 不是 O,“书” 才是 O 呢?

白:书有subcat信息,还有Default位置信息。如果O的subcat跟S兼容而且相对Default有变,比如O提前做了话题,那就取决于右填坑的间接宾语的事理因素了。

这个丫鬟我送你了。

这位夫人我送那个丫鬟

取决于夫人和丫鬟在事理中的地位。这个绝不是句法单独可以做的。加上subcat也不行,所以目前我们做不了。只当default位置是O,啥时候事理做了进来,就有希望了。

李:句法为谓词选了萝卜候选人,萝卜进坑的事儿归后面的语义模块,所以 后面的任务仍然蛮繁难。因为萝卜进坑 仍然需要综合平衡,语序、小词和语义相谐,综合平衡才能基本搞定。更难的要借助事理。

白:哪个对哪个,特别是subcat也区分不了的时候,目前没有足够的资源。NLP的魅力就在这里。好在方向基本是看清楚了的,见效取决于投入。要想糊弄人,做个玩具事理图谱也能蒙一阵子。不过我们不会这么做。事理图谱一定要结合应用场景做。不见兔子不撒鹰。

李:”吃在买后“ 这样的事理,HowNet 没有:HowNet 主攻本体常识,一般不带入动态场景的形式化。真正规模做过“场景常识”的只有 cyc,“开枪” 在 “伤残” 之前 之类。但以前的教训依然存在,其数目实在太大了。

白:吃、买太具体了,模式是“消费在取得后”,消费是吃的上位,取得是买的上位。如果仅看到具体事件对具体事件的因果联系和承接联系,那还不累死。要把事件的Taxonomy像实体一样组织起来。赋予抽象度适中的标签。事件的诸多要素,都要纳入这个体系,参与者、时空特性(时-体)、事件类型的包含与继承、关联类型的包含与继承,触发条件、副作用……不一而足。这是目前聚焦事理图谱领域的各个利益相关方都极为关注的。

李:“我洗脸”,英语总是说:我洗我的脸(I wash my face)。中文解析,根据常识,可以推算出“我的脸”。感觉上 人的理解中 标配信息真地很边缘。赶巧了英语用代词把它明说出来了。但说了也跟没说差不多。情报性无论怎么定义 这个“脸”属于“我”都很难成为情报焦点。

一般而言,感觉上 possessive 的 hidden links 情报性最差,在有冠词的语言,possessor 很多时候被一个定冠词 “the” 虚指了。凡是定冠词打头的实体(语言学里面叫 anaphor) 理论上省略了所有者这类实在的 specifier。“the” 的含义是“你知我知”, 虽然有个主儿但这不重要。

白:不同源头会带上不同约束,使推论减少盲目性。比如“给”的介词宾语和非三价动词的主宾语坑就不太能共享。这是“给”所明确标记的间接宾语属性所决定的。这些约束会截断共享通道。

“张三给李四写自传”,这李四要是有什么来头,情报价值还真挺大。张三是个代笔的小人物,张三的自传不重要。所以谁的自传,不简单。

李:从性质上看 寻找这类所有者属于篇章的 coreference 范畴,而 coreference 的工作,句法有一定影响 (binding theory 说的就是句法对于 coreference)。但是句法影响对于篇章非常有限。更大因素还是语义相谐和距离。把 一个实体对于其所有者的预示 与一个谓词对于一个 arg 的期望 等量齐观,有点高抬了前者。

白:优先级不一样。

对范畴语法做了重大简化,跟依存很接近但比他更丰富。分析结果可以不是树而是图,图还可以成环。图更科学,更反映语言实际。

带加号的句法标签,可以看成是“只约分不输出”的范畴。每次完成约分,就废掉自身,以保持中心语的正统地位。

李:就是 adjunct/mod,庶出,跟私生子也差不多,投奔过来又不能不认,但上不了台面。

我的理解,DG 与 CG 性质不同,DG 是 一种结果表示法 刻画的是output what,CG 却带有 how 的味道 表示和刻画 input tokens,可以据此演算 作为 parsing 基础和驱动。最终从 CG 达成 DG 的结果。

parser 被词典化的 CG 驱动以后,在遇到叉口的时候 求助于其他知识的引入,主要是语义相谐的调用。根据一个优先原则和有限级计算的机制 做路径判断 然后完成 parsing。如果不怕伪歧义 也可以只依据 CG 词典与优先级原则 而不引入其他知识。

这条路线的搜索空间 (universe)是句子长度 n 的这样的一个函数:可以 assume n 中每两个词都必须发生7种二元关系之一。三种是实关系但是有方向(父父子子),所以“原子化”后就是6种实关系,即,是二元排列不是组合。第7种是:无关系。无关系也算关系,就一网打尽了。任意两词只允许发生7种关系之一,不能多也不能少。在 n 不大的时候,搜索空间爆炸得不算厉害。

白:ordered pairs,A跟B和B跟A可以有不同的关系标签。

李:对,有这个二元循环的可能,忘了这茬了。不过那很罕见,对于搜索空间影响不大。能想到的只有 定语从句谓词与中心词有二元循环关系,一个 mod 一个 arg 方向相反。

李:By the way,你用 subcat 正好与(很大一部分的)语言学内部用的术语相反,句法学家说 subcat (子范畴)只是针对 句型,主要是给 谓词 根据不同句型的预测 分为不同的 subcat,而一个词的本体的细分 就是 subclass(子类),所以 vt,vi 属于 subcat,到了 HPSG 等理论,这个 subcat 就真展开成句型了:

give:: SUBCAT <NP left:S>, <NP right:O>, <PP(to):C>]
give:: SUBCAT <NP left:S>, <NP right1:C>, <NP right2:O>]

第一条 SUBCAT 句型是 sb give sth to sb;第二条是 sb give sb sth

白:不管了,反正就是负载逻辑语义结构信息的标签,来自词典。标签之间的关系在本体里定义。

也不能说是“特征”,因为特征给人的印象是扁平化、向量化,缺少结构。但也绝不是曾经流行的“复杂特征”。

李:扁平化 原子化 有好处的,以前你也是赞成的。复杂特征在符号逻辑上漂亮,但不好伺候,难以承受逻辑之重:实用系统不能过分与逻辑较真(这个体会很深,以后有机会展开再论)。

白:我们只有一层除号,分子,分母。分子和分母里边都不再有除号,我称之为“单子化”。就一个成分而言,萝卜和坑都不必再有相对性。它们都是“单子”(singleton)。

李:那是因为你们的出身是 CG,算法里面就对分子分母的表示有要求,作为区分输入输出的手段。

白:把CG改造到这么实用的程度,我们应该在世界上挂个号了。

李:不知道这个 CG 还有没有个 community 和相应的 events,还是拉丁文一样被搁置了。HPSG LFG 那些人还在,有自己的圈子 不过是越来越游离于主流(两不靠:语言学主流和计算语言学主流都不是)之外了。

白:CG可能就剩下CCG还活跃。CCG的本质是带坑填坑,于是就会产生我们所说的残坑。残坑在计算上的处理非常复杂,单子化对残坑处理带来莫大好处。但是从数学观点看,引入“修饰”,就是N+、S+这种,打破了“一个运算符吃遍天下”的理论美感,理论框架变得有些dirty了。等有空了,我会梳理一下“修饰”从数学上看是个什么鬼鬼。修饰之于单纯的相除,就好像X-bar之于CFG。象牙塔里的人可能不屑为之,我们编外游侠接手没什么顾忌。

【相关】

白硕:人工智能的诗与远方,一文读懂NLP起源、流派和技术

文章来源:https://read01.com/AJGzNQN.html

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《李白111:范畴细化与语义相谐的知识爆炸》

白:“张三不满意李四没有表扬自己”“张三不满意李四没有批评自己”

这个是情感倾向性决定“自己”共指关系的例子。虽然,default建立得很脆弱。外面有个风吹草动就可能洗牌。比如张三和李四绑死了是一伙儿的 等等语境引入的预设。

“把鸡咬死的虫子扔了” “把鸡咬死的狐狸跑了”

李:好例。

微瑕是,鸡吃虫 论咬吗?虫无骨 没咬劲儿。

白:“中国北京是首都”当中的“中国”是啥成分?“这支队伍我是当家的”当中“这支队伍”是啥成分?

“这个人我感觉很蛮横”“这个人我感觉很舒服”

插入语一旦确立,应该封闭与外部建立hidden links的通道。什么“你知道、我认为、他觉得……”当中的你我他,都不要再花心了,安守本份即可。

李:

“有点乱,有点乱……”

想起周华健的“今天我有点烦 有点烦”。“当家”与“队伍”挂上是对的,可貌似关系颠倒了,这 S2/mCL 肯定是个🐛,需要 “de- de-” 的。

白:队伍和当家摘开,并不明智。

李:debug 过火了耶。句法负面影响了语义。应该弱化句法。

昨天/前天 说了,这 Topic 如果是人名, 默认就是“呼语”,如果不是人,那就是状语,什么状语?很可能表示 scope(范围)。

把“的字结构”也做过火了,结果 “的” 成了 S2(hidden subject), 反而 “我”没有直接做“当家”的主语,虽然道理上可以通过与 “的” 的 coreference 推导出来。

白:王冕死了父亲,王冕也是状语?

李:不是。王冕是句法主语(synS),不是 Topic 降格。

白:“人” 给 “队伍” 当家,这坑都在。“的”不占名额,回指到定语从句里没事的。 空出一个坑留给“队伍”。

李:那个坑感觉不强烈?“当家” 需要一个 范围。可啥东西不要范围?就跟时间 地点似的,啥事儿都发生在时空及其范围之中。

“当家” 词法上是动宾 感觉饱和了,其实不然 它词义是 manage,与其说范围,不如说需要 manage 一个对象。但是词法饱和(“家”已经做了“当”的词法宾语)的残留影响还在,所以这个句法宾语的坑只好退化为范围状语,逻辑语义上其实是【对象】的。

白:不一样。在真正一个家庭里当家,范围是默认的。在一个“拟家庭化”的组织里当家(掌权),这个组织就是需要凸显的范围。这是隐喻固化导致的,跟一般动词的范围不可同日而语。从非标配坑提升到了标配坑,于是就获得了参与句法构建的资格。

李:成葫芦了:

白:这就靠谱了。还可以画成公鸡🐓

李:传统 parsing 怎么可能做到这个深度?PennTree 的标注太浅,PSG 的本性也无力表达到这种深度。

群里面专门修过乔姆斯基语言学课程的朋友说说,对于这种语义谓词隐藏较深的,乔姆斯基句法是怎么最终达到他的 logical form 的?还是根本就不管,当不存在?逻辑形式的核心类似一个SVO: <我 – 当家 – 队伍>。

“这支队伍我当家”。

白:这样就可以啊:

李:N[+1] 变成 N[-1] 啊,狸猫换太子的感觉。+1 是左,-1 是右,这个指针运算还蛮溜的。

白:这是把“是”当S+使,把“的”当+S使。偏移量。残坑出自“当家”。辖域合并不交叉,指针还原就交叉了。

李:传统语言学里面的 subcat 没有这么丰富细致,CG 细化过来的,主要是词典功夫。乔老爷好像在 subcat 上没强调细化。

subcat 的范畴细化 还不够,因为范畴细化 不加上语义相谐的支持 仍然导致伪歧义泛滥。在专家词典学派看来,范畴细化+语义相谐 成为一体了,那就要求词典成为知识库,等于是把语言学词典转变为 HowNet 了。HPSG 其实就是在专家词典学派这条道上,想走 没完全走通 就式微了。

白老师是分开了范畴细化与语义相谐。可是展示的 parsing 全部是范畴细化,相谐的工作机理语焉不详。所以 看白老师的 parse 图,结论是,就这些子范畴,运算起来,这路是 “应该” 通的。其他不应该通,但实际上也通了(伪歧义等),就不在雷达上。

白:这是what,不是how。what我希望更多的人理解和支持。how的商业属性就太强了。当然,这是结果,过程中不仅使用了这些。

李:就是。

what 似乎也不齐全,只是展示结构的 what,没有展示结构的功能性(角色)。所以,作为学习,这里有两个空白需填补,一个是 how,尤其是语义相谐机制,怎么招之即来挥之即去的。另一个是逻辑语义,逻辑语义怎么在句法或逻辑的链接基础上得出的。当然这二者是相关的,前者是条件,后者是结论。目前展示的结构树图就是个架子和桥梁。

白:这是一套资源向两个方向的延展。向句法方向就是前者,向语义方向就是后者。而且是句法方向退一步,语义方向进两步。

但是认真地说,本例,真的不需要语义相谐性,纯句法层面就搞定。

李:不是说本例。所以说是 (语义相谐是)招之即来 挥之即去耶。

那个 “专家的” 或 “大数据的” 语义,像个鬼影。说是要做个不是 HowNet 的 HowNet(《知网》),数据驱动的。怎么做?

这与最近NLP主流特火的预训练 也许殊途同归?预训练是个好东西,听上去就是阳光大道。就是不知道今后几年的使用中 会遇到什么坎儿。

白:新一代NowNet,早晚要做。但是不能跟场景两张皮,必须通盘顶层设计。

李:架构上,我看好预训练,关注它的走向。道理也简单 我们一直孜孜以求的就是把语言学和领域先分开,然后再连接,各司其职。预训练就是先分开,而且不用标注语料,这个语言模型等于是在无穷语料上架设。所有的语义相谐和常识理论上都应该在预训练的模型里面(间接)反映了。

白:“他们让我从侧门进大楼”“他们让我跟太太进大楼”

“侧门”(N/N)的宿主是“大楼”,“太太”(N/N)的宿主是“我”。这要动用本体了。这俩的对比很有意思,纯句法肯定搞不定。

李:

白:侧门和大楼没挂上,侧门的宿主是building。所以building下位一定相谐。大楼小区之类。

李:知道。HowNet 都有,但不好贯彻。

不确定要多大的语义相谐合适。如果大面上说 只要是 part 就与不是 part 的 physical object 相连,那是手到擒来的事儿,怕的是副作用。会不会连得太多,因为 part 和 physical object 都是范围很大的本体概念,概括一大批语词。如果说,细化到 “楼” 与 “门”的本体,就非常相谐,没有顾虑,那就需要一个完整的 hownet 本体知识,可是 我对 hownet 的使用 目前是限制的,不想进入语义泥淖太深。HowNet 董老师自己用 得心应手,其他人用 就颇不易。

白:知识必须是机器可读的。

李:hownet 是机器可读的,或者说 形式化的。

白:机器可读的最好办法就是向一个丰富的技术栈靠拢,否则自己从头建立技术栈,得不偿失。但是董老师对此并不感冒。

李:subcat 以及 sub-subcat 的语义关联,有点组合爆炸的味道。本体自己从细到粗就是一个不小的集合(上千的 vocabulary),本体与本体的相谐 就是组合爆炸。如果组合粗线条 不会爆炸 但失去精准,如果细化 把 HowNet 全部引进,相应的规则集也有个组合爆炸的细化过程,有可能不好管理和维护。总之 现在是控制使用,不想步子迈得太大。

白:还是要区分what和how,what本身无所谓组合爆炸,只有how没做好才组合爆炸。向句法这一端延伸,只用到少量资源。机制必须是轻量级的,重了适得其反。

时代呼唤具有更好场景对接能力和顶层设计理念的新一代“类知网”基础资源。

李:语义常识是一个多大的坑啊,淹死人不偿命啊。谁设计 谁来组织去做?个人还是开源社区?最后 谁用?怎么用?除了设计 白老师可以统率 后面这些问题都还不好回答。

白:要分层,基础层给专业层用,专业层给用户场景用,但是必须统一规划。知网也没搞成开源社区。这东东,不容易协调利益。除非使用区块链。关于知识长什么样如果没有统一的顶层设计,本体和场景一定是两张皮。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《李白110:深度解析,曲高和寡,值得吗》

白:“这首歌听过的都说好听”“这首歌听过的都说过瘾”

——什么好听?

——谁过瘾?

李:”过瘾” 这类词对人对物均可:我听这首歌过瘾;这首歌过瘾。

这就好比 -ed/-ing 混合了:exciting/excited。类似于 自动/他动 的零形式转变,“好听” 不同,只能对物。

白:“这首歌过瘾”可以看成,过瘾的正主儿没出现,但是使动的角色已经在那儿了。句法上鸠占鹊巢,本体上主客分明。

李:正主儿不重要,默认是 (令人)过瘾,这个“人”等于没说。

白:本体里“人”是出席的。linked data,首要任务就是不能掉链子。

李:本体是逻辑体系,不要掉链子。语言理解和表示,有所不同。本体等于是个认知背景,理解时候随时调用,也可以不调用。

“这首歌听过的都说过瘾 / 听过的都说过瘾 / 听过这首歌的都说过瘾 / 听过的都说这首歌过瘾 / ……”

白:句法上,不相谐并不一票否决,而只是减分。没有更好的选择,减分的选择也会顶上去的。但是在回答问题的时候,低分的选择会提示某种降低自信的折扣。

在c-command位置有多个置换候选,用哪一个自然会精挑细选;如果只有一个,横竖就是他了;如果坑已经被占满,c-command位置上无论有多少候选也是干瞪眼。

李:终于弄妥了。

此图像的alt属性为空;文件名为Screen-Shot-2019-04-11-at-2.19.32-AM.png

就是这图越来越不像树了,倒是更像那种叫四不像的动物。Topic 可以抹去的,不过感觉留下有益无害。真要逻辑较真的话,“的字结构” 与 “过瘾” 还可以连上 S 或 S2。痕迹都在,本体也支持,但懒得做了。连来连去,也还就是个 “的”字,连个名儿都没有。谁过瘾了?哦,听过的人过瘾了。 感觉没人这么问的。信息不具有情报价值,更像是从常识推导来的。常识常识,就是那种理应熟视无睹的不具备情报价值的知识。

白:推理,张三是听过的人,张三过瘾。

李:三段论是如此。就是不大容易想到啥场景会用上的,怀疑其解析价值。另外就是,语言表达中的确有清晰的情报与边缘的信息的区分,也的确有重要与不重要的区分。所以,单从语言角度看,也有一个什么一定要抓,什么可以放过的问题。所以,单从语言角度看,也有一个什么一定要抓,什么可以放过的问题。从情报性角度看,其实是不应该让常识过多介入的。常识之所以为常识,就是它不具备情报性。如果语言表达方面有意无意的漏洞或含糊之处都被常识“脑补”了,信息单元的情报性就被抹平了,主次容易混淆。

白:脑补的东西,一定有单独的标记。怎么可能允许一锅煮。“营业额超过了联想”也是需要脑补的。

李:人的表达和理解,都有很大的偷懒成分在。这一方面为了节能,节省带宽和脑力,另一方面也可能有个聚焦因素在。解析作为一个为表达通向理解所搭建的桥梁,也许也应该模拟逼近人的表达和理解中的聚焦和节能。所以 一直以来 句法以后做那些逻辑语义的 hidden links,总觉得是锦上添花 适可而止的工作。要做可以做得很深很全,特别是不断引入常识“脑补”,就有很多的 hidden links 可以挖掘。隐隐觉得这不是目标和应该着力的点。

白:不脑补,那张图摆在那里也是摆设。地球人都知道不可比,关键是,轻量级的脑补还是重量级的脑补。

李:这类例子很难说是需要解析的脑补。更大可能是在语用场景,是在领域落地的阶段,根据领域词汇和领域知识去补。这里有个区别:深度解析利用常识脑补,基本是不分领域和场景的,算是 boil the ocean。而到了领域场景,那是下一个阶段了,那里已经有场景聚焦和领域聚焦的考量了。

白:只做解析的立场和做场景的立场是截然不同的。下一阶段,未必是时间的先后,可能只是工序的先后。一个抓总的人需要同时考虑。

知网的设计者,除了翻译是直达场景的,其他很难说有多少场景驱动的东西触达了知网的架构和方法论层面。这也导致二次适配的工作量巨大。时代呼唤一个从方法论层面直接对接场景的新一代知网,or whatever 网

李:撇开MT,NLU 两大应用是:

  1. 知识挖掘 这更多是后台,离线,大数据。
  2. 对话,这更多是前台,在线,小数据。

当然,一个完整的交互系统,是两端都需要有的。现在看这两大应用,迄今为止,对于深度解析,需求不大,不明显,也许更多是因为还没找到可以利用的巨大潜力。

白:层次残缺。

需要解析器、本体、领域适配包协同工作,不能各行其是。

李:端到端的系统不去说它了,即便是想努力使用NLU的,在这两大应用中,凭实际经验看,对于 shallow parsing 的需求,远远大于对于深度解析的需求。shallow parsing 主要就是 NE 和一些 XP 抱团,这方面做好了,可以立竿见影。超越 shallow 的部分,用起来感觉不在痛点上。

也许是还没到那个火候。

白:现在的需求不是真正的需求,因为没有把各环节的潜力展现给最终用户。还是没做好。

李:总之,日常的开发实践和场景,不断把我们拉向 shallow 的工作。这些都是非常琐碎的,基本是资源堆积的领域性工作。也没有那么大挑战性,只要有人力 有资源,总是可以大兵团作战,以资源取胜。而具有挑战性 让我们着迷的深度解析,却发现性价比很差。做了白做的时候居多。

全世界都做对话系统,问题于是简化为 intent/slots,说白了,都是既浅层又领域的目标定义。intent 根本就没有语言学定义,不具备任何普遍语义。intent 完全就是根据目标应用所需要的 actions 来定义的语用意义上的“语义”,是典型的端到端的反映,没有可移植性。就是对于输入问题的一个针对具体应用(skill)的classification,1000个skills 有 1000 种不同的定义。这些是当前的“范式”,浅得不能再浅,但证明是可以 scale up 和有效的,前提是有资源去做。

“听过这首歌的都说好听”:

“都说听过的这首歌好听”:

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《语义群笔记:端端的端到端》

白:“盼望长大的童年”

本来是歧义,常识把它变成了伪歧义。“长大的”和“童年”不搭。

李:“盼望长大的童年”,可以问:1. 谁盼望长大?– 童年;2. 盼望【谁】长大? — 童年;3. 盼望 可能有两个 【human】 的坑。类似的例子有:“盼望到来的幸福” vs “盼望幸福的到来”,当然 还有一个 盼望- 长大(了)的童年。

虽然说似乎不合常识,概念来点弹性的话,也不是说不通:童年的定义里面虽然有没长大的意味,在类比和修辞的意义上,两个概念可以做各种关联和联想。事实上,“不搭”才是诗意的简单有效的手段,保证了想象的空间。

“这就是我那位想买你别墅的朋友”

白:【打败你的不是天真,是“天真热”!】

李:不是天真,而是天(真)热:

白:“它是一个不断松弛的过程,到头来,已经没得松可驰了。”

李:没得松可驰了 还是 没得弛可松了?没得澡可洗 从来不说 *没得洗不澡。当然 “松弛” 虽然 比照 “洗澡” 的动宾离合词 但自己并不是动宾 而是并列,因此 换位了也不觉得。没得学可习 还是 没得习可学?

成语活用 只要愿意花时间 不是问题 问题仍然是 有多少用场。

Lai:@wei 有什么深度学习有效的方法可以发现这些Dependency?

李:不知道 据说只要有标注 就不是问题。

郭:斯坦福的陈丹琪(danqi chen)和她的导师Manning有个深度学习的dependency parser。应该算state of the art。开源,是stanford coreNLP的一个模块。

谷歌基于这个工作,做了个大数据版,据说准确率“超过人类”。也是开源的。

李:标注可以让目前的系统先自动做,让人去修正(只修正黑白错误,不修正模糊地带或不清晰的地方),这会大量节省人工,所以数据也不是大问题。最大的问题是,这些 dependency 出来了,懂得如何派上用场的 不多。在大半个世界都迷信端到端的时候,缺乏资源去用的话,parsing 就是面壁十年的玩偶。

白:端到端不是问题,问题是端不能容纳结构。

李:神经MT 就是一个端到端典型示范。一端是串 另一端还是串 为什么要容纳结构。只要有可以监督的数据 信息抽取也是如此。

白:关系抽取不是这样的。

李:以前一直以为抽取乃是我结构的长项。最近朋友问我 如果是抽取关系,现存数据库就有亿万,表示 locationOf,whereFrom,bornIn,bossOf 等等关系。这些关系的两端 都在数据库里面,用他们去找语言数据 可以产生难以想象的不用人工的标注大数据。结构的路子一定可以匹敌这种大数据?我觉得很难。这与mt可以一比。

还有一些端到端 结构无从下手 可是端到端可以派上用场,譬如 图片转文字看图说话,和文字转图。这些事儿 有了结构也难以缩短距离。玩结构 玩理解 应该在小数据 多变的domains 以及数据虽大 但无法监督的情况下。这时候 人家“端端的” 根本就不跟你玩,视而不见。另一个就是 打下手 做小三。在人家玩剩下的某些短板上 玩补充作用。譬如 mt,张冠李戴这类问题 可以帮上忙。

神经mt最不可思议的突破是顺畅度。这是当年认为mt无解的一个方面。突破带来的副作用是损失忠实,这点损失 符号结构派其实可以擦屁股的。结构派有个貌似真理的预设,自然语言千变万化 唯有结构化才可以变得 tractable。这话实际上并不尽然。结构化的确可以导致 以较少的patterns 捕捉较多的现象,可是 对于“端端的”系统 对于海量容量和算力 这种 generalizations 的意义大打折扣。推向极端 如果有个现象 两个 patterns 可涵盖一千个变体,如果我真有充分的数据 可以看见这一千个变体足够的重复,全部记住了 或者用另一种非符号化非规则化表达了 embedding (嵌入)抽象了,那么那两条 patterns 还有什么优势呢?何况 符号规则化的本性就是不够鲁棒 免不了漏掉点什么例外。

还有个有意思的现象。以前老以为 起码起码 结构化总是帮助提供了更好的基础 总是归纳了很多现象 没有功劳有苦劳。这个苦劳认不认不重要,客观情形是,满世界没几个人有兴趣利用,一多半也因为没几个人懂得怎么利用和消化,包括业界学习方面的牛人,曾经私下交流过,回答说,引入结构说起来应该有好处,但不好融啊。

绝大多数的端端学习系统有自己的一套比较成熟的 有广大community主流不断集体探索和积累的基于一包词或ngram的各种模型 算法和工具,语言结构横插进来,有异物感,heterogenous evidence,增加了模型复杂度,很容易得不偿失。

牛的 parser 能够开拓市场和被大家接受估计需要相当一段时间,其契机可能是: 1. 端端系统遇到瓶颈或死胡同,不得不探索其他路子的时候;2. 主流中的少数坚持探索利用结构或者结合AI理性主义和经验主义路线的融合派,在算法研究中取得了突破性进展,带动整个领域”产业升级“到结构化。

在此之前,基本上是自产自销,内部消化,用于目前主流“视而不见”无所作为的短板应用场景。(其实很不少,甚至 text NLP 中端端最成熟的 MT,进入领域由于缺乏数据也有很大短板。)

吕:@wei 大赞。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《立委科普:语音交互时代是NLP的历史机遇》

越来越喜欢语音交互 这两天玩 Siri,Google Assistant,感觉还是搜索公司做语音交互更有前景。

为什么?因为搜索公司的知识源积累雄厚,不是其他 players 可比(不知道百度是不是以自己的积累优势 推出啥 assistant)。这是问题的一面,搜索公司做交互从回答开放问题方面,有天然优势。问题的另一面是,从问题解析角度看,搜索公司传统的优势不再。这给社交媒体公司和NLP创业公司留下了机会。以前做文本NLP,虽然可以 argue NLP 赋能的SVO搜索,可以大大提高关键词搜索的精准,但总体上感觉NLP想进入搜索,是针插不进的。

白老师说:这是商业模式问题。关键词作为标的,太成熟。

商业模式之外,还有个重要原因。很多年来,受众都被搜索公司潜移默化了,通过query log 可知,搜索框里面的 queries 绝大多数不是“人话”,就是几个关键词,而且搜索的人,越来越不管语言的词序与小词,因为经验教训都是词序和小词没用。这就使得NLP失去了合适的对象,优势发挥不出来。这边厢 关键词技术以鲁棒和长尾见长,NLP 真地是难以实现价值。可是,语音交互时代不同了,人开始越来越多学会直接跟机器对话,这时候,自然语言回归“自然”,被搜索公司洗脑的坏习惯 在语音交互中难以持续。

这给了 NLP 以机会。

以前老觉得NLP做文本比较成熟,来了语音转文字,多了层损耗。可现在语音技术成熟了,这点损耗不算啥。考察现有的交互系统,卡壳的地方多出现在 NLP 而不是语音转文字方面。

看目前 Siri 的水平,相当不错了,蛮impressed,毕竟是 Siri 第一次把自然语言对话推送到千千万万客户的手中,虽然有很多噱头,很多人拿它当玩具,毕竟有终端客户的大面积使用和反馈的积累。尽管如此,后出来的 Google Assistant 却感觉只在其上不在其下,由于搜索统治天下20年的雄厚积累,开放类知识问答更是强项。

最近测试 Google Assistant 的笔记如下。可以说,道路是曲折的,前途是光明的。

对于相同的刺激 回答不同 感觉是随机在同义词话术中挑选。

哈 nlp 卡壳了。搜索公司的backoff法宝就是搜索,卡壳了 就改成搜索结果。

卡壳以后 退到搜索以后 搜索结果有个质量控制,可能的结果做了排序。如果觉得搜索质量不高 或找到其他痕迹发现问题不适合做搜索。就用话术装傻:My appologies … I don’t understand(对不起 先生 我没听懂)。所谓“话术”,人工智能历史上称为“巧妙的欺骗”(artful deception,见《Church:钟摆摆得太远》)。这种欺骗是实用系统的永不过时的法宝之一。

thankful 的表述今天没听懂 但迟早会通过 bug 积累反馈过程 被听懂的 所以只要系统持续维护 机器对于日常会话 就会越来越应答自如 这一点没有疑问。语音交互虽然不像AI泡沫期望的那样立马改变我们的生活 但人机语音交互越来越渗透到我们和我们下一代的生活中 是一个自然而然 不可逆转的趋势。

知识问答 特别是开放类新闻查询 搜索的拿手好戏 这种搜索回应 不是退而求其次的后备应答 而是首选的答案。

所有话术都那么具有可爱的欺骗性,until 最后一句,莫名其妙回应说 this isn’t supported.

(顺便一提,上面终于发现一个语音转写错误,我跟 Google Assistant 说的是,you are both funny and sometimes amusing. 她听成了 and sometimes I’m using. 从纯粹语音相似角度,也算是个 reasonable mistake,从句法角度,就完全不对劲了,both A and B 要求 A 和 B 是同类的词啊。大家知道,语音转写目前是没有什么语言学句法知识的,为了这点改错,加上语言学也不见得合算。关键是,其实也没人知道如何在语音深度神经里面融入语言学知识。这个让深度学习与知识系统耦合的话题且放下,以后有机会再论。)

这就是胡乱来了。测试下来 发现句子一长 系统就犯糊涂。10个词以上就进入深水区,常常驴唇不对马嘴。

可是 即便后备到搜索 也不至于如此不堪啊 一点 smoothing 都感觉不到 整个一个白痴。再一想,估计是我原话中提到 long sentence 它给我找来一个讲 grammar writing 的博客。

所谓语音门户之战,看样子是个拉锯战,可能是持久战。呈两极三角态势。一极是搜索巨头,谷歌、百度,手里有海量知识和答案。另一极是社媒或零售巨头,离用户近,腾讯、脸书、苹果、亚马逊等。他们可以把端口部署到千家万户去。这两极各有优势,可以长期对抗下去。三角方面,似乎还有一个角,是给NLP技术或创业公司留着的。谁知道呢,也许在用户和知识源都不具备优势的时候,技术型公司会以NLP的亮丽表现异军突起,帮助或联合其中一极成就霸业,也未可知。

haha LOL,简单即王道。

王道是要有出口。上面的乱套是系统设计的毛病,不是AI自身的问题。

又看了一遍上列“简单为王”的反AI宣传片,又笑了半天。前后两个问题,其实是两种解决方案:前一个是产品层面的。产品设计需要有个 accessibility 的机制。当主人因故说不出话或说不清话的时候,应该有个类似为残疾人准备的后备机制。这方面苹果 iPhone 做得很好,它的 accessibility features 非常丰富 考虑到很多场景和小众残疾或不残疾的另类用户。第二个问题的解决方案是技术性的,机器人应该识别主人的声音,默认只听主人的指令。从产品层面看,起码应该是个可以 configure 的选项,不应该听到声音就去执行。

总结一下自动解析所依据的语言形式是什么。主要是三种:

1. 语序
2. 直接量(尤其是小词和形态)
3. 特征

前两种叫显性形式,特征是隐性形式。语言形式这么一分,自然语言一下子就豁然开朗了。管它什么语言,不外乎是这三种形式的交错使用,比例搭配和倚重不同而已。所谓文法,也不外是用这三种形式对语言现象及其背后的结构做描述而已。

摘自《自然语言答问》(to be published)

被搜索巨头20年潜意识引导/洗脑,人上网搜索的 query,第一不讲究语序,第二扔掉了小词(知道小词是 stop words 基本上被关键词索引忽略 有它无它不 make difference)。这就使得 query 其实不是自然语言,不过是一小袋词的堆积。作为显性语言形式,小词和词序很重要,因为自然语言很大程度上依赖语序和小词这样的语言形式,来表达句法结构和逻辑语义。这么一来,query 不是自然语言技术施展的合适对象。

在不知不觉就会到来的语音交互时代,query 被语音的 question 所取代,自然语言复归“自然”,这就为NLP/NLU发挥作用,创造了条件。人会不会把上网用的 query 坏习惯带到语音交互的现场呢?考察语音交互现场,可以发现,基本上人机对话的时候,有意识背离自然语言规范的做法,是很少见的。人说话虽然并不总是特别规范,但是从学会说话的时候就开始积累的语言习惯是难以人为改变的。至少不会像 query 那样“变态”和偏离自然语言。

这是NLP的福音。

回顾一下,历史上看NLP走出实验室的落地历程,大多是遇到特殊的机遇。第一个机遇是信息抽取(IE)。在IE诞生之前,NLP面对大海一样的语言,漫无目标,是 IE 让 NLP 瞄准实际的领域需求,预定义一个狭窄的清晰定义的情报抽取范围和种类。第二个机遇是大数据,不完美的NLP技术遇到了大数据,使得信息的大量冗余弥补了引擎质量的不足。第三个机遇深度学习,仍在进行时,现在看来海量语料的预训练可以帮助模型捕捉千变万化的语言表达方式。第四个机遇就是移动时代和物联网的到来,这使得语音交互开始渗透到人类生活的方方面面,反过来促进了NLP技术充分发挥其潜力。

有意思的是,与其说搜索巨头用一个小小的搜索框“教育”或误导了用户的查询习惯,不如说是用户在不断的搜索实践中适应了关键词技术。其结果就是那不伦不类的搜索 queries 的出现和流行。既然用户会通过正向反向的结果反馈,来慢慢适应关键词搜索不懂自然语言的短板,可以预见,用户也会慢慢适应不完美的自然语言语音交互。

怎么讲?

如果同一个问题有100个问法,其中80个问法是清晰无误的,20个是有歧义的,用户会慢慢学会回避有歧义的问法,或在第一轮被误解以后,会迅速返回到更加清晰的80种问法范围来。如果这 80 种问法,机器只涵盖了 60 种比较常见的,久而久之会出现这样的情形:一方面,只要机器还在持续维护和bug fix 的反馈回路上,所涵盖的边界会慢慢扩大,从 60 往上走。另一方面,用户也会学乖,慢慢倾向于越来越多使用更加常用的,已经被反复证实的那些问法中去,回到 60 的边界内。除了恶作剧,没人存心为难自己的助手,毕竟交互的目的是为达成目标。这样来看不完美的NLP技术,面对真实世界的场景,我们是有理由乐观的。

所有的软件系统,一个最大的好处就是可以确定地说,明天更美好。除非是非良定义或设计,同时开发维护过程也是非良的操作规程,软件的质量永远是上升的,最多是爬升趋于缓慢而已。因此,今天我们取笑的交互实例,我们为机器的愚蠢所困扰的方方面面,明天后天一定会逐步改良。

唯一感到有些可惜的是,语言工程本来是一个打磨数据的过程,很多工作应该可以共享的,避免重复劳动。但实际上,这种重复劳动还在大面积进行中,而且很长时间内,也看不到资源共享的理想平台、机制和架构,虽然预训练的资源共享看上去是在这个方向上迈进了一步,但有效利用第三方的预训练资源,帮助落地到本地产品和场景,依然是一个挑战。

【相关】

《Church:钟摆摆得太远

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【一日一析:“新买”、“新建”与“新修”】

白:“张三在北京新建的高科技园区里工作。”

“张三在北京新买的别墅里有两个菲佣。”

“张三在北京新建的高科技园区开工了。”

不能指望一本道了。必须走不齐。

李:谁买的?一定是张三吗?其实,也未必是张三新买的。非常有可能是他老爸老妈给他新买的,尤其在这个物价高企、啃老盛行的年代。

定语从句中的 args 毕竟非主线上,不是信息交流的要点。定从属于附带信息,除了较真的人,面对这类句子,没人去问谁新买的,或谁新建的,这样的问题。因此,没有答案,或答案模糊也没什么不可以。

“张三在新修的长城上拍照。”

为什么后者的主语施事不是张三?也许随他去。定语从句的 args 没那么要紧。

白:别墅那个,谁做了买的那个动作(谁付的钱,付的是谁的钱)其实不重要,张三取得了什么性质的产权也有得扯,但是张三达到了买别墅的效果,by default就是张三买的,如果有其他角色出来认领买的动作,可以override。没有就是他了,句法只能帮到这了。但即使有override发生,句法的贡献也不是负面的,只是说大家遵守的就是那样一种逻辑。

就好像,没说是什么鸟,我推断该鸟会飞,总是合情理的。你说出是鸵鸟,刚才的推断虽然被override了,但在信息不足的情况下做出那样的推断并不是一个bug。

李:”句法的贡献也不是负面的”,不错。不过,对于确定性不大的贡献,要看其求解难度来定是不是值得去做。往往可能费很大力气做出一个不重要或没啥实际价值的结果。更要紧的是,这样钻牛角尖,很可能弄巧成拙。细粒度是个好东西,但过细可能使系统精巧而脆弱。

ha 不该来的来了:“张三”新修(“长城”),“张三”没“拍照”?

“新买” 与 “新建” 的细微差别,使得一个单个的实体(“张三”)做不做逻辑主语 成为问题。这种粒度的知识推理实在太细了。到了“新修”,单个实体与群体似乎都可以做逻辑主语,这时候还要进一步看“新修”的对象是个啥东西。如果对象是“长城”,单个实体不可能做逻辑主语,如果对象是“厨房”,单个实体又可以了。细细琢磨人的认知心理,上面这些逻辑链条都有道理。值得去模拟求解吗?退一步看,虽然人的认知的确有这些细微差别,但是另一方面,人其实也不 care 这些细微差别。

白:“在北京”去掉了性质就变了。在……里,是一个形态显著的框式结构。“北京”融化在“……”之中,而且不排斥填“新建”的坑。另一个,“北京”填“新买”的坑不那么靠谱,所以让出来给外面的“张三”以机会。并不是光杆儿在比优先级。是里面发生了吸引/排斥,连锁反应传导到了外面。

【Parsing 标签】

1 词类:V = Verb; N = Noun; A = Adjective; RB = Adverb;
DT = Determiner; UH = Interjection; punc = punctuation;

2 短语:VP = Verb Phrase; AP = Adjective Phrase; NP = Noun Phrase;
VG = Verb Group; NG = Noun Group; NE = Named Entity; DE = Data Entity;
Pred = Predicate; CL = Clause;

3 句法:H = Head; O = Object; S = Subject;M = Modifier; R = Adverbial;
(veryR = Intensifier-Adverbial); NX = Next; CN = Conjoin;
sCL = Subject Clause;oCL = Object Clause; mCL = Modifier/Relative Clause;
Z = Functional; X = Optional Function

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【语义小品:首尾相接,天涯若比邻】

白:“姐姐走了小明很想念。”

想念谁?怎么建立起来的填坑关系?

李:首尾相接,天涯若比邻。假设输入文句的词串如下:T1 T2 T3 …… Tn, 首尾相连的示意图如下所示:

处于句首位置的名词性萝卜“姐姐”(通常所谓 主语或话题),正好可以跳过句点填补处于句末的谓词“想念”闲置的坑,作为其逻辑宾语。赞曰:句首萝卜句末填,万水千山只等闲。

“姐姐说走就走了 头也不回 我们都知道可怜的小明很是想念。”

白:“姐姐穿一件貂皮大衣 闪亮的高跟长筒靴在张三身上踩了一脚 扬长而去 李四甚是同情。”

事理角度,同情弱者,不在乎首尾。

李:“姐姐穿一件貂皮大衣 闪亮的高跟长筒靴在张三身上踩了一脚 扬长而去 李四甚是鄙视。”

说首尾相连 是说一种搭配趋向。不应该参入人为语义因素来看这样的 heuristic,那样的话 啥都说不准了。

君在长江头 妾在长江尾。其所以会有越过远距离有这种呼应,是有结构认知的依据的。首尾分别暴露在外,没有两端外的顾忌。这是其一。其二 语言结构嵌套,无论右递归 还是中心递归,最外面的两个 tokens 是天然的最大括号的承接者。如果一个恰好有坑 一个又多出个萝卜 那就离绝配不远了。

白:结构因素和认知因素、事理因素应该通过某种折算,摆到同一个平台上来。势力较量,无非加分减分。分值至上。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《朝华午拾:我的世界语国》

Mia Esperantio

除了已经死去的语言,语言的地理分布不难确认。可世界语国(Esperantio)在哪里?世界语者(Esperantistoj)会很自豪地告诉你:nenie kaj chie (哪里都没有,可又无所不在). Esperantio estas tie kie estas Esperantistoj. (哪里有世界语者,哪里就成为世界语国。) 这使我想起我的基督徒朋友,他们对精神家园也有类似的表述。圣经说(大意),哪里有基督徒聚会,哪里就是我的国度。

的确,世界语对我,有着宗教般的吸引力。当年初入北京世界语圈子,感受到的新鲜和温暖,使我一个外地人兴奋莫名,遂以全部热情投入。二十多年了,我的世界语国也经历了很多有趣的人和事。

== 昆明全国第一届世界语大会 ==

去昆明开会,是我的世界语之旅的第一次远行。我们北京一伙人,一路谈笑,亲如一家。同行有邱大姐(歌唱演员,文革时唱过家喻户晓的“我为革命下厨房”)和老大哥王彦京(一个很英俊的小伙子,是“老”世界语者了,常跟我们吹嘘他是黄埔一期,当年在大礼堂上百人接受文革后第一批世界语培训的光荣经历)。途中遇到一位山西姑娘,独自远行开会,起先不爱理人的样子。后来熟了,才知道她天性活泼开朗,完全不象北京女孩那样一本正经,是那种性情温和、相处让人舒服的人。都是年轻人,自然比较聊的来,一直相处得很自然愉快。接触一多,不时招来老大哥的善意讥讽:你那位 Shanxi-anino 呢?我当时已经悄悄地有北京女友了,岂敢有“不良”居心。后来,她嫁给了我的北京世界语哥们,算是昆明大会做的媒吧。一方面为朋友高兴,心里面还真有点嫉妒:这小子天上掉下来的福气。

给黄华副委员长做翻译

71届世界语大会前夕,中国科学院世协举办了一个国际世界语科技研讨会,有幸请到了黄华副委员长莅临讲话。世协本来安排外交学院世界语前辈沙地教授做黄华的翻译,可临场前一刻钟,沙教授忽然跟我说:“你年轻,脑子快,还是你上场吧”。天哪,我才刚学世界语不到一年,虽然仗着语言学出身和词典的帮助,阅读写作并无障碍,可是并没有多少机会练习口语翻译啊。沙教授看我犹豫,鼓励说:“你肯定行”。也是初生牛犊,糊涂胆大,这一激就呼啦上场了。往黄华身边一站,差点傻眼了,只见无数闪光灯袭来,眼前明晃晃一片白光。毕竟是外交部长出身,黄副委员长出口成章,抑扬顿挫,表情丰富。每说一段,就停下来等我翻译。我强作镇定,努力想复述,也只能挂一漏万。记得黄先生提到圣马力诺世界语科学院,我一时不敢确定圣马力诺在世界语怎么说,黄先生看我卡在那里,提醒道:“San Marino”。这次翻译实在不怎么样。表面上黄先生的每一段,我都应付了几句,但自己都翻译了些啥,根本没数。下场后,心里懊悔极了。我后来想,世协的主办人肯定更加懊悔,没想到半路杀出来个愣头青,早知沙教授临场换人,他们一定会安排其他世界语高手出场,北京世界语界可是高手如林。黄华啊,岂是等闲人物,绝不该有半点差错。不过,这次赶鸭子上架对我个人的命运却非同小可,它成就了我的婚姻。我的太太就是冲着我曾是黄华翻译,才同意跟我见面,最终结成良缘的。当然,这是后话了。

== 给 Frank 教授一家演示世界语机器翻译 ==

圣马力诺世界语科学院院长、西德控制论专家 Frank 教授是致力于世界语和科技相结合的头面人物。Frank 一家都热衷于世界语活动,在71届世界语大会前,他携夫人和女儿全家来访。来之前,信息管理系主任、老世界语者欧阳文道跟我联系,安排我为 Frank 全家现场表演我编制的世界语软件:一是我的硕士项目,一个世界语到汉语和英语的自动翻译系统(叫 E-Ch/A),二是我编制的一个英语到世界语的术语自动转写系统(叫 TERMINO)。这是他接待 Frank 教授的一个重头戏。我于是认真准备,在机房等待欧阳先生陪 Frank 全家进来。我的印象是,Frank 教授西装革履,风度翩翩,他太太雍容华贵,和蔼可亲,两个金发女儿,也亮丽鲜艳。我用世界语招呼客人后,一边讲解,一边演示。果然,Frank 教授一家对我的两个系统兴趣浓厚,当场试验了几个句子和一批术语,连连称赞。Frank 当即问我,你能尽快把该系统的概述给我的杂志发表么?我说,已经提交世界语科技研讨会了。教授说,没有关系,我们不介意,只要你允许我发表即可。Frank 教授回国后,以最快时间在他的控制论杂志作为首篇刊发了我的系统概述,这成为我学术生涯上在科技刊物正式发表的第一篇论文。我也被吸收为圣马力诺世界语科学院成员。不仅如此,Frank 教授随后在他给陈原和欧阳文道诸先生的探讨中德合作计划的长信中,强调要资助立委硕士到他的实验室继续开发这套系统。可惜,由于种种原因,我未能成行。(见《朝华午拾:一夜成为万元户》

== 北京71届国际世界语大会 ==

1986年北京首次举办的71届国际世界语大会把中国世界语运动推向了高潮,成为全国世界语者的狂欢节日。我作为世界语“新秀”,有幸参加了从大会预备到终场的全过程(后来了解到,由于当时的政治现状,很多外地资深世界语者没有得到参加盛会的代表资格,严重打击了同志们的热情)。

立委在大会门前与老世界语者语言学家周流溪老师留影

当时的国际形势也很微妙。东欧还处在苏东崩溃的前夕,意识形态控制比中国还严。我遇到几个保加利亚和罗马利亚的世界语者,很神秘地告诉我,他们的世界语代表团安插有政工,专事监督他们,必须倍加小心。在亚洲,两伊战争正酣,国家施行铁血控制。我结识了一位优秀的伊朗青年世界语者(忘了姓名了,很是个人物),她很活跃,聪明过人,反应极快,积极牵头组织世界青年世界语者的活动,曾表示希望我作为中国青年世界语者召集人,跟她配合。我问她,你要是遇到敌国伊拉克的世界语者,怎么办啊?她毫不犹豫地说,我会上前招呼握手,跟他/她交朋友,我们世界语运动的宗旨,不就是加深理解,消除仇恨,实行世界和平么。她也告诉我,在她国内必须小心,随时可能被送进监狱。象她这样抛头露面比较西化的人,恐怕早已上了黑名单,是政府盯梢的重点。“不过,我不怕,我有对策”,她很有信心地说。大会以后,我跟这位优秀的世界语者还保持通讯了一些时日。

漂亮的伊朗世界语者

说到伊朗世界语者,还遇到一位姑娘,身材高挑,皮肤白皙,极为漂亮,可惜世界语只是初级水平,不易沟通。她是由母亲(也很年轻,有人说她们是姐妹)带领来参加盛会的。漂亮姑娘谁不愿意多看一眼,所以在大会组织到长城游览时,我就有意无意跟在她一拨登长城。记得在长城半路,遇到外院一批小伙子下长城,这几个挺帅气的小伙子同时在少女前停下来,惊为天人。他们毫不掩饰地赞叹,天哪,你怎么这么漂亮。(我还是第一次听到中国小伙子当面夸姑娘漂亮,但是他们的率真很可爱)。姑娘微笑不语(大概也不会英语),小伙子于是转向她的妈妈:“Your sister is so beautiful”。妈妈说:“Thanks. But she is my daughter.” 言语里透出无限的自豪骄傲,看样子她当年肯定也是个大美人。后来我想,原来,人的爱美之心都是一样的。记得当时,北京电视台摄影记者大会采访,也随我们登上了长城,跟我们一样兴奋,制作了关于世界语的一个文艺片,还配上了很好听的歌曲。(真的是好制作,可惜只播放了一次,不知道有没有有心人存录下来)。

人都说世界语不是任何人的母语,只是部分无产阶级或者小资产阶级的业余爱好。其实,因为热衷世界语的人往往喜欢国际交往和各处旅游,结果成就了很多婚姻。这样的世界语家庭里面已经出现了一批母语(家庭用语)是世界语的后代。71届世界语大会时候遇到过一批来自欧洲的这样的少年,他们很自豪地告诉我:“Ni estas denaskaj Esperantistoj” (We are Esperantists by birth)。

当时我们北京世界语者有一个据点,就是美术馆附近王艾姐妹的家。王艾长着一张总也不老的娃娃脸,好像也是黄埔一期的。她姐妹俩典型北方人性格,为人热情爽朗,会张罗,结交广,富有幽默感。到她家,就跟到自己家一样感觉亲切自在。世界语文艺片播放那天,我们一拨人于是相约到她家看。遇到国外世界语朋友来访,我们也常常带到王艾家聚会。

大会期间,还有一位男的日本世界语者跟我们交往颇深。恰好赶上我哥哥来京,于是我兄弟俩和王艾一起陪同日本朋友逛圆明园,然后召集一批世界语朋友在王艾家晚餐聚会,热闹非凡。

拉宾小姐演出之余

王艾最得意的就是她抓拍了一张世界语大会期间拉宾小姐演出之余的照片。这的确是一幅摄影杰作,画面干净利索,色彩鲜艳,人物神态,栩栩如生。难怪照片洗印店的老板把照片放大摆放在门前作为招徕顾客的样榜。

值得一提的是,我在这次大会上,结识了一位国际世界语界大名鼎鼎的人物Victor Sadler 博士,并与他保持了多年的交往(特别是他在BSO从事机器翻译研究期间,后来我去英国留学,他不但给我写了推荐信,还解答了我选择学校的困惑:他告诉我,论名声和学术,应该去剑桥大学;要是想继续从事机器翻译研究,应该去曼彻斯特的UMIST计算语言学中心;如果想学人工智能,爱丁堡大学最佳)。他是剑桥大学的语言学博士(后来跟我一样成为计算语言学家,从事机器翻译的研究,他首创了利用自动句法分析过的双语语料库施行机器翻译的统计算法,比后来盛行的同类研究早了5-10年),长期以来是国际世界语协会的头面人物之一,当时是国际世界语协会的财务总监。他平易近人,有长者风范,约我到他饭店面谈,对我的世界语机器翻译研究极感兴趣。他问我是否就我的研究给大会的科技演讲提交了提纲,我委屈地说,提交了,但是没有被采纳。他微笑,有点可惜的样子,没有做进一步的解释。后来我得知,国际世界语大会的科技演讲,不仅仅要所选课题对路,水平好(这两点,我已基本做到),还要看研究者的资历,起码是博士,最好是国际知名教授(记得当年的演讲包括陈原教授的和Victor Sadler本人的。陈原的演讲妙趣横生,不愧为大家。Victor Sadler 讲的是涉及世界语的电脑处理,属于我的计算语言学专业)。我一个第三世界的硕士生刚毕业,根本谈不上。

2006年四月十六日
于美国B城

【相关】

【立委小传】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录



《微信群笔记:深切悼念语义宗师董振东先生》

帅:中文信息学会 讣告 | 董振东教授逝世

李:震惊。深切哀悼!

宋:惊闻董老师去世,十分悲痛。董老师的成就令人钦佩,董老师的科研价值观引领我们前行!

金:90年代初各种计算语言学会上都能碰见董振东先生,受教多多。董先生千古,一路走好🙏🙏🙏

邢:深切悼念董老师   先生风骨精神,求真求实,我辈追随榜样!先生千古!

梁:惊闻董老师去世,非常震惊和悲哀!先生精神永存,永驻我心!

Nick:@wei 伟哥应该写篇纪念文章

李:绝对的巨人和恩师。深切哀悼! 董老师从未停息对nlu的研究 一直在做系统 让人折服。在很长的时期 董老师是中国nlp和mt与世界的接口。语义宗师 一代巨人 高山仰止。

洪:如果允许,咱群凑份子联名送个花圈花篮啥的,@wei @Nick Zhang

Nick:@wei 伟哥牵个头。

李:董强谢谢大家,说后事从简,已经办完了。

白:董老师在本群的交流中为我们贡献了宝贵的精神财富,无论在解说HowNet的顶层设计思路方面,还是在评价NLP最新进展方面都是金句叠出,振聋发聩。本群失去了一位巨匠级的群友。董老师在群里交流的那些话题值得我们结合各自的学习工作实际,长久体悟。

施:沉痛悼念董先生。最钦佩董先生的知识分子风骨,我们学会有次换届,他大骂一些学霸领导的场面历历在目。特别解气。我们做不到。有次他举办知网国际研讨会,问我能否支持。我给了5万元,他也只是淡淡的说了声谢谢。知识分子啊!!

洪:CNLP用知网,// Chinese NLP
基础资源WordNet相当。
当年请来百度讲,// 2005
老当益壮携董强。

李:重发旧文 《语义三巨人》深切悼念董老师。先生千古!

洪:应该四巨人,作WordNet的George Miller绝对是心理语言学大家。

李:论影响力 是的 @洪涛Tao 可能我有偏见,我对 WordNet 意见很大。我以前倒是觉得 Wilks 可算上第四语义巨人。

洪:Miller和Chomsky同时代,基本上平起平坐。他的 science of words很科普。

李:最后一次收到董老师信息是2月17号。董老师发来的是郑钧的《长安长安》,我一直也喜欢郑钧的。不过此前 我与董老师从来没有议论过音乐。

回想起来,过去一年,董老师在微信群上越来越少见到了。不是他不关注,估计是终于精力不济了。

白:董老师对ontology一直很敏锐,总觉得他有高见没有说出来。能早十几年就在ontology层面不满足于taxonomy而想到去做类似当今事理图谱那样的东西,真的是高屋建瓴。董老师对“部件”也是有话要说,我一直期待他的高论……

Nick:old soldiers never die, they just fade away.

洪:
老兵不死留枪支,弹药充足后人使。
老兵升天入云时,依旧深情地俯视。

张:一代宗师 我的恩师 心痛不已~~~董先生风骨盖世,学识惊人,成就人类文明——“译星”、“知网”闪耀人类创新创造历史。

董振东语录:

1)“我们老了,但机器翻译还年轻”———1996年泰国机器翻译峰会之中日印马泰多国语机器panel 上的感慨;

2)“我这一辈子做了二件事,一件是别人不愿做的事,一件是别人做不了的事。”

3)规则的机器翻译是傻子,统计的机器翻译是疯子。

刘:董老师还有一句话我印象非常深刻: “我就是个工匠”。那时候还没有工匠精神的说法。

李:@张桂平 老师,董老师说的这两件事儿 后者是 《知网》 吧 那的确是别人做不了的事 需要超凡的智慧和耐性。别人不愿做的事呢?科研一号/译星 还是 日本多语项目中方负责人?

姜:@白硕 嗯!谢谢老师的指导!  董老师在军科跟我是一个研究室的,也跟我住邻居,是“科译一号”的研发组长。九十年代我和领导战友们在军科后山散步,经常看到他和儿子一起散步。见到他时大家就一起说说笑笑,气氛融洽,甚为欢快。后来到他家请教过几次。他亲自打开电脑给我讲hownet的设计思路,还当场用他定义的“义原”对几个词做了定义和修正,而那时其实他已经重病在身了,他身体力行不屈不挠不计回报敢为天下先的工作精神真是让我敬佩,给了我很大的激励。后来又作为我的博士论文答辩小组组长,给了我很好的指导。昨天惊闻先生逝世,心肝悲痛,愿先生千古,永垂不朽!🙏🙏

李:最近几年董老师专注于 运用知网做语言深度解析和理解 尤其在中文理解方面。这与我最近几年的着力点非常吻合 所以群里和私下我也常请教 我们常有交流。大的方向和技术路线是一致的。董老师更多运用知网的知识体系和某种常识推理解析中文英文。解析结果更加靠近他构建的逻辑语义表达 解析深度更接近理解。就是说比我做系统更加细线条 虽然我做的工作比多数系统已经很细线条了。在广度和鲁棒性上 感觉董老师所做的工作 限于资源有限 还未充分展示其潜力。

把董老师介绍入群是我的主意。我知道董老师对于nlp和ai话题特别有兴趣 常见他在 linkedin 里面与人讨论相关话题 于是想到他对我们常讨论的一定会有兴趣的。于是尝试联系询问。董老师以前不怎么用微信 我就跟董强夫妇商量 他们也同意 觉得董老师如果能参与我们的 nlp 话题 是很好的事情 对于董老师身心健康也有好处 我们后辈自然也亲身受益。于是先尝试让董老师用董强的id入群观察 最后水到渠成 他就加入了。特别是白老师的语义群 很多是他的学生 同事和仰慕者 很快就融入了。过去两年 有了董老师的参与和教诲 群里的讨论更有深度。我们共同度过一段与导师直接互动的难得的时光。

【相关】

讣告 | 董振东教授逝世

语义三巨人

与董老师对话:什么是知识图谱?

《语义沙龙笔记:结构被神经编码了吗》

立委按:说深度神经三位先驱者坐了20-30年冷板凳,终于迎来了图灵奖。董老师坐了30多年冷板凳,还基本上是藏在深山人未识。《知网》未必不是一个图灵级别的对于人类认知的贡献。

詹:


有道翻译太牛了!

王:这也太达意了,牛!

白:“张三为李四写了这篇论文而后悔不迭。”

看点:1、论文可能是张三写的,给李四当枪手,写了以后后悔了,也可能是李四写的,idea跟张三撞车了,张三后悔自己下手慢了。2、“为……而……”属于“套路”句式,即所谓“构式”,具有强搭配特性,优先级很高。3、一般性的“VP1而VP2”中,VP1与VP2在语义上要么高度平行,要么高度对立,既不平行又不对立的填入这个结构的优先级很低。一进一出,当枪手的解读式微,论文撞车的解读看涨。如果一定要表达当枪手的意思,要么把“为”重复成两个,要么把“而”去掉。话说,两个因邻近而重叠的小词缩合为一个,在语音上也是可以成立的,在无伪歧义的场合尽管用,但在有伪歧义的场合不占优。具体到本例,也就是“为+为—>为”这个动作不占优。或者说,虚增一个与后面“而”呼应的“为”,不足以对抗另一个解读。

“刘为为为为为人民而牺牲的烈士立碑的劳动者献花。”

这个跟“一把把把把住了”有得一拼。

吕:神经网络是不善于数数的

白:

这个是枪手解读。前一个干脆不管几个“为”,意思到了,没人竞争,就他了。多出来的就当你结巴。不仅可以无中生有,还可以视而不见。

宋:三个介词连用,漂亮的嵌套:
第二家加拿大公司因被发现害虫而被从向中国运输油菜籽的名单中除名。

刘:第二家加拿大公司因被发现害虫而被从向中国运输油菜籽的名单中除名。Google翻译:The second Canadian company was removed from the list of transporting rapeseed to China due to the discovery of pests.

白:discovery不好

刘:结构都对了

白:那倒是。这个结构看起来叠床架屋,但其实不受干扰,是所谓“一本道”。discovery太正面了,单独看跟科学成果似的。放在这个语境里也对冲了负面色彩。

刘:要知道神经网络机器翻译是完全不用任何句法信息的,能正确理解这样的复杂结构,很神奇了

白:结构被编码了

白:张三因被发现考试作弊而被从向欧洲派遣的留学生名单中除名 John Doe was removed from the list of foreign students sent to Europe after he was found to have cheated on a test –来自 @彩云小译

刘:张三翻译成John Doe,很有意思了

白:留学生一定是“foreign”?接受的是,派出的不是啊。这是有坐标系的,估计数据太稀疏,这些都顾不上了。一本道的嵌套就相当于parity,难不住神经的。这个found比discovery强。

刘:如果是Phrase-based SMT,这种句子应该是翻不好的

梁:

李:越来越多复杂结构句子,在神经MT翻译中居然对了,以前以为只有深度解析才有望解决的问题,居然在端到端,没有任何显式句法支持的情况下做到了。这种“奇迹”,连在神经第一线的@刘群 老师也不时赞叹。说明这里面的机理不是很清楚,尽管笼统说来,可以说是结构在大数据训练中被合适地编码了。

姜:这是个有趣的问题。非要有显式句法支持,才能翻译复杂结构句子,是一种想当然。

李:是不是“合适”编码了,也难说。因为一方面我们看到了一些翻译对了的”神译“,另一方面我们也看到一些神经过头的乱译。目前似乎也没有办法回答这个疑问:对了的和错了的,是不是共生的。大而言之,我们知道,起码目前的神经翻译,通顺是建立在损失精准(有时候简直到了张冠李戴、指鹿为马、视而不见和无中生有的严重程度)的基础上。还好,起码对于新闻、科技和日常用语等,所损失的精准虽然可能很严重,但频度还不是太高。

梁:科学的精髓  ——  敢于犯错误

李:疑问是,如果机理不清楚,所犯的错误就难以改正。是不是糊里糊涂一本帐,还是改进的目标还算清晰?是不是可以说,结构不是真正的坎儿,标注大数据才是。MT 让我们目瞪口呆的神翻译,似乎已经部分证明了,复杂结构是可以被标注大数据“编码”的。

白:机译可不可以做得更好,我兴趣不大。我更关心各种场景化应用,机译这条路线是否走得通。按正确的结构标注大数据,意思就是,what由人工解决,how由智能解决。how又分两种,一种是歧路,一种是伪歧义。对付歧路,不需要人工。对付伪歧义,必须人工。对付歧路,强化学习、自我标注就够了。

李:NMT中的伪歧义表现在哪里呢?

白:比如上面例子的“留学生”。在不同语境下对齐的词汇不同,但向外派遣,就不该是“foreign”。

李:不仅仅是 NMT,这个一错就可能错得离谱的问题是普遍性的,图像和语音中都有这个问题。what由人工解决,how由智能解决。这种说法是想对神经与结构进行“紧耦合”。不是没人想做,但总体上迄今还是一头雾水。这两个冤家不容易往一起捏。

白:“我是县长派来的”就是歧路不是歧义。全局解唯一,暴力搜索一定能得到。但是暴力搜索的目的是做正确的标注。实时解析策略是通过标注数据训练出来的。紧耦合无所谓,因为神经的那一半压根儿就不需要人工干预。归根结底还是what不给力。

李:what 从语言结构的角度,是有共识的。起码语言学家对于一个句子的依存结构,分歧并不大。如果分解为二元关系,分歧就更小了。分歧多表现为“如何”得到这个结构,而不是这个结构是什么。尤其是 PSG,如何得到决定了树的不同。到了 DG,“如何” 的影响明显减弱。从逻辑语义角度看,what 是有共识的,有很强的确定性,大同小异的。

白:好像不见得。比如“咬死了猎人的狗”公认有歧义,“咬死了猎人的羊”有没有歧义,语言学家未必分歧就小。如果语言学家的共识是后者也有歧义,那就洗洗睡吧,NLP肯定指望不上了。

李:说共识与否,还是要有个量和频度的概念吧。

白:标注即投票?神经的强项就是拎得清此时此刻的力量对比。让语言学家投票,未必拎得清。

李:找个例,很容易忽视量和频度。就说 “咬死了猎人的羊” , 粗分一下,是三个实词(“咬死” 算一个词):咬死(A)了 猎人(B) 的 羊(C)。看看 ABC 之间发生的二元关系,哪些是共识,哪些有疑问。AB 动宾 这是一个二元关系(候选),算是共识。AC 是定语关系,也算是共识;BC 是定语关系候选,也是共识。AC 动宾候选,也算是共识。

白:等等。这里,what必须表达“候选”。如果没有这个表达能力的what,必须靠边了。这在语言学家中也不容易达成共识。

李:总之,即便是个例,如果细分下来,共识的部分还是占多数。如果与常态化语言表达法平均一下,可以说,语言结构没有多少争论的空间。

白:这个平均,在长尾面前无意义。

李:我觉得 问题的关键不在 what 不清楚,需要在 what 上再有突破。关键是,已经知道的 what,也没有有效的办法被神经利用和吸收。两年前遇到刘挺老师,谈到这个问题,问神经这条道,啥时可以利用句法或逻辑语义。他直摇头,说不好办。不是一条道上跑的车。

白:光说动宾不行,光说动宾候选也不行。如果说,句法就送你到这儿了,剩下的看造化。这当然不行。必须把所有的资源摆在那儿,让神经去选。语义的,情感的,事理的。这也是很多语言学家不具备的。可以设想,如果有一个可供神经对接和挑选的“知网”级别的基础资源,局面会大有不同。

李:唉,送上门也未必有人有兴趣 and/or 有能力去用。看吧,看今后五年。今后两年 神经还可能往上走,很多人有这个信心,所以没有兴趣是主因。今后五年,那就是能力的问题了。

白:还可以设想,如果标注人员戴上一种设备,就可以通过追踪眼动或者捕捉神经信号获得标注,语言学家真的彻底不需要了。

李:说深度神经三位先驱者坐了20-30年冷板凳,终于迎来了图灵奖。董老师坐了30多年冷板凳,还基本上是藏在深山人未识。《知网》未必不是一个图灵级别的对于人类认知的贡献。就是用起来殊为不易。

白:可惜董老师不待见神经,也不待见图谱。

李:知网就是本体常识图谱。不待见神经 倒是真的。知网与图谱的距离,最多是工程层面,本来可以有一个更好的实现与接口。

白:不是的。事理的层面,知网超越市面上的图谱。工具的层面,知网弱于市面上的图谱。

李:对呀。多数图谱很肤浅,没法望其项背。

白:此外还有一个适配的问题。各种可用资源参与力量对比,必须折算到统一的度量。知网没有这个度量。分析器玩的就是力量对比。神经倒是未必一定要有,但统一的度量一定要有。

正解压制伪歧义的依据,修辞用法压制一本正经的胡说八道的依据,就是包含词法、句法、语义、语用、情感、事理在内的各种力量的综合对比。首当其冲的,就是把各种力量经过折算放到同一个平台上来。把资源捂起来,只留下标记,不仅没有资源的人学不到真货,有等价资源的人也得连蒙带猜。这资源是what的应有之义。

李:把结构扁平化(譬如嵌套表层化}和原子化(譬如分解为二元关系)变为特征 对于深度学习 没有多少吸引力。如果不简化 也不知道从何入手。

白:结构的嵌入可没这么肤浅。向神经要潜力的话,表示(what)没什么好做的,把功夫下在控制(how)吧。表示就是语言学家、领域专家、知识工程师自己的事儿。另外,就数学本质来说,符号串的代数基础是幺半群,神经的代数基础是矩阵(线性变换群)。这两个群都是非交换的,深层次里有互通的基础。所以嵌入结构是正常的。

宋:@白硕 向神经要潜力的话,表示(what)没什么好做的,把功夫下在控制(how)吧 这个观点我挺有兴趣。能否详细阐述?谢谢,@白硕 我最近一个理论是大脑除了基于矩阵的目前人工神经网络用得多的系统,还有一套控制系统。所以也许能把几何和代数统一起来。

白:可用的资源、输入输出都是符号表示,中间的计算是神经表示。输入是符号序列,输出是操纵符号的动作。有些动作是有副作用的,需要记忆。操纵符号的动作改变符号,类似“重写”,但是不限于“重写”。当你输出一个dependency link时,符号之间的邻居关系改变了。

宋:Causal Reasoning from Meta-reinforcement Learning,我最近看到这篇 arxiv 上的文章比较有趣。我在想 control 这边也许可以放到一个 meta-reinforcement 的框架里面最终去解决。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《朝华午拾:Wonder Years: 青涩少年记事》

上个世纪74-75年左右,大概是初三的时候,学校组织我们学军,长途拉练,步行100多里路,去皖南新四军旧址云岭和茂林参观。我比较弱小,那次长途跋涉,真把我坑苦了,一辈子也没有走过这么远的路程,似乎没有尽头。学生队伍前后拉了好几里路长。我一瘸一拐,一根一根电线杆数着往前挪动。终于,有同学报信说,目的地已经在望,就是前面的那座小山。于是,鼓作最后的勇气。可望山跑死马,看着就在眼前的山,还是走了一两个小时,直到天快黑了才赶到。

吃罢晚饭,学校把我们安排在一个大礼堂里面休息。一屁股坐下去,就瘫软在地,居然再也起不来了。脚也没洗,在同学帮助下,挪到临时搭起的铺子和衣睡下。第二天早上,全身没有一块筋骨不疼,勉强可以站立。

虽然很狼狈,对于拉练在外的生活还是感到新鲜兴奋。特别难忘的是参观新四军事迹展览时和女同学耳鬓厮磨的经历,连带当时的心跳、惶惑和尴尬。

我们那个年代,男女生有一条无形的界限,在校园很少交往。不过,我是学习委员,在班委会活动中还是跟女班长和女团支书有工作往来,彼此印象都不错。尽管文化课已经不是学校主业,大概是惯性,学习好的同学还是自然受到青睐。不过她们都比我大两岁,感觉是姐姐一样的形象。女班长是个假小子,面色黝黑,作风泼辣,相处很愉快,但感觉是哥们儿。团支书端庄秀气,能干老练而不失文静。我平时到城外后桥河去游泳,每次经过她家门前,总见她在门口坐着织毛衣,仪态娴雅。她见到我也总落落大方地招呼一声,可我总自我感觉灰溜溜的,不知如何回应。

拉练在外,男女生就比较亲近起来,不象在校园那样拘束,这是当年学工学农学军最让人兴奋的地方。第二天参观新四军展览,不知怎的,跟团支书混在一起,她个头比我略高,站在身后,挨得很近,耳边是她温热的气息。我们两个人拉在最后,仔细切磋揣摩那些展示的图片和实物。两人很默契,一步一步向前挪动,有意无意身子碰到一起。我心痒如蚁,强作镇定,不敢回视。

那一年我14岁。西皮居士有诗云:

野营拉练知何似?跑马望山苦嫩兵。
学军之意不惟军,立委心飞云雨情。

记于2007年二月十九日(阴历大年初二)

《朝华点滴:老队长的歌声(3/3)》

敲锣打鼓把我们迎进村的老队长跟我们走得最近。事无巨细,他都爱来管,自然充当了知青监管人的角色。我们插队的时候,正是老队长大家庭最鼎盛的时期:五个孩子,三男二女,人丁兴旺。老伴操持家务,任劳任怨,对人热情有加。大儿子山虎算我们哥们,比我略长,但长得比我还矮小一大截,似乎发育有问题,但干活并不赖,是个整劳力,担任队里的记分员。山虎小学毕业就回乡种田,作为长子,与女民兵姐姐一起,帮助父亲分担家庭重负。三个劳力,加上两个弟弟拾粪、放鸭,放学做点零工,一家人挣足了工分。这个家庭的红火兴旺,加上老队长的威信,可与家有四朵金花的光头队长一比,这两大家是村子里六七十户人家里面的显赫人家。老队长的家也是我们的家,在他家里我们感觉在自己家一样地自在。一家都是热心人,包括最小的六岁女儿,我们一来,就手舞足蹈,欢呼雀跃。家里做了好吃的,老队长就把我们叫去。大娘从不抱怨,总是笑吟吟默默在一旁伺候我们吃喝。

山虎很活跃,实诚热心,跟我们知青亲如兄弟,给了我们很多帮助。他总是随身带着他的记分簿,满本子是他的涂鸦,只有他自己能看懂的那些工分记录。我见过不少字写得差的人,我自己也一手烂字,可把汉字写到他那样难看,那样奇形怪状,不可辨认,还真不容易。我离开尤村上大学期间,我们一直保持着联系,每次读他的信都要辨认老半天才能猜八九不离十。他每封信尾总是画点图示,两只手紧握啊,或者一颗心系上一条线,朴素地表示他对我们友谊地久天长的祝愿。

老队长是村里德高望重的人物,他清瘦黝黑,尖小巴,身子骨健朗,谈笑如洪钟。他哪年当的队长,哪年让位给光头小队长,我们不很清楚。只知道老队长是退伍军人,识文断字,见多识广,是尤村的核心。我们的到来,老队长异常兴奋。他跑前跑后,张罗安排,滴水不漏。只有一件事,我感觉有些滑稽,内心有抵触,却不敢流露:老队长雷打不动,每周要组织我们政治学习和座谈一次,一学就是一夜。每当这个时候,老队长就把家里的大小孩子统统驱离,把煤油灯点得亮亮的,一点不心疼熬油。他不苟言笑,正襟危坐,特别严肃深思的样子。记得他组织学习《哥达纲领批判》,一字一板地阅读,那样子很象个教授,可从来也没见他有自己的讲解。对于马列,我只在中学迷恋过“政治经济学”,对于其他著作不是很懂。我听不明白的,他其实也不懂,毕竟他也就小学毕业的文化程度。当时我就好奇,他心里在想什么。为什么对那些深奥难懂的马列原著那么热衷,而且总摆出若有所思的样子。我当年自觉是个小毛孩,老队长是可敬有威的长者,是我们的依靠,即便心里有疑惑,也从不敢追问。这样的学习一直持续到我离开尤村。

老队长唱歌富有磁性,略带沧桑,很有魅力。记得在水田薅草的时节,暖洋洋的阳光,绿油油的禾苗,春风和煦。老队长一边薅草,一边张池有度地唱起歌来。听上去有点象船工号子,声音高高低低的,随着风,一波一波袭来,抑扬悠长,不绝如缕。那是怎样一种有声有色,和谐无间,引人遐想的农耕图景啊。

很多年过去,老队长的歌声却一直留在我的记忆中,虽然我从未搞清这首歌的来历。直到去年,女儿的 iPod 新增的一首歌,一下子把我抓住了。这歌当然不是老队长的歌,可曲调内蕴与老队长的歌神似,是它复活了我心中掩埋已久的歌。每当歌声响起,老队长的面容身影,广阔天地的清风和日,单纯悠长的田家生活和劳动的场景,就在我眼前浮现。 我问女儿这是什么曲子。女儿一副我是土老冒的惊讶,这是 Akon 啊,那首红透半边天的歌曲 don’t matter 啊。这首黑人歌曲2007年一出品,很快在电台热播,连续两周居于排行榜首。我惊喜,也感到诧异,远隔千山万水,神秘古老的中国民间小调居然与带有美国非裔色彩的黑人歌曲如此契合。甚至我在 Akon 本人身上也隐约看到黑瘦干练的老队长的身影。

请移步欣赏表演(土豆):
Akon: don’t matter

youTube (需要翻墙):
https://youtu.be/JWA5hJl4Dv0

我大学毕业的时候曾回村探望,那时老队长已经离开人世,是癌症夺走了他的生命。女儿远嫁,传回的消息是女婿赌博被抓进了局子,二儿子肝炎治疗不及时丢了性命。大娘经受这种种打击,显得衰老无语。家庭再也没有了欢声笑语,只有山虎撑着这个家,快30的人了一直未娶媳妇。谈起来,他总是苦苦一笑,说不急,先把弟妹上学供出来,自己的事可以放一放。我的心沉沉的,感伤世事无常,那么鼎盛兴旺的大家先失了顶梁柱,复遭种种不幸,如今如此零落。那记忆深处的歌声在我心中也更加增添了些许沧桑的苦涩和无奈。

至于原歌,现在也忘记具体曲调了,就是那种陶醉心迷的印象还在。认准了 Akon 以后,今天就是真的那个曲子再现,我不敢肯定我是否还能识出来。 就 Akon 吧。

【相关】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《插队的日子(2/3):与女民兵一道成长的日子》

往事如烟:前天寻访旧地,遇到了插队时的那位女民兵,《朝花》里面写过的姐妹花中的二妹,如今也是子孙绕膝了。

现在才梳理清关系,原来老队长和新队长是村子里联姻的两大旺族。敲锣打鼓欢迎我们三位知青入乡的老队长一共兄妹仨,妹妹是赤脚医生,就是我们的东家,当年也对我们很照顾。老队长的弟弟娶了新队长的二妹(比我岁数大,我应该叫二姐)。照片就是他们的全家福。老队长和他姐弟三家都在这个池塘边不远。池塘边还有分给我们知青的菜地。

二姐现在的家

重返旧地巧遇二姐。二姐说,维当年就是学问人,会英语,老在家听英语广播。那是我把家里的晶体管收音机,带到乡下,为了听安徽台和江苏台的英语广播讲座。文革年代不知道哪位领导批准的 很多省开办了电台的英语讲座 是当年难得的外语学习机会了。二姐告诉我,三妹小妹如今日子都还不错。三妹不远,就在镇上。小妹在外地做工。

原立委按:朋友说想写点回忆,可是老是瞎忙,就明日复明日地推下去。我的回答是: 不要等。老了有空闲,但不见得就写得出来。我插队一年,那些往事就已经连不成片,感觉将去未去,恍如隔世,想写写不出来,很别扭。分享是人生的一个重要部分。插队的日子,只留下零星的记忆碎片如下:

《朝华午拾: 与女民兵一道成长的日子》

我1976年高中毕业下放到皖南山区烟墩镇旁的尤村。不久赶上了“双抢”(抢收早稻,抢种晚稻),真地把人往死里累。双抢是一年挣工分的好季节,给双份工分,有时甚至给三倍,连续20多天,天不亮起床,到半夜才回,再壮的汉子都要累趴下才能休息半天。人民公社给双倍工分这种变相的资产阶级的“物质刺激”很厉害,不管多累,人都不敢懈怠,你怕累少上工,工就给别人赚去了,到年底分红,你分的稻谷、红薯和香油也相应减少了。其实,羊毛出在羊身上,每年生产队的收成是一个定数,工分多给少给不过是一种财富再分配的方式而已。如果单纯依靠农民的社会主义干劲,双抢跟平时同等工分数,工分总量下来了,单位工分的价格提高了,就没有物质刺激出来的积极性了。谁说经济学在一大二公的人民公社没有用处?

生产队照顾城里娃,工分给高些。于是给我们三个知青各开七分半工,相当于一个妇女全劳力的工分,包括早饭前上早工两个小时,否则只有六分半。那年十分工值RMB0.65元。我在妇女堆里干了半年多,年底分红,赚回了所有的口粮,外带半床红薯和四五斤香油。

妇女全劳力多是年轻的姑娘或媳妇,个个都是干农活的好手。尤村的十几位风华正茂姑娘组成了一个“女民兵班”,不甘寂寞,活动有声有色,曾名噪一时。不过到我去的时候,已经式微,因为其中的骨干大都到了嫁人的年纪,近亲远媒各处张罗,集体活动不能继续。尽管如此,跟女民兵在广阔天地一道成长,在当时是充满了革命浪漫主义的色彩的,让人沉迷和兴奋。干农活的辛苦也去了大半。

我们村村长人很精明,但脾气暴躁,又是光头,让我既怕又厌。倒是他家四个姐妹一个个如花似玉,大妹妹记不得见过,应该是外嫁了。二妹三妹都是女民兵班的主力,小妹妹刚十四五岁,皮肤白嫩,见人脸红,在社办一个作坊里做工。二妹(我叫二姐)刚嫁给本村老队长的弟弟,一个高个帅气的小伙子,感觉有些愣头青的样子。自由恋爱的,算是姑娘们中最幸运的了。刚去不久,这位二姐被照顾在场上打谷,没有下水田。我跟她一起干活,场上就两个人,总是她照顾我。从那时就落下了心猿意马的毛病,直到有一天发现她肚子越来越大,才意识到她跟其他民兵姑娘不同,原来是媳妇级的了。

2019年三月23日巧遇二姐和姐夫

后来跟三妹及一帮姑娘媳妇一道,在田里薅草(就是用耙子在水田里把杂草掀翻,不让杂草长出来),三妹总是侵犯我的领地,把她的耙子探过来帮我。没有她帮忙,我大概一半的速度也赶不上。我老指责她,“不许侵犯”,她总笑而不答,我行我素。三妹模样很好,稍微有些胖,很壮实,象个铁姑娘,但善解人意,脾气性情好得赛过薛宝钗,是我最心仪的。当时媒婆正在给她提亲,我离开村子不久,她就嫁了,听到消息后心里很不是滋味。

这些农家女在我看来都是仙女。从小在那样的艰苦环境中,却一个个风华正茂,英姿飒爽,而且不失农家女的善良朴实和冰雪聪明。我觉得当地没人配得上她们,她们自己也企图跟命运和媒人抗争,不过最后都一个个嫁走了,消没在人海中。

【相关】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《李白109:深度学习的猪与符号逻辑的坎儿》

李:刘群老师转了一篇好文:The Bitter Lesson ,机器之心翻译过来了,《AI先驱Rich Sutton:利用算力才是王道,人工智能一直在走弯路

是以历史事实对符号AI和规则NLU的批判。人的方式就是符号逻辑:这样比较舒服,容易理解。但是面对依赖蛮力(算力)的海量搜索和海量学习,符号逻辑显得单薄。无论多么 bitter,历史事实(speech,vision,MT)很难回避,不得不承认。剩下的问题集中在:

1. 可解释性/可定点纠错性

这是不是蛮力/算力的死结?符号逻辑不存在这个问题,by definition,它就是人可解释的。但实际上,可解释性只是一个表象,因为稍微复杂一点的任务,符号逻辑的模型和算法理论上虽然可解释,但实际上也不是容易说清楚的。

白:过程的可解释性和表示的可解释性是两个不同的issue,没有人苛求过程的可解释性。但是表示的可解释性不同。明明有合理的显性表示,非要把它“嵌入”,这就说不过去了。

李:那是。另外一点就是,可解释性背后的东西似乎更重要,那就是定点纠错的能力。因为是符号逻辑,甭管路径多复杂,专家真想 debug 的话,就可以追下去。学习的模型就很难。可解释性/可定点纠错性,这是符号派还可以拿得出手的一张王牌。第二张王牌就是:

2. 不依赖海量标注

这第二张王牌,也越来越让人“担心”了。倒不是担心无监督学习,或者迁移学习会突然有革命性突破。而是实际上看到的是一种渐进的改变。

第一个改变是所谓预训练的进展。的确从方法论上 把通用的模型与应用的需求做了分工,使得对于后者的标注要求理论上是减轻了:这还是正在进行的过程。但预计不会太久,不同的效果就会显现得更有说服力。方向上,很看好预训练的作用,现在只是一个开始,但已经很让人兴奋/担心了。

第二个改变是,很多标注数据可以半自动收集,通过各种方法,各种 tricks,加上时间积累效应,再加上调动用户积极性的“引诱式”标注的反馈,等等。大规模标注数据的人力要求 并不总是想象的那样无边无际和困难。

白:问题是:什么标注?标注体系的科学性,决定它的天花板。标注含不含复杂结构?如果含,又能自动标注,那还训练个啥,就是解析了。如果不含,怎么保证能“命中”目标语言?命中场景,而不是命中“端到端”游戏?

李:“复杂结构”和体系天花板,这些深层符号逻辑的东西,当然也可以是王牌。靠蛮力/算力的端到端学习可能难以应对。但是深层逻辑的东西,感觉上,在 real world 的任务中,占比不大。可以拿来说事,实际限制往往不大。

最近遇到一个同好,聊起来,朋友对我的符号悲观主义很不理解。说做了一辈子的符号了,“李老师”怎么自己跟自己过不去呢,灭自己威风,长他人志气。

这要看年龄段了,到了这个岁数了,威风志气都是小事,不值一提,主要还是看解决问题的能力和潜力。对于上面几张“王牌”或挡箭牌,估计还要两三年的时间可以化解,或见分晓。到那个时候,可以比较确定地看到符号路线的合理定位。到底有多大价值,如何相处和自处。相信不会“蒸发”,但定位成秘书或打杂的可能性,感觉不是完全不可能的事儿。

白:包含/容纳结构,是NLP不同于普通视觉任务的根本特质。深度学习的猪飞不了多久了。

李:“包含/容纳结构,是NLP不同于普通视觉任务的根本特质”,这话自然不错,可是MT是NLP呀,没有结构,NMT 达到的成就,不得不信服。唯一的退路就是,MT 太独特了,端到端的数据是几乎无限的。这自然是 NMT 奇迹发生的根本原因,但逻辑上这个奇迹反驳和弱化了 没有显性结构,学习难以完成NLP任务 的立论。当然,我们总可以找到 NMT 里面的痛点和笑话,来反证其缺乏结构的短板。可事实是,这些痛点和笑话确实没有什么统计意义,对于任务完成的整体效果,其实影响没那么大。对于传统的文法翻译派,NMT 是一个真正的苦果,又是一个不可逾越的标杆。

白:MT的成功是不可复制的。而且MT不是场景化的。这意味着它只能是陪衬。在核心应用的智能化方面起的作用很边缘,算不上什么苦果。

李:做过RMT很多年的人体会有所不同。苦果是说,曾经相信只要自己努力,RMT就可以创造奇迹,直到有一天发现,这是一个无法匹敌的力量对比。所谓“臣服”,大概就是这样。

白:我们提倡黑白双煞,提倡端到端和场景化并举。端到端不适合做产品,也不适合做整体解决方案。2B尤其如此。场景必须是黑白相得益彰,甚至是白远远大于黑。黑盒子做场景先天劣势。

李:场景化怎么说法?我以前的说法就是 NLU 支持 domain porting,NLU 做得功夫越足,domain 落地这边就越轻省,场景化效率越高。

白:我认为,在过程、控制这些地方,神经大用特用都没有关系,在表示则不然。

做场景化的,千万别被MT带歪了。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《一日一析:“让不让我们上学的人见鬼去吧!”》

白:“他们还把不把领导放在眼里了?”

“把不把”,必选格介词加“不”构成疑问句。

N+ X++ N+,先由“不X++”与“把N+”结合,再由两个N+合并,其中后一个N+携带构式标签,符合白名单要求,进入合并merge操作。介词“在”,引导状语时是“S+/N”,引导补语时是“+S/N”。

李:他们还把不把领导放在眼里了 == 他们还把领导放不放在眼里了 ??

应该是等价的。说明选择疑问句,可以从动词的重叠式,转为副动词(介词、助动词)的重叠式: X不X + V

“为人民服务”
“为不为人民服务”
“为人民服不服务”

“开车去南京 — 开车去不去南京 — 开不开车去南京” : 貌似有细微差别。

“被他揍了 — 被他揍没揍 — 被没被他揍”??

介词重叠识别以后,就成为一个介词了,后面该怎么走怎么走。唯一需要注意的是,介词重叠得出的“选择疑问句 or-Question” 应该从介词身上,传递到谓语身上。这样就保证了 谓词重叠与介词重叠的解析,是一致的。

还有的助动词 “是不是”:我们去不去?== 我们是不是去?

“有没有” 也是助动词:他们去了没去?== 他们有没有去?

白:“在不在食堂吃饭”和“在食堂吃不吃饭”似乎不等价。

副词性语素也可以拆解,但独立副词不行:狠不狠抓,严不严打,难不难为情;*马上不马上动手,*狠狠不狠狠打击,*太不太硬……

对副词的选择问句,要在副词前面加“是不是”。

李:“是不是不方便”

* 不不不方便

梁:要不要马上动手?

李:是不是要马上动手?

马不马上动手?

梁:没这么说的。

李:听得懂呀,不留神这么冒出来 也是可能的。中文重叠式有时候真绝。

白:*立不立刻转账

李:“要不要立刻转账”

用助动词 “是不是”、“有没有”、“要不要”、“能不能”、“可不可以” ……

完成:有没有立刻转账;现在:是不是立刻转账;未完成:要不要立刻转账。

白:“让不让我们上学的人见鬼去吧!”

李:这个句子很绝,很绝。能注意到或想出这样例句的人很神 很神。句子“鬼” 啊。

让不让 (重叠式)vs 让/不让 (非重叠式)。试比较:

“叫不让我们上学的人见鬼去吧!”
“让不让我们上学,我们都是要上学的。”
“让让不让我们上学的决定见鬼去吧!“

不好整:重叠式处理离词法较近,远远早于 VP 的句法阶段,二者纠缠的时候,除非特地做休眠唤醒,很难协调好。真要做,唤醒的思路是:让不让重叠式所反映的选择疑问句 or-Question 语义与祈使句(imperative)语气不兼容。这是个唤醒的 trigger:不能够一边说 让还是不让 一个event 发生,一边又说这个 event 是祈使的。要祈使,就是定下了 event 的走向;要选择,就是没有定下这个 event。譬如:

“你给我滚!”

不能与 “让你滚还是不你滚呢” 兼容。

parse parse,哈哈哈 果然中招:

这个解析“几乎”无可挑剔,until it comes across 神人鬼句。

藏在树和图背后的解析结构表示里面有“选择疑问句”特征 orQ,这个 orQ 与“让”这个小词处于句首所应该表达的祈使语气,无法兼容。因此可以针对 “让” 做词驱动的休眠唤醒,可以搞定,但是显然不值得了。词驱动的休眠唤醒是定点解决问题,只要能落实到词,总是可以实现,虽然琐碎,实现起来其实不难,问题出在:1. 真地不值得:都是些长尾中的长尾,做了与不做,系统的性能测试上无感。2. 词驱动的定点休眠唤醒有一个前提,就是对于需要唤醒的另一条路径解读,需要有预见。

其实没人真地去做那么多“预见”,所以结果总是在遇到 bug 了以后去反思这个词驱动唤醒规则。这样一来,这个技术虽然机制上平台上可以实现,但没有有效的保证可以全面铺开,防患于未然。换句话说,对于小概率的长尾错误,值得做的方法应该可以 scale up,这样长尾积累效应使得系统性能最终得到可以认可并且难以逾越的提升。如果对付长尾需要零敲碎打,见到了才能想到去实现,这虽然比束手无策要强,但实践中也还是不能有真正的效果。词驱动就是零敲碎打,专家编码词驱动比愚公移山还要愚。

学习搞不定,专家又不够愚。难!愚公累了,不愿移山,能等得到上帝吗?

可scale up 的长尾处理案例也有, 譬如 成语泛化(所谓 “1234应犹在,只是56改”),大多可以自动半自动批量进行。得益于成语的 ngram 特性,可以让成语词典自动增加变元 实现泛化 而且不用担心损失精准。

其实,没有比愚公更渴望自动化的 —- 如果自动化能搞定的话。那天与@毛德操 说,我对于完全自动化存有1%的念想,奇迹很难发生,但是毕竟见证过奇迹的发生,譬如NMT。

白:前面罗素悖论已经是“鬼”句子了。

“他专门给不给自己理发的人理发。”

看看,“给不给”中招不?

“他给不给自己理发的问题还没有答案。”

无论如何,局部构式的优先级一定大于构式拆解的优先级。这是毋庸置疑的。自动的峰回路转,关键在于“过河不拆桥”。构式拆解的优先级还没那么“不堪”,不用等到撞上南墙,只要先前的构式带上坛坛罐罐,速度立马下来。局部次优解没有睡死,还在梦游,梦游速度可以反超。

“打死人要偿命,打死人就不必偿命了。”
“打死了的人无法再说话,打死了的人需要好好说道说道。”

“卖火柴的盒子上的招贴纸的小女孩”。

向前偷看何时了,相谐知多少?

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《李白108:“他就是要裁你的人”》

李:看一下结构歧义的例3 “他就是要裁你的人”,如果你是个兵 手下无人,这句对你就没有歧义。如果你是经理 麻烦了。

你说:裁我的人 痴心妄想!
我说:拜托 他才不要裁你的手下呢,他是要炒你的鱿鱼!

你说会不会很糟心?

  1. 他就是要裁你
  2. 他要裁你的人
  3. 他就是要裁你的人

白:“你的人”局部优先于“裁你”,这没有错。

李:本来是靠相谐度 力量对比,可是 “你” 和 “人” 都是 human。遇到双关式歧义,傻了。小概率事件发生了。

有意思的是,解析器做了一个候选定语M2,貌似为另一路的解读留有一些端倪:“你的人(your men)”。O 与 M2 不兼容(XOR),虽然借的是AND的表示,这是另一个相关话题了,叫做“如何用确定性数据流表示非确定性结果和歧义”,找时间再论。

上述歧义是不难识别的。中文的【V N1 的 N2】,与英文 PP attachment 句式【V NP PP】有一比,都是结构歧义的典型句式。为什么常常不愿意花力气去做结构歧义的识别工作?

与计算机语言不同,自然语言的特点就是有歧义,NLU的任务就是消歧。彻底消歧不容易,因为需要调动很多知识,不仅仅是语言学知识,还包括常识、领域知识和场景知识,这些知识的作用力不同,最后人是怎么综合各种力量对比做出理解的,是一个不好拿捏的过程。形式化建模有挑战。

然而,与词汇歧义的琐碎不同,结构歧义句式清晰,有迹可循,从理论上是可以识别的。识别歧义不需要世界知识,语言学内部的知识就足够了。结构歧义不是难在识别,而是难在识别了以后如何利用各种知识去进一步过滤消歧(剪枝)。

所以有人建议 nondeterministic parsing,把歧义都识别暴露出来,把球踢给接盘的人。这里面的argument就是,识别问题是解决问题的第一步,总比糊里糊涂好。但是实际上,虽然这是一个可以做的事儿,我们却选择不做非确定性输出。只要算一下账就明白为什么不做是更好的对策。

假如一个结构有两个解读,非确定性输出两个路径(解读),在难以确保后面模块有相当把握和精度消歧的情况下,其实不如从一开始就规定系统只能输出确定性路径,宁愿冒过早剪枝的险。(如果后面的落地方向是支持结构检索,俗称SVO搜索,那又另当别论,因为搜索讲求的是召回,非确定性比确定性的支持更有利。)

人对于二叉歧义(a|b)的理解,不外是三种情况:1. a;2.b;3. a|b:其中,3 是不可解的歧义,即便调动现有的知识,歧义还是存在(如 双关语),是小概率事件,可以忽略。剩下的1和2不是均匀分布的,常见的情况是一种可能比另一种可能要大很多。

这时候,确定性系统在数据驱动的系统开发环境中,就会自然偏向于输出可能性大的路径。数据打磨越久,这种趋向越稳定。如果是不确定性的设计原则指导,就会不断追求召回,干扰了对于最大可能路径的目标追求。一般来说,最终结果自然是不合算的。换句话说,在实践中,不是不可以做到很好的召回和识别出(几乎)所有的歧义,但这个工作肯定会干扰集中精力逼近正确的目标。

自说自话半天,其实是自己给自己的“懒惰”寻找背后的动机,今天算是悟出来的。的确事出有因。很久了,一直觉得应该做也有能力做的这件识别所有歧义的事儿,一直没下决心去做。果然不仅仅是懒惰。既然如此,就有理由继续懒惰下去,好把精力放到更合算和有价值的地方去。

白:合算不合算的思维,不是极客思维。极客没有挡箭牌。

李:一般都是天然地批判 “(过早)剪枝”和确定性数据流,终于找到了这个做法的 “说得过去” 的理由和实际好处。当然前提是把开发看成是一个漫长的数据驱动的打磨迭代过程,今天的看似确定性输出的错误,到明天就纠正了,虽然同样是确定性输出。不确定性是假设在不必迭代的情况下,为后期应用保全潜力。迭代思维把这个后期消歧的假设转换成迭代过程中的前期消歧(譬如一条粗线条规则引起的歧义,在迭代中变成了粗细两组规则,消歧了也就没有非确定性了)。极客不极客,不重要。

白:很多技术可以让剪枝成为伪问题。合理的歧义也许就是前后脚的关系,伪歧义也并非始终寸步难行。允许依序择优梦游,天塌不下来。例如,坛坛罐罐走不齐——各种局部解析非等速前进,就可以把剪枝问题化解于无形。你永远无需做是否剪枝的判断。只要“长芽”被无限期推迟,事实上就相当于剪枝。但是无限期推迟只是一个后果,并不是一个决策。

李:在缺乏厚度或深度 没有足够施展空间的情形下的问题。换了架构 就可以化为伪问题。原来的痛点 逐渐消解了。

白:截流的点可以设置。出一个解析和出N个解析,就是截流阈值的选择而已。所有有语言学意义的判断,都融合在优先级机制里了。截流阈值的选择与语言学无关。

“他就是想利用你,并且在利用完了就杀掉你的敌人。”

“就是”可以带体词性表语,也可以带谓词性表语,造成歧义。“利用”、“敌人”是负面sentiment,“杀掉”可反转sentiment。如果带谓词性表语,从“利用”得知“他”为正面,从“杀掉+敌人”得知“他”为负面。拧巴了。如果带体词性表语,“利用”和“敌人”相谐,“你”和“杀掉”、“敌人”不两立,于是“杀掉”和“敌人”也相谐。这个才是正解。

李:我经常纳闷。白老师冒出来的那些例句是怎么回事。肯定是平时有心,对数据超级敏感,这是数据驱动的角度看例句的收集。数据驱动的有心,本质还是被动的。另一个角度应该是主动的方向性收集+发挥?就是在多种因素中,有意识瞄准冲突最戏剧化的案例。譬如 句法与常识的冲突,惯性与转向/刹车的冲突。

白:嗯,似乎有一种直觉,能筛选出哪条语料对于我来说是不寻常的。

李:中文的【V N1 的 N2】,主要看 V+N1 动宾相谐度与 V+N2 动宾相谐度的力量对比:

“卖火柴的小女孩”
“卖小女孩的火柴”

卖的是东西,不是人。

白:超相谐的填坑>修饰>相谐的填坑>不相谐的修饰>不相谐的填坑

李:这里面貌似有距离因素,修饰距离近 动宾距离远,所以 同等相偕 修饰大于动宾。

白:【笑而不语】

三个境界:1、能单独处理“就是S+(重读)”;2、能单独处理“就是S/2N(轻读)”,其中修饰>填坑;3、能综合处理“就是S+||S/2N”。3又分:“正解+伪歧义”和“真歧义”。境界2中,一度占先的解读推进到某处卡住了,另一个解读后来居上。

“这是卖女孩的小火柴,不卖男孩。”

“卖”的间接宾语坑也来凑热闹了。只要相谐性并无禁止,就可以激活。

李:昨天我想的反例是:“这是卖小女孩的人贩子”。

白:无所谓反例,就是前后脚的事儿。不使用常识(事理),就是歧义。谁比谁先一步都是可能的。这种优先级上的误差,是在容忍范围内的。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

《目标导向的质量保证怎么强调也不过分》

我是我家的铲矢官。早晚两次,每天换猫砂,有机会观察猫咪是怎样使用卫生间方便的,很有感触。

猫咪是著名的五讲四美物种,无论多么内急,方便后都会特别仔细收拾干净,绝不像有些国人(或歪果仁),有随地大小便的恶习。

仔细观察,发现猫咪智能水平不一。行动虽然敏捷,但方向感差。嗅觉超灵敏,但动作很盲目。每次掩埋清理大小便,再笨的猫咪都会做得让人挑不出毛病来。怎么回事呢?

原来是目标导向( goal-driven),反复检测以求质量保证(QA)。先是用鼻子去闻味道,凑得很近,确定目标。然后要爪子扒拉沙子,扒拉的速度很快,其实没啥章法,一多半落在目标之外。不是很讲效率。但是,猫咪的优点是,反复鼻子核查,反复爪子动作。宁滥勿缺,不厌其烦。

可见,质量不是靠耍小聪明,而是靠目标导向的劳动保障的,QA比巧妙重要。

所有的端到端系统其实都是这个原理。天知道内部做了多少虚功 绕了多少弯路。但是,端到端的好处是目标明确。只要有不达目的不罢休的劲头,有作为目标的海量数据,没有不成事的。

想起来20年前开始做个人网页玩,学了点 HTML. 后来MS Word 等,所见即所得,做各种图文并茂的网页都很容易,满意了,save as HTML 一切搞定。出于好奇,有时候会看看那些自动生成的 HTML 编码是怎样的。与自己手工编码比较,那叫一个繁复,绝对不是人认为的到达最终显示效果的最佳路径。很多冗余,弯路,叠床架屋,看上去的无用功。但没关系,最终结果是确定的。

这件事给人的启发就是,不要怕“累着”机器。累死机器是不用偿命的。冗余给人的感觉是负重。人们容易忘掉的是,冗余带来的安全和周密。

专家编码也应如此 目标明确后大多就是个力气活。不必追求精巧和概括性 不怕冗余和无用功 只要在目标导向中打磨迭代,甚至东一榔头西一棒头也不怕。可怕的是没有目标和QA。

自然语言就是猫屎,不妨学学猫咪的卫生习惯和质量保障。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录