《李白荀舟詹128:从专名的层次纠缠谈到NLP前路漫漫 一缕曙光》

舟:新闻标题:“球员明天昨日与爱妻举行婚礼,武汉队官方送上祝福” 如何解析?

白:爱妻一个坑,球员一个坑,武汉队反填球员坑,球员反填爱妻坑。明天做专有名词。什么都能做专有名词,明是一个姓,更能。昨日倒是只能做状语。再加上一个矛盾的时间状语,优先级折损,让专有名词义项露出来。

“明天”本来就是名词,组成同位结构和降格成为状语两个可能性,在句法层面本来都是存在的。只不过,同位结构是NN合并,需要白名单制。进入白名单的条件之一就是“类型相谐、一称呼一实例”。现在,是要在句法标签同为N的情况下,解决本体标签由Time向Human转换的问题。

舟:@白硕 谷歌百度,都没有搞定翻译![Tongue][Scream]

球员明天昨日与爱妻举行婚礼,武汉队官方送上祝福。

百度:The players will have a wedding with their beloved wife tomorrow and the Wuhan team will send their best wishes to them.

谷歌:The player held a wedding with his beloved wife yesterday, and the Wuhan team officially sent blessings.

谷歌还是聪明一些,把明天扔掉了……[Tongue][Grin][Shhh]

詹:这个得有篇章处理能力才好。正文第一句“武汉队球员明天与爱妻举行婚礼”。这个“明天”还得继续是专名。

荀:从工程角度看,类似这样的极端例子,不是现阶段NLP能力所及,处理对了也未必理解了上下文。可以愣是迎着困难上,很可能得不偿失,灌入更多类似语言现象数据,或者引用更多语言知识,这句对了,可能受伤大批句子。

学理上可以深入讨论,能得到以点带面的结论是非常好的,但是那这些句子去测试机器翻译,测试大模型的能力,没有意义。

李:荀老师所言极是。

有过教训的。极端例子的处理很难“包圆”,这往往造成副作用远大于正面作用。这是因为极端例子统计上属于极小概率。对于极小概率的现象,最有利的工程策略是选择忽略它,与噪音过滤同理。

可以探讨原则性的解决方案,实现的时候需要小心与现架构或pipeline小心对接。例如,专有名词的任意性是一类现象,虽然每一个具体案例都是小概率,但这类现象可以探讨一种原则性的出路。出路往往出现在另一个层面,例如应用场景的动态词典层面:一个与常用词同形的专名在 discourse 或某个数据源中反复出现,当它远远高于它作为常用词的正常出现频率的时候,它作为专有名词的小概率就变成了现实可能性。动态词典或用户词典可以收录它,增加它作为专名的权重。把动态词典与系统核心词典融合,可望帮助解决这类层次纠缠。但这种融合还是需要格外小心。比如,动态词典不仅仅要适合的时机融入处理,也要在合适的时候退出,以免对于变化了的场景产生持续的副作用。

通常的 NLP 只针对局部字符串。现在出现了更大的场景约束: dicourse、data source(source 本身也份不同层次)、domain 以及用户词典。为这些场景规划范围,以及资源进出的条件边界,是一个远远超出常规NLP处理流程的更高层面的控制逻辑。很不容易处理妥帖。

弄巧成拙的坑,不知道栽进去多少回了。

很多年前,还是在跟随刘倬老师做MT的时候,我们做过一个动态领域词典帮助确定领域场景的简单实现,有动态加入和忘记的功能:就是建立一个有限长度的先进先出的队列,当进入某个 discourse,有足够多领域A的词汇时候,就认定为A领域场景。当数据源源不断进入系统处理,领域B的词汇进来会冲刷领域A词汇,系统就进入领域B的场景。

这是为了解决WSD的领域问题,很多常用术语是跨好几个领域的,不同领域的译词不同。当时的办法就是希望动态决定,实际上就是 domain 词汇 propagation 的效果。取得了局部成功。当然,现如今的神经系统对于更大的上下文有表示记忆,这类当年的难题原则上在 discourse层面已经解决。超越 discourse 层面的,很多翻译软件(例如搜狗)允许用户自己设定一个大的领域。

另:现在对预训练的好感越来越浓,彷佛看见了一道曙光。隐隐觉得 预训练+下游NLP落地 可能是人间正道,可望碾压 parser+落地,但在当下的时间点,还不好说这条道路在规模化领域落地方面的可行性究竟如何。觉得时间窗口是 5-10 年。按照现在的科研进步和资源投入,5 年左右还做不到遍地开花,那就是遇到了真麻烦。否则,有可能终结符号路线。

荀:深度语义解析,离不开符号和结构,但不会是之前合一运算那样暴力使用知识,而是跟模型结合,处理好符号和参数方法的适用边界和做好两者融合是关键。我们在这个方向探索了多年,有了一些经验和体会,正在努力地把它写出来并开源。

李:looking forward to it ....

有时候,我也有建设开源社区的冲动,一直没有机会和精力。同时也觉得真开源了,也是门可罗雀。不知道要经营多久才有可能形成社区效应。但有一些积累如果总不开源,一辈子的思索和闯荡,也就老死手中了,想想也挺悲催的。

荀:是的,有心理准备,学习代价就是最大障碍。在努力地做到简单易学易用,届时各位老师多指教。

李:学习代价是个拦路虎。无论怎么简单易学,实现低代码,符号NLP 还是很难普及。

内部曾经说过,正则和 Excel 够简单了吧,真学好还是要费力气的。我说我定义的语言script 比正则还要简单,为什么说难呢?被告知:正则学了,Excel 学了,到处可用,那是万金油。学这个 哪里认呢?

想想也是。这不是简单降低门槛,把设计做到极致简单就可以普及的事情。

荀:不管效果如何,算是多一些不同的声音和思路。不过还是小有信心的,在北语,可以部分放在课程体系中,几轮下来,辐射面挺乐观的。

李:嗯,学校环境有所不同,可以渐渐辐射。工业界不一样,前场救火似的,很难有耐心和动机坐下来学一门偏门的东西。

荀:nlp往深里做,不可能不结合语言知识,只是找到好的做法。逼到墙角了,不得不学,不得不用,现在还没到墙角,还可以发论文,还可以拿到项目。

白:script的服务对象是程序员,那是最难伺候的用户群。

学一套特殊的表示如果能赚许多钱,没人跟钱过不去。有了钱,把这套特殊的表示传承下去也不是问题。否定别人的时候用百年老店的思维,肯定自己的时候用急功近利的思维,这叫双标。恐怕掌握特殊表示的人是否稳定,才是真正需要解决的问题。

李:好绕 lol

表示无所谓,不过就是面子而已。但是没有面子,也不知道如何传达里子。魔鬼在里子。

这种矛盾的确道可道非常道。

朋友圈刚看到这篇:Yann LeCun:发现智能原理是AI的终极问题 | 独家对话

很有意思的对话,其中谈预训练和自监督 从 raw corpus 学习所谓先验知识/结构,LeCun 信心满满认为这是AI的革命性转折。

在 raw corpus 里学习知识/结构,这与人们跳到水中学会游泳同理,与孩子在语言环境中自然学会说话同理。学校里学文法(成为 parser)是明着学结构,而预训练是暗着学结构。 表示不同,目标和原理一致。

白:其实明暗还可以细分,明着学what暗着学how是一种选择,what和how都暗着学是另一种选择。目前主流做了后一种选择,我看不出来除了商业考量(标注成本)之外有什么科学上的依据证明“明着学what”有何不妥。

李:没有不妥,主要是消化不良。主流还没有 figure out 如何接受明学的结构。既然消化不了,索性禁食,另有所食,发现还原到热量和维生素差不多是等价的。

这里有一个断裂。主流其实某种程度上 figure out 了如何生成显式结构,例如谷歌的 SyntaxNet 和 斯坦福 parser,都是深度神经训练出来的,在新闻类标准测试集上表现优异(但对于数据太过敏感,一旦换到领域数据,质量悬崖式下跌),可以媲美专家系统。但是,这是为 parsing 而 parsing,因为主流 parser 的结果主流自己也不知道如何消化和落地。

 

 

 

【相关】
 
 
 

李维 郭进《自然语言处理答问》(商务印书馆 2020)

预告:李维《巴别塔影:符号自然语言处理之旅》(人民邮电出版社 2022)

立委随笔:面对快餐文化,要牺牲一代人吗?

Peter Wang: Python and the Source Code of Humans, Computers, and Reality | Lex Fridman Podcast #250

今天看了这个访谈,很有感慨。访谈很长,可以跳着看:

是自媒体大V,采访天下名流,尤其是IT和AI界大牛。Peter Wang 是 Anaconda 的联合创始人兼首席执行官,也是 Python 社区中最具影响力的领导者和开发人员之一。此外,他还是一位物理学家和哲学家。
 
https://www.youtube.com/playlist?list... 剪辑播放列表: https://www.youtube.com/playlist?list... 大纲: 
0:00 - 介绍 0:33 - Python 4:04 - 编程语言设计 24:07 - 虚拟性 34:07 - 人的层次 41:05 - 生活 46:29 - 想法的起源 49:01 ——埃里克·温斯坦 54:00 - 人工源代码 57:58 - 爱 1:12:16 - 人工智能 1:25:39 - 意义危机 1:48:12 - 特拉维斯奥利芬特 1:54:38 - Python 续 2:24:21 - 最佳设置 2:31:39 - 给年轻人的建议 2:40:12 - 生命的意义

访谈提到人抗不过环境,尤其是 teenagers。面对以抖音和脸书为代表的流量商业和快餐文化(包括游戏和色情)的潮水般冲击,年轻一代毫无抵挡之力。这就好比从忍饥挨饿缺乏热量时代走来的人,面对食糖完全没有抵抗力。

 
食糖造成肥胖症和种种疾病的后果,是经过很长时间才为社会群体意识到,这才有如今的低糖饮食(包括各种低糖饮料)的健康生活方式的逐渐流行。同理,移动互联网快餐文化的恶果也需要一代人的牺牲和教训才会逐渐为社会意识到。
 
堕落是容易的,站起来却很费力气,这符合熵增原理。但人与万物之不同,就是最终还是会选择站起来,只是在这种选择之前和之中,要牺牲多大的问题。快餐文化攻击的是人的软肋,开始的时候,没有人可以抵挡。但人在低层次满足和麻痹的过程中,会逐渐产生麻木和空虚。麻木让人变得皮实,不再那么容易深陷其中。空虚是对低层次的反动。最终会产生更高层次的服务和追求,限制快餐文化的蔓延,这算是乐观主义。否则,悲观主义视角看后现代的趋势,这个世界是无药可救了,科技越发展,人类越堕落。
 
群里讨论这个话题,马老师深有感慨:快餐文化渗透到各个方面,以前我这博客,现在根本不写了,只发微博和微信。
 
我也有同感:没几个人愿意深入思考。再说,认真写了博客,也缺乏受众。很少人有那个耐心。全民浮躁的社会,人的注意力宽度(attention span)是渐行渐窄。坐冷板凳的成为珍稀物种。
 
毛老说:不是越堕落,而是越两极分化。
 
梁:绝大多数人任由环境支配,顺流而下,极少数人反之,逆流而上。生命是一种小精灵,它抗拒熵增,尽量推迟与大自然达成平衡(死寂)。
 
我的问题是:面对快餐文化,要牺牲几乎整整一代人吗?你看现代的年轻人,多少人沉迷于游戏、毒品、memes。所谓元宇宙,各大资本巨头加持,汹涌呼啸而来。这是像哦米克隆病毒一样,到底是加速这种牺牲还是结束这种文化疫情?
 
但愿物极必反。
 
另:这个访谈真地精彩,摘录一些访谈后读者的反馈如下:
 
我对 Peter Wang 一无所知,但我绝对被他的洞察力、批判性思维和引人入胜的哲学思想所震撼。我非常喜欢这个人说话的方式。再次感谢 Lex,为我们带来这种类型的对话。
 
学习 Python 是成为办公室“Excel 专家”的下一步。我用无能的意大利面代码自动化了这么多重复性任务。
 
这场辩论比标题所暗示的要深入得多。来自计算机编程的思维逻辑和原则对于各种问题都非常具有说服力。在这样一个瞬息万变的时代,有着如此多的可能性,哲学比以往任何时候都更加重要,可以帮助我们找到人类前进的道路。非常感谢您进行这些对话。
 
伙计。Peter Wang 是一个处于底层的海德格尔主义者。这个播客是传奇。
 
我很高兴我们现在有机会免费聆听这些珍品。Lexs Podcast 是一种智力乳清,适合喜欢提升思想的人。
 
我很感激这一点,彼得的内容气息是一种现象,涵盖了很多主题。这可能是最好的之一,在 2 小时内,这感觉像是最短但也是最长的采访!请更多被低估的客人!
 
顺便说一句,令人惊叹的采访和真正非凡的观点。从我的内心深处喜欢这次采访。
 
谢谢你,Lex,给我们带来这些采访。这就是我(我们)在 90 年代从哲学专业毕业的那一天,在西班牙马德里,互联网还没有出现的时候所渴望的。有一些有趣的电视节目,但它们总是达不到我们的期望(由于电视节目时间表的时间有限,缺乏解决主题的深度等),并且总是让我们想要更多。您频道的质量非常出色,确实有助于弥补我所指的电视上的不足。再次感谢并祝愿 2022 年。
 
我 85 岁了。我发现自己有感恩的时刻,因为我活得够久了。例如见证这次谈话。谢谢你俩。
 
这是迄今为止我在 YouTube 频道上看到的最聪明、最有趣的频道。
 
Lex 我希望你问一下通过技术导致人类灭绝的可能性。程序员更有可能成为实现这一目标的途径。比病毒学家更是如此。
 
多么雄辩的采访,详细阐述了如此广泛的主题。喜欢最后给年轻一代的建议以及创造的术语“闷闷不乐”。干得好,莱克斯。
 
32:05我们必须在这里推理的一件事是,社交媒体是我们第一次遇到技术系统,该系统围绕我们自己的认知和注意力运行一些循环。这不是最后一个——它远非最后一个,它触及了西方哲学体系的一些哲学阿喀琉斯之踵的核心,即每个人都可以做出自己的决定;每个人都是一个个体,在他们的代理和主权方面是神圣不可侵犯的。这些系统的问题在于它们能够集体管理每个人,因此每个人都在做出自己的决定,但是,更大的系统使它们成为一个群体动力,这对人们来说是非常有利可图的。
 
要点:TikTok 正在给我们带来社交糖尿病。
 
才发现这家伙的名字叫“王彼得”——他别无选择,只能是才华横溢。
 
 
【最近博客】
 
 

李维 郭进《自然语言处理答问》(商务印书馆 2020)

预告:李维《巴别塔影:符号自然语言处理之旅》(人民邮电出版社 2022)

 

立委随笔:王力宏的危机处理

2021年公关危机事件中,处于事业巅峰的王力宏事件虽然时间跨度不长,但凸显了信息时代的公关灾难,不亚于当年罗胖子怒砸西门子冰箱门的公关危机。

短兵相接,轰然倒下,王力宏处理失当,造成无法挽回的结果。毛估估,他的事业至少要停滞五年,其实际影响远远不止今后五年。除了名誉损伤与创作停滞以外,直接经济损失可达数亿,甚至数十亿。

这一切都是从家庭争端开始。导火索就是离婚,以及前妻对离婚协议的不满,虽然她还是签了字。最大的不满是她没有得到自己带孩子居住的豪宅的房产权。清官难断家务事。前妻既然在协议上签了字,她在法律上想要得到豪宅是不可能了。于是一不做二不休,她诉诸自媒体爆料。

王力宏前妻李靓蕾在离婚协议签字后没几天,就写下4538字自媒体长文,控诉王力宏爱约炮、劈腿,遭王家人冷暴力、羞辱、签下不合理的婚前协议书等罪状。该篇文章在新浪微博阅读量达23.2亿,超过《哈利波特》小说的总销量。网络时代,23亿流量,这是什么级别?自媒体核弹。

王力宏被迫应战,发文回应前妻指控:“我没有对我们的婚姻不忠。5年又8个月时间,我活在恐惧,勒索和威胁之下。” 王力宏说:“被逼结婚那天觉得最无奈,没想到比起今天,那是小菜”。妻子以孕逼婚,后来在家的强势,大概不是子虚乌有。虽然在外面,前妻一直非常配合各种秀恩爱。

分居两年,谈判长达一年,好容易把离婚协议签字了。据说王力宏家财总共约7亿,前妻得到超过一个亿(洛杉矶豪宅以及一些投资的分成),但是前妻居住的台北豪宅却不归她,种下祸根。王力宏这边觉得终于熬出头了,可以重返单身自由生活。刚要舒口气,离婚第三日,多年来保持沉默的前妻终于火山爆发。

离婚协议的谈判要不是那样寸土必争,本不至于如此。可是话说回来,他也不知道退守到哪条线不会引起火山。王力宏死活不愿意把台北一个亿的豪宅给她,也有个中苦衷。这个豪宅在他母亲的名下,当时的安排就是王家尤其是王母为防止财产流走的一个处心积虑的操作。以王母的强势,王力宏岂能违背?网上有人评论说,王是孝子,性格软弱,一直听他妈的。他妈肯定是寸土不让那种。这下好了,他在娱乐界吃的就是青春偶像饭,靠的就是自己的道德楷模人设,以后还怎么红下去。前不久还与谭维维合作唱《寸心》,风靡乐坛呢,这下子不知何时能翻身。

老友说:“钱能摆平的都不是事。现在可倒好。社死。事业算完了,没有大陆市场,唱中文歌没法红。损失岂止几个亿。”

王本来没想结婚,就做个娱乐界的黄金王老五,到处风流。在娱乐界,他有钱更有压力,还到处是美女帅哥各种诱惑。他那种私生活紊乱,娱乐界其实不鲜见。

面对突发公关危机,王家被迫应战,却是一系列烂操作。王先是矢口否认,拒不道歉。紧接着,王力宏老爸手写信帮儿子反击,数落李靓蕾的不是,力挺王力宏是好孩子,没有婚内出轨。李靓蕾嗤之以鼻,责令王力宏发声道歉,否则将起诉王力宏父子诽谤。王力宏再上场揭露前妻不是开始说的不求钱财,而是已经拿了一个多亿。

李靓蕾亮离婚协议,怒飙王力宏:读者不是傻子,强调那一个多亿财产本来就是夫妻共同名下她应得的部分,并不是离婚补偿。李靓蕾连续发文,要求王力宏回应婚内出轨、冷暴力。

感情早已破裂。这事说到底不过是离婚分割财产让李觉得不公。勉强签字了,但这个不平埋在心里,终于爆发。王作为娱乐一哥,这些年挣钱很拼,积攒家财大约7个亿,离婚的时候,房产股票加在一起给了李1.5个亿。王觉得不少了,还有孩子们今后的开销,菲佣、司机种种,对于李与孩子们住的台北豪宅(1.2亿RMB)不舍得分割,但三个孩子的妈,又无法赶人家出户,离婚协议中写明是暂住18年。

什么话?孩子长大了,前妻也就老了,到时候滚出去。人家怎么能忍呢?你不是偶像明星吗,人家有的是料,看你跋扈。王为了保住这一个亿,把自己从事业巅峰炸飞下来。

这场烂仗,明眼人一看就知道你王家再觉得委屈,也没有用,选择辩白,只会越描越黑。王说自己没有那么烂,说会对出轨嫖娼的虚假指责一一回应。李说好哇,那就对细节一一辩诬吧。

事已至此,王家乱了方寸,前妻步步紧逼。舆论站在她这边,她不怕事大。还好,也许有高人,也许自己觉悟了,王终于意识到,互联网上的“道德法庭”,他没有任何胜算,只会在网民的口水谩骂中遍体鳞伤。终于公开道歉,并且承诺把房子转给前妻。一路来,只有这一步走对了。看来不大出血,他不知道止损。

此事终以王力宏道歉,交出豪宅,李靓蕾宣布休战,落下帷幕。王力宏最新发文:"不再做任何辩解"。同时会把1.1亿人民币的“吾疆”转户到李靓蕾名下。这个结果对王力宏而言,全盘皆输。李靓蕾事后受访也表示:“不会告了。”

前互联网时代,女的再强势、聪明,也只得忍了,没有渠道。现在不同了,一个微博就能搞死你。明星的悲剧在于,你自己再有能耐,也是可以被替代。一个倒下去,后面无数候补冲上来。范冰冰多么光芒万丈,最耀眼的时候,说下来就下来,很多年就是爬不起来。

可以理解李女士的愤怒。但是仔细读她,发现下手真狠毒。她把婚前婚后、交往前交往后的很多年的事情(“劣迹”)罗列在一起,成功塑造一个渣得不能再渣的小人形象,让人百口莫辩。这个女人不简单。

这是一场不对等的博弈。天平反而向无权无势无资源的一方严重倾斜。王的权势和名声成了累赘。大概属于所谓超限战。

理论上,王力宏可以告前妻诽谤,要求赔偿天文数字的名誉损失,他的确也遭受了难以估量的财产损失。但实际上完全不可行,只会把事情弄得更糟。这是因为打铁需要自身硬,王力宏并不硬,可以说娱乐圈染缸里浸染的多数渣男的所为,他都沾边了。前妻的指控并非空穴来风。更多是两人对于事件的不同角度以及感受的差异,远非黑白分明。事情闹大对于他将来的事业复出会雪上加霜,对他的实际损害只会更严重。真上了法庭,他也不见得能赢。何况即便赢了他也得不到可以补偿其损失万一的实际好处,无论物质的还是精神的。再者,她是你孩子的母亲和监护人,孩子们最亲的人,你把她逼垮逼疯,整得她一无所有,你如何面对孩子,面对自己。

乍一看,李女士立于不败之地。王力宏不得不道歉,也不得不公开表示把房子转给她。她似乎得到了她想要的一切。但其实还是两败俱伤。前妻非公众人物,没有自己名誉的实质损伤,但是她把她的三个宝贝孩子的父亲搞得名誉扫地,将来如何面对孩子的成长。互联网是有记忆的,孩子是要长大的,父子之间的感情和关系是割不断的。这种阴影对她孩子的伤害,会是很残酷的。

事情爆发以来,王力宏的危机处理实在不敢恭维。好在此事终于以王的撤退消停了。

一切缘于人性的贪婪寡情,见利忘义。好说好散,存有起码的同理心,本来可以不这样的。

人啊人。

 

 

原载 汉阳一江水《立委:王力宏的危机处理

 
【相关】
 

科学网-【社媒挖掘:大数据时代的危机管理】-李维的博文

 

李维 郭进《自然语言处理答问》(商务印书馆 2020)

预告:李维《巴别塔影:符号自然语言处理之旅》(人民邮电出版社 2022)