【一日一parsing:“这瓶酒他只喝了一杯”】

白:
“这瓶酒他只喝了一杯。”
两个量词(瓶、杯)和一个名词(酒)关联。
三个问题:1、“这瓶酒”是什么成分?为什么?2、“一杯”是回指到句中的“酒”还是指到另一个省略了的“酒”?3、如果“喝”的逻辑宾语是杯中酒,那么瓶中酒又是什么逻辑角色?
就是说,如果把逻辑宾语看成“部分”,其相对的“总体”提前为“话题主语”或“大主语”,那么后者到底填了什么坑?目测已经没位置了

詹:
“语文他答对了三道题。”跟白老师例子类似。
他只喝了这瓶酒中一杯的量
这瓶酒他只喝了一口
这瓶酒他只喝了二两
“喝”事件可以设计一个“消耗量”的事件元素
“这瓶酒他喝了一大半”

白:
随意增减动词坑的数目总是不好,量词倒是可负载两种结构:一种是绝对量,一种是相对量。相对量有坑,绝对量没坑。

詹:
动词的坑的数量可以设计(因而可调)。消耗量设计为“喝”的一个坑,可以跟“讨论、谈、喜欢”这样的动词对比。“这瓶酒他们讨论了一杯”不能接受。因为“讨论”类动词没有预留这个坑
“这瓶酒他们讨论了一天。”
请教白老师说的绝对量和相对量具体如何理解?形式区别是什么?

白:
相对量和绝对量都是数量组合。绝对量与中心语结合,相对量中心语省略,但与同形的先行中心语形成远距离照应。
“山东聊城市”

我:

1121a
句法是清楚的。

白:
buyu是个大杂烩 装了很多不同的东西,从填坑角度看更是五花八门缺少共性。

我:
那就加个标签【数量补语】,与其他补语对照:【程度补语】【结果补语】或【原因补语】等。如果想进一步区分 “喝了一杯” 与 “喝了一斤”,还可以进一步区分 根据数量结构本身的子类即可。句法到这一步 落地应该水到渠成了。

白:
那倒不必。喝了一口有点麻烦。可是这不是一个好的二元关系。
或者说,buyu才是真正的宾语,O反而只跟buyu发生直接关系,通过buyu才跟动词发生间接关系。O跟buyu的关系是明确的总分关系

我:
喝---酒 应该是直接的关系 否则 语义不搭。

白:
一杯后面有个省略的酒
正常也可以说,走,喝两杯去。省略是肯定的,省略的是酒,则是通过先行词照应出来的。先行词是茶,省略的就是茶。杯和酒,也有强关联,不管语义上还是统计上。
试试:“这瓶酒张三只喝了一杯,李四却喝了三杯。”
要想把“一杯”和“三杯”都分析成buyu,还有点小难度呢。
“一瓶酒四个人喝,张三和李四各喝了一杯,王五和赵六各喝了两杯,瓶里还剩一杯,问这瓶酒共有几杯?”

我:

1121b

一致不一致 只要后面是有准备的 就可以我们在落地模块里面 其实是有这个心理准备的,
并不指望句法分析出现完全一致的结果。关系标签只是落地的条件之一,不是全部条件,如果 x 和 y 的关系都有可能,对付不一致就是 x|y,一般不影响结果。

白:
“X杯”都分析成buyu吗?
不好的句法不一致多些,好的句法不一致少些

我:
一切都是平衡,某个条件宽了,另外的条件就可以弥补。

白:
遇到不好的句法,不一致不是不能对付,只是一边对付一边喷语言学家而已。

我:
哪里都一样。arsing 做不好 可以喷 POS 模块开发人,OS 做不好 可以怪词典学家没弄好。或者学习模块很操蛋 对付不了 sparse data,但是 说到底 在一个真实开发环境里 还是内部协调为纲。要是踢皮球,做不了好系统

白:
但是句法稍作调整,就可以做得更好。
我:

铁路警察各管一段 是一个非常坏的原则,adaptive dev 才是正道。当然,凡事都一个度。

白:
补语和宾语补足语弄成两个东西,一个指向动词,一个指向名词。已经做了初一,还怕十五么?

我:
一杯和酒 脱离上下文 也有很强的特征上的不同 而且也有ontology或大数据方面的高度相关性。因此 句法把它们连成 x 也好 y 也好 都不是大问题,因为各自的本性的、静态的标签是恒定的、随时可check 的

白:
这话推到极端,就是不要句法也行
可你老人家早就有话等在那里,有现成的梯子,为什么不用?
我现在要说,反正也没到顶,有另一部可以爬得更高的梯子,为什么不用?
与大数据或ontology的关系,自然语言是跑不掉的,波粒二象性摆在那里。
其中可以帮到句法的部分,封装成中间件直接拿来用,早已不是禁忌。

我:
真地没看到显然的必要性,起码对于抽取情报,V 连上了实体 N做 O,连上了数量做 Buyu,想从中抽取啥都可以。要细做,也最多是把 Buyu 和 O 再加一条通道,说 Buyu 是限定 O 的。

白:
看看上面的应用题。要解题,不知道总分关系怎么解?不把句法关系标成一致,怎么获取总分关系?

我:
自然语言理解落地为自动解题,作为复杂问答系统的一个分支,这个倒是确实要求比一般情报抽取要高。那天与胡总聊到高考机器人项目,胡总说,数学应用题道理上应该电脑是大拿吧。可惜,电脑读不懂应用题。自然语言理解是拦路虎。如果读懂了题,转化成了公式,电脑当然当小菜来解题。

白:
NLU做应用题,@约翰 师兄三十几年前就在做了。

我:
做几何题,@严 也兴趣了很久。

白:
用填坑来统领句法关系,就不会那么为难了。把二元关系进行到底,把词例化进行到底。吴文俊团队实际上也做了部分几何题理解的工作。不过数学家们认为这是脏活累活,没有学术价值。所以浅尝则止

wang:
机器做数学应用题,是验证自然语言理解效果的一个非常好的测试。但是没有市场。
本人2000年是在做小学数学应用题求解系统,当时也是为了检验自然语言理解效果的。当时系统,本群的刘群老师,周明老师,詹卫东老师,董强老师都见过,只是这些老师是否想起16年前的事就不得而知了。
当时演示的应用题“一条河里有4条小船,5条大船,河里一共有几条船?”--对于求解有几条小船,几条大船,或者颠倒顺序,都可以演示OK。但是在北大詹卫东老师把“一条河”改成“一个河”,系统就出不来结果,量词啊,量词没细致考虑。
这都是过去多年的事了,只是这个系统没有市场,最后只能搁浅。落不了地就被历史淹没了。记得当时台湾的中研院许文廉老师也做数学应用题求解。对于几何求解系统前几年看过文献,好像已经非常成熟了。可能语义理解的信息不是复杂,还是封闭环境非歧义语义,也许相对容易,这个后期我关注就不是很多了。

白:
应用题这东西,换个内容就是上市公司的报表,谁还敢说分析上司公司的报表没有市场?

wang:
白老师,我那个时候抱着系统广泛寻求市场,却没有市场关爱我。

白:
关键是不要被技术的表现形式所迷惑,要看穿技术的实质,有没有用是由实质决定的,不是由眼下的表现形式决定的。定位问题了。天上不会掉下个产品经理,最初的产品经理就是你自己。这世界上能看穿技术实质的人少之又少,要把技术包装对方向,还要扶上马送一程,理解的人才有可能多那么一点点。现在的教育里用人工智能逐渐多起来,但是系统更像系统而不是老师。要想让系统像老师,必须有NLP。像伟哥这样可以躺在垄断场景上高枕无忧,犯不着关注其他场景的人毕竟也是少数。

wang:
遗憾当初没有遇到白老师啊!以白老师的眼力,就活了。
觉得李老师也是在找更宽的场景。
回到昨天的话题“这瓶酒他只喝了一杯”。我的想法是“这瓶酒”--不是补语
应该是个强调部分。类似英语“It is .... that”
这瓶“酒”和一杯(“酒”),这酒是同质的事物,后者必须省略。不同质的事物,必须交代。

白:
还有不涉及量词的总分关系:“我们班的同学就他混到了正部级”
“我们班的同学”相当于瓶中酒,“他”相当于杯中酒。
总分关系,“总”表现为话题主语,“分”表现为动词的直接成分,主语或宾语。
但是按照移位理论,移出来的话题主语的原位必须是某个论元,所以一定要找到这个坑。

wang:
这种情况可否理解介词短语省略了介词“在...中”,(among)
单独“总”这个论元好像对应不了谓词,比如这里“混”

白:
英语介词短语可以修饰名词 总直接对分,分对谓词
我早上核心观点就是这个

wang:
恩,同意白老师

我:
I drink a cup of tea
cup is O of drink and then tea is linked to cup??
this is not what has been practised for long
tea is O of drink and cup (or a_cup_of) is Mod of tea
these are standard treatments

白:
@wei 这个treatment我太同意了。
英语不能省略tea吧。
即使前面提及了tea
壶里的茶我只喝了一杯,英语怎么说?

我:
NMT: I only drank a cup of tea, how to say English?
壶呢?
原来神经做翻译的时候,怎么常见怎么来,拉下的词没处放,就不放,一笔抹去,眼不见为净。这倒是顺溜了,可不带这么糊弄吧以前的 MT,无论 SMT 还是 RMT,大概
不敢这么玩

白:
有些口译人士倒是真的如此

刘:
SMT也一样的,经常丟词,还有论文专门研究SMT的丟词问题

白:
我在上交所的时候,就领教过知名公司的随团口译。我们提出的尖锐问题,一律抹平了翻,尖锐的词儿影都没有。有时我不得不自己用英语纠正一遍。

我:
那就是 RMT 不敢丢,其实也不是不敢,是丢不掉。除非生成程序有意设计了丢的条件。默认,实词是不能丢的。
“壶里的茶我只喝了一杯” 应该是:
as for the tea in the pot, I only drank one cup of it.
“it" refers to the "tea"

白:
it,相当于移走的tea的trace 在汉语是空范畴 在英语里总要有个真实代词。从伟哥的英译可以看出,他是真心不把“壶里的茶”当主语或宾语的。

我:
顺便一提,我觉得将来机器口译会有更好的用户体验
这是因为人的口译也就那么回事儿,糊弄的时候多,不合格的口译多,合格的在时间紧张的时候也老出乱子。这个观察在前些时候尝试用 NMT 翻译汉语到英语的时候就很清晰了。当时翻译到了英语以后,第一个震惊是,NND,神经真厉害,然后看到谷歌翻译下面有一个 speech 的按钮,就顺手一按,这一听,是第二个震惊,听上去比读居然更顺耳!读起来别扭或不合法的地方,给当今的语音合成一糊弄,居然那么自然,加上人的口译也是错误不断,相比之下,机器读出来里面有几个错就相当可以接受了。于是我用 iPhone 把那一段录音下来,放到了我的博客里面,让世人见识一下,机器口译不是梦。见:

谷歌NMT,见证奇迹的时刻

以前一直认为,口语到文字是第一层损耗,文字翻译是信息的第二层损耗,再从目标语文字到语音,是第三层损耗,损耗这样叠加下来,语音机器翻译是一个完全没谱的事儿。但实际上不是这么回事儿。
这第三层损耗,由于有人的陪绑和陪衬,不但不减分,反而加分。第一层的问题也基本解决了。当然前提是语音技术要神(经),语音合成要做得自然巧妙,而这些现在已经不是问题了。前几天讯飞合成一个广告词,居然声情并茂。

赵忠祥当年深陷录音门丑闻,声誉形象大减,那是错了时代。隔现在,赵大叔可以一口咬定那个录音是机器假冒的。

白:
啥时候声乐也能人工合成了,让帕瓦罗蒂唱我写的歌。

我:
白老师等着吧,不远了。

 

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【我看好深度神经读唇术】

Nick:转载:谷歌人工智能唇读术完虐人类,仅凭5千小时电视节目!人类古老的技艺再次沦陷-搜狐科技!!!

南:
估计很快就有读心术了

Nick:
读心术和读唇术结合,细思恐极,星座是讲不下去了。。。

洪:
记得是 David G. Stork开创了这个领域。

葛:
根据脑电波可以读心

陈:
所有空间转换,如果有足够的训练数据,都可以尝试用深度学习拟合。

我:
读唇术真是神经的好应用啊 可以想见 它会重复语音的辉煌 而且显然远远超出专家。

陈:
才40%正确率

我:
聋哑人的读唇能力 我见识过。有一次招员 一位白人“龙女”应聘。她跟我面试交谈,眼睛使劲盯着我的嘴唇,要吃了人似的。虽然我英语带口音 不标准 而且说话急促,她居然大体都“看”懂了。麻烦的不是她听话和理解的能力,而是我受不了她说话。由于她很多年耳聋,结果她说话的腔调越来越偏离人类。虽然我勉强听得懂 但那是一种“深度神经”折磨。公司hr和主管都鼓励要她,hr 多少还有担心怕她说我们对残疾人有歧视。特别嘱咐 如果基本能力够格 交流沟通的缺陷不能作为不聘用的考量。我心里不情愿 怕以后工作每天受听力折磨 但还是勉强同意招。

结果 negotiate 待遇 她居然狮子大开口 比其他几位类似能力的 candidates 高出很多 而且摆出不愿意讨价还价的样子。她的这个态度帮助我摆脱了不要她可能带来的良心不安。

发现残疾人的专项能力的发展可以让人惊诧 她的读唇能力在我们普通人看来不可思议。面试她六七位同事都反映 她的“听力”理解 完全可以胜任工作之间所需要的沟通协调,说的能力也有 只是偏离人类发音的趋势会越来越严重 大概遵循的“熵最大”(maxent)原理 孤立态混乱度无法逆转吧。

电脑有几乎无限的带标训练数据 这个场景非常类似于mt 这么好的天然学习场景 电脑超越龙女 是必然的吧。报道说 读唇专家不到百分之二十 电脑能力高出一倍 到百分之四十。不懂这都是哪门子专家,与我见到的龙女无法比。专家读播音员标准的说话,龙女读的是我们这些不同语言背景人的蹩脚英语。专家读唇之前已经熟悉这些播音员 等于受过历史数据的培训,龙女以前跟我们素不相识。

马:
以前有个电影叫联合舰队,是根据真人真事改编的,主演也是原型担任。一个盲人,一个聋哑人共同上学,盲人用嘴型重复老师说的话,聋哑人通过唇读获得信息

我:
残疾人的补偿替代功能常超越我们的想象
电脑只要有超大数据 也可以超越我们想象
看好这个方向。

马:
搜狗也刚做了一个唇读,识别率还蛮好的

 

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【一日一parsing:他 / 喝了 / 三碗 / 汤】

bai:
“他汤喝了三碗”
问题:“三碗”指向“汤”还是“喝”还是自己的省略被修饰语?
问题:它和“他喝了三碗汤”在语义上等价吗?

马:
强调的内容不一样吧,前者强调喝了三碗的是汤不是别的,后者强调是三碗

我:
要挖出变式的 nuances,不如把表层结构包括词序的差异保存 等到落地的时候 由应用的需要来决定这种差异是不是有必要。脱离落地谈细微差别 及其抽象表达,容易莫衷一是 也容易丢了西瓜。

他喝了三碗汤
他喝了汤三碗
三碗汤他喝了
汤他喝了三碗
他汤喝了三碗
? 他三碗喝了汤
? 三碗他喝了汤

最后两个变式走在句法的边缘。

一个标签是 Mod,一个是 buyu,其余皆同,包括可分离动词合成词“喝汤”,表层结构的所有信息,包括词序,也都 accessible if needed。因为 parer 的内部 representation 通常是增量的、信息 enrich 的过程,除非是信息更新为了改正一个错误,过去的或历史的信息并不丢失。这也是我们以前说过的为什么休眠唤醒机制可以work,因为被唤醒的原始状态并没有丢失,一个子串永远可以重来,二次 parsing。推向极端就是,整个一个句子都可以推倒重来,因为原始的 token string 并没丢弃。当然,实际上的休眠唤醒几乎永远是针对句子中的一个子树,再糟糕的 parser 也不至于全错需要重新来过。

Topic 再进一步转为 S 就完美了,语义中间件还有细致的工作可做。

最后这两句句法边缘的句子不是不可能出现,但比较罕见,对于毛毛虫边缘的毛刺部分的现象,合法非法中间的数据,如果不常见,那就拉倒,parser 出啥结果都无需太 care,反正有做不完的活计,不值当在它们身上花时间。

【相关】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白对话录之八:有语义落地直通车的parser才是核武器】

bai:
“你牺牲了的战友不能瞑目。”
“张三打得李四脸都肿了。”

我:
张三打李四
...打得他脸都肿了
...打得他手都肿了
...打得脸都肿了
...打得心直哆嗦
...打得好痛快
...打得鼻青脸肿
...打得天昏地暗

这些后续与第一句的不同组合,有些可以转成白老师的句式
s v o v 得 vp --> s v 得 s2 vp

bai:
填坑角度看不一样,前面topic填名词坑还是动词坑还是与坑无关。天昏地暗可以当一个形容词。拆开来看天和地都不能成为填“打”的坑的共享萝卜。
谓词结合的不同方式,只有显式地描述坑和萝卜才说得清

我:
对,不是都可以转,必须后一个s2是前一个 o 的时候,才可以转。如果 s2 回指第一个 s, 那就是另一组了。
“天昏地暗” 是成语形容词,黑箱子词,句法拆不开。
我用 vp 表达的不是 vp 是“谓语p” 的意思 包括 ap。以后得创造一个合适的标签 PredP
只剩下一个主语的坑待填。对于主语,谓语是ap 还是 vp,不重要。人家自己已经内部摆平了,不关主语事儿。

bai:
类似:(a/b)*(b/c)=a/c

我:
谁脸肿了?
李四。
谁手肿了?
不好说,但张三比李四可能更大,因为打人借助的工具往往是手。打人最常打的部位是脸,
而不是手。这个 minimal pair 真心诡异:

张三打李四打得他脸都肿了
张三打李四打得他手都肿了

也是中文文法很操蛋的鲜活例证。

bai:
没啥,常识都是软的,一碰到硬证据就怂。
你不说对方手上挨打,那就是打人者手肿,说了,那就是挨打者手肿。语言和常识推理已经融为一体。各种标配都是随时准备让位给例外的,例外不出山,标配称大王。

我:
白老师的段子是张口就来啊。这个说段子的功力很神。

bai:
在填坑时,先不管三七二十一按标配填,再给例外一个权利,可以override标配。
试试
“你渴了饮水机里有水可以喝。”
缩合条件。

我:
马上出门 回来再试
喝水不就是 “有 o 可以 vt”?蛮常见的。
有书可读
有澡可洗

bai:
但填坑结构是跨前后件的。
啥句法标签呢?

我:
补足语,逻辑 vo 单标。graph 也不管它怎么绕了,看上去合理就行。反正用的时候都是子树匹配,落地甚至可以是 binary 关系组的匹配。原则上,任何 node 可与 任何 node  发生暧昧,不讲门当户对。
一张分析全图(the entire tree)的元逻辑性(meta logicality)可以不管它,只要个体的 dependency 有说法就行了。英语也是:“have a book to read”
句法标签是 宾语 ➕ 宾补,后加逻辑vo
到了逻辑语义层 或语用层、抽取层,句法的层次理论和原则不算数了。

bai:
“他有三个保镖保护着。”
句法上其实有条件带点笼统性地把坑共享的标配拿出来。

我:
有 np vt,vt 的标配是 np 做宾语(o),若要 s 做逻辑宾就需要外力。

bai:
这房间有三扇窗户可以通风采光。连逻辑宾都不是,最多算间接逻辑宾

我:
我的理解是逻辑主语。两个主语都说得通,全部与部分。

bai:
“这房间”对于“通风采光”来说是填什么坑呢?

我:
主语啊。窗户也是主语,不过是整体和细节的区分而已:
窗户通风了,房间自然通风。

bai:
这套音响有七个音箱和两个低音炮可以营造出环绕立体声效果。

我:
这样不断营造语用现场,其实导致的不是语言学关系的矛盾,而是语义 interpretation 的挑战。
语言学关系的标签,本性是弹性的,哪怕标签取名不一定合适或容易误导(譬如主语误导为施事,其实未必)。 主语也好、宾语也好,都是万能的筐,什么 interpretation 都可能。话题(Topic)就更甭提了。
常识来说 立体声效果的营造,应该是立体装置的总体,这些装置的个体达不成这个效果。这是知识内部的争论,与语言表达背后的结构关系不大。知识内部也可 argue 立体装置中某个装置是决定性的,那个装置效果出来了,立体效果就基本出来了。
这是两套系统,两个层面。 结构关系,与我党对历史事件的原则一致,宜粗不宜细,留下语义解释或争论的空间。

bai:
那就干脆粗到不分主宾语,只计数目,不计语序方向,更不计subcat的相谐,装到框里再说。在遇到多种填坑戴帽可能性的时候,再把这些法宝一个一个祭出来。吃瓜打酱油的捎带着做细了。不是为了做细而做细,是为了增加确定性而做细。这就有意思了,比如量词搭配。看起来是在细化修饰关系,可顺带把逻辑宾语搞定了,纯粹是搂草打兔子。

我:
不是不可。实践中,往往在句法关系或标签的 representation 的极端做法之间,做个折衷。更多是为了方便。说到底,一切句法语义计算的表达,都是人自己玩,方便原则不过是让人玩的时候,少一点别扭而不是求一个逻辑完备性。representation 作为语言理解的输出,本质是人的逻辑玩偶。爱怎样打扮都可以。这个本性是所谓强人工智能的克星。

bai:
我还不那么赖皮……

我:
强ai 更赖皮

bai:
刚性的局部可以顺带给柔性的全局注入一小丢丢刚性,但是出发点就没指望全局会百分之百刚性。

我:
连语义的终极表达都一头雾水,说什么强智纯属扯淡。

bai:
强AI我反对,语义表示太过任意我也不赞成。总要有个松紧带勒着。

我:
system internal 是做现场的人的现实。很多东西就是有一个模模糊糊大的原则,或有相当弹性的松紧带。下面呢,就是一个系统内部的协调(system internal coordination)。在人叫自圆其说,在机器就是内恰。

bai:
二分法是要的,一部分role assignment,一部分symbol grounding。前者是深度NLP的必修课,后者跟现场关系更大些。
过松的松紧带,红利已经吃得差不多了。新兴的松紧带,不紧点就没有投资价值。

我:
投资价值与宣传价值还有一些不同。投资价值对松紧不会那么敏感,除非是投资与宣传(marketing)紧密相关的时代,譬如当下ai泡沫的时代,或当年克林顿的时代。
投资价值的落脚点还是语义落地(semantic grounding)。至于怎么落的地,松啊、紧啊,不过是给一个宣传的说法。昨天我还说,syntaxnet 和很多 dl 都是开源的,要是好落地为产品,还不是蜂拥而上。现实是,不好落地。
所谓核武器是这样一个工具,它有一个明确的落地途径,至少从方法学上。system internal 的落地管道,被反复验证的,余下的主要是领域打磨和调试。

bai:
现在很多公司是万事俱备,就差核武器

我:
syntaxnet 至少目前状态没有这个。虽然也是 deep parsing,但并不是所有的 deep parsing 都是核武器,要看是谁家的、怎样的 deep parser 才有核武器的威力。

bai:
你没看上眼的,我们可以不用讨论

我:
看上眼的dl,是有海量带标数据的(最好是自然带标数据,无需组织人去标注),端对端绕过显性结构的,里面满肚子谁也猜不透的隐藏层黑箱子的机器,譬如神经机器翻译( nmt)。

bai:
带标看标在什么地方。标在字典里OK,那算数据资源建设。标在语料里,即便假定标注体系在语言学上是正确的,还要考虑做不做得起呢,何况语言学上错误的标注体系,更让人怀疑有没有价值和意义去如此大动干戈了。

我: 回家了,可以测试:“你渴了饮水机里有水可以喝。”

逻辑的坑都没到位。句法的框架不能算离谱。就是这样。至于叫补足语还是叫 Next,也无大关系,反正后续语义中间件需要这么一个桥梁做细活。“有 NP V” 的句式以前调试过,比想象的复杂,一直没搞定,就放置一边了。

bai:
“有电话可以打”“有空调可以吹”“有大床可以睡”
不必然是逻辑主语,不必然是逻辑宾语,甚至不必然是必选坑。两个谓词中间被NP穿插的,朱先生书里叫“连谓结构”。类似伟哥的next。

我:哈。

bai:
大床居然是S

我:
目前词典没有收可分离合成词 “睡床” 或 “睡大床”。 默认做主语 也是可以的。循 “有 什么什么 发生了” 的句式, 何况 “睡” 做不及物动词的时候更多。不是说分析对了,而是说错得有迹可循。汉语“有”在句首的时候,常常是 dummy,如果 “有” 前有个 NP,那么后面的 NP 做主语的机会就相应减少了。
白老师曰:  大床居然是 S:

有两个哥们,一个叫大床,一个叫小床。大床爱睡懒觉,小床爱撒酒疯。有大床睡,就有小床喝,一刻不得安宁 .... 【谁接龙?】

bai:
白老师还曰,任何成分皆可为专名。

我: =:)
吾谁与归?

bai:
时不我待

我:
想起文革时期的莫须有群众举报,结论是:事出有因,查无实据。然后是 有则改之无则加勉 就是教育被污名者自认倒霉,没的冤枉。
说实心话,昨天白老师说很多公司是,万事俱备,只欠东风。时不我待,我手心的疑似东风如何才能刮起?

bai:
专名是一种层次纠缠。
事出有因,查无实据;有则改之 无则加勉。这是那年代的套话
方言,成了小说里的人名;文章,成了现实中的人名。
找谁讲理去。
只能用“结构强制”,从外部施加影响,再辅以大数据。

我:
说事出有因 是文过饰非。
不过 nmt 测试的结果常常连事出有因 都很难。一个长句 只有一个字不同,而且这个不同的字还是同质的,nmt 翻译结果却有很大的不同。这个现象非dl专家无法解释和理解

bai:
所以规则层面的、用可理解的特征直接表示的知识如何混入大数据直接参与学习甚至“编译”,非常重要。

我:
所谓符号逻辑派 就是错了 也错得事出有因 debug 也知道症结所在

bai:
符号逻辑派缺乏的是柔性,不知道认怂,一错到底。

我:
yeh 见过这种人 还不少

【相关】

【李白对话录之九:语义破格的出路】

【李白对话录之七:NLP 的 Components 及其关系】

【李白对话录之六:如何学习和处置“打了一拳”】

【李白对话录之五:你波你的波,我粒我的粒】

【李白对话录之四:RNN 与语言学算法】

【李白对话录之三:从“把手”谈起】

【李白隔空对话录之二:关于词类活用】

《李白对话录:关于纯语义系统》

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

【李白对话录之九:语义破格的出口】

白:
“国内大把的钱想出逃”
钱不会“想”。但是“出逃”只有一个坑,除了“钱”没有其他候选。这种情况下句法优先,语义的不匹配,到语用(pragmatics)层面找辙。一个语用出口是拟人、人格化,把钱人格化。另一个语用出口是延展使动用法,钱的主人“想”使钱出逃。

我:
1117a
出口的问题也许不必存在。句法搞定的东西 默认是 语义不出场 语用不解释,除非落地需要这种解释。落地通常不需要。譬如 mt,一个语言的语义不谐而产生的转义通常可以平移到目标语,哪怕是八杆子打不着的语种之间。譬如乔姆斯基的 green ideas,直译成汉语,同样可以反映乔老爷想 make 的 point:句法确定的时候 可以排除语义。

白:
聚焦句法的人看到的是half full,聚焦全局的人看到的是half empty。

我: 哈
这里谈的是默认。默认做法是、一直是,语义破格是默认许可的,句法破格才需要语义出场。 因为自然语言中,句法确定场合下 语义破格太常见了,常见到见怪不怪。无需解释。而受体在理解过程中 常常各有各的理解 根据这个人的教育和素养 而不是语言学 后者个体差异不大。

白:
默认的主体是谁
分析器么?分析器我同意。但默认的主体不必然是分析器。

我:
换句话说,如语义破格一定要给一个语用出口的话,很可能莫衷一是,标准很难制定。譬如乔老爷的破格的 green ideas,我们语言学家的理解 与普罗的理解 在语用层面相差太大。但是在句法层面,精英与普罗是一致的,虽然普罗可能不知道主谓宾定等术语。

白:
钱想出逃,在应用场景中是有意义的,不管精英普罗,并没有大的分歧

我:
洗钱 的意思?

白:
不一定,也有正常的恐慌.包括本地赚了人民币觉得不安全的,以及外资觉得不想继续玩下去的。

我:
这些破格带来的附加的意义,是听众体会出来的。每个人的体会即便大体方向一致,也很多差异。白老师的理解,比我的理解要丰富,比普罗更不同。很难形式化。即便能形式化 也很危险,因为有强加于人 限制其他可能的缺陷。

白:
这不重要,重要的是面向大众中和精英的预警都要take it into account。

我:
也许只要指出某个关节 语义破格 就可以了,至于这个破格意味什么 让人各自琢磨。其实破格的事儿 指出不指出 大家都心知肚明。

白:
伟哥说的是模块视角,不是系统或服务视角。换到服务视角,即便面向普罗,但是定位也可以是让普罗觉得专业,精英觉得不外行。一个带有修辞性语义破格的表述只有把附加意义掰开揉碎了才能向后传播,跟其他信息滚在一起发酵。在NLP同行间心知肚明的事,要想在知识情报各个piece之间引发chemistry,必须还原为掰开揉碎的形态。形成看上去专业的影响链、作用链。

我:
语义计算提供多种可能 在语用中发酵 是个好主意 ,可能提升人工智能的深度。

白:
所以,一个有追求的服务,不会迁就普罗的非专业理解,而是想办法把专业的理解用普罗便于接受的形式展现出来。

我:
不过 也有可能是潘多拉的盒子

白:
不喜欢不买便是

我:
发酵到不可收拾 不收敛,语义破格的确是 nondeterministic,本性就是发散。其本质是诉诸的人类的想象力。

白:
有些破格已经是家常便饭了
像这句家常便饭就是。

我:
“家常便饭”的破格 通常固化到词典里面去了 。绑架以后 就把破格合法化了 可以不算是破格了。只是词源上 可以看到 两个语义 对于同一个词。系统是看成两个个体的 尽管实际操作我们常常绕过wsd,不做区分 但是如果需要区分 词典是给出了两条路径的。

白:
但和本意还是两个义项
“没怎么特意准备,就是家常便饭,大家随意吃哈。”
家常便饭遇到吃,和难过遇到小河,是一个性质。

我:
感觉正好反着
家常便饭遇到吃 是常态 默认;就好比 难过 遇到 人【human】。
家常便饭甚至谁也遇不到,也还是默认为本义 【food】。
“难过” 稍微模糊点 谁是本义 谁是转义 可以 argue,但通常按照 hidden ambiguity 的原则,词法大于句法,“难过”因此本义是 sad

白:
计算机只管一个是本义、另一个是转义,其他不care

我:
转义带有强烈的句法组合色彩 ,是 difficult to cross。
当然 这一切都听人的安排,遵从便利原则。
语义计算 没有人工 便没有语义,没有语义 就谈不上计算。
说到底 人的语义 design 以及系统内部的协调的考量,是语义计算的出发点 数据是语义计算的营养基地。

白:
如果说到相似性,就是固定组合里面的词素和外面的词素产生了搭配趋势,改变了原来的结合路径。

我: 对。
“这条河很难过。”
lexical entry “难过”里面的词素“过”与外面句法的词素“河”发生了 VO 的关系纠缠。
“这孩子很难过。”
就没有纠缠,桥是桥路是路。

白:
本义的家常便饭,和外面的“吃”有纠缠,转义的没有纠缠;本义的难过和外面的“小河”有纠缠,转义的没有。本义的不一定是概率最高的,譬如本义的“难-过”就可能比不上转义的“难过”概率高。

我:
所以说,要 遵从便利原则, 系统内部协调。本义、转义的区分不重要,重要的是内部协调:哪个义项最方便作为标配。一旦作为标配,就不必考虑纠缠的条件了。只有不是标配的选项 才需要条件,或者需要唤醒。一般而言是概率高的做标配。或者条件混沌、难搞定的那个做标配。然后让条件清晰的去 override 标配,此所谓 system internal coordination。遵循 longest principle,具有 hidden ambiguity  的“难过”,词典标配可以是 sad

白:
选最高概率的作为标配是情理之中,但标配如果恰好是本义,就不需要纠缠去唤醒本义了。“把国民经济搞上去”

我:
最高概率原则保证的是,万一系统没有时间充分开发,标配至少保证了从 bag of word 的传统模型上看,数据质量最优。我们实践中也遇到过决定不采用概率最大的作为标配,这是因为概率大的那个选项,上下文条件很清晰,规则容易搞定。而概率小的选项却条件模糊,所以索性就扔进词典做了标配。所有这些考量都是 system internal,与语言学或词源学上的本义、转义没有必然的对应联系。

白:
吃豆腐,标配是本义,搭配在本义内部纠缠,遇到sex上下文时进入转义。不一定显性,隐形的sex也在内。比如,“张三的豆腐你也敢吃?” 当然,张三卖的豆腐有食品安全问题时,也可以这么问。后者更加specific,是“例外的例外”

我:
例外之例外不得超过三层,这是我的原则,甚至不超过两层。虽然人使劲想,可以一直想到更精巧的例外之例外来。系统不要被带到沟里去。曾经由着性子这么干过,一路追下去,自以为得计。在某个时间的点,一切都 ok,但除非封装为黑箱,只要系统还在继续开发中,那种追求例外之例外的开发路线,结果是捉襟见肘,不堪维护。鲁棒的系统不允许规则具有嵌套层次的依赖性。【科研笔记:系统不能太精巧,正如人不能太聪明

白:
这话放在比特币上,一堆人会跟你急。比特币的设计实在是太精巧了。

我:
超人例外。电脑例外。机器学习例外。
肉身凡胎的人做自然语言系统,stay simple,stay foolish 怎么强调也不过分。

白:
“人家都出轨了,你为啥还没上轨”这标题有意思

我:
机器学习例外是因为反正就是个黑箱子,里面有多少参数,调控成了怎样都是一锅粥,在 retraining 之前,这就是一锤子买卖,好坏就是它,不跟人类讲理。

白:
无规则的系统例外

我:
无 symbolic rule 的系统例外。规则的广义似乎也包括黑箱子系统。严格说该是,无可以让人干预的 symbolic rule 系统例外,如果是 symbolic,但是人不得干预,那也无妨。跟封装等价。

白:
完全词例化的系统也是无symbolic rule的系统吗?

我:
在我这里是。每一条都可以做符号逻辑的解释,都遵循某种语言学的思路。

白:
人只能干预词典

我:
1117b
句法是超然的,处变不惊。只有语义甚至修辞,才需要把 出轨 与 上轨 联系起来,感受其中的“深意”。interpretation 是围绕人跳舞的,譬如我们做 sentiment,把大选舆情挖掘出来,至于如何解读,各人面对挖掘出来的同样的情报,会各自不同。很多人想让机器也做这个解读,基本是死路。上帝的归上帝,凯撒的归凯撒。剥夺人的解读机会,简直蛮不讲理,而且也注定无益。

白:
在证券领域,就是智能投研和智能投顾的关系。

我:
解读的下一步是决策。机器不能也不该做决策。

白:
智能投顾也可以是机器人,但根据一份智能投研报告,不同的智能投顾机器人可以做出不同的投资决策。机器真做决策。但是决策机器人和语义分析机器人之间有防火墙。在投资领域,机器比人强。人过于贪婪和不淡定。人处理信息特别是把握瞬间机会的能力不如机器。做对冲的不利用机器是不可想象的。

我:
这个我信。
甚至银行的那些投资顾问,遇到过不止一个了,老是忽悠我们每年定期去免费咨询他们,感觉他们的平均水平低于一台机器。按照他们几乎千篇一律的所谓投资建议去投资,不会比遵循某个设计良好的系统的建议,更有好处。这些顾问应该被机器把饭碗砸了,省得误导人。
【相关】

从 colorless green ideas sleep furiously 说开去

《泥沙龙笔记:parsing 的休眠反悔机制》

李白对话录之八:有语义落地直通车的parser才是核武器

【李白对话录之七:NLP 的 Components 及其关系】

【李白对话录之六:如何学习和处置“打了一拳”】

【李白对话录之五:你波你的波,我粒我的粒】

【李白对话录之四:RNN 与语言学算法】

【李白对话录之三:从“把手”谈起】

【李白隔空对话录之二:关于词类活用】

《李白对话录:关于纯语义系统》

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

Small talk with Daughter on US Election

just had a small talk with Tanya on US election, she was super angry and there was a big demonstration against Trump in her school too

T:
I don't want him to win
I don't want him to do well
Or else another racist gets electedMe:

Me:
neither did I
IF he does very badly, he will be impeached;
or at least he will not be reelected in 4 years.
But now that he is, we can keep an open mind.
There is an element of sentiment he is representing: so-called silent majority, that is why most polls were wrong.

By the way, many have praised my social media analysis just before the election, mine was way better than all the popular polls such as CNN.  This is not by accident, this is power of big data and high tech in the information age:

Final Update of Social Media Sentiment Statistics Before Election

with deep NLP and social media, we can pick up sentiments way more reliable and statistical than the traditional polls, which usually only call 500 to 1000 for opinions to hope they represent 200 million voters.  My mining and analysis are based on millions and millions of data points.  So in future we have to utilize and bring the automatic NLP into things like this as one important indicator of insights and public opinions and sentiments

So in future, we have to utilize and bring NLP into things like this as one important indicator of insights and public opinions and sentiments.

T:
daddy
you're amazing
Your technology is amazing

Me:
I got lots of compliments for that, but yours mean the most to me.

What happened in the election as I had been tracking using our NLP sentiment tool was:

1. Clinton was clearly leading in the period after the recording scandal of Trump and before the FBI started reopening Clinton's email case: Big data mining shows clear social rating decline of Trump last month.

2. Clinton has always been leading in Spanish speaking communities and media, but that did not seem to be sufficient to help revert the case:  Trump sucks in social media big data in Spanish.

3. The event of FBI re-opening the email investigation gave Clinton the most damage: Trump's scandal was cooling down and the attention was all drawn to Clinton's email case so that the sentiment has a sharp drop for Clinton (【社煤挖掘:大数据告诉我们,希拉里选情告急】)

4. When FBI finally reissued a statement that there was no evidence to charge Clinton only 2 days before the election, time was too short to remedy the damage FBI did in their first event of reopening the case: my big data tracking found that there was some help but not as significant (【大数据跟踪美大选每日更新,希拉里成功反击,拉川普下水】).

5. Then just before the election, I did a final update of the big data sentiment tracking for the last 24 hours versus last 3 months, and found that Trump had a clear leading status in public opinion and sentiments, so I decided to let the world know it although at the point most everyone believed that Clinton was almost sure to win.

T:
Oh my god dad your machine is the smartest tracker on the market
Dad your system is genius
This is exactly what media needs
You should start your own company
This is amazing
I think this would be the planets smartest machine

Me:
I do not disagree, :=)It was a tight competition and with good skills, things could turn different in result.  In terms of popularity votes, they are too to be statistically different, so anything at the right timing could have changed the result.

It was in fact a tight competition and with good skills, things could turn different in result.  In terms of popularity votes, they are too to be statistically different, so anything at the right timing could have changed the result.

On retrospect, FBI did a terrible thing to mess up with the election:
they reopened a case which they did not know the results
just 10 days before the election which made a huge difference.
On the other hand, the recording scandal was released too early
so that although it hurt Trump severely at the time, yet it allowed FBI to revert the attention to Clinton

In future, there should be a strict law disallowing a government agency
which is neutral politically by nature to mess up with an election within a time frame, so Trump's winning the case to my mind has 80%+ credit from the FBI events.
What a shame

 

[Related]

【社煤挖掘:川普的葛底斯堡演讲使支持率飙升了吗?】

【社煤挖掘:为什么要选ta而不是ta做总统?】

Big data mining shows clear social rating decline of Trump last month

Clinton, 5 years ago. How time flies …

【社媒挖掘:川大叔喜大妈谁长出了总统样?】

【川普和希拉里的幽默竞赛】

【大数据舆情挖掘:希拉里川普最近一个月的形象消长】

欧阳峰:论保守派该投票克林顿

【立委科普:自动民调】

【关于舆情挖掘】

《朝华午拾》总目录

《朝华午拾 - 水牛风云》

朝华午拾 - 我的世界语国(五): 水牛风云

作者:立委

纽约州水牛城是我来美奋斗挣扎了八年的地方,我的世界语国也经历了许多的风雨起伏。

我是在美国网络热潮中来到这家创业公司的(见朝华午拾-创业之路》)。在世纪末网络泡沫破灭之前,我协助老板获得了1000万美元的风险投资。钱一下多得好像永远用不完似的。老板决定停薪留职,不再承担她的大学教授责任,来到公司当任全职CEO。开始的 executives 就老板和我两个人。我们踌躇满志,准备大干一场,开发自然语言技术支持的新一代问答系统。

跟钱同时进来的是压力。如果我们无能快速组建团队,老板对投资人就无法交代。扩员的压力很大,我和老板漫天做招工广告,每当发现一个合适对象,并成功招纳,就相互祝贺。如果有一周一个也没有招到,就有挫折感。

当时的气氛跟中国大跃进类似,理性被压抑,冒进被称颂。投资人来视察时,得知我们新的办公楼还在接洽,旧的办公室太过拥挤,难以适应迅速扩张的需求,竟然提议两班倒,“人停机不停”。我们明知科研和开发不是靠“革命热情”和人海战术就可以飞跃的,但是在当时的那种气氛下,也没有办法跟投资人说清这个道理。作为经理,我只好因势利导,每个周末以身作则,来公司加班,并鼓励员工至少周末加班一天。平时每天晚上六点半左右我出去买各式快餐,好像大跃进吃公共食堂的样子,为届时还在办公室的员工提供免费晚餐。

董事会要求我们尽快从当时的五六个员工至少扩充到50-60人的规模。我作为第一位副总,被赋予为我的研究开发组招工扩员20-30人的任务。我的组需要三类人才,一是研究科学家,要懂机器学习算法,跟踪最新学术动态,二是软件工程师,能够开发和优化 real life 软件模块,三是语言学家,可以编制和维护机器语法和词典等软件资源。前两类人比较紧缺,语言学家相对好办。我先从加拿大招来两名语言学家,又在德国招来一名,加上一名中国籍女博士,组建了一支语言学博士队伍。董事会还嫌我们扩张速度不够,不能符合他们的大跃进要求。我们于是实施员工引荐的奖励办法,非经理的员工推荐一人,一旦受聘,可得一千美元奖金。作为经理,内举不避亲,我着手在我的两个社会圈子,华人和世界语朋友中,继续扩招。华人圈子主要是中国的留学生和新移民,前后招进10名。其中多是先跟我做暑假实习生(interns),然后留下来成为正式员工。他们多还没有毕业,也没有北美工作经验,需要留在水牛城继续学业,能够来到公司一边工作,一边完成学位对他们是绝好的选择(水牛城工作机会很有限,我们公司被认为是比较理想的所在)。老板对中国学生印象很好,认为他们比印度同学更加踏实能干,所以对我偏向在华人留学生中招员表示支持。

世界语圈子里,我跟加拿大世界语协会主席P先生认识多年,他的博士已经念了七年多了,因为毕业即失业的压力,一直在系里耗着不毕业。我于是去信请他来面试,邀请他加盟我的研究开发组。他询问待遇如何,我告诉他如果被录用,比他现在的 sessional instructor 的工资高出两三倍,他自然喜出望外。拿到 offer 以后,他和他的世界语太太欢天喜地,开车从西海岸沿一号公路横穿加拿大,经多伦多一路开车到水牛城报到。由于他的到来,水牛城成为世界语俱乐部的新据点,来自邻城多伦多和 Rochester 的世界语朋友,也纷纷来他的公寓聚会,我的世界语圈子也随之扩大了。

早在温哥华念博士时期,我就认识了P先生。其实他可以算我的师兄,在我进入语言学系前他就在我系读博士,到我去的时候,他转到邻城的另一所大学继续他漫长的博士生涯。我们在地区性的语言学会议和世界语会议上都见过面,他给我的印象是比较典型(stereotyped)的语言学家,有点迂腐,善于做田野工作,detail-oriented,懂得很多门外语,适合当秘书或编辑。我觉得经过培训,他可以胜任机器词典语法的编制维护任务。我离开温哥华前,和他也有一些个人交往,一次开北美语言学会的时候,曾在他家留宿。还有一次开北美西北地区世界语会议以后,我搭乘他的车回温哥华。一路上,他和太太两个兴奋异常,用世界语高谈阔论,突然发现汽车没油了。半夜三更,我们被困在高速公路旁边。当时我们是学生,为省钱都没有加入汽车协会(CAA),所以也无法向CAA求援。P先生后来硬是步行到下一个高速出口边的汽油站,请求好心人帮忙送来一管汽油,我们才得以平安回家。

P先生是在欧洲参加世界语大会时认识太太的。太太是当地的世界语积极分子,跟前夫离异后带着女儿生活。她性格爽朗,滔滔不绝,说话爱夸张,表情丰富。谈起她和P的相识相爱,总是眉飞色舞。她把丈夫看得很高很大,现在丈夫博士还没有答辩就找到了工作,经济一下子翻身了,她的喜悦更是溢于言表。为了表达对我举荐和接纳的感激,她自己绘画,制作一批手工艺卡片送给我的太太,还赠送我一本柴门霍夫传记,扉页写满了对我的溢美之词。

P先生来后,工作按部就班,倒也兢兢业业,但跟现有的几位语言学家相比,也并不突出。我们只做英语,他的外语专长也无法表现。他也不大懂公司文化中的个人表现和隐形的加班要求,总是按时上下班。也难怪,他和太太有很多世界语协会的杂务,编辑加拿大世界语协会通讯,发展会员等等。看的出来,他们满意现状,很 enjoy 目前的生活。我心内认同这样的劳逸结合的生活方式,但自己不得不过另一种生活:每天天很晚才回家,周末总是加班,难得有时间陪孩子和太太。

有一次跟P聊天,我提到想把同样是世界语者的资深D博士招来,可是联系不上,P先生说可以在世界语朋友中查询他的下落。过了两一个月,他兴冲冲告诉我联络上了,说D博士目前在一家社区学院担任临时讲师。我马上打电话给他,一拍即合,邀请他前来面试。D博士曾经是我的”上司”(见《朝华午拾-我的世界语国(四): 欧洲之行》):当年在荷兰公司以世界语为媒介语的机器翻译项目DLT中,他负责指导和审查我承包的汉语形式语法。我想,作为资深语言学博士,又跟我一样实际从事过多年的机器翻译工作,他也许可以帮助我指导这个越来越大的团队。

面试并不顺利。D博士年岁较大,反应有点迟钝,我也感觉有些失望,至少他不象是个 group leader 的人才。不过,心里想,他也许经历的挫折较多,至少经验是有的,作为一个 team member,想必没有问题。老板跟我说,D很老实,但是不象是个能干的人,不主张招。不过,如果我觉得能用上,还是由我定。我咬咬牙,还是招了,但没有给资深人士待遇,年薪跟其他语言学家拉平。尽管如此,对于D博士,这无疑是自荷兰公司工作后的多年漂流生涯以来的最好工作。他和他的世界语太太也是欢天喜地来到水牛城,而且来了不久就买了房子,俨然要在水牛城扎根。后来得知,D博士的母亲听到儿子得到一份不错的工作的喜讯,决定提前把家产划给他,资助他在房价便宜的水牛城置办房产。

说到这里,有必要介绍一下语言学家供过于求的北美劳务市场。在西方,有很多冷门专业不断制造着社会不需要的人才,这些专业的大部分博士毕业即失业。冷门专业包括我们从小迷信其威力的数学和物理,我主修的语言学也是其中之一。这些专业的博士生除了谋求教授职务,在社会上很少有需要其专门技能的岗位。可是教授职位毕竟很有限,往往一个职位出来,就有上百个博士和博士后申请,对于不是一流大学的博士,求教职简直比登天还难。拿语言学来说,就我所知,甚至MIT的博士,也常常需要经过两三轮清贫的博士后中转(博士后是真正的学术“苦力”,一年两万左右薪水,经济上比餐馆打工强不了多少),运气好的最后可能找到一个二流或三流大学的教职。

这就是我所学的可怜的语言学的现实,好在我的研究方向跟电脑有关,运气稍好。可是很多我的同学终身潦倒落魄。少数头脑灵活的丢掉专业转行去干别的,更多的人不能适应社会的需要,只好在大学做临时讲师(sessional instructor,僧多粥少,这种工资很低的临时工也很难找),或者接点翻译或编辑的零活,勉强糊口。别小瞧这些语言学博士,他们尽管没有多少创造性,棱角也早已磨圆了,可个个都是饱学之士,多数都会五六种外语,会十几种外语的也不在少数。我的世界语朋友P先生和D博士就是他们的代表。这些落魄而清高的语言学博士,囊中羞涩,在北美很难得到女士的垂青。可是在前共产主义的东欧,借助世界语的特殊场合,却可能喜结良缘。D博士在荷兰公司的项目完结以后,辗转东欧各国,教授了几年英语,同时投身当地世界语运动。回美国的时候,跟P先生一样,带回来一个世界语者太太。

我们在语言学家中大量招工的行动引起了媒体的关注。当时,我们的几个竞争对手包括AnswerLogic.com 也一样到语言学家中招工,形成了一道社会风景。我们这些活动经过《华尔街日报》题为”No Longer Just Eggheads, Linguists Leap to the Net”的采访报道后,在社会上和语言学界引起强烈反响(甚至中文报纸《世界日报》也编译了华尔街日报的报道),一时间似乎为语言学家开辟了一条新路。作为参与者,我为自己能够帮助同行创造就业机会感到欣慰和自豪。在公司内部,尽管由于劳务市场的供需影响,语言学家作为 knowledge engineers,比同等学历的软件工程师工资要低,我还是尽量为他们谋求高于市场价格的待遇。一时间,公司仿佛成为语言学家的天堂。

然而,好景不长。D博士差不多是我们疯狂扩招的最后一个了。世纪末,网络泡沫终于破灭,Nasdaq 科技股市场一落千丈,投资人变得异常挑剔和谨慎。AnswerLogic 拿钱比我们早,烧得比我们快,轰轰烈烈闹腾了不到两年,终于随着Nasdaq的坍台而销声匿迹。还有一家搞自然语言有相当年头的公司,日本投资人决定撤资,拍卖股权,公司负责人找到我们,认为我们两家的技术有很大的互补性,希望我们贱价购买,并接纳他们的技术骨干:负责人实在不忍心对技术骨干裁员。我们的另一个对手,曾经拿到三千万巨额投资,集中了世界一流科学家的 Whizbang! 也遭遇滑铁卢,投资人在烧了一千多万美元以后,决定撤资,撕毁合同,放血大拍卖:他们的所有技术,包括源程序和说明,everything must go! 价格已经降到一两百万美元,让我们不得不动心。可是我们泥菩萨过河,自身难保,没有能力和精力消化这些技术,只好放弃这个“deal of the century”。股市垮台不到一年,几十家在我的 watch-list 中的对手,只剩下两三家,跟我们一样勉强维持,惨淡经营,朝不保夕。

我们当时还剩下约五百万投资,加上不断增长的政府项目的进项,还没有到山穷水尽。当然,投资人也可以中途撤资,但他们最终还是决定继续支持下去。不过,董事会决定重金引进职业经理人,我的老板只好屈居第二。新的CEO精明强干,哈佛MBA出身,此前领导过三家高科技创业公司,并成功转手出售给大公司,有不错的 track record。他的担子很重,在 high-tech 公司纷纷关张的恶劣形势下,必须带领公司闯出新路,度过难关,伺机发展。当时,问答系统的先行者 AskJeeves 盛极而衰,股票一跌千丈,董事会因此认定我们一直在开发的问答系统没有市场,指令转向开发新产品。

CEO上任以后,连续两周听我们详细介绍技术细节,比较我们的技术跟可能的竞争对手的异同,开始咨询一些外面的高参,探询新产品的路子。同时,他不动声色地考虑如何重组(re-org)公司,减少开支,轻装前进。对于高科技公司,最大的开支是人力资源,re-org 就意味着裁员。他随身总带着一个花名册,上面标有每个员工的职务和工资,他不时在上面写写划划,有的打叉,有的标上问号。最先打叉的就有D博士。这也不怪,D博士来了不久,就犯了几个低级错误,闹了不少笑话,他老朽无能的评价很快就反馈上来了。我很为难,但是知道难以保护他,他确实不上手。我至今也不明白,一个名校博士,有六年相关的实际工作经验,怎么这样不入。他也没有到老糊涂的年岁呀。

D博士自己也有所觉察,有危机感。他有点木纳,不善于迎合其他主管,觉得我是他的唯一的救命稻草,于是请我和全家做客,P先生夫妇作陪,联络感情。他的用心我很明白,可我确实无能为力,在公司正式宣布裁员名单前还必须小心保密。这次请客真让我犯难,跟太太一商量,觉得不能不给他们夫妇一个面子,但又不能让他们有错觉我有能力保护他。最后决定我一个人去,带上礼物赴宴。女主人使出全身解数,做了一顿极为丰盛的晚餐,用的餐具也很讲究,可是我没有任何胃口和心情,硬着头皮应付。气氛有点凝重,连平时爱热闹,喜欢多话的P太太,察言观色,也收敛很多。P先生夫妇转着弯子替D博士美言,我只能微笑不语,这是我在世界语国所经历过的最别扭的晚宴。

裁员计划暂缓,因为CEO和董事会还在协商多大的裁员幅度既能节省开支,支持公司开发出新产品,又不伤筋骨,保存骨干。终于,在CEO到来的第三个月,裁员指标在管理层下达,我做梦也没有想到,我们辛苦发展的60多员工的公司,居然要砍掉一半。这下不但D博士保不住,连P博士(P先生当时已经答辩,顺利拿到了博士学位,正春风得意)也必须走人。由老板和天使投资人任命的四个年轻副总,也开掉三个,甚至天使投资人的亲弟弟也不能幸免。老的VP就剩下我一个,好腾出位子让CEO引进资深经理人员,组建新的领导班子。公司的第四号员工,一个挺能干但爱抱怨的西班牙小伙子,也列入黑名单。我感到痛心,毕竟大家同舟共济,一路走过来,我说服老板和我的老搭档、瑞典籍的第一号员工一起去跟CEO说情,还是没有成功。CEO跟我说:I know it’s a great pain, especially for those you have worked with for long. But we all want the comnpany to succeed and this is the only way to survive this tough time. I have done this numerous times, believe me, it works. 说的是老实话,可是作为经理,要开掉自己亲手招来的员工,是什么滋味:job 是员工的命根子,你不能把人送上天堂,转手又打入地狱。

煎熬不止这些。我保护华人员工的私心也受到挑战。经过多轮内部讨价还价,最后决定10名华人员工必须裁掉两位。大家乡里乡亲,砸人饭碗的事情怎么忍心去做。就在这个当口,我两年前招进来的中小学同学C博士跟我谈起,他由于个人原因,已经决定海龟(后来应聘招标成为名校的博导和正教授,事业一片光明),但是不想在裁员风潮中辞职,怕人误会是表现不佳,不得不离开。我心内暗喜,他的离开至少救了一位。我说,你不用当心,我们可以安排你在裁员风潮过后离开,而且公司会为他饯行,表彰他两年来的贡献。还剩最后一位华人员工,看样子是保不住了。我不死心,私下跟我的资深助手一起,沟通CEO刚招进来的资深工程副总,说服他工程组需要一位我们研发组出身的既懂技术又懂工程的人,作为两个组的桥梁,这样在新产品开发中可以加速技术转移。说的也是实情,但一切在于权衡。副总新到,对我们老人有所依仗,现在CEO把工程组裁员重组和产品开发的任务交给他,他多方权衡,终于接受我们的方案,接纳了我们推举的人,使我松了口气,总算保全了华人员工。

在大裁员的那一周,我整夜整夜失眠,心急如焚,茶饭不思。更加残酷的是,裁员实施当天,我作为经理,必须履行职责,跟被裁的员工个别谈话,做好善后。不管怎样小心,最后还是有风波,一位被裁的白人女质量检测员,平时受过我的批评有积怨,加上看到华人员工均完好无损,扬言我们有种族歧视和性别歧视,要到法院告我们。公司后来找人沟通,说服她私了了。我的西班牙同事,也是一个实心眼,经常打电话给我,想回到公司,可是开他的人都在台上,怎么可能。他还几次回来看我和其他老同事,跟我说对公司念念不忘,充满love-n-hate的感情。我的中国同事担心他想不开,做什么绝事,劝我躲开他。我了解他的为人,同情他的遭遇,还是一直跟他保持良好的关系,并在他寻找新的工作时给予强烈推荐。

回想起来,不动大手术,公司难以为继,也就没有后来的复苏,成功地开发出市场需要的产品,使得投资人愿意进一步追加二期和三期的资金。可是,我和老板毕竟是书生,没有职业经理人的“铁石心肠”,感情上很难接受裁员的残酷现实,无法面对员工的惊惶和绝望。

我不能忘记P太太听到丈夫被裁、天雷轰顶一样的反应。裁员前夕,他们夫妇正计划利用每年的假日去参加北美世界语会议,老板跟我商量,决定暂先不告诉他们裁员的消息,以免影响他们的心情。可以想见,当他们在世界语国欢度一周回来后落到深渊的感受。从我们这里出去,P博士回到加拿大担任了一段园林工人,后来好像找到一份临时秘书的工作,在某大学帮忙。D博士此后失业很久,一直找不到工作,也不知他刚买的房子怎么了结。

好久好久,裁员的阴影挥之不去。太太安慰我说:你已尽了努力,他们的工作在紧缩时确实是可有可无,无法保全。唯一可以自我安慰的是,他们本来是没有机会的,我毕竟给了他们机会,并没有因此耽误他们的其他机会。

我很佩服CEO,在随后开发新产品和技术转移过程中,跟他配合默契。但在他领导公司走向成功的路上,我总觉得有“一将功成万骨枯”的悲凉。命运使我凑巧进入小公司的senior management,八年下来,我的体会是,经理,这不是我等意志薄弱者应该干的活计。

Wei Li
记于2006年独立节

立委《我的世界语国》入《世运人物志》

【相关】

《朝华午拾:用人之道》

朝华午拾-创业之路

【置顶:立委科学网博客NLP博文一览(定期更新版)】

Pulse:实时舆情追踪美国大选,live feed,real time!

http://www.netbase.com/presidential-elections2016/

Clinton has been mostly leading the social media sentiment :

Screenshots at 4:50pm 11/8/2016:

11082016a

110820160450b

110820160450c

110820160450d

110820160450e

Again go check our website live on Pulse:

http://www.netbase.com/presidential-elections2016/

 

[Related]

【社煤挖掘:川普的葛底斯堡演讲使支持率飙升了吗?】

【社煤挖掘:为什么要选ta而不是ta做总统?】

Big data mining shows clear social rating decline of Trump last month

Clinton, 5 years ago. How time flies …

【社媒挖掘:川大叔喜大妈谁长出了总统样?】

【川普和希拉里的幽默竞赛】

【大数据舆情挖掘:希拉里川普最近一个月的形象消长】

欧阳峰:论保守派该投票克林顿

【立委科普:自动民调】

【关于舆情挖掘】

《朝华午拾》总目录

 

Final Update of Social Media Sentiment Statistics Before Election

Final update before election:

brand-passion-index-1

timeline-comparison-2
Net sentiment last 24 hours: Trump +7 ; Clinton -9.  The last day analysis of social media.  Buzz:

timeline-comparison-3
So contrary to the popular belief, Trump actually is leading in social media just before the election day.

Compare the above with last month ups and downs to put it in larger context:

brand-passion-index-2
Last 3 month sentiment: Trump -11; Clinton -18.
Buzz for Trump never fails:

timeline-comparison-4

Trump's Word Clouds:

sentiment-drivers-6

sentiment-drivers-7sentiment-drivers-8

 

 

 

 

 

 

Clinton's Word Clouds:

sentiment-drivers-9

sentiment-drivers-10

sentiment-drivers-11
Trump 3-month summary:

trumpsummary3m

Clinton 3-month summary:

clintonsummary3m

Ethnicity:

ethinic

RW:
伟哥的东西,好是好,就是没有体现美国的选人制度
Xin:
主要是白人黑人和亚裔人数比例并没有代表实际的选民百分比。
RW:
理论上讲,只要有一方得到所有选票的23%, 他或她就可能当选

 

[Related]

【社煤挖掘:川普的葛底斯堡演讲使支持率飙升了吗?】

【社煤挖掘:为什么要选ta而不是ta做总统?】

Big data mining shows clear social rating decline of Trump last month

Clinton, 5 years ago. How time flies …

【社媒挖掘:川大叔喜大妈谁长出了总统样?】

【川普和希拉里的幽默竞赛】

【大数据舆情挖掘:希拉里川普最近一个月的形象消长】

欧阳峰:论保守派该投票克林顿

【立委科普:自动民调】

【关于舆情挖掘】

《朝华午拾》总目录

【大数据跟踪美大选每日更新,希拉里成功反击,拉川普下水】

昨天发布了【社煤挖掘:大数据告诉我们,希拉里选情告急】,鉴于大选的临近和选情的瞬息万变,我们决定用我们的社煤挖掘的核武器,每日跟踪大数据选情。

美国大选大数据一日一更新,11/1/2016 前24小时,看FBI事件发酵后的走势最新动态:

timeline-comparison-52

1101us

嗨 过去 24 小时,克林顿赶上来了也:两人打平,都是 -12%。热议度克林顿更甚,这也难怪,FBI 重启以后,议论焦点从老川转移到老喜身上。看看BPI这图,这一对真是冤家啊,纠缠在一起:

brand-passion-index-32

川大叔整个被喜大妈包住了,严严实实,比孙悟空的紧箍圈还厉害。Note:里面的圈是川普,外面的圈是希拉里,貌似希拉里气场如今大过老川了。照这个趋势,克林顿希望蛮好。

昨天晚上看新闻,说虽然 FBI 重启对克林顿选情影响很大,传统的新闻民调 CNN poll 还是希拉里领先五个百分点,其他的民调有曾一度只领先一个百分点的记录。虽然都比以前的领先幅度缩小,但仍然领先。川普阵营批判说这些个民调都是被操纵的,他们那边的民调是川普领先。这些个极小数据的民调极易偏差,公婆各有理,还是 put aside,咱们看真正的大数据:这是川普与希拉里最近24小时的 big data summary 对比

1101huanpu24

1101clinton24

回顾重温一下一周来(10/25-11/1)的走向,作为希拉里选情起伏的背景:

timeline-comparison-53

brand-passion-index-33

到现在为止的一周平均 net sentiment,Trump 是 2%,Clinton 是 -12%,可见希拉里的反击,主要不是把自己的 social rating 提升了(过去一天还是 -12),而是把对手拉下水了,让川普从周平均的 +2 拉到现在的冰点以下 -12。克林顿用的是什么伎俩赶上来的呢?

朋友说,大招来了:原来 拉川普下水是找到了川普与普京勾搭的新证据啊:

50740893092863278

A Veteran Spy Has Given the FBI Information Alleging a Russian Operation to Cultivate Donald Trump

Donald Trump Used Legally Dubious Method to Avoid Paying Taxes

约:
有点标题党,内容还算靠谱:

希拉里这次要坐牢?

施:
这次选举是测试大数据有效性的一个试金石,我感觉可能无效....
另:美帝国主义的人民群众也太不成熟了,一点自己的信念都没有?都受舆情影响,吃瓜群众表示不懂

南:
关键是很多选民都没有被社交媒体覆盖到吧

施:
情绪和投票时间的关系是什么样的?

Nick:
没错。伟哥说这么多没用,就一句话:谁能上。

张:
看样子是川普了,我很好奇这个家伙上来会是什么结果

我:
我这才是实事求是,动态跟踪,全方位大数据信息。“谁能上”那算个啥啊?
在胶着的选情下,那就是赌命,有没有大数据,都可以一赌,也都有不小的概率猜中,或猜不中,没有半点营养。如果是非胶着状态,大数据预测比其他预测更准。我坚信。要学那个AI大嘴巴,谁不会?他们根本连技术细节都没有,不过是制造了一个话题,顶了一个AI的帽子,利用普罗和媒体对AI的敬畏。我的选情追踪和分析,比那个高出不知几个数量级,这还真不是吹的。今天的选情趋势如果能够持续,大选日前没有新的定时炸弹被引爆,我预测克林顿当选的可能性可达80%

Nick:
@wei 是骡子是马,拉出来溜溜。就一句话:谁赢。

我:
这样吧,大选日前一天,我做个预测,根据一直到那一刻的综合大数据 analytics,现在不行,选情还在变化,并且显然有胶着的迹象。

Xi:
@wei , 别那么保守! 得老莫者, 得天下! 肯定是Hillary赢了。。。

Nick:
@wei 这算什么本事?

我:
尼克是星座骗女青年骗惯了,只知道短平快 如何得手,顾不了失手的后果了。
反正我有大数据 有平台 有深度parisng 我就这么每日追踪 不打无准备之仗。
以唐老师的说法,得老墨者得天下,那是克林顿无疑了,西班牙语舆情那是一面倒,克林顿高高在上,从来没有下来过

白:
伟哥这是要把谁能上做成红学的节奏。
最后,谁能上不重要了,为了谁能上而秀肌肉的人互撕。

我:
重在过程 不在结果。
这次大选好 富有戏剧性和悬念, 具有观赏性和互撕性, 跌宕起伏 精彩纷呈

阿:
我开了个盘口 目前二人押川普 四人押希太 欢迎加入
重在结果 不在过程

我:
问一句 为什么希拉里推特说的三点facts
第一条说 fbi 并未重启电邮门调查,只是提议重启。

Nick:
@wei 加入盘口,eat your own dog food

我:
第二个 fact 是 fbi director 自己并不清楚新发现的邮件有多少相关
据信很可能是已经审查过的邮件的另一个拷贝。
这个 director 涉嫌扰乱大选,对一个不知结果的新线索 可以按程序重启调查 但在大选前造成舆论 难逃干扰大选的怀疑,他可能也有违法乱纪的麻烦。

 

【相关】

【社煤挖掘:大数据告诉我们,希拉里选情告急】

CNBC‎: AI system finds Trump will win the White House and is more popular than Obama in 2008

Trump sucks in social media big data in Spanish

Did Trump’s Gettysburg speech enable the support rate to soar as claimed?

【社煤挖掘:川普的葛底斯堡演讲使支持率飙升了吗?】

【社煤挖掘:为什么要选ta而不是ta做总统?】

Big data mining shows clear social rating decline of Trump last month

Clinton, 5 years ago. How time flies …

【社媒挖掘:川大叔喜大妈谁长出了总统样?】

【川普和希拉里的幽默竞赛】

【大数据舆情挖掘:希拉里川普最近一个月的形象消长】

欧阳峰:论保守派该投票克林顿

【立委科普:自动民调】

【关于舆情挖掘】

《朝华午拾》总目录