分类： 杂类

相关专题：转基因问题
转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-752915.html

上一篇：米拉围脖：“窝心”
下一篇：大数据持续升温，是忽悠还是黑马？转薛老师赞大数据的quote

当前推荐数：27 推荐人：陈安 李伟钢 徐磊 武夷山 曾泳春 孙根年 刘全慧 周洲 韦玉程 薛宇 李兵 周雄伟 曹俊 李冰 赵凤光 崔小云 文克玲 李宇斌 王荣林 赵一玮 lbjman frake tuner dachong99 ncepuztf bridgeneer yunmu

发表评论评论 (18 个评论)

删除 |赞[11]tuner 2013-12-26 20:54

今年美国通过了转基因食品强制标识法案的州有3个：Vermont, Connecticut, 和Maine。都是东北部的州，看来孟山都等转基因公司想用金钱左右所有的民意，还是不可能的。

明年应该有更多的州会对转基因食品强制标识法案进行公投，看结果吧。博主也许可以再做一下同比，即前几年同一个月在这个话题上的民意，看变化情况，应该能进一步说明问题。

删除 |赞[10]崔小云 2013-12-26 17:05: 大数据的方法真好。我慢慢学习李老师的博文吧。

删除 |赞[9]谢龙 2013-12-26 16:50: 博主你应该增加一个关键词 biotech

删除 |赞[8]范丁丁 2013-12-26 15:17: 李老师，你做这个的方法可否分享下，感觉很牛; 李维回复范丁丁：我的博客有100多则科普类分享，你有空慢慢挑着看吧

2013-12-26 15:241 楼（回复楼主）赞|; 李维回复范丁丁：在两个专栏里：《社媒挖掘》和《立委科普》

2013-12-26 15:252 楼（回复楼主）赞|

删除 |赞[7]lmnnml 2013-12-26 15:02

26楼点中要害

大数据能代表美国人民吗？我看8楼的评论
zhiyanliao说大数据代表不了真理

李维回复：谁说大数据代表真理，谁就不是 human！

2013-12-26 15:341 楼（回复楼主）

赞|

删除 |赞[6]文克玲 2013-12-26 14:44: 可以比较一下大数据与全民公决的结果（加州，转基因标识问题）。; 李维回复文克玲：这个工作就指望您啦

2013-12-26 15:351 楼（回复楼主）赞|

删除 |赞[5]zhiyanliao 2013-12-26 14:25: 用你这种大数据的方法，调查民意，我保证你的结论是：全世界的舆论都是反共，反中国政府的，中华人民共和国是专制的国家，钓鱼岛是属于日本的，台湾是一个独立的国家，毛泽东是暴君， ....... 。
为何？因为你输入的数据是带偏见的。你说你是没有输入自己的数据，是网上已经有的数据，请问科学家的数据跟民工中学毕业生的数据那个可靠。; 李维回复 zhiyanliao ：如果是那样，我无法改变，他反映了一种民意。

2013-12-26 15:091 楼（回复楼主）赞|

删除 |赞[4]dangping 2013-12-26 14:05: 民间的争议和学术界的争议是两码事。反转人士也可能比挺转人士更乐意发表意见，媒体也有可能更倾向于转载一些负面的报道和意见，所以这些分析结果能不能代表人民的意见还很难说。; 李维回复：其他网友也有这个看法。有一定道理。但这个否定不了大数据的挖掘价值。

2013-12-26 15:291 楼（回复楼主）赞|

删除 |赞[3]husselfist 2013-12-26 13:07: 有点意思。

删除 |赞[2]薛宇 2013-12-26 11:27: 您这个词频分析真是个好东西，另外，啥叫“共现主题”，能解释一下吗？还有，您这个用到热图了，这个我们好几年前就关注了，跟胖子还合作了一个工具。挺好，赞！; 李维回复薛宇：就是共现关键词，主要是实体名词

2013-12-26 15:071 楼（回复楼主）赞|

删除 |赞[1]张能立 2013-12-26 10:36: 中美数学名师解题方法之比较 http://blog.sciencenet.cn/blog-39840-753017.html 敬请科学网师生批评指正。

关于转基因及其社会媒体大数据挖掘的种种问题屏蔽留存

关于转基因及其社会媒体大数据挖掘的种种问题

屏蔽已有 4859 次阅读 2013-12-25 07:55 |个人分类:社媒挖掘|系统分类:科普集锦| 挖掘, 社会媒体, 语言技术

没想到转基因话题这么热，随手做了一个自动调查发在博客上（【西方怎么看转基因：英文社交媒体大数据调查告诉你】），一天多就达到 7000 点击，40 多评论。先把我对问题的回应整理如下。

1. 关于数据问题

你这个数据是有问题的，想想看，美国加州、华盛顿州的公民投票结果都是不同意转基因标识，大多数民意连转基因标识都不要了，对转基因食品安全性的担心能有多少呢？这个样本比你那个说明问题吧？

博主回复(2013-12-24 10:04)：这个数据是没有问题的，因为我们对于最近一个月的社交媒体是不做品牌针对性筛选的，是普适的。对于一个月之上的数据，可以根据 GM Food 这样的主题词去筛选也可以一网打尽，但是有数据成本的问题。至于数据挖掘有没有偏差？文本挖掘技术当然不可能是完美的，但是统计上没有问题，因为第三方多次测试精确度都是接近90%。

2. 关于结论的对错

转基因的安全性靠调查研究难以给出正确评价。

博主回复(2013-12-24 12:47)：两码事。

安全性是科学问题，假以时间应该由科学解答，或者有些已经回答并得到权威部门认证。

舆情调查反映的是普罗百姓对事物的方方面面（包括安全性）的看法而已。

还有一点，博文中说的Gluten引起的各种那个过敏症。我一直都不理解美国曹氏中标识的gluten-free的食品为何就那么重要？因为gluten就是我们中国人飞铲喜欢吃的面筋，各位都喜欢吃油面筋塞肉，北方人吃面要“筋”，都是gluten含量很高的食品，跟转基因毫无关系。

而且超市中真正gluten-free的食品货架上很少的，现在美国飞机航班上不提供花生，只有那个非常难吃的 pretzel 据说是因为有些人对花生过敏，所以航班不供应花生了。

博主回复(2013-12-24 17:55)：听我的专家朋友说，Gluten 确实与转基因无关，是有公认的科学结论的。

那为什么舆情中，这一项作为转基因的主要问题呢？

没办法，这就是舆情，我不能改变它，只能反映它。

也许这正说明，科普还没做到家，还没能让老百姓了解和信服。任重道远。

3. 关于阴谋论

菜老师有奇文 http://blog.sciencenet.cn/blog-789923-752383.html，说：“李维先生说，该英文社交媒体大数据调查反映了民间的真实态度，这个观点看来要打个问号了。” 这个“该”字从何谈起，我们对社交媒体是一网打尽（因为企业用户要求如此），其组成和来源都在文中有交待。他下面的推测充满了细节，实在太异想天开了。蔡老师怎么不询问一下就这样胡乱猜测呢，描述了一个天大阴谋似的。

“搞这个调查的英文社交媒体的完全可能是反转基因团体控制的，其调查的人群经过了特异的选择，或者说该英文社交媒体的读者主要以反对转基因人士为主。这样的数据即使是“大数据”，又有什么意义呢？”（下划线是立委加的）

蔡老师哎，你这样善于胡乱猜测还怎么做学问呢。这是我自己主持开发的软件，用的是未经任何人控制的原始数据（英文叫做 firehose，就是直接从社交网站流出来的），没有人工干预，靠的是自然语言挖掘技术自动生成的。这样说，应该够清楚了吧。我的本行就是舆情自动调查，这只是针对热点问题，从系统输出结果而已，供大家做舆情分析时候一个参考。

说明一下，所用的软件本来是为企业用户做客户情报调查用的。社交媒体一网打尽是指在我们的 index （库存）里面，我们包括所有够得着的社交媒体，英文社交媒体从比重上看，twitter 为主，Facebook 其次，其他论坛上百万个来源只占少数，这是当今社交媒体的自然现状。

我自己是系统架构师和主要实现人，所以不时用系统挖掘热点话题，一来可以看看系统还有什么可以改良的地方，而来也算是对社区做一些大数据语言挖掘的科普展示。阴谋论简直匪夷所思。

蔡老师(2013-12-24 16:24)：我的推测是否正确，不是关键。关键是你的舆情分析软件结果与公民的投票结果相反，必须做出解释，否则这样的舆情分析只会造成更大的认识混乱；如果领导据此决策了，更加有误导嫌疑。

(2013-12-24 16:15)：我不怀疑你的数学分析能力，你的数学模型包括软件应该是不错的。但是，出色的数学分析能力并不能保证你的结果是正确的。牛老师比我说得更全面，还有其他网友对此也有分析。
我再将我当年的生物统计学老师说过的话告诉你，让我们共勉吧：数学模型应当建立在具有生物学意义的基础上，离开了这个基础，哪怕数据再充分、模型再漂亮，也是没有意义的。

博主回复(2013-12-24 18:07)：您的思维很怪异：说什么领导据此决策错误，我就更加有误导嫌疑。

这是什么话。领导面对这么多志愿免费提供的不同侧面的信息源，依然决策错误，那就是狗屁领导，没有领导能力、决策能力，领导应该下台，这个决策错误与信息提供者有一毛钱的干系？

又：说什么数学模型要建立在生物学意义上对于我们文本挖掘媒体调查领域完全是瞎掰。我一个语言学家懂什么生物学，我做语言文本调查要什么生物学的基础？我的对象是自然语言（社交媒体），不是生物啥的。我的模型建立在语言学（语言分析，parsing）基础上，这才是我们这个领域的基础。你隔行传授的经验没有一丝的适应性和可行性。

博主回复(2013-12-24 16:44)：喂，喂，我为什么要为我的自动调查与公民投票的差异做出解释？

我只是提供一个信息源而已。这个信息源是大数据高技术的结果。投票那是另外一个信息源。二者吻合还是不吻合，可能有一千个因素，我有什么责任和义务解释？

我也从来没关心过那次投票。

博主回复(2013-12-24 16:38)：

您如果质疑“调查反映了民间的真实态度”，完全没有问题，因为同样的数据可能有不同解读和 interpretation

如果质疑质量或操作过程中的误差，也还不算离谱。

可您凭空从头脑想出来并描述了我的数据被操纵的过程和细节，就让人跌破眼镜了。

4. 关于噪音处理

至于博主和蔡晓宁先生说的大数据处理的技术我不会，还得在学习了。不过google或百度上的绝大多数数据是垃圾数据。如果要使用大数据处理来统计，我建议博主把CA或Medlines或 Bological abstrct里的数据做个大数据处理，看看你能得出一个什么结论。这些可就是科学的结论了。

至于垃圾过滤，这是任何大数据系统都必须要做的工作，我们也有这个过滤，经过几年的不断改进，测试证明英文大数据的垃圾已经不再是大问题了。

不过中文媒体的垃圾过滤还有很多工作要做，有国内微博水军和僵尸的问题。不过对于热点话题，可以只选取带 V 的样本，也就杜绝了水军和僵尸。但对于冷门话题就不好办了。

另外一个工作是避免过量重复（de-dup），英文也已经做得很好。

对于大数据处理，我完全是外行，现在说几句外行的话，不对就当垃圾处理
1. 任何数据的输入的前提是数据的可靠性，不分青红皂白的把所有数据输入，输入的数据就没有科学性，可靠性，由此而来的结论当然就没有任何意义了
2. 现在网络上有所谓的大V，用定贴机为某一个题目专门不断发帖顶贴，所以不分青红皂白的输入这种数据，实际上是被其他人所误导。
3. 所以要用大数据，必须界定你的大数据来源。否则同一事物，被不同人选择来源，完全就有不同的结论。
以上是外行的话。

博主回复(2013-12-24 18:35)：当然你的担心是有理由的。做大数据的人当然要过滤垃圾（包括无处不渗入的色情），而且要 detect 僵尸、水军和数据的过分重复（机器人发贴）等。

大数据挖掘有没有价值很多时候是可以验证的。因此上述问题的严重程度，可以从过往的验证中得到一个大概的置信区间。细节就不谈了。

总之是，由于大数据的存在以及大数据处理能力的不断完善，舆情挖掘提供了一个难以取代的情报源，在决策中有参考价值。这是可以基本肯定的。

5. 有比较才有鉴别

其实这些问题只要放在比较的框架中就不是严重问题。虽然具体语言中褒贬比例和分布可能不同，但是如果一个对象的褒贬指数放在其他对象的褒贬指数的 reference frame 里面来阐释，其解读就比较真实。比如，在过往的许多调查中，我们知道褒贬度降到零下20以后就很不妙，说明媒体形象差，老百姓很多怨气。有了这样一个历史积累，新的品牌或话题如果达到类似的指标，解读就不大会离谱了。

特别是，我们做一个行业的多品牌调查和比较的时候更是如此。品牌A与品牌B的在舆情中的相对位置非常说明问题。系统的误差，质量的不完美，语言数据的不完整，以及语言现象的分布不匀，所有这些统统不再成为问题，除非这些差异是针对特定品牌的（这种现象基本不出现）。

这一点毛委员早就说过：有比较才有鉴别。

有比较才有鉴别，这是铁律。任何指标单看，其意义就很悬。包括我说转基因不受美国人民喜欢（零下29度），也是因为有过往的褒贬指标平均值作为 reference frame 才说的。

6. 大数据是忽悠么？

是的，有很多忽悠。但是立委论大数据不是忽悠。

》》这篇博文充分说明，“大数据”并不是神仙，完全可能得出错误的结论，“大数据”只是一种工具，要看使用者如何使用它了。

博主回复(2013-12-25 00:30)：说大数据是神仙的，多半是忽悠。

今天忽悠大数据，明天其他东西流行了，就忽悠其他东西。

但是大数据给决策人（政府、企业或者犹豫如何选择的消费者）提供了一个前所未有的方便工具，去纵览有统计意义的舆情。这在以前只能通过小规模误差很大的人工问卷调查来做。如今自动化了，而且样本量高出好几个量级。拜科学技术所赐。

7. 关于系统可靠性

任何一门新的方法的建立，都需要首先用对照验证其有效性。这种抓取网络关键词，有没有与大样本的问卷调查等传统方法进行对比，验证过有效性？看到fear，就下结论说是人民害怕，也许是有人说不用fear呢？至于英文网络的数据，为什么下结论时认为只是美国人的意见，把欧洲人等排除掉了？

博主回复(2013-12-25 07:09)：你提到“抓取关键词”，怀疑系统不能处理否定式（“也许是有人说不用 fear 了”），那是你不了解我的背景，虽然我在100多篇科普性博客已经多方面描述过系统的能力。简言之，我们的舆情挖掘不是通常的关键词技术，而是建立在高级得多的深度语法分析（deep parsing）之上的信息抽取和挖掘。不仅可以对付否定式，否定之否定等更复杂的语言现象也能处理。

博主回复(2013-12-25 00:59)：至于意见中是不是只有美国？

这个还真可能不准确。我说的不严谨。英文社交媒体从分布上看，美国网民比重很大，但这个世界是地球村了，当可能包括西方其他国家的舆情夹在里面了。

其实很好解决，系统有地理过滤器，我可以只挖掘美国来源的社交媒体。但这样数据量就需要超过一个月的积累才好挖掘，有成本的。今后高兴了，再做吧。博主回复(2013-12-25 00:53)：有没有与问卷调查以及用其他方式验证过这个系统的有效性？

有过。很多次。而且还在不断定期进行中。为什么要这样做？因为质量是系统的生命线，否则怎么取信于客户。

大数据挖掘热点话题（冷门话题数据量少，就不好说了）作为舆情的反映，基本可信，至少不比传统手工问卷差。作为决策参考没有问题。

你不必相信我的 claim。我也不必提供验证细节。你也不是我的客户。我免费提供信息，权当 raise awareness 和科普。

我的论点，您可能只看到了其中一部分。我再多说一点，人们的用词习惯在这个比较里面没有被考虑到。比如，说一个人很丑可能多数人用单词A，而说她美可能会有十种表达方式。假定认为美的有十个人，用词个不一样，说她丑的只有三个人，但看起来是显然的高频词。这不是误导吗？这种现象往往在理性精细思维和随意发泄情绪两种情况下对比很明显。

博主回复(2013-12-24 17:45)：要想做这种矫正，你先得研究清楚这种现象在真实语料中确实存在，严重程度，分布如何。听上去，这一步你还停留在假说层面上。这时候说系统误导是欠公允的。

另外，一个概念有多少词来表示只会影响 Word Cloud 图示中的 fonts 的大小（其实即便在那里，我们对比较严格的同义词还是做了合并处理的，因此问题没有想像的严重），但并不影响最重要的 net sentiment （褒贬度）的指标，因为后者是根据褒贬两大类来计算，而不问具体的用词。

很多事情都是这样的：赞成的人不怎么发声，而反对的人则会闹出很大的动静。从国人对待转基因的态度到泰国黄红两派的斗争死结，这种现象在社会中普遍存在。这可能有社会心理学的解释。
因此，所谓相对客观的大数据，也许本身就已经预设了立场。博主回复(2013-12-25 11:08)：这种情况是可能的。所以我说，同样的数据结果可以有不同的解读。

你可以打折来看褒贬指数。譬如，指数为零表面上似乎是褒贬民意旗鼓相当，你可以打个折扣，理解成其实是褒多于贬，只不过很多满意的人不言声而已。

这个折扣怎么打，可以根据经验法则，多一些实验也许慢慢可以显现出来。

8. 我只做民意，不介入转基因的争论

老师可以写得更简洁些,并且有学术数据支撑,而不仅仅是民意支撑么?
从学术原理上来讲风险,用数据说话,现在大家抄来抄去,感觉不专业.

博主回复(2013-12-25 00:39)：我只做民意。别的你们做，或谁爱做谁做。

我不反对转基因，也不大关心转基因因为没感觉有什么危险。我的不少懂行朋友也持拥抱态度，我没有理由不相信这些专家。但是民意也需要一定程度的尊重和引导，不能强迫人们吃转基因，或任何东西。在民意有很多顾虑的时候，给民众选择的权利是合理的（除非标识成本太高：其实高成本只要转嫁给要求标识的消费群体就合理了）。

题外话：我的转基因立场

我其实没有什么立场，也没有相关的生物知识背景，转基因从来不是我关注的对象（因为是热点话题才选它当小白鼠做舆情挖掘的试验，而不是对其感兴趣）。通过朋友的争论和综述，觉得两边的极端派掐架很难看，都有误导和蛊惑。（By the way，我觉得挺转人士当年犯了致命错误，他们不该把 GM 翻译成转基因，要是翻译成生物高科技最新改良食品伍的，就会减少很多阻力和疑虑。名不正则言不顺，言不顺则事不成。现在好多百姓听到转基因就跟听到癌症似的，你说说这个术语翻译是不是害死人。后来金大米起的名字就很好，无奈受转基因的牵累，还是遭到很多人的排斥。）

我本人不介意吃转基因食品，因为从来没有感受到有危险。我去肯德基最喜欢买的就是他们的烤玉米。从来不问出处。但事已至此，转基因就不单是科学的问题了。要上老百姓餐桌的话，老百姓的感受不能不顾及。作为一种过渡，我觉得在中国有必要给转基因食品做标识（或给非转食品做标识，one way or the other），给人民选择的权利。这个不必要循美国不标识的例，原因是国情不同，老百姓为食品安全困扰太久，井绳之忧是自然的反应。转基因的最终胜出，应该靠自己的实力，譬如价格的低廉，日益显示出来的安全性等。标识以后，科学人士和我等无所谓（畏）人士会自然成为其消费者。最后会争取到其他中间用户。至于反转死硬分子，就让他们一辈子多花冤枉钱去消费“纯天然”食品也蛮好的。

最后来点 fun，转发老友的一个评论。

浅谈立委大数据利用的局限性

作者: 田牛

1。没法评估和预测股市，黄金走势
2。看不出钓鱼岛的归属依据
3。比较不出社会主义或资本主义的优越性
4。对国际贸易的趋势做不出专家评论
5。完全忽视不上网不用手机的（或上网用手机但不进入他搜索网络）人群的话语权，比重
6。对测量（不是影响）湾区华人选票的帮助不大
7。依然无法用大数据得出吃一顿简单中餐得到的卡路里

暂时想到现在，希望立委有突破，我们LBC可以近水楼台先得月。

【相关篇什】

小数据和个案分析：个人在美国对转基因的感觉 2013-12-26

既然大家感兴趣，圣诞没事在家，就继续做一点转基因的大数据挖掘 2013-12-26

关于转基因及其社会媒体大数据挖掘的种种问题 2013-12-25
【美国网民怎么看转基因：英文社交媒体大数据调查告诉你】 2013-12-24

相关专题：转基因问题
转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-752623.html

上一篇：米拉围脖：“窝心”
下一篇：大数据持续升温，是忽悠还是黑马？转薛老师赞大数据的quote

当前推荐数：17 推荐人：陈安 刘旭霞 孙根年 强涛 蔡小宁 杨宁 常顺利 武夷山 周雄伟 薛宇 郑小康 孙平 陈儒军 周洲 卢长明 bridgeneer biofans

发表评论评论 (19 个评论)

删除 |赞[12]lmnnml 2013-12-26 15:05

26楼点中要害

大数据挖掘的是什么？我看14楼的评论感觉是
大数据挖掘不出真理和真相

李维回复：当然不是挖掘真理。挖掘真理，请到圣经和毛主席语录去。
大数据挖掘的是民意，就跟传统的客户问卷调查类似。

2013-12-26 15:271 楼（回复楼主）

赞|

删除 |赞[11]郑小康 2013-12-25 17:52: 李老师的观点很客观支持

删除 |赞[10]苏晓慧 2013-12-25 16:41: 哈哈，这个技术很好，我现在也很着迷，可惜数学不好不会玩。回归正题，我的疑问是，怎么就没有学生物的尤其是分子生物学的出来发博客说说呢，除了植物所的蒋高明，但是一家之言不可尽信。那些生物大博主们都避开了这个话题啊; 李维回复苏晓慧：不用数学好。任何人用过百度或谷歌搜索的都会玩。
唯一的问题是，要收费，（至少目前）非企业客户玩不起。

2013-12-25 17:411 楼（回复楼主）赞|

删除 |赞[9]mirrorliwei 2013-12-25 12:33: 【转BT基因的BT蛋白是否引起过敏是FDA/EPA必须检测的项目】就表明了有这个担心。
这里不需要讲什么“转基因的蛋白会引起面筋过敏的实例和原理”，只要相信墨菲的定律（http://zh.wikipedia.org/zh-cn/摩菲定理）：“凡是可能出错的事均会出错。”（Anything that can go wrong will go wrong.）。可引申为“若缺陷有很多个可能性，则它必然会朝着最坏、最可怕的方向发展”。

删除 |赞[8]王大元 2013-12-25 12:15: [3]mirrorliwei 2013-12-25 09:06
镜女士（李薇）：请你讲讲转基因的蛋白会引起面筋过敏的实例和原理？转BT基因的BT蛋白是否引起过敏是FDA/EPA必须检测的项目，所有批准了的转BT基因的玉米，其BT蛋白都没有致敏性，你去查EPA/FDA的批准报告，每一个批准报告在250页以上，其中有关过敏性的试验数据大概在1-2页。
如果美国有个别人的试验报告说转BT基因的BT蛋白恶意造成面筋过敏，那么这种试验结果先要被FDA/EPA采用，一个在自己国家的权威部门都不采信的试验结果，我们中国人没有必要为这种垃圾结果张灯结彩作为根据

删除 |赞[7]cuixiangmi 2013-12-25 12:06: 大数据挖掘还是比较有意思的，但分析应该要更科学。比如来源同样是News，大报和小报，应该乘不同因子。; 李维回复 cuixiangmi ：系统里面有很多这样的参数和过滤器可以根据自己的需要做调节，dice and slice，以便从不同侧面展示挖掘的情报。

我这只是玩票和展示性质，一切采用固定模板和default setting，偷懒不做这些细的工作。

我自己对此话题其实没兴趣，也不懂生物，科学不科学就是点到而已。

2013-12-25 16:551 楼（回复楼主）赞|

删除 |赞[6]王大元 2013-12-25 12:04

博主先生：在你上一篇博文中我做的第一个评述，得到你的同意。后来我发现那是你自己用大数据工具统计的资料，由于我不懂大数据统计，所以我又提出了几点疑问。我现在正在学习大数据的基本知识，以便对大数据作为工具来调查舆情或者其它领域的应用前景。现在还是作为外行向你求教几个问题？

1. 你能举几个例子来说明在那几个重大问题上，大数据的统计结果被政府采纳了的，或者做出了正确的预见的重大例子
2. 你能用大数据工具预言明天的那个股票会涨和跌吗？
3，你能用你的大数据统计预测朝鲜1年后是什么样吗？
4. 你能用大数据统计预测中国明年的房地产涨还是跌，涨幅或跌幅是多少？你的这个预测与其他不用大数据人做的预测有多大区别？
4. 你的转基因大数据的统计的结果能肯定现在的舆情结果将来肯定是对的或错的吗？
5. 如果我不用你的大数据统计，而是用科学杂志的数据来统计可以预测比你大数据的结果更准确的结果，那么大数据的统计结果有什么意义？
我最基本的观点就是不管你的数据有多大，但最关键的是你输入的数据是否正确和准确。尽管你说了有删选数据的软件把关，但我感到你的转基因那篇的大数据输入的数据的可靠性是有疑问的，你的软件似乎没有管好这个关，例如与转基因无关的面筋竟然作为最主要的指标。我建议你把转基因致癌那一部分，单独拿出来用大数据统计一下，其中输入持这种观点（致癌）的人的各种身份群体的比例：例如没有文化的老大娘，小学，中学程度的群体，非专业人士群体的比例，科学家的比例，统计一下，看看中学学历以下和非科学家的群体比例的意见占多少，我估计你可能会有完全不同的结论。在这样的前提下输入你的数据，看的人心里就踏实了：哦！原来猪转基因致癌的是这么一部分人。

李维回复王大元：问题太多太长，难以回答。今天圣诞哎。
有一点，社会媒体大数据不是“你输入的数据”，是自然状态的数据，或者说，是无数网虫输入的数据。

因为社会媒体是网民交流和发泄的场所，所以里面必然存在舆情，只是咱们每个人都精力有限，肉眼凡胎，即便一目十行，也只能看到社交媒体大海的一滴水。只见树木，不见森林，是无法捕捉舆情（人民的呼声）的。好在有电脑，好在有语言学，两者结合就可以帮助我们调查舆情及其走向。

2013-12-25 17:551 楼（回复楼主）

赞|

删除 |赞[5]huluhuluhulu 2013-12-25 10:49: 看了“浅谈立委大数据利用的局限性”，真欢乐啊。我还以为大数据能得到一顿西餐的卡路里呢。哈哈; 李维回复：其实那是从大数据中搜索答案的问题。用同样的自然语言技术做问答系统（QA system），可以回答某个 popular 西餐的卡路里问题。这个不比舆情检测难，以前做过的。

2013-12-25 16:501 楼（回复楼主）赞|

删除 |赞[4]蔡小宁 2013-12-25 09:55: 感谢李老师将我的观点列入博文！在这里我做点解释。
我的博文是在刚刚看到李老师那篇大数据舆情调查博文出来的时候，当时的感觉是为什么结果与加州、华盛顿州的公民投票不符？于是推测了一种可能性，并不是说一定是那样的。后来，随着我们讨论的深入，对李老师的认识也在加深，现在可以确信，“阴谋论”的可能性可以排除，在此特别声明。另一点就是，我不怀疑李老师的数学能力，做软件的水平肯定很高。我想要说的是，一个好的工具需要人们正确地使用，一个好的工具仍然可以继续改进。软件实际使用得出的结果要尽可能与事实相符，如果出现不符合的情况就要考虑是否参数设计出现了错误或不够完善；或者有其适用范围，超过这个范围，结论可能就是相反的了。可以适当做点解释，以减少误会。; 李维回复蔡小宁：我用词偏激处，蔡老师海涵。一开始看您的评论，有些不愉快所致。不打不相识。祝您圣诞快乐。

2013-12-25 10:581 楼（回复楼主）赞|

删除 |赞[3]mirrorliwei 2013-12-25 09:06: 【我一直都不理解美国曹氏中标识的gluten-free的食品为何就那么重要？因为gluten就是我们中国人飞铲喜欢吃的面筋，各位都喜欢吃油面筋塞肉，北方人吃面要“筋”，都是gluten含量很高的食品，跟转基因毫无关系。】的说法镜某以为不妥。因为很多所谓专业人员都不知道“gluten”是什么！所以他们直接用了洋文表述此概念。这个说法的依据是来自饭桌上的谈话。镜某的饭桌上，以为是所谓的专业人士（本科教育名牌生化），一个是正在复习考试这门功课。“gluten”就是中国人喜欢吃的面筋不假。而面筋又是什么？？？？就言语不详了
面筋就是面粉里面的蛋白质！！一种巨大的分子。转基因的风险就是可能会引起蛋白质的结构变化，带来新的过敏因子。

删除 |赞[2]孙根年 2013-12-25 08:32: 其实你不必在意，“屁股决定脑袋”，“态度决定言行”。挺转人不愿意看到的，总能找出一百个理由来反对，这才是真正的原因。

删除 |赞[1]闵应骅 2013-12-25 08:20: 既然是大数据，基本上，你要什么结论就能统计出什么结论来。
对任何问题，辩论得不出什么结论。文革时辩论多了去了，都是不了了之。毛主席一句话就做结论了。; 李维回复闵应骅：要什么结论都能出来，您能做到，我做不到。
我一个话题送进去，出什么结果我事先是无法预测的，是语言分析技术上的挖掘统计算法决定的。

2013-12-25 08:291 楼（回复楼主）

预告：转基因过去一年社会媒体口碑的自动民调正在进行中屏蔽留存

预告：转基因过去一年社会媒体口碑的自动民调正在进行中

屏蔽已有 2146 次阅读 2014-1-3 06:21 |个人分类:社媒挖掘|系统分类:博客资讯| 大数据, 转基因, 口碑, 自动, 民调

将公布细节，先把 summary 发布如下：

相关专题：转基因问题
转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-755346.html

当前推荐数：1 推荐人：蔣勁松

【大数据挖掘：转基因英文网络的自动民调和分析】屏蔽留存

【大数据挖掘：转基因英文网络的自动民调和分析】

屏蔽已有 4162 次阅读 2014-1-3 18:23 |个人分类:社媒挖掘|系统分类:科研笔记| 大数据, 转基因, 民意, 挖掘, 民调

前不久做过几个转基因在英文社交媒体的自动民调，引起广泛兴趣。不过，那几次民调都是用的最近一个月的社媒数据。很多朋友希望做一个较长时期的调查，看看西方（主要是美国）社交媒体中转基因的媒体形象及其口碑民意的演变趋势。超过一个月的数据会产生额外的数据费用，因此甚至有热心网友提出愿意筹款资助这项调查。

既然转基因是大众如此关心的热点话题，我们就拿它当小白鼠，继续做系列大数据自动调查，用海量数据粉碎少数匿名极端分子散布的大数据调查涉嫌“输入伪数据”的谣言。博主保证在话题定义和输入给系统以后，相关的原始数据搜索及其自动分析全过程没有任何人工干预。这一点是由我们的大数据产品的性质决定的。产品允许以不同的 filters 来做对比研究，博主保证对比调查中的任何 filter 都明确标示，默认为不使用。各位谨记的是，大数据是客观的存在，大数据不会说谎，但是对数据的下列解读（interpretation）不可避免有主观的成分。欢迎百家争鸣，对这些数据做出不同的解读，也欢迎对数据挖掘的条件和过程提出建议和质疑。（但不欢迎任何极端分子的胡搅蛮缠无理取闹，博主保留对任何极端或不雅留言杀无赦不解释的权利。）

转基因一年来英文社会媒体口碑的自动民调和分析如下。

与前同（删除了歧义严重的害群之马 GMC）。

（2）自动民调结果总览

尝试解读：一年的自动调查提及转基因485万，调查了383 万多社交媒体的帖子，涉及近 15 万网民。这是真正的大数据民调，比传统手工民调最多几千份问卷，数据量和调查对象要高两到三个量级。转基因的一年大数据的平均褒贬指数为零下13度，比前几次的一个月数据的调查要好（虽然仍然是负面评价为主）。转基因的话题在西方社会媒体中，的确很有争议。

尝试解读：一年的提及转基因话题的帖子，有 28% 的帖子（134万）含有褒贬评价或情绪，其中贬（57%）略大于褒（43%）。褒贬的幅度区间在 6 度最高点（见上图最高红点旁 tooltip 小框）到零下 32 度（上图最低谷的红点处）之间。值得注意的是 2013 年六月是转基因网络热议的最高峰，而这场热议却使得转基因褒贬指数跌入最低点零下32度。

下面是最近半年的数据，褒贬度为零下10度，略好于一年的指标。

（3）共现话题：

尝试解读：多次挖掘都是如此，与转基因最密切的主题永远是 Monsanto （孟山都）。说转基因纯粹是科学问题，那是 too simple and naiive，只要背后有企业，就一定有利益因素。

（4）挺转反转的理由词云：

尝试解读：正反理由旗鼓相当的样子，这比以前一个月数据的调查大为改善。反转的最大理由不再是 gluten 相关的疾病，而是死亡（Die）和癌症（Cause cancer）。挺转声音强调的是安全（safe），也是很自然的。

（5）挺转反转的情绪词云：

尝试解读：wow，情绪云图中挺转的分贝（那些大大字体的 love，good，great）似乎比反转的（bad，not want，concerned，fear，hate，fuck）更高（表现为更大的字体），不过后者的表达更加多样化。

（6）挺转反转的行为：

尝试解读：挺反双方不仅仅是情绪发泄，还有行动，有吃的用的买的（eat，use，buy），就有拒吃拒买甚至要求禁止的（not eat，not buy，reject，ban）。

（7）挺转反转的比例

（8）社媒样例：还是贬大于褒嘛。

【转基因大数据挖掘系列博文】

【大数据挖掘：转基因中文网络的自动民调，东风压倒西风？】 2014-01-03

【大数据挖掘：转基因网络口碑的自动民调和分析】 2014-01-03

只认数据不认人：IRT 的鼓噪左右美国民情了么？ 2013-12-30

[转载]ZT: 为啥立委的报告认为GMO造成gluten intolerance 2013-12-28

继续转基因的大数据挖掘：谁在说话？发自何处？能代表美国人民么 2013-12-26

【美国网民怎么看转基因：英文社交媒体大数据调查告诉你】 2013-12-24

相关专题：转基因问题
转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-755554.html

当前推荐数：4 推荐人：陈筝 biofans bridgeneer tuner

发表评论评论 (7 个评论)

删除 |赞[3]杨会杰 2014-1-4 11:58: 大数据崇拜要不得
其实大数据很大的一个特点是脏数据; 李维回复杨会杰：你想说什么呢？
因为数据脏，就不要挖掘？

2014-1-4 14:311 楼（回复楼主）赞|

删除 |赞[2]蔡小宁 2014-1-3 23:42: 博主的数据应该是真的，至少我是这样认为的，但是不要迷信“大数据”也是我一直的提醒。; 李维回复蔡小宁：蔡老师，什么叫“应该”？数据是从内容商买的，真的假的也是内容商的问题，我们只是使用它挖掘情报而已。

2014-1-4 14:301 楼（回复楼主）赞|

删除 |赞[1]biofans 2014-1-3 18:38: 不是说美国人吃了20多年的转基因食品吗？那就分析20年来的数据可能更可信。; 李维回复 biofans ：没有那么久的历史数据（即便有，也买不起，原始数据是需要给内容供应商付钱的）。社交媒体的历史总共不过七八年吧。

2014-1-3 19:021 楼（回复楼主）赞|; 李维回复 biofans ：另外，我怀疑 10-20年前，没什么人议论转基因。因为美国的转基因进入市场不加标识，绝大部分民众蒙在鼓里，根本没有这个概念。最近一年的热议，估计与美国崇尚自然有机食品的所谓健康饮食的时尚潮流有关。另一方面，也幸亏美国人做了 20 年的小白鼠。这 20 年美国没有发生转基因带来的严重问题，我个人认为足以证明国人对转基因的担心有点杞人忧天。只要按照美国标准去做，就应该没啥问题。当然，转基因主粮如大米和小麦的推向市场，还是谨慎为好。

2014-1-3 19:102 楼（回复楼主）

【大数据挖掘：转基因中文网络的自动民调，东风压倒西风？】屏蔽留存

【大数据挖掘：转基因中文网络的自动民调，东风压倒西风？】

屏蔽已有 4121 次阅读 2014-1-3 20:12 |个人分类:社媒挖掘|系统分类:博客资讯| 转基因, 中文, 挖掘, 社会媒体

中文，中文社交媒体里的转基因。与英文民调迥然不同哎，挺转声音似乎很大，主要来源呢？

终于，我们来到据说为转与非转掐架掐到天昏地黑问候父母的中文世界。为了避免陷入泥潭，咱们这次只提供数据，不提供解读。爱挺爱反，请便，爱咋解读，听便。

这次自动民调是最近一个月的中文社交媒体数据，具体来源和比例后面交待。

接着来中文社媒的民调：挺转派明显占上风，疑似媒体正面为主？

作者: 立委 (*)

日期: 01/02/2014 19:26:23

Download

Download

Download

Download

【转基因大数据挖掘系列博文】

【大数据挖掘：转基因中文网络的自动民调，东风压倒西风？】 2014-01-03

【大数据挖掘：转基因网络口碑的自动民调和分析】 2014-01-03

只认数据不认人：IRT 的鼓噪左右美国民情了么？ 2013-12-30

[转载]ZT: 为啥立委的报告认为GMO造成gluten intolerance 2013-12-28

继续转基因的大数据挖掘：谁在说话？发自何处？能代表美国人民么 2013-12-26

【美国网民怎么看转基因：英文社交媒体大数据调查告诉你】 2013-12-24

相关专题：转基因问题
转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-755584.html

当前推荐数：8 推荐人：郑小康 徐军 陈辉 薛宇 孙根年 bridgeneer tuner liyouxi

发表评论评论 (11 个评论)

删除 |赞[7]liyouxi 2014-1-5 18:27: 如果中美对比数据需要得出有意义的结果，我觉得可以尝试一些其他相关数据（不构成因果关系），比如两个社会对于星相学的态度，对于神秘现象的态度等等，那么把得到的结果放到这些相关背景上去看，可能很有意义。

删除 |赞[6]liyouxi 2014-1-5 16:40

这里是有着很大的问题的（这关系到大数据能提供何种程度有用的信息，否则类似盲人摸象）。

中文世界诚如博主所得的 “挺转声音似乎很大”，可能说明的仅仅是政治体制造成的后果，不仅与转基因的安全性无关，而且也与民意无关。这一点上，博主如何剔除代表官方授意的文字是个困难的任务。而我们的官方似乎是要着意推广之的，只是我尚不得知，它是搞清楚了科学原理还是政治经济情势所迫而为之？我想，如果博主做到了剔除，那么得到的数据会比美国要难看得很得多！因为这只需要跟周围的人聊一聊就能感受得出来，八九不离十。

而在英文世界，没有 “主体思想” 的光芒照耀，各自为政，每个人或者团体尽量在法律框架内发出自己的声音，采集的数据看似客观准确，但是基于以下原因，我认为它们不仅不能反映转基因的安全性，也不能正确反映其民意。首先，以科学专业人士为主的“体制内”的FDA、AAAS等科学家团体作为zf制定政策的智囊团，缺乏强有力的宣传部门来进行“疑似替代广泛民意”的行为，而相信其体制运作良好的人士、及科学素养专业人士只需要在这些zf权威部门的网站上进行科学的、或科普的了解，正是这些人构成了FDA、AAAS等机构的可靠政策依据的“民意”，而不是整个社会人士的“民意”。这里头的绝大多数是不会在网络上连篇累牍地发有关对于转基因担忧和不担忧的信息的（你可以认为是我的假设，也许需要证实，但我认为是站得住脚的，因为专业人士做科普是少有事件，网络上发出声音的，包括不担忧和担忧的，大多数依次是非专业人士、非科学人士、非知识分子......。也许大数据可以很容易证明这个事情）。

那么中国的民意应当从何而来，恐怕我们作为老百姓谁也不能够回答。
我想，在一个落后的社会，对于科学界的人士，判断的标准还是得回归专业证据为宜。
PS. 如果从博主的大数据结果得出“美国人民水深火热地被蒙在鼓里”这个结论，无论如何，我感到挺滑稽的。

李维回复 liyouxi ：你说的也是一种听上去合理的解读。大数据挖掘如果能够带来这样的解读，也是一种价值。

中文世界东风压倒西风的情况与主要新闻媒体的宣传（主流的声音）有关是基本可以确认的。你看看后面的主要发声者的列表，就明白了。声音最大的大多是媒体，而不是个体。只不过媒体和组织也开始重视在社会媒体的平台发声，而且他们的分贝高，频率也高。这些与普罗民意是不同的。当然二者也有相互影响和交融的时候。

区分两种声音（专业术语叫 push media 和 pull media）是必要的，技术上也可以做到，我们也正在加强这种区分。

2014-1-5 17:401 楼（回复楼主）

赞|

删除 |赞[5]lmnnml 2014-1-5 00:11: 删了我的真话--心虚？门前冷落鞍马稀，大家已经知道你的大数据是什么东西了; 李维回复：那就留着这条立此存照吧。

2014-1-5 06:101 楼（回复楼主）赞|

删除 |赞[4]tlw2013 2014-1-4 12:51: 各取所需，公开透明

删除 |赞[3]李旸 2014-1-4 12:44: 李老师，数据用什么软件分析的; 李维回复李旸：用的是我们自己开发的软件产品。这个产品主要是为企业挖掘客户情报用的。

2014-1-4 14:261 楼（回复楼主）赞|

删除 |赞[2]闵应骅 2014-1-4 11:38: 谁挑起了这么个争论？这事儿民调能解决吗？; 李维回复闵应骅：民调的目的不是解决问题，而是了解问题。

2014-1-4 14:271 楼（回复楼主）赞|

删除 |赞[1]蔡小宁 2014-1-3 23:34: 中国人最关心“中文世界”了，非常欢迎李老师来到中文世界！

【大数据挖掘：转基因中文网络的自动民调，东风压倒西风？】屏蔽留存

【大数据挖掘：转基因中文网络的自动民调，东风压倒西风？】

屏蔽已有 4121 次阅读 2014-1-3 20:12 |个人分类:社媒挖掘|系统分类:博客资讯| 转基因, 中文, 挖掘, 社会媒体

中文，中文社交媒体里的转基因。与英文民调迥然不同哎，挺转声音似乎很大，主要来源呢？

这次自动民调是最近一个月的中文社交媒体数据，具体来源和比例后面交待。

接着来中文社媒的民调：挺转派明显占上风，疑似媒体正面为主？

作者: 立委 (*)

日期: 01/02/2014 19:26:23

Download

Download

Download

Download

【转基因大数据挖掘系列博文】

【大数据挖掘：转基因中文网络的自动民调，东风压倒西风？】 2014-01-03

【大数据挖掘：转基因网络口碑的自动民调和分析】 2014-01-03

只认数据不认人：IRT 的鼓噪左右美国民情了么？ 2013-12-30

[转载]ZT: 为啥立委的报告认为GMO造成gluten intolerance 2013-12-28

继续转基因的大数据挖掘：谁在说话？发自何处？能代表美国人民么 2013-12-26

【美国网民怎么看转基因：英文社交媒体大数据调查告诉你】 2013-12-24

相关专题：转基因问题
转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-755584.html

当前推荐数：8 推荐人：郑小康 徐军 陈辉 薛宇 孙根年 bridgeneer tuner liyouxi

发表评论评论 (11 个评论)

删除 |赞[7]liyouxi 2014-1-5 18:27: 如果中美对比数据需要得出有意义的结果，我觉得可以尝试一些其他相关数据（不构成因果关系），比如两个社会对于星相学的态度，对于神秘现象的态度等等，那么把得到的结果放到这些相关背景上去看，可能很有意义。

删除 |赞[6]liyouxi 2014-1-5 16:40

这里是有着很大的问题的（这关系到大数据能提供何种程度有用的信息，否则类似盲人摸象）。

李维回复 liyouxi ：你说的也是一种听上去合理的解读。大数据挖掘如果能够带来这样的解读，也是一种价值。

区分两种声音（专业术语叫 push media 和 pull media）是必要的，技术上也可以做到，我们也正在加强这种区分。

2014-1-5 17:401 楼（回复楼主）

赞|

删除 |赞[5]lmnnml 2014-1-5 00:11: 删了我的真话--心虚？门前冷落鞍马稀，大家已经知道你的大数据是什么东西了; 李维回复：那就留着这条立此存照吧。

2014-1-5 06:101 楼（回复楼主）赞|

删除 |赞[4]tlw2013 2014-1-4 12:51: 各取所需，公开透明

删除 |赞[3]李旸 2014-1-4 12:44: 李老师，数据用什么软件分析的; 李维回复李旸：用的是我们自己开发的软件产品。这个产品主要是为企业挖掘客户情报用的。

2014-1-4 14:261 楼（回复楼主）赞|

删除 |赞[2]闵应骅 2014-1-4 11:38: 谁挑起了这么个争论？这事儿民调能解决吗？; 李维回复闵应骅：民调的目的不是解决问题，而是了解问题。

2014-1-4 14:271 楼（回复楼主）赞|

删除 |赞[1]蔡小宁 2014-1-3 23:34: 中国人最关心“中文世界”了，非常欢迎李老师来到中文世界！

【大数据挖掘：中国红十字会的社会媒体形象】屏蔽留存

【大数据挖掘：中国红十字会的社会媒体形象】

屏蔽已有 4764 次阅读 2014-1-4 20:27 |个人分类:社媒挖掘|系统分类:科研笔记| 大数据, 挖掘, 红十字会, 社会媒体

在当今的信息社会，一个机构的社会形象很大程度上决定于其网络形象。维持和增强网络形象需要对社会媒体的挖掘追踪，以便及时应对危机，调整其公关举措。我们以去年几度陷入公关麻烦的“中国红十字会”为例来展示社会媒体大数据挖掘的这种监测和警示作用。了解自我是改进自我提升形象的前提。面对混沌的大数据，人们往往见木不见林，难以把握总体趋势和全貌。而自然语言技术可以帮助我们自动阅读分析海量信息，从中挖掘任何话题的舆情以及机构或个人的媒体形象，从而从一个角度为决策提供依据。

一般而言，红十字会总是与各种慈善活动紧密相关，因此如果不出意外，红十字会的社会形象是非常正面的。但是，中国红十字会却不尽如此。用我们中文大数据挖掘系统（beta）对最近一年的社会媒体（完整的微博数据仍然在与内容商协商之中）的自动民调显示其形象起伏颇大，但一年平均指数 36 并不很低。

从上图看过去一年（2013元月13至2014元月14）的社会媒体趋势，社会媒体的相关议论的数量除了去年四月五月之间突然出现一个高峰以外（出了什么状况？），一直很平稳。随着这个热议的是其形象一跌千丈，直至五月12号到谷底零下56度。随后的发展表明，虽然议论量趋于平稳，但去年七月中与九月末还是出现两次形象受损，疑似公关失当？这里面的故事，一直追踪网络事件的记者和网友应该有所可言。

，

网友表达的情绪中最显眼的是“谴责”，远远超出正面的情绪（“信任”）。

上图展示了具体的褒贬理由。下面是其比例的饼图，如何解读这些数据还是留给了解事件发展过程的人士吧。总之是遇到了丑闻和麻烦。

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-755868.html

当前推荐数：5 推荐人：蔡小宁 郑小康 王秀玉 徐晓 bridgeneer

发表评论评论 (1 个评论)

删除 |赞[1]王秀玉 2014-1-4 21:47: 读李维老师《大数据挖掘：中国红十字会的社会媒体形象（2013）》后感地址：http://blog.sciencenet.cn/blog-817414-755900.html

测试粤语舆情挖掘：拿娱乐界名人阿娇和陈冠希开刀屏蔽留存

测试粤语舆情挖掘：拿娱乐界名人阿娇和陈冠希开刀

屏蔽已有 7208 次阅读 2013-6-21 03:18 |个人分类:社媒挖掘|系统分类:科研笔记| 陈冠希, 粤语, 阿娇, 娱乐界

【研发笔记：粤语文句的情报挖掘】实现之后，没顾上在应用层面做测试。前两天想要做测试，但对广东香港不熟，不知道什么是他们的热点话题。于是决定拿娱乐界名人开刀，他们的八卦永远是网民的兴奋点，不妨挖掘一下他们的网络形象。

首先想到的是阿娇。做她准粉丝已经几年了，不为别的，只为她长相让人看着舒服。华裔女演员比她名气大的多得很，但是看着比她养眼的极少。远的如巩俐大妞儿，太村姑了，长相很平，似有苦相。据说是魔鬼身材，可盘儿不靓，身材也就不作数了。大红大紫的张子怡有些小家子气。范冰冰长得怪怪的，艳丽有余，不像是真人。真正看得让人舒服的，台湾以前有一个徐若萱，大陆曾有一位邻家女孩徐静蕾，香港就数阿娇了，名如其人，娇美细嫩。对了，大陆1989年前有一位央视女主播杜宪，那是亿人迷，怎么看怎么舒服。养眼到什么程度呢，可以形式脱离内容。当年看央视新闻，内容别提多八股了，可是因为有杜宪，还是愿意看。至于阿娇，是偶然在一部武打片中发现的。从来不爱看那些打打杀杀的武打片，可是阿娇让人眼前一亮，再荒诞的内容也就剥离了。后来据说她受陈冠希之累，牵扯进艳照门负面新闻中。也难为她了，在那样的压力下，还不得不硬着头皮出来开记者会做一些澄清。记者会上一出场，依然是楚楚动人，确如她说的，太傻了，真地不值。话说回来，一辈子不做荒唐事者鲜见，她就是运气不好而已。扯远了，回到舆情挖掘上来。

除了阿娇，粤语文化圈里陈冠希据说是议论最多的一位了。他的艳照门事件很让整个华人世界兴奋躁动了一阵子。据说他是那种“坏”男人的典型，温哥华富豪华侨家出身的花花公子，party animal，讲一口流利的英语，开豪华车，酷而有型（除了泡妞，从来搞不清他擅长什么，音乐、舞蹈、演技、写作？）。那就看看舆论怎么说他吧。

下面的社交媒体挖掘，来自中文世界社交媒体过往一年的档案中被系统识别为粤语的部分。香港娱乐圈名人鍾欣桐（阿嬌）和陳冠希为挖掘对象。对不起了，只能拿名人做小白鼠了。从净情绪（net sentiment，一种褒贬比例的指数）来看，两位的社交媒体形象仍为负数，陳冠希更是低到-22%，说明网民对他的评论明显贬多于褒。

阿娇褒贬指数不高估计还是受到以前负面新闻之累（算她倒霉，碰到了陈冠希），其实粤语地区喜欢阿嬌的粉丝并不少，喜欢的理由见下图：主要是她长得年轻甜美（年轻/甜美/甜蜜：17.1%），人同此心啊。有意思的是，喜欢她的人很多具体提到她漂亮的手（18.9%）、眼睛和脸，甚至声音（其实她的皮肤也是没治了，怎么没人提？），总之她是以外在条件取胜，此乃尤物，足以移人。

至于陈冠希，不管多少负面新闻缠身，女粉丝“喜欢”（“爱”）他的仍然不少，见下面红多绿少的【情绪云图】中的“喜欢”两个大字。真是应了那句古话：男的不坏，女的不爱。（红贬中的“如此绝情”不知是他的哪一桩孽债。）

具体的不满集中在【褒贬云图】中大大的那个“搅”字。

我们把部分网友议论陈冠希的粤语帖子附在最后。

【相关】

【研发笔记：粤语文句的情报挖掘】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-701385.html

上一篇：“好奇：油条为何两根一起炸？”
下一篇：Google 人事部门承认，千里马常有，而伯乐难寻

http://blog.sciencenet.cn/blog-362400-331247.html

当前推荐数：8 推荐人：曹聪 廖晓琳 陈辉 武夷山 吴国胜 陆俊茜 bridgeneer biofans

发表评论评论 (8 个评论)

删除 |赞[7]陆俊茜 2013-6-22 11:10: 杜美人是适合做大老婆的。阿娇是适合做妾的。
没得比的。

删除 |[6]用户名 2013-6-22 08:51: 评论已经被科学网删除

删除 |[5]用户名 2013-6-22 08:43: 评论已经被科学网删除

删除 |[4]用户名 2013-6-22 08:43: 评论已经被科学网删除

删除 |赞[3]李维 2013-6-21 23:05

这是一个至善至美，前无古人，后无来者的形象。事业最高峰的时候以非凡勇气和真情，感动了全世界，却被从央视调离。后嫁给影帝，成就文艺界一段佳话。

删除 |赞[2]吴国胜 2013-6-21 20:26

杜宪是谁啊？

俺爱看国际台的海峡两岸，都是因为有个非凡气质的李红。可惜，在央视工作真是浪费人才

李维回复吴国胜：至善至美，前无古人，后无来者。
http://blog.sciencenet.cn/blog-362400-331247.html

2013-6-21 23:071 楼（回复楼主）

赞|

删除 |赞[1]mirrorliwei 2013-6-21 12:19: 【当年看央视新闻，内容别提多八股了，可是因为有杜宪，还是愿意看】老经典。泡沫剧也是如此。因为有几个喜欢的演员，也就看下去了。京味儿的对白，有时也有些意思。但是情节层面就显得很单薄了。

【微博自动民调：薄熙来、薛蛮子和李天一】屏蔽留存

【微博自动民调：薄熙来、薛蛮子和李天一】

屏蔽已有 4180 次阅读 2013-8-30 09:33 |个人分类:社媒挖掘|系统分类:博客资讯| 微博, 薄熙来, 薛蛮子, 李天一

Automatic Survey from the last month of Sina Weibo (Chinese twitter, the most influential social media Microblog site) on three major characters: the former Chinese politician Bo Xilai in his on-going trial, the very famous social media figure Charles Xue who is said to have millions of fans and who was arrested for patronizing prostitutes and Li Tianyi now on trial, who is a spoiled child of Chinese most-known singer. The sentiments for Bo have gone up perhaps due to his outstanding self defence but Charles Xue dropped to the bottom.

一个月来真热闹，新浪微博作为社交媒体龙头老大，炸开锅了。主要围绕三大主题：薄熙来公审、薛蛮子嫖娼和李天一强奸案。

于是对最近一个月来的新浪微博做了一个自动民调，看看这三位的人气消长及其舆论形象。

首先值得注意的是，薄熙来与薛蛮子的人气曲线的巨大差异：薄熙来的雄辩及其让人耳目一新的庭审表现给他赢来了人气的上升，而薛蛮子的突然嫖娼被抓却在同一个时段，令其网络形象跌入冰点：

（紫色曲线网民的褒贬情绪；蓝色曲线是提及的次数）

关注、佩服、赞扬薄熙来的情绪随着公审不降反升，尽管最近几天官方媒体批判的主调连篇累牍。

在具体的功过是非的评价方面，似乎还是负面舆论更强大。这似乎表明，薄熙来的个性、才干和雄辩为他争取了一些情绪上的同情，但他的错误和罪行还是公认的。

老薄的优点

老薄的过失

薛蛮子就不提了，行走江湖，阴沟里翻船。

最后看看李天一这小子：

是不是已经判了？有罪。

不管法律怎么判，社交舆论里面说无罪的与说有罪的一样多:

唉，这么个孩子，不省心啊。

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-720875.html

上一篇：小学生“减负”成了一个话题
下一篇：北京富人的郊外生活

当前推荐数：8 推荐人：刘全慧 武夷山 王浩 陈辉 曹聪 魏武 李宇斌 bridgeneer

发表评论评论 (2 个评论)

删除 |[2]用户名 2013-9-2 19:32: 评论已经被科学网删除

删除 |赞[1]wuqunan 2013-8-30 09:44

【美国网民怎么看转基因：英文社交媒体大数据调查告诉你】屏蔽留存

【美国网民怎么看转基因：英文社交媒体大数据调查告诉你】

屏蔽已有 18605 次阅读 2013-12-24 06:47 |个人分类:社媒挖掘|系统分类:博客资讯| 大数据, 转基因, 社交媒体, 挖掘, genetically

从英文社会媒体对转基因食品大数据调查显示，其评价度很低，至零下40度（评价度这么低的品牌或话题不常见，除非是遇到事故或公关灾难）。

但褒贬双方的激烈程度（passion 指标为零）远不如国内。

这是最近一个月数据的概览。没想到这个话题在美国其实议论也不少，日均数据点近三千。

说美国人民对转基因很放心安心，似乎离开事实太远。自发社会媒体的舆情分析，在西方（主体是美国，至少上网议论此事的），人民一样害怕（fear）而且担心（concern）。

褒贬的具体理由何在呢？让大数据给你揭示真相和民情。

褒的理由：

贬的理由：

褒贬不成比例是显而易见的，因为红多绿少：

不久后可以深入文体调查一下。从用语看，我怀疑，褒词多来自新闻网站，是公司和科学家的说辞。而贬辞似乎来自民间，对新生事物的自然恐惧。（我们正在研发更好的分类系统，把来自社会媒体中的企业话语与来自社会个体的话语，所谓 push media and pull media 更清晰地分割开来，因为后者才是真正的舆情，无论对错。前者则是宣传和灌输，不可等量齐观。在市场调查和舆情聆听中，这种分类可以屏蔽噪音，更清楚地听到人民的呼声。目前的工具也可以根据domain来源做一些分割，但是不如正在研制的分类器准确、robust和好用）

这项调查的数据来源、分布如下：

小崔花费50万来美国做社会调查，还不如把个零头给我，我可以做全方位千万数据点的自动调查

也省得他一个文傻被批评不科学，样本量不够，不懂统计，问卷有误导，等等。

我只要他的零头（调查一年或者以上的数据有数据成本和不同调查侧面的操作成本）就可以给他从各种角度（来源、文体、性别、地理、舆论走向、社会背景、影响力等等），画出上百张有说服力的数据统计表和各种图示来。保证做到系统层面的客观公允，绝不夹带人为干预和主观误导。这就是大数据时代语言挖掘的力量。

有空再做一个中文社会媒体调查做比照。

RE：你的这个方法的内在限制：反转的比不反转的更有passion，网站多，网上发言也多，故有bias。

RE：所谓好事不出门坏事传千里。我觉得立委的大数据调查只能反映网上意见的传播情况，与现实社会还是有一定差距的。

有些道理。但比传统发问卷打电话在街口堵截用户做不足千份的数据调查呢？后者更容易走偏吧

作者: 立委 (*)

随机性上能去掉人对样本范围的选择的影响。数据点能跳上去两三个量级，代表性是问卷调查不可比拟的。

【相关篇什】

小数据和个案分析：个人在美国对转基因的感觉 2013-12-26

相关专题：转基因问题
转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-752316.html

上一篇：米拉围脖：“窝心”
下一篇：大数据持续升温，是忽悠还是黑马？转薛老师赞大数据的quote

当前推荐数：52 推荐人：郑小康 曾泳春 武夷山 孙根年 戎可 刘洋 吴飞鹏 董全 吴鸣 陈儒军 王国强 喻海良 鲍得海 牛登科 崔树勋 隋立明 赵凤光 陈辉 周雄伟 周洲 褚昭明 董侠 周春雷 徐晓 刘全慧 许培扬 赵斌 王秀玉 毕重增 付福友 薛宇 周华 王启云 俞立平 赵大良 张振兴 王锋 杨辉 曹广福 lbjman biofans tuner nanofluid zzjtcm ddsers yunml nm liyouxi bridgeneer huluhuluhulu schist ilovelife365

发表评论评论 (108 个评论)

删除 |赞[67]任金东 2014-1-14 13:34: 美国人认为转基因食品安全是对的，因为那对于他们就是安全的。懂基因技术的人都知道，基因武器有着很好的定向性，转基因食品很可能是针对某些种族的，尽管我们目前还没有确实的证据，但对于这方面的戒备却不可以无，否则也许等到我们明白的时候也许就晚了。不管老外们如何评论，我们必须对转基因食品持非常谨慎的态度。我国的食用油、大豆（金龙鱼产品）据说都被米国高盛集团垄断了，里面有转基因成分大家注意，有的甚至根本没标明是转基因食品。我国现在年轻人不孕、不育的比例在增加，不知道是否与此有关？

删除 |赞[66]曹广福 2013-12-26 15:35: 其实，任何涉及老百姓的事情都该征求老百姓的意见，可惜，中国历来是家长式制度，领导可以为百姓当家做主，这就使得某些利益集团觉得有机可乘。

删除 |赞[65]曹广福 2013-12-26 14:51: 五十万的零头是多少呢？; 李维回复曹广福：有网友说是5万，并准备捐款筹款，激励我继续做深度民调。
我的数学告诉我是零，所以我说不必捐款了，我有闲就继续做好了。

2013-12-26 15:231 楼（回复楼主）赞|

删除 |赞[64]husselfist 2013-12-26 13:41: gluten是指淀粉食品中的蛋白质，转基因当然和这个有关。搞搞清楚好吧。

删除 |赞[63]程宗明 2013-12-25 21:25: 这个大数据分析其实很有意思。挺转（like）的和反转（dislike）的人群给出的理由说明挺转的群体对转基因基本是知道为什么“挺” （“like”），理由都很清楚，如25%的人认为是安全的，近20%认为是“商业批准的，加上其他，有近60%的人认为'转基因是”正面的“。而反转的（”dislike“）群体中有66%的人的理由是”gluten-related-illness“。gluten和转基因没有任何联系。不少美国人对gluten过敏，把对gluten(小麦是一个主要过敏源）过敏作为反转的理由说明这个群体对转基因的无知。小麦在转基因技术发明（70年代-80年代）前就已被人类食用至少几千年了。把这个帽子扣到转基因头上真是“冤枉”。所以，不能完全依靠“民意”来决策，而是说明科学普及即使在美国也非常缺乏。; 李维回复程宗明：有理。不少懂行老友也是这样解读的。

2013-12-26 01:301 楼（回复楼主）赞|

删除 |赞[62]周向进 2013-12-25 16:13: 谢谢您的工作，祝您圣诞节快乐！新年快乐！; 李维回复周向进：圣诞快乐，你也。

2013-12-25 16:401 楼（回复楼主）赞|

删除 |赞[61]闫安志 2013-12-25 14:45: 中国的一句老话：无利不起早！
挺转派说的越多，叫的越响，这里肯定对他们有利！

删除 |赞[60]schist 2013-12-25 13:35: 2012年美国加州37号提案 “GENETICALLY ENGINEERED FOODS. LABELING. INITIATIVE STATUTE. ” ，正反方的观点表述的都很清楚。无论持那一种观点，不应选择性地只介绍对自己观点有利的方面，而应客观全面地介绍给公众！链接地址如下：
http://voterguide.sos.ca.gov/propositions/37/arguments-rebuttals.htm#content
.

删除 |赞[59]schist 2013-12-25 13:30

to [4]蔡小宁  2013-12-24 09:23 你这个数据是有问题的，想想看，美国加州、华盛顿州的公民投票结果都是不同意转基因标识，大多数民意连转基因标识都不要了，对转基因食品安全性的担心能有多少呢？这个样本比你那个说明问题吧？
==================
"大多数民意连转基因标识都不要了，对转基因食品安全性的担心能有多少呢？" 如果我们了解了反对与支持转基因标识的比例，可能更有助于认知这个问题，实际上反对标识以微弱的比例胜出，说明还是有很多持疑义者。
关于加州37号转基因标识提案的投票结果，见维基百科的链接：http://en.wikipedia.org/wiki/California_Proposition_37_(2012)
Proposition 37
Genetically Engineered Foods Labeling Election results
Yes or no Votes Percentage
Yes    6,088,714    48.59%
  No    6,442,371    51.41%
Valid votes 12,531,085 100%
Invalid or blank votes 0 0%
Total votes 12,531,085 100.00%

以反对该提案51.41% 对赞成48.59% 的比例否决了该提案。

该提案支持者募集的资金总数为920万美元，最大一笔资助来自Mercola Health Resources （Mercola 健康资源？），为119万9千美元；反对者募集的资金总数为4600万美元，最大一笔资助来自Monsanto Company（孟山都公司）为811万2千多美元。

双方前10为捐助者如下：

Supporters（支持）
Mercola Health Resources 1,199,000KentWhealy 1,000,000
Nature's Path Foods 610,709Dr.Bronner ′ sMagicSoaps 620,883
Organic Consumers Fund 605,667AliPartovi 288,975
Mark Squire 258,000WehahFarm 251,000
Amy's Kitchen 200,000TheStillongerTrust(MarkSquire,Trustee) 190,000
Opponents（反对）
Monsanto Company 8,112,867
E.I. Dupont De Nemours & Co.5,400,000
PepsiCo, Inc. 2,585,400GroceryManufacturersAssociation 2,002,000
Kraft Foods 2,000,500BayerCropscience 2,000,000
Dow AgroSciences 2,000,000BASFPlantScience 2,000,000
Syngenta Corporation 2,000,000Coca−ColaNorthAmerica 1,700,500

李维回复 schist ： thanks for info。

我人在加州但没有投票权，加上从来不关心转基因的话题，所以不了解这些细节。

2013-12-25 16:391 楼（回复楼主）

赞|

删除 |赞[58]周华 2013-12-25 13:13: 转基因食品其实没什么好争的，一个基本事实就是“反转的拒绝吃，挺转的不敢吃”。

删除 |赞[57]黄火明 2013-12-25 12:58: 转基因，暂时没有问题，不代表以后没有问题，基因问题或许几十年几百年之后才能显现出来。因为现在我们对生物，尤其是我们自身的身体的了解程度还非常低。仅仅照现有的一点点科学知识去推测结果，不准的可能性是非常大的。

删除 |赞[56]常顺利 2013-12-25 10:58: 很多事情都是这样的：赞成的人不怎么发声，而反对的人则会闹出很大的动静。从国人对待转基因的态度到泰国黄红两派的斗争死结，这种现象在社会中普遍存在。这可能有社会心理学的解释。
因此，所谓相对客观的大数据，也许本身就已经预设了立场。; 李维回复常顺利：这种情况是可能的。所以我说，同样的数据结果可以有不同的解读。

你可以打折来看褒贬指数。譬如，指数为零表面上似乎是褒贬民意旗鼓相当，你可以打个折扣，理解成其实是褒多于贬，只不过很多满意的人不言声而已。

这个折扣怎么打，可以根据经验法则，多一些实验也许慢慢可以显现出来。

2013-12-25 11:081 楼（回复楼主）赞|

删除 |赞[55]唐凌峰 2013-12-25 10:16: 谢谢您的回复，这个方法如果有效的话，应该很有用处。可否用于做预测，例如预测美国总统选举谁胜出？您如果能正确预测几次，广告效应会很显著。; 李维回复唐凌峰：反过来看就明白了。这个方法无效的话，还会有企业客户花费几十万甚至上百万来购买它的使用权（一遍收集客户对品牌和产品的意见）么？当客户都是傻子呢。用处是毋庸置疑的。

至于预测，难度较大。从反映舆情走向，跳跃到预测未来，是一大步。可以做尝试，但不要指靠它。

关于美国总统选举，我以前的博文描述过用我们的系统实时检测美国总统辩论的舆情变化，其论题曲线与舆情的涨落有密切关联，你可以查看：奥巴马赢了昨晚辩论吗？舆情自动检测告诉你。
http://blog.sciencenet.cn/blog-362400-623922.html

我也曾经两次拿它预测过具体股票的走势，推荐买进还是卖出。两次都侥幸成功了，但是那是一个通过股票人气做的简单试验。权当好玩，不能当真。这个在我以前的博文和大数据演讲中也有提及。见：【『科学』预测：A-股看好】
http://blog.sciencenet.cn/blog-362400-639090.html

2013-12-25 16:361 楼（回复楼主）赞|

删除 |赞[54]薛宇 2013-12-25 10:01: 赞赞赞！大数据玩的漂亮啊！; 李维回复薛宇：怎一个玩字了得。都圣诞了哎。
玩过头了。圣诞快乐

2013-12-25 16:451 楼（回复楼主）赞|

删除 |赞[53]杨全文 2013-12-25 08:57: 那我们到底是等啦还是积极参与呢？也没个官方的指向。

删除 |赞[52]周向进 2013-12-25 08:56: 1、这篇博文很好，数据很丰富，而且中立。
2、建议增加对统计内容的中文翻译，放在后面，有些字体太小，看不清楚。
3、建议您公布一个账户，我愿意为您的工作捐赠一些资金，并动员其它人一起捐赠，尽快达到5万元您要求的数额。
谢谢！; 李维回复周向进：多谢美意，并不需要资金支持。我是 chief，有特权，有些成本可以不计，就算测试系统了。等闲来做更完整更大数据的调查，再向各位汇报。
圣诞快乐

2013-12-25 11:151 楼（回复楼主）赞|

删除 |赞[51]夏新宇 2013-12-25 08:34: 会哭的孩子有奶吃，沉默的大多数永远被忽略。; 李维回复夏新宇：如果沉默，忽略也是可以的，因为言论自由的社会你不表达，没人有义务揣摩你，而且也无法揣摩。民主社会选总统，常常有一半以上的人放弃投票权，也是一样被忽略。

2013-12-25 11:121 楼（回复楼主）赞|

删除 |赞[50]zhdqing 2013-12-25 08:21: 相信！有时想，挺转的人是不是别有用心！！转基因是不是美国灭杀中国的一种长期战略？对以自我为中心的美国鬼子，不得不防！越是急于无厘头的挺转，大家越要小心阴谋！！！; 李维回复张德庆：我本人不相信美国（政府）有阴谋。但美国公司可能有利益相关。

2013-12-25 16:461 楼（回复楼主）赞|

删除 |赞[49]陈卫军 2013-12-25 08:13: 也是一种了解舆情不错的方法。; 李维回复陈卫军：大势所趋。传统手工问卷方式跟不上时代了，而且成本太高，周期太长，采样太小。

2013-12-25 16:441 楼（回复楼主）赞|

删除 |赞[48]王锋 2013-12-25 07:45: 我在美国几乎没听见人家讨论或者担心转基因！当然可能是我认识的人太少！; 李维回复王锋：我的经验跟你同。没想到国内掐成这样。

2013-12-25 16:421 楼（回复楼主）赞|

删除 |赞[47]xk1009 2013-12-25 06:18: 我就对gluten过敏，还真不知道gluten跟转基因有了半毛钱的关系。

删除 |赞[46]fineday36 2013-12-25 00:48: 不好意思,刚看了你是搞计算机的

删除 |赞[45]fineday36 2013-12-25 00:46: 不严谨,瞎起哄,不是做学术的人应有的态度.
搞科学的人就是用科学的数据以简明扼要让民众听得懂的方式去解释给民众听,这个事算不上是仁者见仁智者见智的事吧,肯定有可以解释的地方.
反对也好,不反对也好,用科学的数据以简明扼要让民众听得懂的方式来说明,民意?大部分人都不懂,采集的民意有用么,收集一群啥也搞不清楚的人的民意能说明什么问题,有用么????????
混混沌沌,唉; 李维回复：采集民意没用？

好家伙，你反人民到如此啊（kidding）。谁敢说这个话？连历史上的独裁者为了自身利益和江山的长治久安，还常想法采集民意呢，过去还有采集民谣来看民意的。何况是现代的民主社会。

圣诞快乐

2013-12-25 01:041 楼（回复楼主）赞|

删除 |赞[44]liyouxi 2013-12-25 00:35

特别对于中国的公众，想着要跳过专业意见的束缚，强调是非常必要的，否则那么多谬误，即使已经被澄清，还被反复拿出来炒作。

博主回复(2013-12-25 00:25)：这样的大白话还用强调么：所谓的大数据得到的公众观感统计结果并不表明“多数人是对的”

删除 |赞[43]唐凌峰 2013-12-25 00:25: 任何一门新的方法的建立，都需要首先用对照验证其有效性。这种抓取网络关键词，有没有与大样本的问卷调查等传统方法进行对比，验证过有效性？看到fear，就下结论说是人民害怕，也许是有人说不用fear呢？至于英文网络的数据，为什么下结论时认为只是美国人的意见，把欧洲人等排除掉了？; 李维回复唐凌峰：有没有与问卷调查以及用其他方式验证过这个系统的有效性？

有过。很多次。而且还在不断定期进行中。为什么要这样做？因为质量是系统的生命线，否则怎么取信于客户。

大数据挖掘热点话题（冷门话题数据量少，就不好说了）作为舆情的反映，基本可信，至少不比传统手工问卷差。作为决策参考没有问题。

你不必相信我的 claim。我也不必提供验证细节。你也不是我的客户。我免费提供信息，权当 raise awareness 和科普。

2013-12-25 00:531 楼（回复楼主）赞|; 李维回复唐凌峰：至于意见中是不是只有美国？

这个还真可能不准确。我说的不严谨。英文社交媒体从分布上看，美国网民比重很大，但这个世界是地球村了，当可能包括西方其他国家的舆情夹在里面了。

其实很好解决，系统有地理过滤器，我可以只挖掘美国来源的社交媒体。但这样数据量就需要超过一个月的积累才好挖掘，有成本的。今后高兴了，再做吧。

2013-12-25 00:592 楼（回复楼主）赞|; 李维回复唐凌峰：你提到“抓取关键词”，怀疑系统不能处理否定式（“也许是有人说不用 fear 了”），那是你不了解我的背景，虽然我在100多篇科普性博客已经多方面描述过系统的能力。简言之，我们的舆情挖掘不是通常的关键词技术，而是建立在高级得多的深度语法分析（deep parsing）之上的信息抽取和挖掘。不仅可以对付否定式，否定之否定等更复杂的语言现象也能处理。

2013-12-25 07:093 楼（回复楼主）赞|

删除 |赞[42]fineday36 2013-12-24 23:51: 老师可以写得更简洁些,并且有学术数据支撑,而不仅仅是民意支撑么?
从学术原理上来讲风险,用数据说话,现在大家抄来抄去,感觉不专业.; 李维回复：我只做民意。别的你们做，或这谁爱做谁做。

我不反对转基因，也不大关心转基因因为没感觉有什么危险。我的不少懂行朋友也持拥抱态度，我没有理由不相信这些专家。但是民意也需要一定程度的尊重和引导，不能强迫人们吃转基因，或这任何东西。

2013-12-25 00:391 楼（回复楼主）赞|

删除 |赞[41]王秀玉 2013-12-24 23:39: 转基因其他应用安全问题（1）转基因疫苗终于出事地址：http://blog.sciencenet.cn/blog-817414-752583.html

删除 |赞[40]robindoc 2013-12-24 21:12: 小崔自掏腰包，所做的却是为民的事。虽知不可为，而为之，是民族的良知趋使。而有些人，可以为之，却不作为。这是差距！我们没有理由耻笑小崔，他是一面旗帜，是民族的脊梁，给予我们的不是答案，而是正能量！向小崔致敬！; 李维回复：其实也没什么不可为了。都现代社会了，有互联网和社会媒体，谁还能一口遮天。每个人都有权发表意见。

很久以前看过他的节目，很优秀的主持人。

2013-12-25 00:221 楼（回复楼主）赞|

删除 |赞[39]liyouxi 2013-12-24 20:39: 科学问题不是一个群众投票问题，美国公民知道转基因的并不如某些想象的那样多，但是他们为何准许政府有关机构 “瞒着他们” 搞那么多转基因产品给他们吃？因为他们信任他们的体制，包括政体和科学评价体系。国内的问题，是老百姓有点不信zf，顺带地也就没法相信 “专家”。但是老百姓想要在专业知识要求很高的领域进行判断，完全是强人所难。所以，希望李维老师要强调（正如文章中那样）所谓的大数据得到的公众观感统计结果并不表明“多数人是对的”，而是给专业的科协共同体提供一个参考，去发现这个领域的科普做的怎么样。
可以设想，当年布鲁诺当年坚持日心说的时候，如果有机会进行一个 “大数据” 统计，不晓得会是一个什么结果。; 李维回复 liyouxi ：这样的大白话还用强调么：所谓的大数据得到的公众观感统计结果并不表明“多数人是对的”

舆情与对错没有一毛钱的关系。何况很多东西从科学上讲，也不是只有对与错，黑与白，还有很多中间状态。

2013-12-25 00:251 楼（回复楼主）赞|

删除 |赞[38]蔡小宁 2013-12-24 20:00: 37楼的李老师可以看看我对此事的解释：退运转基因玉米不等于其不安全http://bbs.sciencenet.cn/home.php?mod=space&uid=789923&do=blog&id=746196; 李维回复蔡小宁：我没说转基因玉米不安全啊？

去肯德基最喜欢买的就是他们的烤玉米。从来不问出处。

2013-12-25 00:341 楼（回复楼主）赞|

删除 |赞[37]jimbolee 2013-12-24 19:48: 额我以为文章是LZ写的，如果是的话LZ对搜索引擎玩的很转啊
当时我在看这篇报道的时候
http://www.lijingbo.com/gm-coin-returned-to-us/
其实内心也犯嘀咕，到底转基因的玉米有多少流入了中国市场; 李维回复 jimbolee ： LZ who 啊？

2013-12-25 16:471 楼（回复楼主）赞|

删除 |赞[36]tudao 2013-12-24 19:37: 这篇博文充分说明，“大数据”并不是神仙，完全可能得出错误的结论，“大数据”只是一种工具，要看使用者如何使用它了。; 李维回复 tudao ：说大数据是神仙的，多半是忽悠。

今天忽悠大数据，明天其他东西流行了，就忽悠其他东西。

但是大数据给决策人（政府、企业或者犹豫如何选择的消费者）提供了一个前所未有的方便工具，去纵览有统计意义的舆情。这在以前只能通过小规模误差很大的人工问卷调查来做。如今自动化了，而且样本量高出好几个量级。拜科学技术所赐。

2013-12-25 00:301 楼（回复楼主）赞|

删除 |赞[35]王大元 2013-12-24 18:24: 对于大数据处理，我完全是外行，现在说几句外行的话，不对就当垃圾处理
1. 任何数据的输入的前提是数据的可靠性，不分青红皂白的把所有数据输入，输入的数据就没有科学性，可靠性，由此而来的结论当然就没有任何意义了
2. 现在网络上有所谓的大V，用定贴机为某一个题目专门不断发帖顶贴，所以不分青红皂白的输入这种数据，实际上是被其他人所误导。
3. 所以要用大数据，必须界定你的大数据来源。否则同一事物，被不同人选择来源，完全就有不同的结论。
以上是外行的话。; 李维回复王大元：当然你的担心是有理由的。做大数据的人当然要过滤垃圾（包括无处不渗入的色情），而且要 detect 僵尸、水军和数据的过分重复（机器人发贴）等。

大数据挖掘有没有价值很多时候是可以验证的。因此上述问题的严重程度，可以从过往的验证中得到一个大概的置信区间。细节就不谈了。

总之是，由于大数据的存在以及大数据处理能力的不断完善，舆情挖掘提供了一个难以取代的情报源，在决策中有参考价值。这是可以基本肯定的。

2013-12-24 18:351 楼（回复楼主）赞|

删除 |赞[34]yunml 2013-12-24 17:57: 我说的确实只是一个可能性。可能确实很难处理我说的这种“可能存在”的问题。; 李维回复：作为可能性是有意义的，它可以是一个研究课题。

（其实你的美丑的例子不恰当，因为多数语言中，贬义词的丰富程度很少比褒义词差。汉语中骂人的话比赞美i人的话更加多样化，光国骂 TMD 的变种就上百。当然这不影响你的假说。）

其实这些问题只要放在比较的框架中就不是严重问题。虽然具体语言中褒贬比例和分布可能不同，但是如果一个对象的褒贬指数放在其他对象的褒贬指数的 reference frame 里面来阐释，其解读就比较真实。比如，在过往的许多调查中，我们知道褒贬度降到零下20以后就很不妙，说明媒体形象差，老百姓很多怨气。有了这样一个历史积累，新的品牌或话题如果达到类似的指标，解读就不大会离谱了。

特别是，我们做一个行业的多品牌调查和比较的时候更是如此。品牌A与品牌B的在舆情中的相对位置非常说明问题。系统的误差，质量的不完美，语言数据的不完整，以及语言现象的分布不匀，所有这些统统不在成为问题，除非这些差异是针对特定品牌的（这种现象基本不出现）。

这一点毛委员早就说过：有比较才有鉴别。

2013-12-24 18:291 楼（回复楼主）赞|

删除 |赞[33]刘学武 2013-12-24 17:42: 花生最大的问题是黄曲霉素，过敏也很常见，这个不安全因素大家都知道。如果谁说，花生非常安全，大家都来吃，我肯定要质疑的。

删除 |赞[32]王大元 2013-12-24 17:39

还有一点，博文中说的Gluten引起的各种那个过敏症。我一直都不理解美国曹氏中标识的gluten-free的食品为何就那么重要？因为gluten就是我们中国人飞铲喜欢吃的面筋，各位都喜欢吃油面筋塞肉，北方人吃面要“筋”，都是gluten含量很高的食品，跟转基因毫无关系。
而且超市中真正gluten-free的食品货架上很少的，现在美国飞机航班上不提供花生，只有那个非常难吃的 pretzel 据说是因为有些人对花生过敏，所以航班不供应花生了。

李维回复王大元：听我的专家朋友说，Glutten 确实与转基因无关，是有公认的科学结论的。

那为什么舆情中，这一项作为转基因的主要问题呢？

没办法，这就是舆情，我不能改变它，只能反映它。

也许这正说明，科普还没做到家，还没能让老百姓了解和信服。任重道远。

至于垃圾过滤，这是任何大数据系统都必须要做的工作，我们也有这个过滤，经过几年的不断改进，测试证明英文大数据的垃圾已经不再是大问题了。

另外一个工作是避免过量重复（de-dup），英文也已经做得很好。

2013-12-24 17:551 楼（回复楼主）

赞|

删除 |赞[31]yunml 2013-12-24 17:32: 我的论点，您可能只看到了其中一部分。我再多说一点，人们的用词习惯在这个比较里面没有被考虑到。比如，说一个人很丑可能多数人用单词A，而说她美可能会有十种表达方式。假定认为美的有十个人，用词个不一样，说她丑的只有三个人，但看起来是显然的高频词。这不是误导吗？这种现象往往在理性精细思维和随意发泄情绪两种情况下对比很明显。; 李维回复：要想做这种矫正，你先得研究清楚这种现象在真实语料中确实存在，严重程度，分布如何。听上去，这一步你还停留在假说层面上。这时候说系统误导是欠公允的。

另外，一个概念有多少词来表示只会影响 Word Cloud 图示中的 fonts 的大小（其实即便在那里，我们对比较严格的同义词还是做了合并处理的，因此问题没有想像的严重），但并不影响最重要的 net sentiment （褒贬度）的指标，因为后者是根据褒贬两大类来计算，而不问具体的用词。

2013-12-24 17:451 楼（回复楼主）赞|

删除 |赞[30]yunml 2013-12-24 16:39: 感觉这些高频关键词很可能有误导啊。
原因是：有些相似的观念会用近似而不是相同的词语来表达，就是说相近的语义用词却分化很大。举例来说，思维比较精细，比较理性的往往用词准确，因此用词就会多种多样。不理性的情绪，可能就不一样，直接就“简单粗暴”了。; 李维回复：你是说，秀才遇到兵，有理说不清。兵的呼喊分贝较高。
有点意思。

高频关键词本身并不误导，它是现实的反映。对它的解读可以有异，譬如把上述考量带入。

2013-12-24 17:091 楼（回复楼主）赞|

删除 |赞[29]孙根年 2013-12-24 16:33: 其实，最重要的是“屁股决定脑袋”，“利益决定行为”，“态度决定言论”。当屁股坐在挺转的椅子，转基因就是“狗粪”，也会吃上一口说是“香的”。

删除 |赞[28]蔡小宁 2013-12-24 16:32

李维老师，我将在我博文评论里对你的回答张贴于此，供参考：

这是我自己主持开发的软件，用的是未经任何人控制的原始数据（英文叫做 firehose，就是直接从社交网站流出来的），没有人工干预，靠的是自然语言挖掘技术自动生成的。这样说，应该够清楚了吧。我的本行就是舆情自动调查，这只是针对热点问题，从系统输出结果而已，供大家做舆情分析时候一个参考。
（我本人在超市买食品，从来不区别转还是不转，领导倒是有时候强调要天然食品，大概是受到美国 Whole Food 等有机食品宣传的影响。）

博主回复(2013-12-24 16:24)：我的推测是否正确，不是关键。关键是你的舆情分析软件结果与公民的投票结果相反，必须做出解释，否则这样的舆情分析只会造成更大的认识混乱；如果领导据此决策了，更加有误导嫌疑。

博主回复(2013-12-24 16:15)：我不怀疑你的数学分析能力，你的数学模型包括软件应该是不错的。但是，出色的数学分析能力并不能保证你的结果是正确的。牛老师比我说得更全面，还有其他网友对此也有分析。
我再将我当年的生物统计学老师说过的话告诉你，让我们共勉吧：数学模型应当建立在具有生物学意义的基础上，离开了这个基础，哪怕数据再充分、模型再漂亮，也是没有意义的。

李维回复蔡小宁：您如果质疑“调查反映了民间的真实态度”，完全没有问题，因为同样的数据可能有不同解读和 interpretation

如果质疑质量或操作过程中的误差，也还不算离谱。

可您凭空从头脑想出来并描述了我的数据被操纵的过程和细节，就让人跌破眼镜了。

2013-12-24 16:381 楼（回复楼主）

赞|

李维回复蔡小宁：喂，喂，我为什么要为我的自动调查与公民投票的差异做出解释？

我也从来没关心过那次投票。

2013-12-24 16:442 楼（回复楼主）

赞|

李维回复蔡小宁：而且您的思维很怪异：说什么领导据此决策错误，我就更加有误导嫌疑。

2013-12-24 18:073 楼（回复楼主）

赞|

删除 |赞[27]李维 2013-12-24 16:02

蔡老师发文 http://blog.sciencenet.cn/blog-789923-752383.html，说：“李维先生说，该英文社交媒体大数据调查反映了民间的真实态度，这个观点看来要打个问号了。” 这个“该”字从何谈起，我们对社交媒体是一网打尽（因为企业用户要求如此），其组成和来源都在文中有交待。他下面的推测充满了细节，实在太异想天开了。蔡老师怎么不询问一下就这样胡乱猜测呢，描述了一个天大阴谋似的。

“搞这个调查的英文社交媒体的完全可能是反转基因团体控制的，其调查的人群经过了特异的选择，或者说该英文社交媒体的读者主要以反对转基因人士为主。这样的数据即使是“大数据”，又有什么意义呢？”

（by the way 我本人在超市买食品，从来不区别转还是不转，领导倒是有时候强调要天然食品，大概是受到美国 Whole Food 等有机食品宣传的影响。）

李维回复李维：说明一下，所用的软件本来是为企业用户做客户情报调查用的。社交媒体一网打尽是指在我们的 index （库存）里面，我们包括所有够得着的社交媒体，英文社交媒体从比重上看，twitter 为主，Facebook 其次，其他论坛上百万个来源只占少数，这是当今社交媒体的自然现状。

我自己是系统架构师和主要实现人，所以不时用系统挖掘热点话题，一来可以看看系统还有什么可以改良的地方，而来也算是对社区做一些大数据语言挖掘的科普展示。阴谋论简直是匪夷所思。

2013-12-24 16:101 楼（回复楼主）

赞|

删除 |赞[26]曹俊 2013-12-24 15:58: 网上的意见显然是有比较大的系统偏差。怎么修正这人偏差很值得研究。; 李维回复曹俊：系统偏差是指？

2013-12-24 16:231 楼（回复楼主）赞|

删除 |赞[25]abaniu 2013-12-24 15:54

这2个菠菜基因的蛋白，全世界的人都在吃，为何到了柑桔里就不能吃？这个例子说明，转基因食物是否安全要个案一一审批，最关键的就是你那个基因好不好。我们大家都有基因，为什么就要说基因不好呢？
博主回复(2013-12-24 15:15)：说得很好，很清晰。同意。

-----------------------------

啊？受教了，原来这么简单啊？基因和厨房的葱姜蒜等佐料一样，无论出现在哪个菜里都是葱姜蒜，起增味调香去腥的作用。

看来生物学很简单嘛，难怪被人骂成是骗子了，天天号称还有很多没搞清的，要投钱，投大钱，大投钱的。

也难怪最窝囊，最无用的人都去搞生物学了。搞得美国国会还提议在签证方面不把生物学人才当人才。

删除 |赞[24]崔健 2013-12-24 15:24: 建议全民公决一下来一次民主演习

删除 |赞[23]王大元 2013-12-24 15:20: [22]肖鑫鑫 2013-12-24 14:56 很想问一下，数据图怎么做的呀？请教~
----------------------------
jiaxing9回答：
1. 首先你要把数据收集好，在excel的表格中输入数据（data entry）
2. 在excel中选项就可以把表中的数据转换为曲线图或者饼图，柱图等等。
3. 然后在photoshop里用层的叠加功能，可以把几根曲线合并到一张图上
估计在ofiice2010中的word中也可以完成（不用photoshop），但我没有做过; 李维回复王大元：要是那么麻烦，软件还能卖么。我们的软件即刻生成，立等可取。

2013-12-24 15:311 楼（回复楼主）赞|

删除 |赞[22]王大元 2013-12-24 15:08: 您这个数据应该是没问题的。但你这个数据是舆情调查数据。决策依据主要是根据科学数据，也考虑舆情数据。舆情数据与科学数据是两回事。例如现在在中国，你要去调查黄色影片或黄色书籍是否可以开放，或者你去调查军队是否要由党来领导，你的舆情调查结果肯定与真实的结果完全相反。在400多年前你去调查袁崇焕是否应该被杀，那时的舆情肯定是应该被杀。
但是对于一个新生的科学产品是否安全的唯一标准就是科研的数据。舆情是否要考虑？当然要考虑。就目前的转基因话题来说，转基因玉米和转基因大豆的科学数据和实践都证明了他的安全性，对这2种转基因食品的安全与否，就可以不理睬舆情的数据。 EFSA（欧洲食品安全局）负责审批所有进口的转基因作物和食品是否可以以食品和饲料的形式在欧洲上市。 EFSA的所有评审报告，不管是批准和不批准的第一句话就是（没有例外）：”EFSA's Scientific Opinion is that ........". 然后送交欧盟主席团审批。欧盟主席团从来不对EFSA的Scientific Opinion 做评论或指手画脚。但是欧盟委员会並不因为EFSA说安全就绝对批准，欧盟委员会还要根据欧洲民众的舆情和经济利益做出批还是不的决定，不批并不是否决EFSA的安全Scientific Opinion
就拿美国来说，转基因小麦的安全性，十年前被FDA/EPA审查通过是安全的了，美国政府从来不说转基因小麦不安全，但就是不批准。这就是考虑了舆情的因素，孟山都也就知趣的不再申报商业上市了。最近的美国的转基因三文鱼， FDA和EPA联合办公，批准了申请了12年的转基因三文鱼是安全的（批文在网上挂了半年了），但美国国会和美国政府也是考虑舆情，一直按住不给商业化批文，现在还在等待之中。
对中国政府来说，也是采取了与欧洲和美国同样的方式，转基因大豆食品，转基因玉米食品，不管你舆情如何反对，我就是批准上市，因为有solid的科学依据。但中国政府对转基因水稻，就压住不批，也是考虑到舆情。我也支持中国政府的这种做法。如果美国的转基因小麦和转基因三文鱼被批准商业化，我估计我国的转基因水稻被批准的可能性大增。尤其是转基因三文鱼一旦被批准，美国后面有将近30种申请上市的转基因鱼，牛，鸡，猪正在美国FDA/EPA那里排队等待批准，如果三文鱼被批准，后面就会一下子依前例可循的方式如洪水般的冲出来，这是美国政府现在犹豫不决的主要原因。
上次你提到的转基因柑桔黄龙病那个例子，我觉得被批准的可能性还是比较大的，因为他们是把菠菜里的2个基因转到柑桔上，产生了抗黄龙病的抗性（菠菜里有很多我们正在吃的天然的蛋白是有抗菌作用的），这2个菠菜基因的蛋白，全世界的人都在吃，为何到了柑桔里就不能吃？这个例子说明，转基因食物是否安全要个案一一审批，最关键的就是你那个基因好不好。我们大家都有基因，为什么就要说基因不好呢？; 李维回复王大元：说得很好，很清晰。同意。

2013-12-24 15:151 楼（回复楼主）赞|

删除 |赞[21]肖鑫鑫 2013-12-24 14:56: 很想问一下，数据图怎么做的呀？请教~; 李维回复肖鑫鑫：自家软件自动生成的，就好比 spreadsheet 里面有数据就可以自动生成图示一样。

2013-12-24 15:281 楼（回复楼主）赞|

删除 |赞[20]ffqllj 2013-12-24 13:38: 支持，小崔那钱花得有点冤枉; 李维回复：精神可嘉？

2013-12-24 15:261 楼（回复楼主）赞|

删除 |赞[19]隋立明 2013-12-24 13:15: 对待转基因，要有科学的态度。但是，很多反对转基因的人，连什么是基因都不很明白。另外，在科学问题上，不遵从少数服从多数。; 李维回复隋立明：不单是科学问题吧，要上老百姓餐桌的话。老百姓的感受不能不顾及。

2013-12-24 15:261 楼（回复楼主）赞|

删除 |赞[18]刘学武 2013-12-24 12:58: 如果不能保证100%的安全，我们就有怀疑的理由。; 李维回复刘学武：哪里有百分百。花生是大众食品多少年了，每年不还有多少人花生过敏生病的么。

2013-12-24 15:241 楼（回复楼主）

【社媒挖掘：第一夫人光彩夺目赞誉有加】隐藏留存

【社媒挖掘：第一夫人光彩夺目赞誉有加】

隐藏已有 2364 次阅读 2013-3-25 21:03 |个人分类:社媒挖掘|系统分类:博客资讯| 第一夫人, 彭丽媛

也难怪，以前都是媒体热议西方第一夫人如何光彩照人，如今终于可以一睹一议新中国自产的第一夫人的风采了，网民的热情一浪高过一浪。自宋家姐妹以来，还没有一位中国女性受到如此多的赞美和聚焦。

这是一年以来社会媒体对第一夫人评价的词云，几乎一面倒的赞誉。唯一一条比较显眼的批评是彭丽媛不知何时何地曾经“穿肥大的军裤”，似乎影响了人们心目中的形象。可是看看近一周的图片新闻，第一夫人如今的穿戴是如此高贵大方，引领潮流！

下图展示了三个月来大众对第一夫人的热度（净情绪）曲线，可见多数时候居高不下，更在二月20号左右达到100%的顶点。如此的高评价，在我对各种人物和品牌所做的系列自动媒体调查中，这是绝无仅有的。

这是近一周的媒体评价。

【数据来源】自动民调的数据来自中文世界社会媒体过往一年的档案，简体文档三亿五千万。大约有一亿论坛帖子来自百度（贴吧等），两千多万来自搜狐，两千五百万来自天涯论坛。

I showed the First Lady's news pictures to my daughter. Tanya was so intrigued, "Dad, Mom told me that you used to teach First Lady many years ago, is that true?" "It is true, but that was only a short time, one or two semesters, and it was not her major subject. As a part-time lecturer, I was teaching Advanced English to graduate students in the music conservatory and she happened to be one in my class. She was already famous then as a new star for folk songs." Tanya got excited, "Well, you never know, maybe her English training in graduate school helps her in state visits today. My Dad is cool." She continued, "Dad, Mom also told me that you were interpreter for foreign minister when she dated you, is that true?" "Well, that was largely an accident, only happened once when I substituted some professor to act as interpreter for the former foreign minister and former Chinese congresss vice-chairman Mr. Huang Hua. Your Mom agreed to date me partially because of her seeing a picture of me interporeting for Mr. Huang. So I guess I benefited from that 'accident'." Tanya was amused and felt very proud, "I have the coolest Dad in the world. He was so successful even when he was young, teaching future first lady and interpreting for the then foreign minister. Wow"

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-673923.html

上一篇：吴-程有关5次方程根式解的论争
下一篇：101 我来啦

当前推荐数：8 推荐人：曾新林 蔣勁松 武夷山 刘洋 周素勤 翟自洋 曹聪 bridgeneer

发表评论评论 (2 个评论)

删除 |赞[2]曹聪 2013-3-31 14:56: Don't know whether the First Lady still remembers you.

删除 |赞[1]蔣勁松 2013-3-25 22:07: 哈哈哈，你的女儿现在比第一夫人还要快乐！

【社媒挖掘：臺灣政壇輿情圖】屏蔽留存

【社媒挖掘：臺灣政壇輿情圖】

屏蔽已有 3312 次阅读 2013-2-23 08:58 |个人分类:社媒挖掘|系统分类:博客资讯| NLP, 臺灣, 政壇, 輿情圖

今天測試我們中文輿情挖掘的繁體系統，想何不借此了解一下臺灣政客的社會形象。好在臺灣是亞洲民主化程度較高的社會，並非老蔣時代，議論政客惹不了麻煩，也不會被禁聲。藍也好綠也好，不議白不議，就是剝掉皇帝的新衣，他奈我何？

說來慚愧，我對臺灣政壇並不熟悉，所熟知的政治人物不到一打。好，那就把能想到的幾位調查一下，得輿情圖一張如上。請臺灣朋友看看，靠譜不靠譜。

一眼看去，臺灣的藍綠政客幾乎全部擠在輿情圖的左下角（弱+反感），說明什麽？說明他們在民眾中的形象都不咋樣。不僅如此，大家對他們的情感也不強烈，大概是失望已久，又沒有其他備選項，已經疲怠了，無所謂了。

仔細比較，可以看出，蘇貞昌名聲最佳，毫無疑問是這次自動民調中的矮子叢中的將軍。謝長廷緊隨其後，然後才到蔡英文和馬英九。蔡（指數19）比馬（指數18）略高，但由於是當選總統，馬的議論最多（泡泡最大）。從圖上看，馬英九幾乎把蔡英文整個兒攬於懷中（滑稽不？簡直成了絕妙的政治諷刺漫畫了）。老總統李登輝的聲望則日落西山，更在馬蔡之下。

至於阿扁前總統嘛，名聲太臭，凈情緒指標-12，處於地下冰窖第18層，根本浮不上輿情圖的臺面。連戰、蕭萬長、宋楚瑜也未能浮現輿情臺面，原因不是被民眾唾棄，而是被民眾遺忘，他們根本就沒有多少議論，泡泡太小，非置於放大鏡之下不得見也。其實，論褒貶指數，連戰的凈情緒 36 才是冠軍，蕭萬長也有 33，二者均高出蘇貞昌的28一頭。詳細數據比較見下圖。

資料來源及分布：迄今一年的社會媒體檔案（正體）

【立委名言：政治輿情圖旨在計量社會公仆在社會媒體中的被關註度、褒貶度和愛憎情緒強度，反映其公眾網絡形象】

【預告】

下期【社媒挖掘】繼續比較臺灣的政治人物，顯示民眾的正反情緒，比較政客們的得失。敬請留意。

1. 【社媒挖掘：馬英九施政一年來輿情晴雨表】

2. 【社媒挖掘：社会媒体眼中的臺灣綠營大佬】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-664312.html

上一篇：米拉围脖：什么是原创? 张亭栋是原创么？
下一篇：初中科学教育是分科教学好还是合科教学好？

当前推荐数：1 推荐人：李伟钢

发表评论评论 (4 个评论)

删除 |赞[2]陈楷翰 2013-2-23 13:24: 换个字吧？这看起来多累啊老哥？; 李维回复陈楷翰：这是台湾的那些事儿，还是原汁原味吧

2013-2-23 18:361 楼（回复楼主）赞|

删除 |赞[1]陈熹 2013-2-23 09:04: 没看到图呀; 李维回复陈熹：麦当劳免费上网，传图总是失败，等晚上回家再弄

2013-2-23 09:061 楼（回复楼主）

【社媒挖掘：馬英九施政一年來輿情晴雨表】屏蔽留存

【社媒挖掘：馬英九施政一年來輿情晴雨表】

屏蔽已有 3368 次阅读 2013-2-23 20:07 |个人分类:社媒挖掘|系统分类:博客资讯| normal, style, 晴雨表

【馬英九施政一年來輿情晴雨表】

看點及分析：

（1）一年來馬英九的總體形象偏低，凈情緒指標在零度以下居多，他一直試圖改善形象，但總也不大成功。究其原因，凡臺上的政客，除非社會經濟出現奇跡般改善，作為常規，總是招致的批評遠多於贊揚。民眾總是憤怒的，而在野黨不會放過任何一個機會推波助瀾。

（2）不過一年來也有10多次短暫的亮點，聲望處於零度以上（褒大於貶），雖然都好景不長：從圖上看，去年七月初到九月初之間是正面聲望持續最長的區間（只在八月短暫跌入零度以下），不知道有什麽亮麗的政治表現還是由於團隊公關得力，有興趣的讀者可以查證一下。馬總統宣誓就職的五月中，凈情緒指標尚在零下30度左右徘徊，怎麽到了七月就迅速回暖至零度以上，持續約兩個月，直到九月2日的+35的峰值。我對臺灣政治不熟悉，也沒有精力去探究 data 和證據鏈（盡管我們的工具提供了多項 drill down 的功能），但這個區間似乎確是馬總統二度當選以來得到民眾認可的最佳時期。此後就一蹶不振，只在十月、十一月與今年元月短暫回升。一年來的最低點在三月四日的-44，十二月16日也很慘，一度跌入-42，冰凍刺骨。總而言之，馬英九自從去年初當選以來，不是很順，民眾的失望抱怨情緒彌漫網壇。

我們來看看針對馬英九的公眾情緒的雲圖，鐵桿支持相信他的藍營很搶眼，與罵他笨蛋反對他的呼聲針鋒相對。但從數據點上看，還是紅色負面情緒更多。

網民眼中馬英九之榮辱得失究竟如何？

先看馬的支持者的理由

再看馬的批評者的指責

對比一下馬施政一年來的得失榮辱：

正面評價中最大的亮點是清廉，負面評價除了無能外，最大的批評就是一意孤行和畏懼中國（嫌他在兩岸關系中對大陸不夠強硬，在我接觸到的臺灣朋友中，這是一個相當普遍的抱怨）。

立委的觀感是，臺灣民眾比較煩，比較煩。馬總統要想贏得民心，光靠已有的清廉形象遠遠不夠。他要青史留名，改變無能總統的批評浪潮，扭轉其頹勢，今後三年一定要交出一份更大的成績單。

正所謂：

總統輪流做，明朝到誰家？

帥俊小馬哥，憔悴如明蝦。

【立委名言：民主總統不好玩，當家五年狗都嫌】

【相关篇什】

【社媒挖掘：臺灣政壇輿情圖】

【社媒挖掘：社会媒体眼中的臺灣綠營大佬】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-664500.html

上一篇：米拉围脖：什么是原创? 张亭栋是原创么？
下一篇：初中科学教育是分科教学好还是合科教学好？

当前推荐数：1 推荐人：孙根年

发表评论评论 (3 个评论)

删除 |赞[1]孙根年 2013-2-24 06:58: 很好，能详细介绍所用方法吗？; 李维回复孙根年：【立委科普】专栏有系列介绍，今后还会继续：
http://blog.sciencenet.cn/home.php?mod=space&uid=362400&do=blog&classid=123261&view=me&from=space

2013-2-24 07:111 楼（回复楼主）

尝试揭秘百度的“哪里有小姐”：小姐年年讲、月月讲、天天讲？屏蔽留存

尝试揭秘百度的“哪里有小姐”：小姐年年讲、月月讲、天天讲？

屏蔽已有 8461 次阅读 2012-12-14 15:41 |个人分类:社媒挖掘|系统分类:博客资讯| 百度, 社会媒体

一个偶然的系统测试，暴露出百度与“哪里有小姐”身影相随。这个发现在朋友间立即引起轩然大波，有称妙的（way to go, u r onto sth），有调侃的（曰：百度本来就源自“众里寻她千百度”嘛），有怀疑的（the results are not faked？）。阴谋论者伊妹儿我，指责此云有侮辱百度之嫌。

我跟老友说：我没有结论。有牢骚的话也是借题发挥（讽刺据传是平西王当年以扫黄为名打压挤走谷歌，为百度开道），不是正经“结论”，不足采信。但是我有数据，怎么解读这个数据见仁见智。要想发现背后的真相，还需要一番深入调查的功夫。

先谈数据：

百度在所调查的一年跨度的社会媒体统计中共出现近 227 万次，其中“哪里有小姐”与它共现 50 万次，是关联度最高的 term （占据与其共现的 top 100 关联词语之首，share：22%），这就是词云出来的背景数据：

什么是词云呢？

A word cloud displays the frequently occurring terms surfacing from a topic's text.

从一年到半年、三个月、一个月、一周、一日，永远是小姐为主题，邪门了

是不是百度上的某种广告，这么黏糊，百度甩也甩不开。竞价排名惹的祸？

请看六个月的词云数据图：

三个月的词云数据图：

一个月的词云数据图：

一周的词云数据图：

一天的词云数据图：

再看对同样的社会媒体同样的一年时段的“谷歌”的调查结果

谷歌出现的总次数远不如百度，只有 73万4千，但也足够多到可以观察其关联词了

Let US Drill down：百度小姐的真相在这里

是什么样的推手把小姐与百度快照弄得满世界都是

日期: 12/14/2012 17:40:43

一定是有人编制了程序，到各网站（包括宠物网站）张贴小姐的广告及其百度快照。

Drill down 发现很多链接，Spam 一样，点了链接进去大多已经失效了，大概已经被网管删除。

大概是删不胜删。

最后在百度直接做了一下“哪里有小姐”的搜索，果然是东土最响亮的广告词。

前一篇博文：

社会媒体测试知名品牌百度，有惊人发现

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-642614.html

上一篇：社会媒体测试知名品牌百度，有惊人发现
下一篇：“我们为什么选择在学校学习”的思考

当前推荐数：7 推荐人：刘洋 张婷婷 蔣勁松 武夷山 贺天伟 sz1961sy sun879109994

《李白宋115：句法的脑补，情报的冤家（1/2）》屏蔽留存

《李白宋115：句法的脑补，情报的冤家（1/2）》

屏蔽已有 222 次阅读 2019-7-21 13:39 |个人分类:立委科普|系统分类:科普集锦

立委按：cs（common sense）：句法的脑补，情报的冤家，是为常识。常识语义在语言理解中的作用，一直是AI符号派的重要话题。常识看上去漫无边际，如何形式化有效利用，也一直是个挑战。沙龙讨论的是轻量级或碎片化的常识语义的可行性与实践体会。具体说来有两方面，一是所谓语义相谐反映的常识条件在语言解析中的作用（譬如，EAT谓词概念与 FOOD类实体的相谐度高），二是所谓“事理”图谱（譬如，“面试”与“录用”之间的因果关系），反映的是某种常识推理。有意思的是，语义落地所强调的情报性有与常识相逆的特性。俗话说，狗咬人不是新闻，人咬狗才是。

白：“他给张三倒洗脚水”、“他向张三泼洗脚水”，在两句中，“洗脚水”各是谁的？“他给张三拿银子”有歧义，一是他帮张三拿张三的银子，二是他拿自己的银子给张三。介词宾语和主语，什么条件下谁来跟宾语发生领属关系？有钱出钱，拿的是自己的钱；有力出力，拿（拎？背？揣？端？抱？抗？）的是别人的钱。

“他给张三写自传”，自然是张三的自传；“他给张三送自传”有歧义，可能是赠送“他”的自传给张三，也可能是给张三跑腿，把张三的自传送给其他人。赠送义本身有间接宾语，但“给”的介词宾语未必与之重合。因为出现了一个“帮办”角色。主语是帮办，主执行；介词宾语是事主，主名分。帮办做动作，名分归事主。间接宾语角色和事主角色造成歧义。

“张三给李四带口信”有三重歧义。张三委托别人把口信带给李四vs别人委托张三把口信带给李四vs李四的口信委托张三带给别人。这里的角色有：事主、帮办、直接宾语、间接宾语，口信是直接宾语，李四不能是帮办、张三不能是间接宾语。剩下的组合构成上述三重歧义。“向”引入的介词宾语坑，在动词不具有间接宾语坑时（如“吐痰”、“泼水”）临时客串间接宾语角色。在动词带间接宾语坑时（如“投掷”、“赠送”），二者共享一个萝卜。没有事主帮办之分。临时客串的情况下，介词宾语和直接宾语没有领属关系。“为”引入的介词宾语又是另一番景象：它是直接宾语的当然领属者。“为他人做嫁衣裳”不管是谁做，穿的一定是“他人”。

“在公园爬树”，“树”是“公园”的附属物，勉强说得上领属关系。“在公园打人”，“人”是不是“公园”的附属物，难说。“张三在公园放风筝”，“风筝”不仅不是“公园”所有，反而大概率是“张三”所有。所以，介词为“在”时，领属关系似可不作标记。真要追究时，靠事理来弄。没有坑的直接宾语，随他去。有坑的，看相谐性或者大数据。“张三在这个公园有月票，每天早上都来锻炼身体。”“月票”的坑就由“公园”来填。

“他给张三买了块巧克力吃”，是“张三”吃，不是“他”吃。“给”的介词宾语置换出来，在谓词群里面横扫千军。在有接续动词的情况下，“帮办”角色自动消失了！

“他给张三送了本自传看。”没歧义了，是“他”的自传而非“张三”的自传，“他”不是帮办“张三”也不是事主。世界清静了。真神奇啊。“他给张三挖了个坑”有微弱歧义；“他给张三挖了个坑跳”一点歧义没有。

汉语的介词，S+/N，禁止名词右填坑；日语的格助词，S+/N，禁止名词右填坑。英语N向S左填坑只限一次，再多的名词只能受动词短语降格修饰，汉语的N向S左填坑则不受这个限制，所以逻辑主语话题主语大小主语一堆堆。方向性对于加速获得正解还是很必要的。汉语的个别词，如“以前”，是反过来的，S+/X，但是X坑只能从左侧填，禁止从右侧填。从CG走来，先把填坑的方向性全部放开，再选择性地关闭其中个别词的个别方向。特别是，语种选择可以批量设置关闭方向。修饰的方向性基本不放开。头尾修饰是否有副作用，还不清楚。

宋：@白硕在你的系统中如果一句话内的词相同，词序不同，是不是分析结果相同？

白：@宋柔不一定，看具体配置，特别是词性标注不同会不一样。比如：张三比李四高，李四比张三高，一定是不同的parse。

谁填“高”的坑，谁填“比”的坑，都是不同的，当然是不同的分析结果。

酱油李四打了，李四酱油打了。这俩，分析结果的拓扑一样，内在语义角色的指派也一样。毕竟酱油不能打李四。

后面四个的分析结果，拓扑结构是一样的。它们当中，1-2的语义角色指派是不确定的，3-4的语义角色指派是确定的。如果有更强的上下文，1-2的语义角色指派会随之更为确定一些。这个机制，在句内的已经部分实现，跨句的还没有实现。

宋：猫抓老鼠和老鼠抓猫，分析结果一样吗？

白：拓扑一样，语义角色指派不一样。看图看不出本质差别。

鸡不吃了，在图上是没有歧义的。

宋：猫抓老鼠和老鼠抓猫，施事都是猫，受事都是老鼠？

白：不是的。能说的是：猫和老鼠，相对于抓，都是“填坑”关系，而且填了不同的坑。谁填了哪一个，句法不予确定。语义角色指派可以根据语序推定，但只限于一左一右这种。两个都在一边就无法推定。图上不标施事和受事。现在图上能看到的是LMa、RMa等。不负载施事受事等语义标签信息。

在双宾语的情况，某些江南方言里有时听到“我给钱你”这样的句式。直接宾语和间接宾语倒挂，而且不加介词。二者一人一非人的场景，是可以搞对的。二者皆人，我还没听到例子（不知道“我嫁女儿你”能说否），但真要区分角色的话，可能需要用到事理了。

宋：也就是说，对于二价动词V来说，N1 N2 V中，N1和N2各填V的那个坑，要看N1和N2与V的语义相谐性；N1 V N2，还是要看语序来决定谁填那个坑。对吗？

白：都相谐再看语序。

如果都在一边，语序也不起作用：“猫老鼠抓了”“老鼠猫抓了”，这时还要请出事理啊大数据啊更大上下文啊什么的。

宋：明白了。

李：都相谐再看语序?

svo 语序为啥要看相谐呢？

“是乌云吃了月亮还是月亮吃了乌云？”

白：都不相谐也回到语序。

李：“做了个梦好怪一张烙饼吃下了一窝兔子”。

白：相信说话者别有用心，或者相信一切皆可为专名，都是出路。有强语境做免死金牌的，更可以回到语序。

李：还可以这么说话：

“一个实体x了另一个实体”。

“x 被律师打黑了”。

白：见怪可以不怪，那还相谐个啥。说都不会话了。提着火车上皮包。小孩说话慢慢教，哪有一井挖个锹。

李：问题是先相谐然后看语序次序感觉不对。

“月亮吃乌云” 是都不谐，“烙饼吃兔子” 是谐与语序矛盾, svo 语序是决定性的，相谐是非决定性的。决定性的句法形式决定了就完了。形式留下空间才有相谐出场的必要。

白：“草把兔子吃肥了”。“烙饼把兔子吃噎着了”。完不了。句法形式到了汉语，语序变轻了。

李：语序是句法形式相谐是语义约束。“烙饼把兔子吃噎着了”，不是句法的反例。语序小词都是形式，它们留下空间才有语义约束的可能性。硬指标以后才看软指标。显性形式没辙了才求隐形形式包括常识语义。

白：还有容错一说吧。“拎着火车上皮包”，就是被容错了。韵律感越好，越容错，乃至无感。反过来搭，和不搭，是不同的处理。反过来搭，容错占主导；不搭，句法占主导。句法一主导，然后就进入疯狂的脑补，拼命找辙。

顺杆儿爬，顺杆儿滑，隐喻，夸张，甚至怪诞的专名，都可以有。此外，局部有伪歧义的情况，不搭是最先要排除的。比如“馒头吃光了”。标准svo啊，但是不work。除非拿到怪诞大比拼的免死金牌。

宋：老鼠抓猫，老鼠一定是施事，猫一定是受事，因此，此时的“抓”不会是“抓捕”。而应该是“抓挠”。语序决定了施动受关系，进而决定了动词的语义。

白：这是事理。恰好“抓”有一个义项符合事理。

宋：如果有更大的语境提示是童话故事，或者发生基因变化，“抓”可以是“抓捕”的意思，但仍然老鼠是施事，猫是受事。

白：当你在处理一个局部的sov时，并不知道其他义项是否会组成更搭的合语法结构，所以对局部不搭的sov而言，是否一定会出头，不是局部能确定的，还要看别人。

“老鼠抓不抓猫都吃得好好的。”

“老鼠一抓到猫就可以睡大觉了。”

“老鼠一抓到猫就可以美餐一顿了。”

“猫一抓到老鼠就可以美餐一顿了”。

一个意思。局部要不要搞成不搭的svo，取决于全局。

宋：好例！

白：所以svo不是教条，只是一种可能性。放大看，svo要不要还两说呢……

宋：“老鼠一抓到猫就大祸临头了。”

白：不搭给这种可能性减分，但也不断其生路。外围有更好的组合，svo又算个啥，该扔就扔。外围没有更好的组合，svo就勉为其难吧。但是，组合好不好，一定是句法语义通盘考量的，哪有句法一定优先于语义一说。

“老鼠一抓到猫就大祸临头了。” 有歧义，充分脑补吧。老鼠居然抓到了猫，这世界该翻了天了，大祸临头。猫抓到了老鼠，去掉了主人的心病，主人也该卸磨杀驴了吧，大祸临头。猫给老鼠抓到只是猫的计策，老鼠大祸临头了。接下来玩死你。

事理可以作用于伪歧义的消除，但是对真歧义，事理也毫无办法。猫大祸临头，老鼠大祸临头，看客大祸临头，都有相应的解读。svo作为一个局部，你根本不知道外面有什么时，根本不敢把赌注押在句法上。

李：T1 svo T2，就够了。绝大多数情况不需要语义出场。trigram 是句法 5-gram 也是句法都还在可控范围之内。以前说过任何在（dynamic） 5-gram 之内可以搞定的事情都是 tractable 的。虽然理论上永远可以找到反例，但是随着 n-gram 中 n 的扩大（up to 5），随着 gram 的定义由 literal 延伸到包括 token features，以及随着 gram 从 word 延伸到动态的句素（包括各类短语），句法兜不住的伪歧义反例急剧减少 — 直到句法发现真歧义。这时候语义（主要是常识）约束、语用约束、领域约束等等可以逐步出场，或不出场（保持歧义，或包容歧义）。

“传统” parser 为伪歧义困扰的事情已经是过去的故事了。“现代”的句法基本上摆脱了伪歧义的羁绊因为细线条词汇主义路线以及多层动态的 parsing。

白：五元组判定过程中用不用语义？用不用相谐性？如果用，那岂不是说相谐性判断先于svo？如果不用，伪歧义怎么弄掉的？单凭句法？就是说，T1、s、v、o、T2，各自携带了一些特征，用于五元组来判断svo要不要归约为s。这些特征包不包括语义/本体特征？动用这些特征是不是先于svo结构被确定？

不妨就试试 “老鼠一抓到猫就可以美餐一顿了”。看看“一”和“就”的辖域分界线是怎么确定的。实际上就四元组。左侧空缺。右侧再饶一个，又怎样？

“酱油打了李四也该回去交差了。”

到底是把“酱油”理解成一个人的外号，还是放弃svo转投ov（s）？哪一个是符合奥卡姆剃刀原则的？

如果上下文介绍李四是杀手，目标是张三，“张三杀了李四也该回去交差了”是不是应该放弃svo？这个上下文是五元组能cover的？事理：x完成任务—>x交差，任务从上文取得。

李：以反例批评一个一般性策略其结果就是所有的过程性都是跛脚的所有的因素都必须同时起作用。

白：有更好的系统性策略，而且并不跛脚。就是加分减分而已。看得分是一个统一的策略。硬约束有一个高的基准分。软约束不把它拉下来他往前走就是，拉下来就别怪谁了。

李：（较）软性约束与（较）硬性约束不同步是一个总体有利的策略。

白：同不同步只是一个计算策略问题。晚几步发现问题还是早几步发现问题的事儿。只要有问题，拉下来则是必须的。就看付出的代价是什么了。另外的选择也虎视眈眈呢。一遇到合适的软约束，马上张口咬人。以现在的算力，神经网络那么大的冗余都不在话下，几个相谐性检查算什么。更何况毕竟都在线速的范围内。只要不破坏现场，总有翻盘机会。你走你的，但别杀死别人。

李：理论上一个 l 长度的句子在 l 没有全覆盖之前，任何 n-gram （ n < l ) 的模式都是跛脚的。这一点在分词中表现最为简明。不断有人以“反例”来推论分词必须包括 parsing、常识、领域知识、世界知识…

白：分词不是最终任务，只是一道工序而已。

李：道理都是一样的。这道工序一旦缺乏某个知识理论上就是过早剪枝，但实践中几乎所有 real world 系统都不理睬这种理论上的批评。保留所有可能分词路径直到最后的系统不能说没有但极少。（当然这个分词的工序现在有了越来越流行省心的 char-based 的路线，干脆绕过去。）

白：曾经的real world系统还都不睬deep parsing呢。按同样逻辑deep parsing甭活了。real world系统也在进步好不好？

常识，有重量级搞法，也有轻量级搞法。不要被重量级搞法吓住了。

白：

李：

“张三杀了李四也该收手了吧”

“张三杀了李四还嫌不够解气吗？”

“张三杀了李四也该有个说法不能白杀”。

谁白杀谁？

“张三杀了李四也该有个说法不能白死”。

谁白死？

“人咬死了狗，不会受处置合理吗？”

“人咬死了，狗不会受处置合理吗？”

“人咬死了狗不会受处置合理吗”

白：“这些木头盖了房子。”不是svo。

李：工具s 与施事s 是一个熟透了的现象。中英都很普遍。

白：木头不是工具，是材料。

李：材料也差不多，工具占据 s 位置更普遍一些。材料对于制造类谓词占据 s 位置也很多。

白：贴了标签也无益。人家正主儿可能在后面藏着呢。到时候找上门来，嘿嘿，小三上位了。

李：svoc，句法只有三个位置，逻辑语义几十个。一对多很自然，也很谐。不过就是需要增加一个逻辑语义细分的任务，否认不了 svoc 的句法骨架作用。

“枪不杀人人杀人”

枪真地不杀人吗？子弹杀人不长眼睛的。

“x 杀人”

x 与 “杀” 相谐吗？x 是不是 s？如果是，x 是 agent，还是 instrument，还是 material？如果 x 未知怎么填坑？

白：要真是未知就简单了，坑说了算，抽象的听具体的，奥卡姆剃刀。不举证证明不是他，就是他。

æ-¤å›¾åƒçš„altå±žæ€§ä¸oç©oï¼›æ–‡ä»¶åä¸oScreen-Shot-2019-07-15-at-6.58.54-PM-1024x200.png

李：“他” 很难说是 “盖” 的 S【施事】，更像是 “盖” 的【受益人】。

语言没有明说的可以存疑或模糊。硬要跳坑里去，也不过就是个情报价值不大的常识默认。

白：这没问题啊，没有证据证明策划人、出资人、执行人、受益人是分离的，就假设他们是一致的。这叫非单调逻辑，举证义务在反方。

李：对于模糊表达可能无所谓正反。一不小心就是 over reading，读出了不存在的语义。

白：情报价值不应由开发方评价。这类连边都有特殊标记。

李：用户方的证据也不足。多少用户需要不可靠的情报与明确表达的情报混杂在一起呢？

逻辑预备的坑总是很完备，但语言不见得。常识是情报的冤家：用的适度可以帮助情报的完整性；稍不留神就伤害了情报的准确性和可靠性。

白：想避免错误的填坑可以用阈值拦一刀。但是拦得住拦不住是水平问题，那个位置该不该给小三则是态度问题。先要端正态度，虚位以待。就算一直虚着，也没小三什么事。这些不进坑的角色，语义上都有后路，才不在乎主语的标签。我们也没有主语标签。只有留给施事的标配坑。

李：

“这些木头盖了房子他很开心”，他才不管谁盖的房子呢木头物有所用就好。

“这些木头盖了房子他很伤心”，木头是他的房子却是他人的。

白：这叫自己跳出来。

李：根据常识填坑是危险操作，很容易 put words into others mouth。这不是语言理解的目的。

白：不妨设个开关，一切可控，用不用随你。

李：可以，一个叫 s，明说出来的有句法依据的；一个叫 hiddenS，常识推出了的。就是到了法庭也不怕了。

如果任着常识使性子，党指挥枪与枪指挥党，就同义了。首先先帝不答应。

枪不能杀人背后一定有个扣动扳机的 agent，机器人能杀人吗？机器人背后也有人。

“他造了把土枪专门杀人”

“他造了个机器人专门杀人”

是他杀人还是机器人杀人?

白：系统说是就是呗，反正认的是标签，标签背后的道理，说了也不懂。

李：系统1说 a 杀人，系统2说b，系统3说 a and b，系统4 说 a or b，系统5 说测不准 ……

白：很正常，除非有人强推标准化。

李：这一路不是一直在论标准吗？材料不是 s “他“是 s，也说的是标准。“党“是 s “枪“是 o。

白：党和枪都是隐喻，指挥的坑里面没有能匹配枪的。

李：重点是常识与句型，谁说了算、比例如何？

白：只有不匹配得离谱，才引出隐喻。说常识太泛，其实就是一个中间件，给出了相谐度的评价。

李：不匹配离谱的前提是先逃进坑。谁决定的枪要跳进坑o，而不是 s？肯定不是常识。

白：枪指挥党就跳进s。

李：对呀。谁决定的？Svo 决定的，准确说是，T1 svo T2 决定的。

白：反正离谱而且没有正解，于是回到svo，或者说，没有相谐度方面给出加分，改变不了句法初始设定的优先格局。是检查了之后没推翻它，而不是不需要检查。

李：不如不检查。这是争论的焦点。不检查先做，做错了“休眠唤醒”再反悔也是常态。一多半根本就到不了需要检查那一步就差不多成了铁案。

白：检查了推翻也是常态。不等检查结果出来就做也可以，这只是不同的控制策略。上不到标准层面。

李：譬如 x 指挥 y，根本就走不到相谐还是不相谐，“系统说了算”，这里系统指句法。

白：维也纳爱乐乐团指挥够了，他又来指挥费城了。

@宋柔不一定。假设李四有个to do list，上写“打张三”“打王五”等等。做完一件事，就划去一项。

宋：“张三杀了”有歧义：杀别人和自己被杀，如此才有了“张三杀了李四也该收手了吧”的歧义。如果换成“打嬴了”，“张三打嬴了”没有歧义，一定是张三打别人。此时，“张三打嬴了李四也该收手了吧”也没有歧义。这个句子的语义就要靠语法来分析了。

李：白老师可以把 “打-赢” 拆开来论证语义大于句法也许。谁打谁赢……

宋：不要“打”。只要”嬴”。“张三嬴了李四也该收手了吧”。

白：打是S/2N，赢是S/N。合并的时候两个坑共用一个萝卜，一个占名额，一个不占。

宋：“张三赢了李四让教练很生气。” 谁的教练？

白：@宋柔都可以，张三李四都行。

宋：除非有更大的语境进行强制约束，否则还是张三的教练生气。这是句法胜过语义。句法胜过常识。

白：句法语义都行，但是sentiment是顺着一头儿说的。赢和生气的不应该是一头儿的，除非教练安排只许败不许胜。因为有只许败不许胜的“找辙”，句法没被颠覆。

宋：当有人说“张三赢了李四让教练很生气。”后，一定会有人觉得奇怪，问“为什么生气？”

白：如果是“有人说”，那么“赢了”后面会有一个停顿。

宋：这里是说没有停顿的情况。有停顿的话就要加逗号。“赢了”后面没有停顿。

白：不吃最后一个馒头不饱，总有人觉得之前的馒头可以不吃。

宋：一般人都会觉得这个表述很奇怪，违反常理。

白：有保镖在身边没人敢动你，并不说明不需要保镖。“李四”后面有没有停顿？

宋：李四后面与无停顿都一样。

白：好像不是。可以都不停顿，但李四后面的间隔更小。这时难说。主要是叙述的视点变化奇怪，并不是句法。

宋：我感觉这句话体现了了句法的硬性约束：教练一定是张三的。但是，嬴者的教练本应高兴，实际的情况是生气，于是就有矛盾。如果教练可以是李四的，就没有矛盾，听者就不会奇怪了。

白：“张三痛打了李四，脸都肿了。”

谁的脸？是句法决定的？跟上面句法可是完全平行。谁的脸肿了，跟谁挨打有直接的事理关联。这就是常识“拗得过”句法了。刚才那个只是没拗过而已，因为可以只许败不许胜，尤其在团队作战时，为了在下一轮避开某个对手。这说明确实两方面因素在较劲。如果不是同时出场，较劲就不会发生。

宋：任何一种行得通的理解都有一种合理的解释。问题在于听者在强大的事理约束下居然并不顺从，还会疑问，就说明句法胜过了事理。

白：胜过了非但不证明句法早起单独起作用，反而证明了事理因素早期就参与较量。恰恰是我的观点的一个旁证。

宋：但较量不过。

白：是。但不是都较量不过。平行的句子也有相反的结果。语义和事理早期参与了较量，这个就够了。

宋：是的。句法约束胜过语义的例子不大好举。

白：伟哥的意思是根本句法就在唱独角戏，语义和事理没参加较量。

宋：路线斗争。李维：先看句法再看语义；白硕：先看语义，辨不清时再看句法。

白：我是句法先拿到基准分，出不出线，要看句法和其他因素的较量结果。较量可以不改变得分的高低顺序。

宋：合二而一。

白：但是这时，非句法因素相当于最后一个馒头、相当于没有动手的保镖，不可以认为非句法因素是多余的，是不在现场的。较量不是多余的，基准分不是一锤定音的。甚至，如果并行机制设计得好的话，拿基准分和较量可以异步。中间有一段时间存在叠加态，保留部分坛坛罐罐走不齐。

宋：当然。我完全同意语义的重要性，只是觉得词汇语义+事理常识+专业知识，实在是无边无际，难以控制。某个句子可以采用某种语义关系加以解释，但可选用的语义关系非常多，机器怎么就能选对了语义关系进而做出正确的解释？大数据并非万能。所以，挖掘句法的硬约束还是有意义的。

白：硬约束已经在基本分里体现了呀

宋：一些硬约束其实还没有挖掘出来。操纵语义需要极大的功力。当然，做实际应用系统，语义相谐性是绝对离不开的，而且是最大量的工作所在。

白：软约束就像保险，花点小钱，保你关键时刻用非句法兜底。也许没用到，但是不等于没有用。特别是，软约束可以灵活地面对长尾。看起来每一个都是小概率，但是放在一起并不少。所谓没用到，就是较量了但没产生颠覆效果。并不是没较量。

宋：解决长尾问题必须靠软约束，但这个尾巴太大，需要的软约束太多，如何挖掘和使用软约束是一个极困难的问题。

白：软约束不仅数量大而且类型多、机制复杂。我现在尝试做的事情是：1、不管什么类型什么机制，最后都折合为同一种量（优先级），这是较量的前提。2、当个别软约束缺失时，不会影响其他软约束以及硬约束的较量，这是软约束增量化建设的需要。3、集中把两三个重要的软约束类型吃透做透，形成明显的“高地”，再图类型的扩充。其实绝不是无边无际，完全把握得住的。

宋：我觉得难度非常大。在某一个较小的专业领域，可能可以正确解决大多数问题。做一个通用的理解系统，恐怕不好办。

白：先分类型，再抓主要类型，铺开规模时以领域为抓手。做出来的不会是通用理解系统，但可能是通用理解机制框架+领域资源。

宋：AI的知识工程（知识获取、知识表示、知识使用）讲了几十年了，未见到突破性进展。现在的数据驱动+深度学习是一个突破，但是范围很受限。

白：加类型不影响通用机制，上规模不影响通用机制，改参数不影响通用机制。而且它不是知识处理，只是标签演算。也不能说是理解，只是某种程度上的精准解析。

我们范围也很受限。

（喘口气儿，待续……《李白王116：句法的脑补，情报的冤家（2/2）》

【相关】

《李白王116：句法的脑补，情报的冤家（2/2）》

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《朝华午拾》总目录

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1190479.html

上一篇：《李白王116：句法的脑补，情报的冤家（2/2）》
下一篇：《李白宋117：汉语连动兼语式句型的解析》

当前推荐数：1 推荐人：武夷山

【泥沙龙笔记：带标大数据这道坎迈不过去，不要侈谈AI革命】屏蔽留存

【泥沙龙笔记：带标大数据这道坎迈不过去，不要侈谈AI革命】

屏蔽已有 1368 次阅读 2019-5-22 01:34 |个人分类:立委科普|系统分类:科普集锦| NLP

李：前两天与NLP主流的权威人士聊人造智能的现状和前景。我问，人造智能这么牛，你给我找一个在自然语言方面没有标注大数据，靠非监督学习落地成功的案例。只要一例。

其实主流里面就是找不到一例（非主流有，但大家习惯性视而不见）。主流里面规模化成功的全部是监督学习，全部靠大数据。应了那句话，多少人工，多少智能。

毛：你这要求太苛刻了。咱们人小时候不也要靠爹妈教吗？@wei

李：不对，爹妈教的不是大数据。孩子跟父母学的是小数据，举一反三，不是举100返1。当然乔姆斯基认为那不是爹妈的功劳也不是学童的功劳，是上帝的功劳，固化遗传的。

白：人工用在语料上还是用在资源上，才是区分技术路线的关键。

李：同意。前者简单野蛮粗暴，容易推广，后者需要精心设计。

在带标大数据的这道坎迈不过去前，不要侈谈人造I的革命。

有些疑似不需要带标大数据的有效学习，可以一一讨论。看看到底是不是无监督学习突破了，知识瓶颈化解于无形了。

MT 不用说了，无穷无尽的带标大数据。人类翻译了多少年，而且还会一直翻译下去，或者利用MT然后修订编辑。活水源源不断。好处是免费，是人类正常翻译活动的副产品。

白：小数据带标、大数据聚类，小数据循聚类举一反三。实际就是协同推荐。

李：好，看看大数据聚类，clustering 的本性就是非监督，有成功案例吗？clustering 是个好东西但是独立规模化成功的，几乎不见。

白：加上小数据，不是纯聚类。

李：对。以前有一个路子，貌似有部分成功，就是先聚类，然后人工少量干预（给好的聚类起一个名字、把混进革命队伍的异己分子手工踢出去之类），然后利用所起的名字作为带标数据，把聚类（clustering）转换为可以落地有价值的分类（classifciation）。狸猫换太子，多少就克服了大数据短缺的知识瓶颈，聚类–》分类，曲线救国。

白：带标小数据更关键。

李：那也是一途叫 seeds，boot strapping，找个办法来 propagation，用得巧的话，也有部分成功的，算是弱监督学习。

白：聚类是纯几何行为，不知道对什么敏感。小数据告诉你该对什么敏感。两轮驱动，不可偏废。大数据聚类可以提供疑似窝点，小数据一举捣毁。不是所有疑似窝点都值得捣毁。聚类是等势线（超曲面）相互包围的拓扑。

毛：立委你这不是抬杠吗，也没人说AI已经等同于人类智能呀。

肖：用户分群很有用啊，例子很多很多。聚类方法找异常也有很多成功应用，比如反欺诈。

李：聚类的结果粗线条应用大概是有的，在宁可错杀一千的应用场合，或有当无的场合，聚类可松可紧，拿来就用，总之是有统计基础，作为参考，强过看不见。细线条就傻了。只要用眼睛和脑袋去检视过聚类结果的，大都有这个体会：这玩意儿说它不对，还长得蛮像，说它对吧，米锅里到处可见老鼠屎。经常的感觉是鸡肋食之无味弃之可惜，用又不敢用，对接吧可费劲了。词典习得（lexicon acquisition），聚类用得上，最后的难点还是在对接上，就是聚类以后的标注（起名字），并让标注与现有的知识体系对接上。

白：不需要，有内部编号即可。以xor为例。聚类可以聚出四个象限。不需要为每个象限取名。如果小数据指向一三象限，就把这两个聚类的内部名称贴一个外部标签。聚类按小数据的指引，当粗则粗，当细则细。不能只用一个尺度，小波的成功就是借鉴。记得工厂里钣金，师傅领锤，力道不大但是都在点儿上，徒弟力大但不能乱锤，必须跟着师傅走。小数据是师傅，大数据是徒弟。

李：这个形象。

最近的NLG（自然语言生成）方面的成功，是因为语言模型在深度学习的时候强大了。生成的句子比我们普通人还顺溜。我们受过这么多年教育还免不了文法错误语句不顺。机器生成的句子越来越“超越”人类了。怎么回事？

原来 NLG 比 MT 还邪性还牛叉，MT 还需要双语的翻译大数据，NLG 面对的是单一的语言，数据无穷无尽，文满为患，这是一个极端的 raw corpus 居然等价于 labeled corpus 的现场。我们每个人写文章都是潜在给 NLG 提供标注服务。自然语言语句与词汇随机发生器发出来的字符串的不同，全部体现在每一篇人类撰写的文章里面。它不出色才怪呢。NLG 可以预见将来有大发展，在应用文写作等方面。有孩子的可以放松他们的语文训练了，将来他们只要学会善用机器就没有写不出规范的文章的。

白：大家写文章全一个味儿，也是问题。应该以强风格的作家为吸引子，形成若干漩涡，你接近某个漩涡，就持续往里面吸。至少不能千人一面。

肖：（NLG）现在摘要还写不好。

李：孩子不必特地去修应用文写作课，反正后来会有电脑帮忙写文字的。这就跟我小时候钢笔字写得狗爬似的，一直难受羡慕小伙伴每天练字让人看得赏心悦目。（当年喜欢一个女孩子一半看脸蛋一半看她写的字。）结果我成年后除了签字就几乎没有写钢笔字的机会。

以前要成为（文科）大学者，最为人津津乐道和崇敬的是：

（1）记忆能力：过目不忘，检索起来可以闭着眼睛把典故的章节甚至页数指出来。社科院里面有很多这样广为传诵的奇闻逸事，尤其是关于钱锺书、吕叔湘这些老先生。

马：我认识一个理工科的教授，跟他聊天时，经常会说，那本期刊第几期第几页提到了这个问题。

李：（2）好书法。（3）诗词歌赋。

白：千万别提机器那个诗词歌赋，倒胃口。

李：感觉清华的《九歌》比不少郭沫若的诗词写得好。小时候看郭沫若带着西哈努克去山里面玩，诗性大发口占一首，那个诗可真是纯粹应景干瘪无味，就是平仄啥的应该整对了，论意境、诗味，啥都没有。

机器诗词倒胃口也比不上郭沫若的那次表演（忘了是什么纪录片了），印象极深刻不是好印象而是坏印象。当然艺术的鉴赏见仁见智不好说绝对。但往前看，机器做诗词还有很多提升空间。人要熟读唐诗300首就很不容易了，机器灌输它个全唐诗去模仿，是小菜。人在时间限制下需要应景作诗提升空间就不大了。五步诗这样的天才万里无一。

白：端到端、简单无结构标签、大数据是深度学习商业化的关键。但凡涉及到场景化、复杂结构和小数据，深度学习一定会不适应。是让应用迁就深度学习还是用技术改造深度学习，这不是个简单的选择。我主张：1、把标注的对象从“语料”迁移到“资源”；2、用带标小数据引领无标大数据；3、尊重领域专家、融合领域知识。

【相关】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1180399.html

上一篇：【立委小品：AI is fake I 】
下一篇：《李白刘114：围着白老师沙龙聊点文字学问》

《一日一析：“让机器学习思考的人”》屏蔽留存

《一日一析：“让机器学习思考的人”》

屏蔽已有 2626 次阅读 2019-3-1 23:34 |个人分类:立委科普|系统分类:科研笔记

白：“让机器学习思考的人”

wang：1.让机器学习（思考的人） 2.（让机器学习思考）的人 3. （让机器学习思考）的人

李：parse parse：

这个 therefore 可能是个 bug，语义模块做因果关系过头了，走火入魔了？深度解析其他该有的关系都在 though。

wait a minute，好像也对，说的是，因为 X 促成了 event，X 是因，event 是果。这就是语义模块本来的因果关系逻辑，落在这句就是，thanks to “人”，（therefore）ML thinks now。这符合 “有多少人工有多少智能，人是一切机器学习的原始发动机” 的因果本质。乍一看有点绕，是因为赶巧这一句不是一个 statement，而是一个定语从句修饰的NP。其结果，这个因果关系虽然不错，但实际上是隐含的因果（hidden causal links）。如果是一个NE，更加容易理解一些“”让机器学习思考的图灵大师“。因为图灵，所以机器思考。我思故我在，图灵在故机器思。

wang：顺便一提，@wei 我对你的海量规则对系统的comment，回复一下写得有点多，发微博上了。

李：很好，拷贝留存如下：

昨晚在一个群里就李老师说的内容提了一些问题，今天看到李老师详细回复，本想简单写写再发回群里，写完一看，这篇幅好像不适合放微信群里了，不如单发微博作为回复。李老师若觉不妥，告知我则立删。

@wei 中午看到李老师的后续回应，现在正好有空这里回复一下。

看了李老师的后续内容，很是详细，而且前前后后已经考虑到很多方面，说明早有备货。大体勾勒一下：虽规则总量数万条，但通过分层（分组），就可以每组千条左右，规则之间的博弈也就在一个组内范围，即便组内的内斗激烈也不会引发组外的群组混战，这的确是“局部战役隔离解决”的最经济策略。另外，既然已经见识了规则系统的越大越不好对付的教训，想必肯定是避开了这个陷阱。一个组内至少再采用了共性+个性的两种及以上分支处理，先个性（词典）规则先前拦截，然后再共性来兜底，这样以来，一个组内可能内斗的程度又减轻不少，从走向来看，基本上是走大词典+小语法的组合路线，词典虽大但有索引方式来保速。如此以来，就把庞大的规则库，通过条块分割，把规则有序执行限制在了一个狭小的隔离河内，维护者在这样一个窄河里“捉鱼”确实容易得多。当然还有若干辅助策略，通过控局堵漏来进行加固。当然也看到“我是县长派来的”和“我是县长蹲点来的”有了不同的解析。这肯定不是一个简单“V”解决的，想必一定是词典策略起了作用。这词当然有丰富的语义信息了，我认为采用合适的语义范畴比词会有更好的覆盖性，尽管采用词准确性更高。

下面说下感受，必须承认之前本人还停留在规则系统教训的层面，另外，就是顾虑要扯入的人工工作量大的问题。若是李老师通过这样的俯瞰语言，化繁为简，调整规则能达到信手拈来，那么在机器学习满天飞的当下，这存量稀少的规则派之花，自有它的春天。如今是个多元的世界，允许各路英雄竞技，只要有独到之处，更何况人工智能皇冠上明珠，尚无人触及，怎下定论都是早。也曾闻工业界很多可靠的规则系统在默默运行，而学术界则只为提高小小百分点而狂堆系统，专挑好的蛋糕数据大把喂上，哪管产业是否能现实中落地。当然对于人工规则系统 VS 机器学习系统，能有怎样的结局，我确实没有定论，要么一方好的东西自然会好的走下去，要么两方都走得不错而难分输赢，或者发现只有结伴相携更能走远，那谁还能拦着么！

百花齐放，百家争鸣，各自在自己的路上，走出自己的精彩就好！世界本身就不是一种颜色，也不是一直就一种颜色

李：很赞。工作量大是所有专家编码、程序员编程的短板，自不必说。在一个好的机制平台架构下，规则应该可以非常容易编写和调试。规则应该看上去简单、透明，而不是需要玩精巧。像集成电路一样，能力不是每个单元的精巧，而是大量单元的组织集成。其实，半个世纪的持续探索，这种类似人海战术的规则海量快速编码迭代的路子是有了端倪了。说到底是数据制导，可以半自动进行，这与机器学习的海量数据训练，理据是相同的。昨天说自然语言是猫矢，应该学猫咪目标导向，反复迭代，不在一时一地的得失，不怕冗余，也不怕零星的中间错误。说的就是要创造一个环境，把小作坊的专家编码，变成可以工业化的规则流水线。以规则量取胜，而不是靠专家的精雕细刻。这条半自动的海量规则路线还在探索之中，但是前景已经相当清晰。

最后，符号规则不必争雄，游兵散勇也无法与正规军打遭遇战，但差异化总是优势与短板并存。寸有所长就是这个意思。大家在同一条路上跑，遇到困境与天花板都是类似的。这时候有人在另一条路上，保不准在最痛的某个部分，突然会有突破。原因无他，因为这力气使得角度不同，世界观不同，设计哲学不同。据说，NLU是AI皇冠上的明珠，是珠穆朗玛峰。

老友周明一直在为NLP鼓与呼，认定今后10年是NLP的黄金10年。AI似乎每天都在翻新，每周都有新闻，每月都有突破，浪头一个赶一个，新的算法、突破的model层出不穷，很多人惊呼“奇点”就要来临。为什么周老师还要提10年，对于AI进步主义者，这听上去简直是宇宙尺度了。为什么？无他，皇冠自有皇冠的难处，登顶珠峰绝非儿儿戏。唯此，有什么招使什么招吧，武器库还嫌武器多吗？

【相关】

《目标导向的质量保证怎么强调也不过分》

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1165076.html

上一篇：自然语言就是猫矢
下一篇：《一日一析：“你家的地得扫了”》

from NLP 历史上最大的媒体误导：成语难倒了电脑

当前推荐数：3 推荐人：刘钢 方琳浩 李毅伟

【从博鳌机器同传“一带一路”的翻译笑话说起】屏蔽留存

【从博鳌机器同传“一带一路”的翻译笑话说起】

屏蔽已有 2439 次阅读 2018-4-12 03:09 |个人分类:立委科普|系统分类:科研笔记| NLP, 机器翻译, 博鳌

这是网上这两天广泛热议和流传的AI笑话（博鳌AI同传遭热议）：

昨天还在想，这“一带一路”的翻译笑话是怎么回事儿呢？这类高频新术语、成语是机器的大拿，不就是一个词典记忆嘛。

今天看新智元的采访（博鳌AI同传遭热议！腾讯翻译君负责人李学朝、讯飞胡郁有话说），原来，这次的笑话不是出在成语上，而是出在成语的“泛化”能力上。“成语泛化”的捕捉和翻译，这一点目前还是短板。

对于中译英，“一带一路”的翻译完全没有问题，因为这是近年来习大大新时代新政的最流行的新术语，家喻户晓，没有人去泛化它。机器翻译自然不会错，主流怎么翻译，机器就会怎么翻译，不会更好，也绝不会更差。

可是这个中国的术语到了英语世界，并不是所有受众都记得住准确的说法了。结果，“标准” 的流行译法 “one belt one road”，被有些老外记错了，成了“one road one belt” or "the road and belt" 等。这也是可以理解的，老外没有政治学习时间也不没有时事政治考核，能记得一个大概就不错了。

虽然说法不同了，次序有变，但两个关健词 road 和 belt 都在，这种成语“泛化”对于人译不构成挑战，因为老外的记忆偏差和“泛化”的路数，与译员的心理认知是一致的，所以人工传译遇到这类绝不会有问题。可是，以大数据驱动的机器翻译这次傻了，真地就神经了，这些泛化的变式大多是口语中的稀疏数据，无法回译成汉语的“一带一路”，笑话就出来了。

提高MT的“成语泛化”能力，是当今的一个痛点，但并不是完全无迹可寻。将来也会成为一个突破点的。只是目前一般系统和研究还顾不上去对付它。以前我提过一个成语泛化的典型案例应该具有启示作用的：“1234应犹在，只是56改”。

早期机器翻译广为流传的类似笑话也是拿成语说事（The spirit is willing, but the flesh is weak，心有余而力不足据传被翻译成了“威士忌没有问题，但肉却腐烂了”），因为一般人认为成语的理解最难，因此也必然是机器的挑战。这是完全外行的思路。成语的本质是记忆，凡记忆电脑是大拿，人脑是豆腐。

NLP 最早的实践是机器翻译，在电脑的神秘光环下，被认为是模拟或挑战人类智能活动的机器翻译自然成为媒体报道的热点。其中有这么一个广为流传的机器翻译笑话，为媒体误导之最：

说的是有记者测试机器翻译系统，想到用这么一个出自圣经的成语：

The spirit is willing, but the flesh is weak (心有余而力不足)

翻译成俄语后再翻译回英语就是：

The whiskey is alright, but the meat is rotten（威士忌没有问题，但肉却腐烂了）

这大概是媒体上流传最广的笑话了。很多年来，这个经典笑话不断被添油加醋地重复着，成为NLP的标准笑柄。

然而，自然语言技术中没有比成语更加简单的问题了。成语是NLP难点的误解全然是外行人的臆测，这种臆测由于两个因素使得很多不求甚解的人轻信了。其一是NLP系统的成语词典不够全面的时候造成的类似上述的“笑话”，似乎暴露了机器的愚蠢，殊不知这样的“错误”是系统最容易 debug 的：补全词典即可。因为成语 by definition 是可列举的（listable），补全成语的办法可以用人工，也可以从语料库中自动习得，无论何种方式，都是 tractable 的任务。语言学告诉我们，成语的特点在于其不具有语义的可分解性（no/little semantic compositianlity），必须作为整体来记忆（存贮），这就决定了它的非开放性（可列举）。其二是对于机器“理解”（实际是一种“人工智能”）的误解，以为人理解有困难的部分也必然是机器理解的难点，殊不知两种“理解”根本就不是一回事。很多成语背后有历史故事，需要历史知识才可以真正理解其含义，而机器是没有背景知识的，由此便断言，成语是NLP的瓶颈。

事实是，对于 NLP，可以说，识别了就是理解了，而识别可枚举的表达法不过是记忆而已，说到底是存储量的问题。可是确实有人天真到以为由冷冰冰的无机材料制作的“电脑”真地具有人脑那样的自主理解能力/机制。

关于新时代“一带一路”的合适译法，我曾经从语言学构词法角度也论过：

“一带一路”，官方翻译是： one belt one road。

不得其解，昨天才搞明白是中国倡导由中国带头沿着古丝绸之路开发新的经济贸易开发区一方面帮助消化过剩的产能一方面带动区域经济实现共赢让区域内国家分享中国经济高速发展的火车头效益从而树立中国崛起的和平领军形象。

感觉还有更多也许更好的选项反正是成语反正光字面形式谁也搞不清真意总是需要伴随进一步解释不如就译成：

一带一路 ===》 one Z one P （pronounced as：one zee one “pee”）

怎么样，这个翻译简直堪比经典翻译 long time no see （好久不见）和 “people mountain people sea” （人山人海）了。认真说，Zone 比 Belt 好得多。

One zone one path.
One zone one road.
New zone old road.
New Silk Road Zone.

感觉都不如 one Z one P 顺口。

from 【语言学随笔：从缩略语看汉字的优越性】

【相关】

博鳌AI同传遭热议！腾讯翻译君负责人李学朝、讯飞胡郁有话说

NLP 历史上最大的媒体误导：成语难倒了电脑

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1108635.html

上一篇：【一日一析：“爱情这种事……”】
下一篇：【一日一析：中文解析中的动名短语歧义】

当前推荐数：2 推荐人：尤明庆 ljxm

发表评论评论 (2 个评论)

删除 |赞[2]吴炬 2018-4-12 10:08: 有意思

删除 |赞[1]ljxm 2018-4-12 09:20: 短时间还是人脑厉害，即便他是个疯子.......

【李白99：从大小S的整体部分关系看舆情挖掘的统计性】屏蔽留存

【李白99：从大小S的整体部分关系看舆情挖掘的统计性】

屏蔽已有 1487 次阅读 2018-3-10 04:15 |个人分类:立委科普|系统分类:科研笔记| NLP

白:
“这家公司从年报看业绩没什么起色。”

李:
“业绩”可以是小s 也可以是“看”的宾语，其实语义基本不变。“从N看”很像个习惯表达法，可以等于 “从N看上去”（“以N而观之”）。

白:
“这个人从眼睛看瞳孔是蓝色的。”

董:
两位，“这家公司”、“这个人”，还是“状语”吗？怕不合适吧？

李:
主语。“从N看”可以做状语。还是大s小s那套，及其变式。逻辑上就是整体与部分的情形，谓语说部分自然也在说整体。感觉大小S的问题有很强的逻辑意味是逻辑在语言中的表现形式。大S是整体小s是部分谓语直接说的是部分，自然也就间接说了整体，这是逻辑上的不完全归纳，与三段论的演绎正好相反。归纳不如演绎严谨，容易引发种种争议，但归纳是人类认识和表达世界广泛使用的手段，表现在语言形式上就很有说法了。

这个问题我们在做舆情分析中，无数次遭遇：说 “iPhone 屏幕很好”，直接说的是“屏幕”，间接说的是 “iPhone”，算不算是说 iPhone 的好话？当然算，至少是找到了 iPhone 的一个亮点。

A：iPhone屏幕好
B：iPhone 屏幕好，但别的都不行。
A：照你说，iPhone 只剩屏幕好了？
…………

A 是说 iPhone 的好话，用的逻辑是不完全归纳。B 是说 iPhone 的坏话，但也做到了与 A 并不矛盾，根据的是归纳的不完全原理。所以说不完全归纳就是那半瓶水，乐观主义看见的是水，算是点赞；悲观主义看见的是空气，可以是吐槽。如果反过来用三段论演绎法，说的是整体而不是部分，譬如 “iPhone 就是好”，就没有这些弯弯绕了，不会留下模糊的空间。

大前提：iPhone 好
小前提：iPhone 屏幕也是 iPhone （有机部分）
结论：iPhone 屏幕好。

这跟 “文化大革命就是好” 一个道理，是点赞没商量。

回到原句：“这家公司从年报看业绩没什么起色。” 句法上的大S在逻辑语义层转为O，句法上的小s上升为S，这些都说得通，只欠O（整体）与S（部分）之间的关系了：

愿意做细活的话，这个有点特别的 “从N看”（习惯表达法）可以看成是状语或插入语，它不是语句的重心。不过，这种细活做多了，不仅费工，而且也难免弄巧成拙，譬如，万一前面出现了一个通常不出现的主语“我们”或“大家”，就找不到自己的谓语了。

“这个人从眼睛看瞳孔是蓝色的。”

“瞳孔是蓝色的。”
？ “这个人是蓝色的。”

这就是不完全归纳法推向极端的情形：上句因为是极限事例，听上去不 make sense，但却的的确确隐含归纳法从部分到整体的逻辑链条在内。如果改写成这样，就貌似有些道理了：

“就瞳孔而言，这个人是蓝色的。”

“瞳孔” 这个概念在其常识性本体知识库里在Color的字段下其 appropriate 的属性值里面包括了“蓝色”。但是 “人” 这个概念里面常识本体库里面的 Color 栏目没有“蓝色”这个选项，只有“黑白黄红”。说这个人是蓝色的违背了这个常识所以觉得很怪：除了妖怪和童话，怎么会有蓝色的人呢？但人的某个部位的确可以是蓝色的。部分的属性推广到整体的时候遇到了矛盾。

“希特勒特别善于演说”

是说希特勒好吗？还真地就是说他的好话。在舆情抽取的时候，我们记录每一个这种表述，部分好相当于给整体好投了一票，但抽取的碎片化情报只是零散的一票一票，到了对于整个数据源进行信息融合（fusion）的时候，这每一张投票就被统计出来，“舆情”就自然得出。

白:
这是诛心。说鸡蛋好是不是也给下蛋的母鸡投了一票？

李:
最后的结果非常 make sense。原来，在与希特勒相关的舆情数据里面，整体而言，点赞的不足 1% 吐槽的高达 99%，可见其不得民心。这是全貌。舆情的细线条分析进一步揭示即便点赞，赞他的方面（aspects）或依据（why）几乎总是其客观能力（演说才能）等，吐槽的却是他的实质：思想，行动，内心，等。

说鸡蛋好，的确是给那只老母鸡点了赞。虽然钱先生对喜欢他的《围城》的粉丝说，鸡蛋好吃，又何必认识老母鸡呢。其实钱先生不仅仅是谦虚或清高，其实就是懒。懒得搭理那些无穷无尽的崇拜者。他内心何尝不知道，鸡蛋吃得香的人，对于老母鸡是有赞的。至少，我去超市买鸡蛋，对于能下黄鸡蛋的母鸡，比只会下食之无味的白鸡蛋的母鸡，心里不是一视同仁的。anyway，我们做了多年舆情挖掘，就是这么个原理。利用的是不完全归纳，对于不完全归纳所带来的副作用和逻辑不严谨，弥补的手段就是大数据投票。并不离谱，有全貌，有细节。

在大数据下，好人不会被评坏了，坏人也不会被评好了。当然，国内水军据说可以左右大数据，另当别论：主要是数据还不够大，水军也太便宜。

白:
无罪推定的原则，逻辑上（典型的就是三段论）推不出来的，你不能安给我。统计算个数也就罢了，把标签落到人头上，贻害无穷。这与诛心何异。比如，我反对一个人的证据（比如钓鱼贴里面那种荒唐证据），对其结论并没表态（尽管结论可能很政治正确），这是一个正常的理性行为。如果因为这个给我打上政治不正确的标签，我很难接受。

李:
大数据下，任何标签都不是黑或白。

白:
可是这种粗暴做法，冠以“舆情分析”的高科技帽子，几乎每天都在发生着。

李:
说你 99% 的政治正确，1% 的政治不正确，你应该很高兴。我要是开个餐馆，或经营一家NLP咨询公司,只要有 80% 的赞誉度就笑懵了。每次找餐馆，我从来不特别找全五星的，总是找4星以上的，一万个评论打了四星的，比一千个评论打了五星的，要好得多。

白：
评好人缺点的人、不赞成拍好人马屁的人、不赞成捧杀好人的人、不赞成用荒唐论据支持好人的人被当作跟好人不一伙的人，这样的技术是危险的。其实是在诛心，或者在实现一种诛心的逻辑。

李：
退回到人工问券调查民意的时代，手工民意测验其实更差更不完备。因为大S作为调查对象虽然是确定的，这个大S的方方面面那些点赞他吐槽他的种种理由却五花八门。这些五花八门个体可能有诛心的风险整体统计却化解了风险。到了民主政治一人一票根本就无心可诛。大数据下只看票不看理由。

白：
挺转和反转，就因为双方的旗手而呈现站队状态。反崔挺崔，反方挺方，本来与挺转和反转是互相独立的，在舆论场中愣是给弄成掰不开了。这个话题与政治关系不大。一个人只要不满崔，就会被当成挺转分子。

【相关】

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《朝华午拾》总目录

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1103141.html

上一篇：【李白98：从对联和孔子遗言看子语言自动解析】
下一篇：【立委兄：小城记忆】

【语义计算：议一议“微软机器翻译提前七年达到专业翻译水平”】屏蔽留存

【语义计算：议一议“微软机器翻译提前七年达到专业翻译水平”】

屏蔽已有 1692 次阅读 2018-3-18 19:40 |个人分类:立委科普|系统分类:教学心得| NLP, NMT

李：
最近微信群疯传一条新智元的人工智能新闻专访，【机器翻译提前7年达到人类专业翻译水平，微软再现里程碑突破】。不少老友也特地转发给我这个“老机译”。微软这几天的营销好生了得。到处都是这个第一家超越人类的MT新闻而且提前了七年！

这个微软 MT 是在哪里？比较过百度，谷歌，有道。有道似乎最好，所以现在就用有道。不妨也试试微软。

事到如今，这几家都可以 claim 新闻翻译超过业余翻译的水平，进入专业翻译的段位了。跟语音类似，这是整个行业的突破，神经翻译大幅度超越上一代统计翻译，尤其是顺畅度。眼见为实,这一点我们都是见证人。已经 n 多次测试过这些系统了。(【谷歌NMT，见证奇迹的时刻】; 【校长对话录：向有道机器翻译同仁致敬】). 如果是新闻文体，很少让人失望的。

说是第一个正式超越的系统云云，基本上是 marketing。

MT 的下一个突破点应该是：（i）对于缺乏直接对比语料的语言对的 MT（据说进展神速）；（ii）对于缺乏翻译语料的领域化 MT，譬如翻译电商领域，目前可用度差得一塌糊涂（20%左右），可有需求，无数据; (iii) 在保持目前NMT 目标语顺畅度的优势情况下，杜绝乱译，确保忠实可信。

这次他们严格测试的是汉译英，拿出数据来证明达到或超越了一般人的翻译水平。然后说，英译汉是类似的方法和原理，所以结论应该相同。这个我信。

有意思的是，在规则MT时代，绝不敢说这个话。汉译英比英译汉困难多了，因为汉语的解析比英语解析难，基于结构解析和转换的翻译自然效果很不相同。但目前的NMT 不需要依赖解析，所以语言的方向性对质量的影响很小。以前最头疼的汉译外，反而容易成为亮点。

当年入行的时候，有两个兴趣点：一是做外汉MT（主要是英汉），一是探索中文解析。前者有底气，知道这条路是通的，就是力气活，假以时间和资源，质量会逐渐越来越好。后者其实没有底气，感觉慢慢长路，“红旗不知道要打多久”（【从产业角度说说NLP这个行当】），但是实在太有趣了。当年的梦想是，什么时候中文解析做好了，用它来做汉外MT，能与外汉MT一样，那该多解气啊。

中文解析经过n多年的思索和实践，终于有底气了（【美梦成真】）。可是原先要落地MT的设想，却突然失去了这个需求和动力。好在 NLU 不仅仅在 MT 落地，还有许多可以落地的地方。

真所谓人算不如天算，看潮起潮落。老友谈养生之道，各种禁忌，颇不以为然，老了就老了，要那么长寿干嘛？最近找到一条长寿的理由，就是，可以看看这个世界怎么加速度变化的。今天见到的发生的许多事情，在 30 年前都是不可想象的：NMT，voice, image, parsing，iPhone，GPS, Tesla, you name it.

王:
中文解析，当然不一定中文，其他语言解析也一样，前景十分广阔，市场巨大。因现阶段还不能达到如人般的理解程度，所以还属于只能踩着有限小石子过河（落地）阶段，以后才能上大路，开高速。我也期望能有一个万能智能秘书，能准确理解且快速帮我办事，达到期望的结果。但能力都还有限，自然还是解析很力不足。

李:
parsing 的应用潜力很大，道理上没人说不对，毕竟这是AI在认知道路上可以预见的一个关键的支持。但实际上有两个坎儿：一是不好做，二是不好用。不好做是，想用的人往往不大会做，不能要求每个人都成为parsing专家。不好用是，独立的 offshelf 的，迄今没有见到大规模使用的成功案例。相对成功使用的，大多是内部消化，自己做自己用。这就局限了它的应用范围和潜力发挥。内部使用的成功经验，最多算是一种可行性论证，证明结构解析对于应用是的确可以赋能的。但平台化领域化的道路还很长。

核武器之所以在吆喝，是因为它还没爆炸，也似乎短期内不会爆炸。真爆炸了，听响声就够了，不需要吆喝了。

嘿，找到 MS Translator URL 了：https://www.bing.com/translator

做个现场测试和比较，用今天城里的新闻：

白宫发言人桑德斯14日表示，电视评论员柯德洛（Larry Kudlow）将出任国家经济会议主席。

桑德斯透过声明指出，川普向柯德洛提出担任总统经济政策助理，以及国家经济会议主席一事，柯德洛也接受了；白宫之后会宣布，柯德洛上任的时间。

川普月初宣布将对进口钢铁和铝材分别课征关税，其国家经济会议主席柯恩（Gary Cohn）因不认同川普此举，在6日请辞。

柯恩请辞后，柯德洛是接任的人选之一；在过去一年，柯德洛是川普的非正式顾问，也是川普2016年总统大选竞选期间的顾问。

川普13日向媒体表示，他有很高机率将任命柯德洛递补首席经济顾问柯恩辞职遗缺。川普说，“柯德洛成为我的好友一段时间了，他在我竞选早期就力挺我，是我最初的支持者之一。他是名非常有才华的人。”

70岁的柯德洛在前总统雷根任内监督白宫管理及预算局5年。柯德洛2001年加入财经媒体CNBC，之后成为知名评论家与主持人。

微软的自动翻译是：

White House spokesman Sanders said 14th that TV commentator Codro Larry Kudlow will serve as president of the National Economic Council.

Sanders said in a statement that Trump to Codro as president of the economic policy assistant, as well as the President of the National Economic Council, Codro also accepted, the White House will announce later, Codro time.

Cohn, the president of the National Economic Council, resigned on 6th for not agreeing to Trump’s move, announced earlier this month that it would impose tariffs on imported steel and aluminium.

After Cohen resigned, Codro was one of the successors, and in the past year Codro was Trump’s unofficial advisor and advisor to Trump during the 2016 presidential election campaign. Trump 13th to the media that he had a high chance of appointing Codro chief economic advisor Cohen to resign casual vacancies. Trump said, “Codro has been my best friend for a while, and he’s been my first supporter of my early campaign.” He is a very talented person.

” The 70-year-old Codro oversaw the White House administration and Budget Office for 5 years in former President Ronald Reagan. Codro joined the financial media CNBC in 2001 and became a well-known critic and moderator.

有道的译文是：

Larry Kudlow, a television commentator, will become President of the national economic council, White House spokesman jay sanders said Sunday.

In a statement, Mr. Sanders said he had accepted Mr. Cordelo as an assistant to the President’s economic policy and the President of the national economic council. The White House would then announce that Mr. Cordelo took office.

The chairman of the national economic council, Gary Cohn, said he would resign on June 6 after he announced that he would impose tariffs on imported steel and aluminum.

When cohn resigned, he was one of his successors. Over the past year, he has been an informal adviser to trump and an adviser to trump during the 2016 presidential campaign.

Trump told the media on Wednesday that he had a high chance of appointing the resignation of coderot’s chief economic adviser, korn/ferry. “He was a good friend for a while,” trump said. “he supported me early in my campaign and was one of my first supporters. He is a very talented person.

The 70-year-old has overseen the White House administration and budget office for five years under former President Reagan. Cordelojoined CNBC in 2001 and became a well-known critic and host.

谷歌的译文是：

White House spokesman Saunders said on the 14th that television commentator Larry Kudlow will serve as chairman of the National Economic Council.

Saunders pointed out through the statement that Trump had proposed to Cadero as the president’s economic policy assistant and the chairman of the national economic conference. Caldero also accepted it; the White House will later announce the time when Calderon took office.

Trump announced at the beginning of the month that it would impose tariffs on imported steel and aluminum products. Gary Cohn, chairman of the National Economic Council, resigned on the 6th because he did not agree with Trump.

After Keen resigned, Kedlow was one of the candidates for the replacement. In the past year, Kedro was an informal advisor to Trump and a consultant during Trump’s 2016 presidential campaign.

Trump stated to the media on the 13th that he has a high chance of appointing Kodlow to replace his chief economic advisor. Trump said, “Kadelo has been a friend of mine for some time. He supported me early in my campaign and was one of my initial supporters. He is a very talented person.”

Kodlow, 70, oversees the White House’s Office of Management and Budget for 5 years under former President Reagan. He joined the financial media CNBC in 2001 and later became a famous critic and host.

粗粗读一遍，都不错。可能是偏爱，还是更喜欢有道。

再来一片，其实不是新闻：

列宁的导师普列汉诺夫的遗言：
一、随着生产力的发展，知识份子的队伍比无产阶级增加得更快，在生产力中的作用跃居首位，在电气时代马克思主义的无产阶级专政理论将会过时。
二、布尔什维克的无产阶级专政将迅速演变成一党专政，再变为领袖专政。而建立在欺骗和暴力基础上的社会，本身就包含着自我毁灭的炸药，一旦真相大白，便会立刻土崩瓦解。
三、“布”党将依次遇到四大危机：饥荒危机、意识形态危机、社会经济危机和崩溃危机，最后政权土崩瓦解，这一过程可能持续数十年，但这个结局谁也无法改变。
四、国家的伟大并不在于它的领土甚至它的历史，而是民主传统和公民的生活水平。只要公民还在受穷，只要没有民主，国家就难保不发生动荡，直至崩溃。

微软：
Plekhanov’s last words:

With the development of productive forces, the team of intellectuals has increased faster than the proletariat, the role of the productive forces leaped to the top, and the Marxist proletarian dictatorship theory in the era of electricity will be outdated. Second, the Bolshevik dictatorship of the proletariat will rapidly evolve into a one-party dictatorship, then become a leader dictatorship.

A society based on deception and violence, in itself, contains self-destructive explosives that, once the truth is revealed, Fall apart immediately.

Third, the “cloth” party will encounter four major crises: Famine crisis, ideological crisis, social economic crisis and collapse crisis, the final regime fell apart, this process may last for decades, but this end can notchange. The greatness of the state is not in its territory or even its history, but in its democratic traditions and the living standards of its citizens. As long as citizens are still poor, as long as there is no democracy, the state will not be in turmoil until it collapses.

谷歌：
The words of Plekhanov:
     First, with the development of productive forces, the ranks of intellectuals have grown faster than the proletariat, and they have taken the lead in productivity. In the age of electricity, the Marxist theory of the dictatorship of the proletariat will become obsolete.
     2. The dictatorship of the proletariat of the Bolsheviks will rapidly evolve into a one-party dictatorship and will become a dictatorship of leaders. The society based on deception and violence itself contains self-destructive explosives. Once the truth is revealed, it will soon fall apart.
     Third, the “cloth” party will encounter four major crises in sequence: the famine crisis, the ideological crisis, the socio-economic crisis, and the collapse crisis. The final regime collapsed. This process may last for decades, but no one can change this outcome.
     Fourth, the greatness of the country does not lie in its territory or even its history. It is the democratic tradition and the standard of living of its citizens. As long as citizens are still living in poverty, as long as there is no democracy, the country cannot guarantee that there will be no turmoil until collapse.

有道：

His last words:
One, with the development of productive forces, intellectual team increase faster than that of the proletariat, in the role as the first productivity, at the age of electricity of marxism’s theory of the dictatorship of the proletariat will be out of date.

The dictatorship of the proletariat of the bolsheviks will quickly turn into a one-party state and become a leadership dictatorship. Society, based on deception and violence, contains self-destructive explosives, and when the truth comes out, it will fall apart.

Three, “cloth” party will, in turn, have four big crisis: hunger crisis, the collapse of the ideology, social and economic crisis and crisis, the regime collapse, this process may last for decades, but the end no one can change.

The greatness of a nation lies not in its territory or even its history, but in its democratic traditions and the living standards of its citizens. As long as the citizens are still poor, as long as there is no democracy, there will be no unrest until the country collapses.

梁：
这岂不让专业翻译人士好紧张吗？

李：
没办法，准备改行做编辑吧。作为职业，译员的市场的确在急剧萎缩中，大势所趋。

昨天跟老友说还是要抬头讲故事不能只是低头做实事。还要看故事的风口和时机。微软这一宣传家喻户晓老妪能解普罗惊叹。一叹人工智能已经步步紧逼看得见摸得着了。二叹微软太牛给人印象是把对手远远抛在后面在这个一日千里的AI时代居然提前七年实现赶超人类语言认知的里程碑。

梁：
对，讲个好故事，比什么都重要！

李：
其实这几家品质都差不多还有搜狗还有一些初创自从大约两三年前深度神经以后都陆续达到了新闻翻译超越业余人工翻译的水平。换句话说整个行业提升了。任何一家都可以心不跳脸不红做此宣称。可是老百姓和投资人不知道。这就看谁会讲故事了。

马：
大公司自己宣传，一帮不懂的媒体也愿意跟着捧，甚至捧得更卖力气。现在机器翻译拼的就是语料和平台，以前搜狗没有机器翻译，和我们实验室的刘洋合作后，不到一年就出了一个很不错的系统。

李：
AI 越来越像当年美苏的军备竞赛了，size matters.

@马少平搜狗要营销的话可以与电视台合作搞个新闻现场大奖赛请翻译界名人做评委找n个专业翻译 m 个业余翻译现场出题限时翻译（要限制到熟练专业来不及查工具书全凭大脑勉强可以应付为最佳）

马：
@wei 比起其他公司来，搜狗不是太会营销。

李：
这种比赛没有悬念最终一定是机器赢。好好设计一下，双盲比赛，让专家评审，也不能说它不公平。万一机器没得冠军而是亚军或季军宣传效果更佳为下一轮比赛的高潮做了铺垫。那位人类选手神译要好好保护大力宣传大书特书他过目不忘博闻强记知识渊博的种种事迹。当年花生智力竞赛大胜人类本质上就是玩的这个套路。一直玩到进入了计算机历史博物馆的里程碑专区去了。MT 现在要玩的话，类似的效果，更容易设计，要想拉巨头参与也容易：几家巨头的MT网站都是公开的，随叫随到。

Ben:
@wei youTube上《成都》有高圆圆的音乐，立委应该会喜欢！

李:
歌是好歌，早听过n多遍了，温暖慰藉。赵雷嗓子很有味道，可这小子镜头太多；圆圆友情出境，镜头太少，前面的剪影还是替身。

成都是个养人的好地方，出国前呆过大半年，乐不思非蜀（见【立委外传】）：

1990 ：尝尽成都美食。茶馆火锅夫妻肺片。

赵雷草根天才啊，独领城市歌谣，能写出这样的绝妙好词：

【画】
为寂寞的夜空画上一个月亮
把我画在那月亮的下面歌唱
为冷清的房子画上一扇大窗
再画上一张床
画一个姑娘陪着我
再画个花边的被窝
画上灶炉与柴火
我们一起生来一起活
画一群鸟儿围着我
再画上绿岭和青坡
画上宁静与祥和
雨点儿在稻田上飘落
画上有你能用手触到的彩虹
画中有我决定不灭的星空
画上弯曲无尽平坦的小路
尽头的人家梦已入
画上母亲安详的姿势
还有橡皮能擦去的争执
画上四季都不愁的粮食
悠闲地人从没心事
我没有擦去争吵的橡皮
只有一只画着孤独的笔
那夜空的月也不再亮
只有个忧郁的孩子在唱
为寂寞的夜空画上一个月亮

我不知道如何翻译，劳有道机器翻译一下：

“Draw a moon for the lonely night sky.
Draw me under the moon and sing.
Draw a large window for the cold house.
Draw another bed.
Draw a girl with me.
Draw another lace bed.
Draw a stove and firewood.
We were born to live together.
Draw a flock of birds around me.
Let me draw green ridge and green slope.
Picture peace and serenity.
The rain fell on the rice fields.
There’s a rainbow you can touch with your hands.
There are stars in the picture that I have decided not to destroy.
There are endless smooth paths.
The end of the family dream has entered.
Picture mother’s peaceful pose.
There’s also an eraser argument.
Paint food that is not sad in four seasons.
A leisurely person never worries.
I didn’t wipe out the quarrel eraser.
There was only one painting of a lonely pen.
The night sky was no longer bright.
Only a sad child was singing.
Draw a moon for the lonely night sky.”

自然有错译的地方（如 there’s also an eraser argument. I didn’t wipe out the quarrel eraser），可是总体而言，专业出身的我也不敢说一定能译得更好，除非有旬月踟蹰。机器翻译超越业余翻译，已经是不争的事实。

【相关】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1104572.html

上一篇：【立委兄：小城记忆】
下一篇：【一日一parsing：修饰语的组合爆炸挑战】

【语义计算：议一议“微软机器翻译提前七年达到专业翻译水平”】

当前推荐数：3 推荐人：黄仁勇 柳文山 徐令予

【机器翻译新时代的排座座吃果果】屏蔽留存

【机器翻译新时代的排座座吃果果】

屏蔽已有 3176 次阅读 2018-3-19 14:24 |个人分类:立委科普|系统分类:教学心得| NLP, NMT

刘冰老师反馈，他看了我的NLP频道的笔记（【语义计算：议一议“微软机器翻译提前七年达到专业翻译水平”】）说，就我随机测试的汉译英两篇，显然是谷歌翻译质量高出微软、有道和百度。刘老师是业界牛人，大牌教授。我倾向于同意他。因为我自己并没有认真比照，只是一时兴起做个测试。粗粗一个印象，觉得几家大都在一个水平级，但由于种种原因而来的偏好，我更喜欢有道。

其实不妨给这几家，加上搜狗，做一个英汉的随机测试，这样更容易评判。大家可以就两点做个各自的评价：（i）是不是可以说，整体水平都上来了，都已经超过业余水平，接近或达到专业翻译的质量。（ii）学学纽约时报給美国大学排名，咱们也給这几家非正式排个座次：这种随机测试免不了有波动，不能算正式的排座次结论。

今天的 USA Today 的新闻，谈普金连任，吸引了我的眼球，不妨试试。

P utin heads for big win — and 6 more years — as Russia's president：
（original from https://www.usatoday.com/story/news/2018/03/18/putin-headed-easy-re-election-russias-presidential-race-6-more-years/436129002/）

Russian President Vladimir Putin — the country's longest-serving leader since former Soviet dictator Joseph Stalin — was headed to an overwhelming victory in Sunday's election for another six-year term, according to incomplete returns.

Putin's re-election was widely expected, and elections officials had pushed hard for a strong turnout to claim an indisputable mandate. Putin has been president or prime minister since December 1999, making him the only leader that a generation of Russians have ever known.

With ballots counted from 60% of the precincts, Putin won more than 75% of the vote, according to the Central Elections Commission.

By 7 p.m. Moscow time, authorities said turnout had hit nearly 60%.

Putin thanked thousands of people who rallied near Red Square after the vote. He hailed those who voted for him as a “big national team,” adding that “we are bound for success.”

He said the nation needs unity to move forward and urged the crowd to “think about the future of our great motherland.” He then led the enthusiastic crowd to chant “Russia!” the Associated Press reported.

微软翻译(https://www.bing.com/translator)：

根据不完全的回报, 俄罗斯总统普京--自前苏联独裁者约瑟夫-斯大林--在星期日的选举中取得了压倒性的胜利, 这是该国有史以来任期最长的领导人约瑟夫·斯大林。

普京的连任得到了广泛的预期, 选举官员极力要求有一个不争的任务。普京自1999年12月以来一直担任总统或总理, 这使他成为俄罗斯一代人所知道的唯一领导人。

根据中央选举委员会的统计, 在60% 的选区选票中, 普京赢得了超过75% 的选票。

到莫斯科时间下午7点, 官方表示投票率已经达到了近60%。

普京感谢在投票后聚集在红场附近的数以千计的人。他称赞那些为他投票的人是 "大国家队", 并补充说 "我们一定会成功"。

他说, 国家需要团结才能向前迈进, 并敦促民众 "思考我们伟大祖国的未来"。然后, 他率领热情的人群高呼 "俄罗斯!" 美联社报道。

谷歌翻译 (https://translate.google.com)：

据不完全回报，俄罗斯总统弗拉基米尔普京 - 自前苏联独裁者约瑟夫斯大林以来服务时间最长的领导人 - 在周日的选举中再次获得压倒性胜利，任期六年。

普京的连任是普遍预期的，选举官员已经努力争取强大的投票率，宣称无可争议的任务。普京自1999年12月以来一直担任总统或总理，使他成为俄罗斯一代人所知的唯一领导人。

根据中央选举委员会的统计，从60％的选区算起的选票中，普京赢得了超过75％的选票。

下午7点莫斯科时间，当局表示，投票率已达到近60％。

普京感谢数千人在投票后在红场附近集会。他赞扬那些投他为“大国家队”的人，并补充说：“我们必须取得成功。”

他表示，国家需要团结向前，敦促人们“思考我们伟大的祖国的未来”。然后，他带领热情的群众高唱“俄罗斯！”美联社报道。

百度翻译 (https://fanyi.baidu.com/)：

俄罗斯总统Vladimir Putin是自前苏联独裁者Joseph Stalin以来任职时间最长的领导人，根据不完全的回报，他将在星期日的选举中获得压倒性的胜利，任期六年。

人们普遍预期普京连任，选举官员极力要求强有力的投票，以宣布一项无可争辩的任务。自1999年12月以来，普京一直是总统或总理，使他成为俄罗斯一代人所认识的唯一领导人。

用选票从60%的选区，普京赢得超过75%的选票，根据中央选举委员会。

到了莫斯科时间下午7点，当局称投票人数已接近60%人。

普京感谢在投票后聚集在红场附近的数千人。他称赞那些投票支持他为“大国家队”的人，并补充说：“我们一定会成功。”

他说，国家需要团结向前迈进，并敦促群众“思考我们伟大祖国的未来”，然后他带领热情的人群高呼“俄罗斯”！美联社报道。

有道翻译 (http://fanyi.youdao.com/)：

俄罗斯总统弗拉基米尔·普京(Vladimir Putin)是自前苏联独裁者斯大林(Joseph Stalin)以来在位时间最长的领导人。根据不完全的回报，他在周日的选举中取得压倒性胜利。

人们普遍预计普京会再次当选，而选举官员一直在努力争取更大的投票率，以获得无可争议的授权。自1999年12月以来，普京一直担任俄罗斯总统或总理，这使他成为俄罗斯历史上唯一的领导人。

根据中央选举委员会的统计，在60%的选区选票中，普京赢得了超过75%的选票。

莫斯科时间下午7点，当局称投票率已经达到近60%。

普京感谢了在投票后聚集在红场附近的数千人。他称赞那些为他投票的人是一个“伟大的国家队”，并补充说:“我们一定会成功。”

他说，国家需要团结一致向前推进，并敦促民众“思考伟大祖国的未来”。然后他带领热情的人群高喊“俄罗斯!”美联社报道。

搜狗翻译（https://fanyi.sogou.com/）:

俄罗斯总统弗拉基米尔普京( Vladimir Putin )——该国自前苏联独裁者约瑟夫斯大林( Joseph Stalin )以来任职时间最长的领导人——在周日的总统选举中以压倒性优势获得连任，根据不完全的数据显示。

人们普遍预期普京会再次当选，选举官员们一直在努力争取选民踊跃投票，以获得无可争议的授权。普京自1999年12月以来一直担任总统或总理，这使他成为一代俄罗斯人所认识的唯一领导人。

根据中央选举委员会的统计，普京在60 %的选区赢得了75 %以上的选票。

莫斯科时间下午7点，官方称投票率已达到近60 %。

普京感谢成千上万投票后在红场附近集会的人们。他称赞那些投他票的人是“大国家队”，并补充说，“我们一定会成功。" "

他说，国家需要团结起来向前发展，并敦促群众“考虑我们伟大祖国的未来”。”他接着领着热情的人群高喊“俄罗斯！”美联社报道。

老友说，不怕不识货，就怕货比货。显然微软最烂。

还是仔细比较分析一下吧。

第一条，“是不是可以说，整体水平都上来了，都已经超过业余水平，接近或达到专业翻译的质量”？

我个人认为，这个结论是成立的。不仅仅是基于这一篇对五家的测试，以上测试应该算是再次证实了这个判断。作为MT关注者和业内人士对于整体形势的了解，加上平时做过的多次测试的印象，形成这一判断快一年了，从来没有觉得遇到过严重挑战。

第二条真要排座次呢，估计会有更多不同的意见和视角。我谈谈我的看法。翻译讲的主要是两条，准确和通顺。我们就以这两条作为标准谈谈。

微软的问题：
1. 普金和斯大林错译成了同位语：“俄罗斯总统普京--自前苏联独裁者约瑟夫-斯大林--；”
2. 漏译了关键的限定语“自斯大林以来”，结果是让人莫名其妙：“这是该国有史以来任期最长的领导人约瑟夫·斯大林。”
3. 不合适的选词：（不完全的）“回报”（returns），（不争的）“任务”（mandate），这算小错。

谷歌的问题：
1. 不合适的选词：（不完全）“回报”（returns），（无可争议的）“任务”（mandate），这算小错。
2. as-短语挂错了地方：他赞扬那些投他为“大国家队”的人（He hailed those who voted for him as a “big national team”，不大不小的错）
3. “we are bound for success.”（“我们一定会成功”）只有谷歌没翻对，它翻成了“我们必须取得成功”。有相当偏差。

百度的问题：
1. 选词不当：（不完全的）“回报”（returns），（无可争辩的）“任务”（mandate），这算小错。
2. 生硬，两个状语的安排不妥：“【用选票从60%的选区】，普京赢得超过75%的选票，【根据中央选举委员会】”。
3. as-短语挂错了地方：他称赞那些投票支持他为“大国家队”的人（He hailed those who voted for him as a “big national team”，不大不小的错）

有道的问题：
1. 一个小瑕疵是“根据不完全的回报”，最好翻译成“根据不完全的收回选票” 或 “根据不完全统计”。 “回报”在中文有强烈的报偿的意味。当然，因为有上下文，这个译法虽然不妥，还是可以理解。
2. 漏译了一个重要的限定语“自斯大林以来”：“这使他成为俄罗斯历史上唯一的领导人”。“神经”太过，有些胆大妄为，化有为无。

但通篇译文读起来非常顺溜。

搜狗的问题：
漏译“for another six-year term“ （是个不大不小的错）。其他没看到错，读起来也蛮顺。

这样看来，搜狗和有道可以并列第一。谷歌第三。百度第四。微软，对不起，你还欠了火候：不仅是比不了谷歌，其他小兄弟也比你更准更顺。（也有人说，线上的不是他们的新版，最新的技术还没进去，我们拭目以待吧）。

马少平老师告诉我，“搜狗由于做的晚，全部用的是神经翻译，有道以前是统计翻译，后来加上神经翻译，再后来彻底抛弃以前的，全部用神经翻译。百度是在以前基础上（统计翻译）加上神经翻译。可见神经翻译胜出。”

而我呢，第一次体验到神经翻译不俗表现，是一年多前谷歌发布新版的时候。我用它尝试给我的NLP演讲笔记做翻译，语音合成自动读出来给我的感觉不亚于一个专业的口译员，是我大喜过望，赶紧“录得”现场音频分享给朋友。【谷歌NMT，见证奇迹的时刻】2016-10-2 ）后来，百度出来说它们比谷歌更早就“神经”了，不过我并没觉得百度比谷歌质量高，所以仍然坚持用谷歌。搜狗刚开始上线，界面和用户友好（长文的翻译拷贝等）不给力，用了一下就没再看了。一两个月前开始注意的有道，发现比谷歌磨得更圆，也颇用户友好和贴心，就开始用有道（问题是有时候过分神经，为了通顺敢于牺牲忠实，这个毛病看上去是目前神经翻译的通病。）。

A couple of months ago one of my old buddies recommended Youdao to me and for some reason, I fell in love with its service and app. So I shifted to Youdao. I downloaded Youdao to my iPhone and use it from time to time for fun, and for real, almost every day. It is very user-friendly and they carefully designed the interface, and most of the time I am very happy with its performance. Despite the name of the app as Youdao Dictionary, we can use the app as an instant speech translator, as if we were accompanied by a personal interpreter all the time. The instant translation is many times just amazing though it makes me laugh from time to time in some crazy translations. From MT as a business perspective, Youdao seems to be gaining momentum. Xunfei is also a big player, especially in speech translation.

说曹操曹操到，微信刚好在传这个视屏：

第一次听讯飞刘总做 marketing 哇塞！比微软还厉害。一口气下来促销人工智能方方面面顺顺溜溜底气十足。他用代表能听懂的语言娓娓道来，能给人想象的空间，果然高手，谁说中国没有乔布斯这样的营销大师。这番宏论无疑在国家领导和人大代表中留下了深刻印象，给又时髦又高深的AI又扇了一把烈火。

讯飞固然技术不错可别忘了别家也已经追赶上来了，整个行业提升的结果是，老大会不断受到新锐的挑战。刘总现场表演的口语即时翻译，我用我夹有皖南地方口音的普通话，重复给“有道词典的app”里面的口译界面，翻译结果一点不比讯飞逊色，属于同一量级吧，截屏如下：

【相关】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1104695.html

上一篇：【立委兄：小城记忆】
下一篇：【一日一parsing：修饰语的组合爆炸挑战】

【李白70：计算语言学界最“浪漫”的事儿】屏蔽留存

【李白70：计算语言学界最“浪漫”的事儿】

屏蔽已有 2733 次阅读 2017-9-12 23:29 |个人分类:立委科普|系统分类:科研笔记| parsing, 自动分析, 汉语NLP

白:

根据什么知道“他人”不是三个动词共享的逻辑宾语？----相谐性！

李:
【human】vs【physical-object】？丢失【physical-object】vs 丢失【human】？
丢失“孩子”呢？假如是直接量相谐的统计对比，“丢失-设备”与“丢失-他人”，前者完胜。
如果是上升到类别上去做对比，丢失-【physical】与丢失【human】就有可能会势均力敌，假如 “丢失-孩子” 的说法在语料里面特别高频的话。

直接量对比最好，可是总有数据稀疏不足为据的担心。类别对比克服了稀疏数据，也可能走偏。“申领”类似，似乎也可能申领【human】？ “ 损坏”好像比较单纯，很难“损坏人类”（人类够皮实的？）。到了“转借”问题复杂了，是个双宾词，大数据里面，跟【human】与跟【physical】的都很多。当然，现场已经让【human】（“他人”）占了坑，只剩下【physical】的可能，如果要把这一套符号逻辑加入大数据相谐的统计里面去，貌似也不是很好整，虽然琢磨起来总是头头是道的。

白:
三个动词共享的话，备选坑的subcat取最小公共上位。
损坏的坑不是human，甚至不是animate，看来只能是physical
大家都从它。

李:
最小公共上位，实现起来又多了一层，而且预设了并列结构的正确识别。看看这个问题的完满解决牵涉了多少不同层面的预设：

（1）预设并列结构识别
（2）预设最小公共上位
（3）预设排除已经占据的坑的类别

这里面的每个预设，说起来都很合理，但揉进一个算法里面就感觉有相当挑战。这只是就这一个案例的应对思路所做的抽象。遇到其他案例，也会出现其他听上去合理的应对。然后把这些合理应对整合起来成为一套相谐性checking的算法，感觉上不是一点点的挑战。

白:
显然这时候就看出来中间件分离的好处。相谐性检查也好，求最小公共上位也好，都是matcher向中间件请求，中间件回应matcher的关系，中间件并不介入matcher自身的逻辑，不介入待分析文本的结构性判断。

梁:
两个词的相谐性，可以计算出来么？或统计出来吗？

白:
能

李:
处得久了粘在一起 chemistry 就确定了。大数据可以。就是如何实施的 know how 了。

白:
“避免了一个十亿人口数量级的核大国彻底倒向美国和日本成为死敌”
和谁成为死敌？谁和谁成为死敌？

1、十亿人口的核大国和日本
2、美国和日本
3、十亿人口的核大国和缺省主语
4、十亿人口的核大国和美国

李:
我昨天下午也搞定了一个痛点: 就是 “学习材料” 类。完满解决这个问题其实有几个坎儿。凑合事儿也可以，但总觉得对于这么普遍的现象，还是形成一个一致的比较完美的解决才好，类比以前对于离合词“洗澡”的解决方案那样。

说个有趣的汉语缩略现象：

南美北美 --> 南北美
上位下位 --》上下位
进口出口 --》进出口
AxBx --> ABx

some more examples: 红白喜事，冷热风，高低端，东南向，南北向，软硬件，中青年，中老年，黑白道，大小布什 ......

这些个玩意儿说是一个开放集（合成词）吧，也没有那么地开放；说封闭吧，词典也很难全部枚举。它对切词和parsing都构成一些挑战。这是词素省略构成合成词的汉语语言现象，还原以后是 conjoin 的关系（Ax conj Bx），至于 ABx --> AxBx 的逻辑语义，还真说不定，因词而异，可以是：（1） and：南北美 --> 南美 and 北美；大小布什 -->大布什 and 小布什；（2）or：冷热风 --> 冷风 or 热风；正负能量 --> 正能量 or 负能量；（3）range：中青年 --> from 中年 to 青年，中老年 --> from 中年 to 老年；（4）and/or: 进出口 --> 进口 and/or 出口；（5）一锅粥（and/or/ranging）: 高低端 --> 高端 and/or 低端 or from 高端 to 低端。

白:
小微银行；三五度

李:
逻辑语义解析先放一边（很可能说话的人自己就一笔糊涂账，不要勉强听话人或机器去解析 and、or 还是 ranging），就说切词和parsing的挑战怎么应对就好。冷热风在传统切词中是个拉锯战：【冷热】风 vs 冷【热风】；“南北美”：【南北】美 vs 南【北美】。

看官说了，还是南【北美】似乎对路。可那个撂单的“南”怎么整呢？

白:
词不都是切出来的，也可以是捏出来的

李:
【国骂】，切词切词，只让我切，不让我补，这不是憋死我吗？不具体说雕虫小技了，要达到的目标是：Input：南北美；output：【南美 conj 北美】。

问，难道切词或 parser 还能补语言材料？当然能。不能的话，bank 怎么成的 bank1 （as in bank of a river）和 bank2（as in a com李rcial bank）？举个更明显所谓 coreference 的例子：John Smith gave a talk yesterday. Prof Smith （== John Smith）, or John （== John Smith）as most people call him, is an old linguist with new tricks.

白:
高低杠、南北朝、推拉门、父母官……

李:
This last example below demonstrates the need for recovering the missing language material:

A: Recently the interest rate remains low.
B: How low is the rate (== interest rate)? // 不补的话，就不是利率了，而是速率。

所以 parsing 中适当补充语言材料，重构人类偷懒省去的成分，也是题中应有之义，虽然迄今绝大多数系统都不做，也不会做，或没有机制或相应的数据结构做。

白:
不该补的也要那个。反方向的还不普遍？比如“海内外”

李:
听上去好像我的系统做了似的。必须说句老实话，目前还没做。虽然没做，这些个东西老在心里绕。绕老绕去问题清晰了，candidate 策略s 也有了，就是等一个时间点，去 implement。做实用系统有一个毛病，千头万绪，大多是跟林彪似的，急用先做。不急用的，甭管心里绕了多少回，往往是一等再等，几十年等一回，那一回有时候似乎永远不来似的，有时都就等到白头了。其中一个办法描述如下：假如 “南北韩” 不在词典里，但“南韩”和“北韩”都在，“南北”也许在，也许不在，不管他。切词的结果不外是：南/北韩 or 南北/韩。“揉”词的算法可以放在切词之后。最简单的算法就是再查两次词典，如成功，就把切词结果加以改造，爱怎么揉怎么揉。

(1) Input: A/Bx
Is Ax in lexicon? If yes, then
output: Ax conj Bx

(2) Input: AB/x
Are Ax and Bx both in the lexicon? If yes, then
output: Ax conj Bx

(3) Input: 海内/外:
Is 海外 in the lexicon? If yes, then
output: 海内 conj 海外

张:
李白对话将载入计算语言学历史

李:
前些时候，还真有个出版商寻求合作，要出版个啥 NLP 系列。旁门左道，从来没想要出书的，甚至写了也不管有没有读者。总之没拿读者当上帝。自媒体时代，写已经不仅仅为了读，写主要是为了写，日记疑似。与其读者做上帝，不如自己做上帝。反正也不指读者养活自己，完全是共产主义义务劳动，而且是高级劳动。此所谓，说给世界听，可并不在乎世界听不听。后来想起《对话录》，我说，也许你应该去找白老师。如果白老师愿意，倒是可以选辑修订成册。里面不乏精品，譬如最近的这篇：【李白69：“蛋要是能炒饭，要厨师干啥用？”】。

张:

计算语言学界最浪漫的事就是不忙的时候（坐在摇椅上）看李白悠悠地“怼”，慢慢地“坑”

白:
如果前缀两个字，就比较容易接受：大江南北、长城内外

李:
“大江南北、长城内外” 不同，“大江南” 、“大江北” 不在词典，而是句法组合。“大江-南” 是句法，“大江-南北” 也是句法，没有必然的必要性去补足构词材料。

白:
但是相比共享后缀，语义并无结构上的特别之处。所以补足只是针对同类现象的部分解决方案。按构词规则捏出一个有微结构的合成词才是根本。

“欧洲一体化已死，何须中国分裂？” 有个“它”或者“之”，关系会更明确。

李:
那就有点不伦不类了。“欧洲一体化已死何须中国分裂之”，听上去成诗句了，好比
“花开花落两由之”。

白:
多好。如果像我引用的那样，就比较麻烦，总得有些关于统一和分裂相对关系的铺垫才能正确理解“中国”在其中的使动角色。

李:
想起个故事在我知道胡适之是胡适之前，我写了句 “胡适之名句”，那还是高中的时候。高中同班一个公认的秀才，老夫子，读书巨多，平时颇孤傲，会背诵古文观止。他马上对我刮目相看，他没料到我居然知道胡适乃是胡适之。别小看一个之，知道不知道它当年被认为是有学问与孤陋寡闻的重要区别。天地良心我的确不知道胡适还有个之。后来知道了，不禁哑笑，哈，被学问了。秀才最后成了一辈子最铁的朋友，现在也在米国，做大学教授系主任多年。

白:
英语“xxx specific”怎么翻译才地道？直译为“yyy特定的”读起来很不爽。比如“language specific”我宁愿麻烦点翻译成“针对特定语言的”。见到“语言特定的”这样的翻译，总感觉不舒服。但是，汉语处理已经必须处理这种因为直译导致的语言现象了。因为我们左右不了人家的翻译质量。

昨天徒步时看到的“旅游厕所”让我对降格又深入了一步。简单地看，这是动词“旅游”降格做定语修饰“厕所”。但是，1、“厕所”无法反填“旅游”的坑，这和“打火机”不同。2、“厕所”并不是与“旅游”的坑完全隔绝，它是给旅游者上的厕所。构词的微结构里面虽然没有直接出现“上”，但是这个“上”却是连接“旅游”和“厕所”的枢轴。跟前些天讨论的“孟姜女哭倒长城”里面那个没出现的“修”，有的一比。述语动词“哭”和结果补语“倒”没有相谐的共享坑，但是深层次通过“修”和“丈夫”的坑，延展开来实现了共享。

王:
我感觉是“旅游（用）厕所“，这样绑定是否可行。“上“有点窄，但“用”面大，覆盖广，只要没有反例就好。类似英语动词+ing。traveling toilet。学英语时，v+ing，分词和动名词，用来旅游的厕所 or 旅行着的厕所（移动厕所）。不知对构造新词是否有帮助。

白:
直觉“旅游”和“厕所”也是通过“上”实现了回填。等下我画个图验证一下。“用”也还是意犹未尽，不是严格用填坑关系串起来的，是一个虚动词，“上”是一个实例。

梁:
我有点忘了，“孟姜女哭倒长城”是孟姜女晕倒了，还是长城倒下了？好像两种理解都可以。

白:
长城倒了。
旅游[的]（上、用……）[的]厕所

双线是“旅游”成为“厕所”定语的路径。简化一下：

把phi_1、phi_2缩并到“旅游”，形成虚拟节点“旅游'[S/N]”的话，上图就进一步简化为：

回填结构昭然若揭。phi_1是“旅游者”，phi_2是“上、用……”。

王:
第一个图好理解，简化后自己有点跟不上了，呵呵！当然白老师心中是门清的，只要可操作就是好的。

李:
为了一个定语弄出两个无中生有的节点才把这根线搭上，够绕的。某人 v 了厕所
此人旅游，因此旅游厕所就是为某些旅游的人所v的厕所。萝卜坑貌似搭上了，不过绕了这么一大圈搭上了又有啥好处呢？

白:
1，如果对不能反填置之不理，这一步大可不必。2，深层语义结构本来如此，顺藤摸瓜找到相谐的反填路径，看起来是句法任务，实际已经是语义任务。所以parser只做到降格就可以收工了。

李:
对于 “v （的）n”，知道 v 是 n 的修饰语是根本，v 的坑对于语言理解不重要，或无关系，因为语言中的谓词，填不上坑或不值得填坑的，是常态是多数。需要填坑的（处于clause里面的）谓语动词是少数，多数是非谓语动词。即便谓语动词一来也常省略萝卜
二来可填的坑句法痕迹也比较明显直白，不会那么绕，少数远距离例外。

白:
对句法不重要，对语言理解不能说不重要。无中生有只是假装，其实联想到的实例都是有的。旅游厕所真的就是那个意思啊…… 难不成碰到了那个意思还要过河拆桥，告诉别人不存在这个桥。

王:
我觉得白老师对新词的剖解挺好，词生有根，把根找到是件有意义事情。当然在有些处理新词场合，可能不需要处于隐形的中介出场。一旦需要时，能有套路可找到，那么这价值就体现了。这也是机器搜刮了词典中的多种关联后得到吧。不排除有些情况可能找不到，也有可能找出了多个。这可能更大视野来考虑相协。

白:
刚才用“坑论”试了一票英语例句，巨爽。

李:
Man 填了万能词 is 又填 fat 中间还来个 +N 看上去有点复杂（N+ 是定语，+N 应该是后补同位语）。/N 在身边没找到萝卜就进休息室了 +N 守株待兔等待左边来客，这一套蛮绕。

白:
@wei 别看man填了那么多坑，除了一个花了额度，其他都是免费的，而且都说得清来由。这个免费额度的机制，看来真的是universal 。

“自从有了智能移动电话，我的智能、移动和电话都在减少......” 这段子，又涉及微结构了。

宋:
“制裁没起作用，朝鲜又爆炸了氢弹。”其中，“制裁”的受事是“朝鲜”。机器没有相关的背景知识，能发现这种论元关系吗？

李:
“制裁没起作用美国只有先发制人一途了。”

白:
“制裁没起作用，中国躺枪。”

李：
对于 hidden 论元既然说者都不愿显性表达出来，为什么要挖出来？在哪些应用场景需要挖出 hidden roles 哪些场景不需要？机器翻译基本不需要，信息抽取和大数据挖掘的应用也基本不需要，explicit 论元都成山成海冗余无度呢。自动文摘的场景不需要。阅读理解的场景似乎是需要的，但这也看哪一种level 的阅读理解，四级阅读与六级阅读要求不同。总之感觉多数场景不需要。实用主义来看做了也白做何况做也难做好。

白:
这根本不是个别词的问题，而是场景的问题。在先行的大场景中各自什么角色，决定了填“制裁”坑的萝卜是谁。向后找萝卜，方向反了。

“耳朵聋了，莫扎特的音乐照样演奏。”
“耳朵聋了，贝多芬的音乐照样演奏。”

吕:
这个需要接入外界知识了

白:
第二句有歧义，第一句没有。原因，就是大家知道莫扎特和贝多芬谁耳朵聋了。可以把“贝多芬耳朵聋了”看成一个先行场景，“联立地”决定后续空白坑的填充。重要的事情说三遍，只要语言不要常识不要常识不要常识。Simultaneous anaphor

【相关】

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《朝华午拾》总目录

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1075655.html

上一篇：【李白69：“蛋要是能炒饭，要厨师干啥用？”】
下一篇：【李白71：“上交所有不义之财！“】

【李白之40：逻辑语义是语义核心，但不是全部】屏蔽留存

【李白之40：逻辑语义是语义核心，但不是全部】

屏蔽已有 3017 次阅读 2017-4-27 23:31 |个人分类:立委科普|系统分类:科普集锦| 逻辑语义, 表层结构, 深层结构

李:
"不晓得是啥"：不晓得[ ]是啥

不晓得【萝卜】是啥。
这个宾语从句中的主语的坑省略以后，萝卜哪里去了呢？

萝卜不晓得是啥
不晓得是啥的萝卜
一口可口可乐喝完, 吐出一块不晓得是啥的东西

白:
“拿一些自己都不晓得是啥的东西来糊弄别人。”
定语从句反而是自然的

李:
why not 不晓得 NP[是啥的东西]?　“晓得”的 subcats 既可带宾语从句，也可带ＮＰ宾语的：

不晓得啥东西
不晓得这东西

then, why the parse [[不晓得是啥]的东西] is better than　[不晓得[是啥的东西]]？回答清楚这个问题，貌似需要一点说法。

白:
“他是个连微积分都不晓得是啥的东西”
又回去了。“晓得”带小句宾时，不满足穿透性，就是说晓得的逻辑主语并不必然成为小句的逻辑主语。这样“不晓得是啥”作为一个整体进入定语从句的时候，就出现了两个坑，不知道反填哪一个，这是要避免的。

李:
是吗？
“我不晓得到哪里去”　== 我不晓得【我】到哪里去。

白:
不一定，可自主决策类，可以穿透。一般性的动词，无法穿透。

李:
“不晓得是啥的东西” 与“狂吠的狗”应该是一个逻辑。

白:
狂吠是不及物的，一个坑。没有歧义。

李:
“不晓得是啥” 也是vp 也是不及物或宾语已经内部 saturated。

白:
不晓得是啥，两个坑：a不晓得b是啥。但“连微积分都不晓得是啥”，微积分填掉了一个坑，就没这个问题了。b锁定，只剩a了。“东西”必然指“晓得”的逻辑主语。只剩下这个可能。东西只有在负面情感时才可指人，虽然逻辑上包含人。连……都不晓得是啥，显然承载了这个负面情感。

李:
对。两个坑。但是 b 坑比 a 坑更具有必填性。

在“不知道是啥的东西”里，“东西” 与 “晓得” 没有直接关系, “东西” 微观上是 “是啥” 的主语，宏观上是 “不晓得是啥” 的主语。“这玩意是大家都不晓得是啥的东西。”
这里“晓得”的主语是“大家”。

白：
有“大家”，先填掉了逻辑主语。“东西”拔不走了。

李:
“晓得”的第二个坑是宾语子句。“东西” 显然与 “晓得” 没有直接关系，因为根本就没坑了， “晓得” 已经饱和了。如果引进短语结构ps，可以说 “不晓得是啥” 这个 vp，还有两个坑。有两个坑的 vp 听上去很奇怪。但在汉语的所谓 “双主语句式”中有可能存在。

白:
“是”的两个坑，“啥”占了一个

晓得的逻辑宾语是X，S比N优先，顺序比逆序优先。
“这玩意儿他们不晓得”。这种情况又可以了。晓得的逻辑主语跟另一个不兼容。又多出来一个。整体上还是相当于一个及物动词。

李:
大主语 topic，有可能是一个 arg 的坑也有可能不占坑那就是 mod。小主语必然填一个坑。

白:
双主语有两种情形，一种是大小主语，往往有part of联系；另一种是宾语提前或话题化，这种没有part of联系。有part of的，可以名词自带坑。没有的，只能消费里面的坑。名词自带坑的，里面就可以是不及物动词了。一个坑就够。另一个靠带坑的名词自吃自吐。自带坑的名词甚至可以传导到更遥远的补语。“他眼睛哭肿了”实际是：1、他哭；2、眼睛肿；3、眼睛是他身体的部分。眼睛，和哭，共享“他”这个萝卜。因为“肿”合并到“哭”，“肿”辖域内的残坑（谁的眼睛）获得免费额度。可以复用已填坑的萝卜。

李：
有 part of 这种特别有意思：“他身体不错”。

== 【他身体】不错。
== 他【身体不错】

这两个看似水火不容的结构，都有各自的合理和优点，二者互补才反映全貌。

(1) “他的身体不错”：显性形式的小词“的”，让“他”降格为修饰语，属于填了“身体”所留的坑的修饰语。

白：
有“的”，修饰语辖域自然归并到被修饰语辖域，也获得免费额度。他，可以既填“的”本身的坑，也可以再填“身体”的坑。

李：
(2) 他身体方面不错：“身体”被降格，降格成后置词短语ＰＰ“身体方面”（Postpositional Phrase），类似状语。
(3) “他么，身体不错”，“他”降格为话题状语，用了口语小词“么”。
(4) “他身体好，又聪明” 可算是谓词“升格”（或“小句降格”）。从一元化领导升格为集体领导。本来谓词（譬如“聪明”）就是谓语，但现在“身体好”这个短语或小句整体变成了谓语，与另一个ＡＰ谓语“聪明”并列。

白：
“身体好”整体相当于一个不及物动词。两个带坑的成分级联，略去中间环节，还是吃N吐S。

李:
这些现象极端有趣，fascinating。表明在基本相同的逻辑语义底层结构中，语言表达可以借助语言学的形式手段，给这个底层结构穿不同的衣服，打扮成不同的形象。进而对其语义做某种非核心的修饰。

白：
从填坑角度看只是初等的数学运算。免费额度算清楚了，其他都是小菜一碟。这又打破树的形态，真心不是树。

李:
但是即便所有的坑都填妥了，那也只是逻辑语义的胜利，底层核心的被求解，表层的细微语义差别（nuances），那些不同表达方式，那些“升格”、“降格”的不同语言形式。它们所反映的东西严格地说也应该被恰当的捕捉和表达。

白:
两件事情，谁和谁有什么关系是逻辑语义的事儿。用什么顺序表达是另一件事。后者也负载信息。

李:
对呀。

白:
比如听说双方之前各知道什么，强调什么，诸如此类。这些不在“主结构”框架内，但是是一些“环境变量”，需要的时候可以从里面捕捉这些信息。

李:
最典型的例子是 “我读书”　与　“我读的书”，二者语义的区别，虽然逻辑语义核心以及填坑关系是相同的。

白:
焦点不同、有定性不同，已然未然不同，甚至单复数也可能不同。我当下正在读的书可能标配是单数，我读过的书标配就是复数。

李:
这些语义与逻辑语义，处于不同的层面。逻辑语义是本体（ontoogy）作为模版，这些语义与本体模版无关。所谓本体模版，说到底就是规定了坑与萝卜，及其 type　appropriateness（相谐性），他不反映这些有待填充的模版之间的结构关系，也不反映关系中的节点上附加的语义或细微差别，诸如强调、委婉、正式、非正式、语气等。

白:
这些都可以抽象为：语境的坑，只不过这些是需要经常update和reshuffle的。做下一代人机对话不做这个的，都是耍流氓。

李:
不仅仅人机对话，机器翻译也要这个。
30年前，董老师强调要以语言之间的核心，即逻辑语义，作为机器翻译的基础。让我们脑洞大开深受启蒙。然而这只是翻译需要正确传达的一个方面，的确是最核心的一面，但不是全部。边缘意义和细微差别，在核心问题基本解决后，就成为需要着力的另一方面。典型的例子是被动语态的机器翻译。从逻辑语义的角度看，主动被动是表层的语言现象，在逻辑上没有地位。因此所有的被动语态都可以转变为逻辑等价的主动语态来翻译。这有合理、逻辑和简明的一面，但人不是这样翻译的：一个高明的译者懂得，什么时候被动可以翻译成主动，什么时候需要翻译成显式的被动，什么时候可以翻译成隐式的被动，什么时候改造成反身自动的表达方式（譬如在英语到法语的翻译中加 se）。

白:
视角选择，也是一个考量因素。有时，被动语态的采用，纯粹是为了视角的连贯。跟立场态度并无直接瓜葛。

李:
总之逻辑语义是个纲纲举目不一定张对目下功夫是区别一个好的系统和一个很好的系统重要指针。

白:
纳入语境的坑，一个好处就是所有填坑的机制可以复用过来，无需另起炉灶。说话人、听话人、处所、时间、先序语段、先序焦点、相对阶位等等，都可以套用本体的subcat。

李:
这个方向探索不多。但现在是可以考虑的时候了。

白:
我考虑很久了。语义是船，语境是河。船有内部结构，但行进也受到河的左右。内部结构不能完全决定行进的选择。

白:
不知道“王冕死了父亲”算是交叉还是不交叉？
王冕游离在外，另一部分的中心词是死，但王冕却不填它的坑，而是去填“父亲”留下的残坑。成为“死了父亲”这个短语的事实上的逻辑主语。但是还原到二元关系，这个link还是在王冕和父亲之间。从形式上看，王冕（N）和父亲填坑后的残坑（/N）中间隔着中心谓词“死（S）”，但这个吃饱了的S对N和/N之间的眉来眼去是无感的。
乐见其成。

F:
如果是语义依存，是non-projective的，是有交叉的，"父亲"这个词的投射不连续。

白:
‘’倒是“父亲”填“死”坑的一刹那，让我们见证了“右侧单坑核心成分”比“左侧单坑核心成分”优先级高的现实。如果双坑，则是左侧核心成分优先级高，我把它们处理成句法上存在填坑关系了。

李:
“王冕死了父亲”的交叉与否的问题，这个以前想过。不交叉原则针对的是句法关系
这是句法关系的逻辑底线，交叉了逻辑上无法说通，所以判违规。还没见过例外：句法关系可以并列，嵌套，但不能交叉。但不交叉原则不适用于逻辑语义关系。其实，严格说，相对于逻辑语义的不应该叫句法关系，也包括词法关系（可以看成是小句法）。总之是形式层面的结构关系。形式层面的结构关系不允许交叉，这个原则是对的。有意思的是，语言中的不同层面的形式结构关系，戴上逻辑语义的眼镜，或映射到逻辑语义的表达的时候，就可能发现交叉现象。原因是昨天说过的，逻辑语义讲的是萝卜和坑的语义关系。逻辑语义的图（graph）中是不包含句法结构层次之间的关系语义的。换句话说，逻辑语义把“结构”打平了。譬如在句法中被局限在词法层面的萝卜，完全有可能去填句法层面的逻辑语义的坑。反之亦然：词法层面中的坑，完全有可能让句法层面的萝卜去填。用乔老爷的Ｘｂａｒ句法框架或概念来说就是，语言单位Ｘ的层次，在逻辑语义看来是不重要甚至不存在的，无论是　Ｘ　是　-1 (我把词法内部的层上标为负数)，０（词一级），１（组一级），２（短语一级）。萝卜与坑可以在这些不同层次中继承或跳转，但是句法上却有层次之间的区别和禁忌。

这些层次以及层次间的关系和规定（譬如不交叉原则）是客观存在的反映，是逻辑语义以外的另一层结构语义。这种东西在重视层级的短语结构句法（ＰＳＧ）及其表达中，体现得较好。在不重视层级的依存文法（ＤＧ）中就反映和表达得不好或不够。不管我多么喜欢ＤＧ，多么讨厌ＰＳＧ表达的叠床架屋，我还是要指出ＤＧ的某些不足，正是ＰＳＧ的长处。

回到白老师的例子，可以看得清晰具体一些：“王冕死了父亲”。ＰＳＧ句法上，王冕　是ＮＰ，“死了父亲”是ＶＰ，构成Ｓ。ＶＰ里面“死了”是Ｖ－ｂａｒ, “父亲”是ＮＰ宾语。这里面的结构不可能有任何交叉出现。“王冕”与“父亲”处于不同的层次，句法不允许一个单位钻进另一单位的里面去建立联系，这是违反了君臣父子的天条。一个句法结构，对外就是一个元素，里面是黑箱子，不透明（但可以利用某种机制传递某种东西）。唯此，才能维护结构的清晰。但是到了逻辑语义，这些条条框框都可以打破：一个儿子可以有ｎ个老子，交叉也不是不可以。树（ｔｒｅｅ）是无法承载逻辑语义的任意性和结构扁平化了，于是需要用图（ｇｒａｐｈ）。我早就说过，ＤＧ本性上比较亲近逻辑语义（深层核心结构），而ＰＳＧ则亲近的表层句法结构。很多人以为它们是互换的或等价的，只是表达（ｒｅｐｒｅｎｔａｔｉｏｎ）方式不同。其实不仅如此。在我们饭还吃不饱的时候，我们首先想到的肚子问题，核心问题。当我们衣食无忧的时候，我们就要讲究全面一些，核心和边缘都不放过。并不是不放过边缘，不放过表层结构语义，就一定要回到ＰＳＧ，但是至少仅仅逻辑语义是不够的，还需要添加其他，就如白老师昨天提到的那些以及他的一些表达方案。

白:
这些所谓的句法，功劳不大，脾气倒是不小。比他多识别出有价值的二元关系，反而有毛病了。哪儿说理去。我认为这里面存在一个次序问题。

站在外层N的角度，它确实填了一个/N的坑。但不同粒度会看见不同的结果。“死了父亲”是一个联合体，这个联合体挖了一个名词坑，“王冕”填进去，天造地设、严丝合缝。既没有穿越也没有交叉。“他哭肿了眼睛”也是一样。“肿了眼睛”作为一个联合体挖了一个名词坑。和“哭”的名词坑一道，共享“他”这个萝卜。

中心词作为组块的代表，统一对外提供坑。这是对的。但是这坑未必是中心词自带的，可以是中心词在组块内部兼并而来的。把坑拘泥于中心词自带的坑，相当于用镣铐把自己锁起来。何苦自己为难自己？

李:
今天的对话，符号逻辑，参杂点黑话与绿色幽默，有点绕，烧点脑。管他呢，还是发了吧。

白:
“把字句”与补语所带坑的深度捆绑，也是受这个“联合体意义上的坑”规律所支配的。“他把眼睛哭肿了”单看“哭”和“肿”，没有坑可以共享萝卜，“哭”与human相谐，“肿”与body part相谐，二者尿不到一个壶里。但是“眼睛”恰恰在这里起到了“转换插头”的作用，吃human，吐human body。看这个“肿了眼睛”的联合体所带的坑，与“哭”所带的坑，完全相谐，恰恰是可以共享的了。所以，在PSG那里避之唯恐不及的穿越交叉，其实隐藏着重大玄机。恰如其分地把它请回句法，可以起到四两拨千斤的作用。我对什么该放在句法层面，其实只有一个标准，能描述谁和谁有关系。如果谁和谁就是交叉着发生关系，句法不仅不应该回避，而且应该忠实描述。更何况，大的方面，中心词代表所在组块对外发生关系方面，并无违反。只是“过继的坑”也可以代替“亲生的坑”而已。树状结构、亲生的坑，都不应该成为忠实描述“谁跟谁有关系”的障碍。如果有障碍，一定是障碍错了而不是关系错了。

退一步海阔天空。只要把“在你辖域里残留的坑”统统在名义上算作“你的坑”，什么都结了。

李:
说得不错。但估计乔老爷是不认账的。他在句法与语义之间打隔断，坚信不隔断谁也做不好做不纯粹和深入。何况语义是全人类共同的哪有句法有性格和多姿多彩又万变不离其宗呢。他的普遍文法（UG）仍然基于句法独立于语义的根本原则。只有句法才是真正的语言学。到了语义，语言学就开始参杂逻辑的杂质了。

白：
我说的也都是句法，不是语义。只不过是能给语义省点事儿的句法。

李:
夹杂了本体，或本体的隐藏式譬如大数据中间件，就不能说是纯句法，因为常识揉进了形式系统。

白:
只是在控制（怎么做）层面引入了本体/大数据，在描述（是什么）层面无需引入。而老乔的语言学一样是不管控制层面的事儿的。也就是说，如果只是为了写一本句法书而不是为了做parser，本体连一句话都不需要提。那就在这个层面比，谁揭示了更多的结构性信息。

【相关】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1051610.html

上一篇：辨析相对论、相对论性与相对论性（的）效应
下一篇：【李白之41：Gui冒VP的风险】

白: RNN加层、计数器、加栈、加长时记忆，本质上都在突破单层FSA的计算能力。

当前推荐数：1 推荐人：马耀基

《李白之零：NLP 骨灰级砖家一席谈，关于伪歧义》屏蔽留存

《李白之零：NLP 骨灰级砖家一席谈，关于伪歧义》

屏蔽已有 2472 次阅读 2017-5-7 09:32 |个人分类:立委科普|系统分类:科普集锦| FSA, 多层分析　CFG

题记：此地有金八百两，隔壁RNN不曾偷。

李：今天我们可以讨论伪句法歧义（pseudo-parses）的问题。我说过，多层 FSA 的 deep parser 不受伪歧义的困扰，虽然这是事实，但也还是需要一个阐释。这个问题是革命的根本问题，虽然文献中很少讲述。

第一章，事实篇。

话说某年某月某日，立委与白老师在微博狭路相逢。其时，立委正海吹深度分析（deep parsing）乃是自然语言之核武器，批评主流只在浅层做文章，摘下的不过是低枝果实（low-hanging fruit）。白老师当时插话说（大意）：你们搞深度分析的不算，你们也有自己的挑战，譬如伪歧义问题。最后留下三个字：你懂的。

各位看官网虫，大凡社会媒体，只要留下这三个字，那就是宣告对手的不上档次，不值得一辩，叫你无还手之力，无掐架之勇，先灭了你的志气。此前，与白老师未有私人交往，更无卡拉ok，江湖上下，白老师乃神人也，天下谁人不知，况青年偶像，粉丝无数。立委见势不妙，战战兢兢，唯唯诺诺：“那自然”。我懂的。心里却颇不以为然：伪歧义其实不是一切深度分析的命门，它只是单层分析的挑战，特别是 CFG （Context-Free Grammar）类 parsers 的困扰。

这是第一章第一节，是锲子。

虽然心里不以为然，但是“我懂的”，却是有丰富的事实依据。骨灰级老革命有一个好处，就是碰壁。无数的碰壁。革命，碰壁，再革命，再碰壁，直至百毒不侵，火眼金睛。老革命可能还有一个好处，就是走运，走狗屎运（譬如赶上上世纪末的网络泡沫，米国的科技大跃进，天上掉馅饼），直至反潮流也没被杀头，硕果仅存。

话说自上世纪80年代社科院出道以来, 就开始做deep parsing, 跟着两位导师，中国NLP的开山前辈，中国MT之父刘先生。他们的几十年的机器翻译积累，在分析这块的传承就是多层模式匹配（multi-level pattern matching）。用 CL术语，就是 multi-level FSA （finate state automata）或 cascaded FSA，有限状态的。我是苦力、主力，新毕业生嘛，为 deep parsing 写了无数个性的词典规则和反复调试精益求精的600条抽象句法规则。埋头拉车，无需抬头看路。从来就没有碰到过什么伪歧义的问题。这是事实一。

事实二发生在我做博士的时候，90年代中期。在风景如画的SFU山头上。当时我的两位导师，电脑系的 Fred 和语言系的 Paul 合作开了一个自然语言实验室。这两位博导虽也绝顶聪明，但毕竟还年轻。在 NLP 场面上，需要站到一条线上，才好深入。实际上，他们是加拿大 NLP 的代表人物。他们于是选择了当时流行的 unification grammar school （合一文法学派）之一种，就是继 Prolog 以后，开始火起来的合一文法中的后起之秀，名叫 HPSG （Head-driven Phrase Structure Grammar）。这一个小流派，斯坦福是主打，欧洲有一些推崇和践行者，在北美，闹出动静的也包括我的导师的实验室。HPSG 说到底还是 CFG 框架，不过在细节上处处与乔老爷（Chomsky）过不去，但又处处离不开乔老爷。理论上有点像争宠的小妾，生怕得不到主流语言学界乔老爷的正视。

白: 还没进正题

李：白老师嫌拖沓了？？现在还在事实篇内。不讲道理。

HPSG 推崇者不少，真懂的怕不多，特别是把 HPSG 用于中文 parsing 方面。看过一些国人不着边际的 HPSG 论，造成了这个印象。这玩意儿得跳进去，才知优劣深浅。当然没跳的也不必跳了，合一（unification）这一路没成气候，现在跳进去也是白跳，浪费时间。HPSG 有一个好处，就是它的词典主义，它实际上就是此前流行的 GPSG 的词典主义版本。NLP 领域各路英豪你争我斗，但有一个很大的共识，就是词典主义，lexicalist approach or lexicalist grammar。这也反映在 HPSG，LFG 等风行一时的文法派中。

我呢，有奶便是娘。本来嘛，导师做什么，学生就要做什么，这才是学位正道。于是，我在HPSG里面爬滚了几年。照猫画虎，写了一个 CPSG，就是 Chinese 版本的 HPSG。用它与实验室的英文 HPSG 对接，来做一个英汉双向机器翻译的实验，当然是玩具系统。这是我博士论文的实验部分。

为什么双向？这正是 Prolog 和所有 unification grammars （又称 constraints based grammars）所骄傲的地方：文法无需改变，文法就是对语言事实的描述，文法没有方向。无论做分析（parsing），还是做生成（generation），原则上，规则都是一样的，不过是执行层面的方向不同而已。理论听上去高大上，看上去也很美，一度让我入迷。我也确实完成了双向的实验，测试了几百个句子的双向翻译，得到了想要的结果。细节就不谈了，只谈相关的一点，就是，伪句法歧义在这些实验中是一个 huge problem。这个 HPSG parsing 中，伪歧义的事实有多严重呢？可以说是严重到令人窒息。当时用PC终端通过电话线连接到实验室的server上做实验，一个简单的句子在里面绕啊绕，可以绕出来上百条 parses。当然，可以设置成只输出一条 parse 来。有时忍不住好奇心，就耐心等待所有的 parses 出来，然后细细察看，究竟哪个 parse 对。

额的神！

乍看全长得差不多，细看也还是差不多。拿着放大镜看，才看出某个 feature value 的赋值不同，导致了 parses 之间的区别。可这种不同基本上没有语义的区别性价值，是为 pseudo parses 之谓也。要都是伪歧义也好，那就随机选一个parse 好了，问题出在，这百来条 parses 里面有时候会混杂一两条真的歧义，即语义上有区别性价值的 parses，这时候，选此废彼就具有了操作层面的价值取向。否则就是以一派压制另一派，反对党永无出头之日。

这个问题困扰了整个 HPSG community（其实是整个 CFG 框架下的 community）。记得在 HPSG 内部邮件组的讨论中，怨声鼎沸，也没人能找出一个理论上和实践上合理的解决途径来。

白: 简单说就是时间复杂性上去了，结果复杂性没下来。折了兵，真假夫人还混在一起不知道赔谁合适。

李：这就是为什么当时您那么肯定地指出我作为深度分析语言工作者所面临的挑战，他是把我归到主流语言学乔老爷 CFG 的框架里说的。

在第一章事实篇结束前，简单说一下实践中的对策。后来我的导师与本省工业界合作，利用 HPSG MT 帮助翻译电视字幕。在真实应用中，他们只好选择了第一条成功的 parse 路径，完全忽略其他的 parses。这也是没有办法的办法。质量自然受损，但因为无区别意义的 pseudo-parses 占压倒多数，随机选第一条，在多数场合也还是可以的。

第一章小结：骨灰级老革命在没有理论探索的情况下，就在 deep parsing 的 field work 中经历了两种事实：一种是不受困扰的多层 parser，一种是深陷其中的单层 parser。因此，当白老师一口咬定深度分析的这个挑战的时候，我觉得一脑门道理，但就是有理说不清。至少一句两句说不清，只好选择逃遁。

对于绝大多数主流NLP-ers，NL的文法只有一派，那就是 CFG，无论多少变种。算法也基本上大同小异，chart-parsing 的某种。这个看法是压倒性的。而多层的有限状态文法做 parsing，虽然已经有半个多世纪的历史，却一直被无视。先是被乔姆斯基主流语言学派忽视，因为有限状态（FSA）的名字就不好听（多层不多层就懒得细究了），太低端小气下位了。由于语言学内部就忽视了它，自然不能指望统计派主流对它有重视，他们甚至对这路parsing没有啥印象（搞个浅层的模式匹配可以，做个 NE tagging 啥的，难以想象其深度parsing的潜力），尽管从有限状态这一点，其实统计派与FSA语言派本是同根生，二者都是乔老爷居高临下批判的对象，理论上似乎无招架还手之力。

白: 概率自动机和马尔可夫过程的关系

李：但是，多层 FSA 的精髓不在有限状态, 而是在多层（就好比 deep learning 的精髓也在多层，突破的是传统神经网络很多年停滞不前的单层）。这就是那天我说，我一手批判统计派，包括所有的统计，单层的多层的，只要他们不利用句法关系，都在横扫之列。因为这一点上还是乔老爷看得准，没有句法就没有理解， ngram 不过是句法的拙劣模仿，你的成功永远是浅层的成功, 你摘下的不过是低枝果实。不过恰好这种果子很多，造成一种虚假繁荣罢了。

另一方面，我又站在统计派一边，批判乔姆斯基的蛮横。实践中不用说了，管用的几乎都是有限状态。乔老爷要打死单层的有限状态，我没有意见。统计派的几乎所有模型（在 deep learning 火起来之前）都是单层，他们在单层里耗太久了不思长进，死不足惜，:)。蛮横之处在于乔老爷对有限状态和ngam多样性的忽视，一竿子打翻了一船人。

白: RNN可以完美模拟FSA, 但是现在的人都把RNN当做统计派的功劳。

李：但是他老人家忘记了, 我只要叠加 FSA 就可以比他所谓的 more powerful 的 CFG 做得深透，而且合体（特别适合白老师说的自然语言的毛毛虫体型）。他对有限状态的批判是那么的无视事实和缺乏理性。他是高高在上的神，不食人间烟火的，我们各路NLP实践派对他都敬而远之，基本没有人跟他走。在他本应发挥影响的领域，他其实缺乏起码的影响力。倒是语言学内部被他控制了，语言的形式化研究跟着他亦步亦趋走了半个多世纪，离作为其应用场景的 NLP 却渐行渐远。这是一个十分滑稽的领域怪相。　

李：好了，咱们接着聊第二章：为什么多层系统，尤其是多层 FSAs ，不受伪歧义的困扰？

白: 只要证明毛毛虫以外不是人话，就只管放心玩毛毛虫好了。伪歧义跟规则的递归形式无关，跟规则的词例化水平和压制机制有关。但是，要hold住十万百万量级的规则，CFG一开始就必须被排除在外。

李：对。

说到底是规则的个性与共性关系的处理，这是关键。这个不是我的发现，我的导师刘倬先生早年就一再强调这个。刘老师的系统命名为专家词典（expert lexicon ）系统，就是因为我们把个性的词典规则与共性的句法规则分开了，并且在个性与共性之间建立了一种有机的转换机制。

白老师说得对，单层的 CFG 基本是死路。眉毛胡子一把抓，甚至所谓词典主义的 CFG 流派，譬如 HPSG 也不能幸免，不出伪歧义才怪呢。如果规则量小，做一个玩具，问题不严重。如果面对真实自然语言，要应对不同抽象度的种种语言现象，单层的一锅炒的parsing，没有办法避免这种困扰。

白: HPSG 之类可以依托树做语义信息整合，但是在树本身的选择数目都在爆炸时，这种整合是不能指望的。

李：可以说得具体一点来阐释其中道理。分两个小节来谈，第一节谈多层系统中，单层内部的伪歧义问题。第二节谈多层之间的伪歧义问题。

白: 但是仍然困惑的是某种结构化的压制，比如“美国和中国的经济”’。“张三和李四的媳妇”

李：如果这两种伪歧义都有自然的应对方式，那么伪歧义不是困扰就理所当然了。待会儿就讲解白老师的例子。我这人啰嗦，学文科的，生存下来不容易，各位包涵了。

白: 抽象的并列，天然优越于抽象的长短不齐。似乎并不关乎词例，词例化的、次范畴化的规则，都好理解。抽象的结构化压制，处于什么地位呢？

李：但是难得大家围坐在一起，忍不住借题发挥一下，顺带进一步阐释了上次“上海会面”上的论点：我对乔老爷既爱且恨，爱他批判单层统计派的一针见血；恨他一竿子打翻一船人，敌我不分，重理论轻事实。

白: 是因爱成恨好吧

李：我们实际上半条身子在统计派的船上，大家都是有限状态；半条身子在语言派船上，毕竟我们不是单层的有限状态。统计派的有限状态的典型表现 ngram 实际上是 n-word，而我们的有限状态是真正的 ngram，这个“gram” 就是刘老师当年一再强调的 “句素”，是一个动态的句法单位，可以是词、短语或者小句，随 parsing 的阶段而定。这样的 ngram 是统计派难以企及的，因为它反映的是真正的语言学，多数统计学家天然不懂。

白: 世界上只有深层派和浅层派，这是复旦美女教授教导的。我认为只要touch深层，无论什么派都会殊途同归。

李：先说单层内部的伪歧义。这个白老师心里应该没有疑问了，不过为了完整还是先讲它。单层的有限状态说到底就是一个 regex （正则表达式），只不过面对的单位根据语言层次的不同而不同而已。如果是 POS tagging 这种浅层，面对的单位就是 words （or tokens）。如果是句法关系的解析层，面对的单位就是短语（可以看作是头词，它代表了整个短语，“吃掉”了前后修饰语）。

对于单层，有两种结构歧义，一种是伪歧义，占多数；一种是真歧义，占少数，但存在。单层系统里面的每一条规则都是一个 pattern，一个缩小版的局部 parser （mini-parsing），试图模式匹配句子中的一个字符子串（sub-string）。歧义的发生就是 n 个 patterns 对相同的输入文句的字符子串都成功了。这是难免的：因为描述语言现象的规则条件总是依据不同的侧面来描述，每条规则涵盖的集合可能与其他规则涵盖的集合相交。规则越多，相交面越大。每条规则的真正价值在于其与其他规则不相交的那个部分，是那个部分使得 parsing 越来越强大，涵盖的现象越来越多。至于相交的部分，结论一致的规则有可能表现为伪歧义（结论完全一致是异曲同工，没有歧义，但设置一个系统的内部表达，难免涉及细节的不同），这是多数情形。结论不一致的规则如果相交则是真歧义。这时候，需要一种规则的优先机制，让语言学家来定，哪条规则优于其他规则：规则成为一个有不同优先度的层级体系（hierarchy）。

白: 在线？

李：FSA Compiler 事先编译好，是 FSA Runner 在线做选择。

白: 那要隐含规则的优先关系，不能初一十五不一样。

李：个性的现象优先度最高。共性的现象是默认，优先度最低。这个很自然。一般来说，语言学家大多有这个起码的悟性，什么是个性现象，什么是共性。

白: “张三的女儿和李四的儿子的婚事”

李：如果优先语感不够，那么在调试规则过程中，语言数据和bugs会提请语言工作者的注意，使得他们对规则做有意义的优先区分，所谓数据制导 (data-driven) 的开发。

白: specificity决定priotity，这是个铁律。在非单调推理中也是如此。

李：这个优先权机制是所有实用系统的题中应有之意。优先级别太多太繁，人也受不了。实际情形是，根本不用太多的优先级别区分，每一层分析里只要三五个级别、最多八九个优先级别的区分就足够了（因为多层次序本身也是优先，是更蛮横的绝对优先）。

白: 我还是觉得优先级初一十五不一样的时候一定会发生，而且统计会在这里派上用处。

李：一切是数据制导，开发和调试的过程自然做到了这种区分。而更多的是不做优先区分的歧义，恰好就落在了原来的伪歧义的区间里面。这时候，虽然有n条规则都产生了 local parses，他们之间没有优先，那就随机选取好了，因为他们之间其实没有核心 semantic 的区别价值（尽管在表达层面可能有细微区别，hence 伪歧义）。换句话说，真歧义，归优先级别控制，是数据制导的、intuitive 的。关涉伪歧义困扰的，则变成随机选取。这一切是如此自然，以至于用FSA做parsing的从业者根本就没有真正意识到这种事情可能成为困扰。关于初一15的问题，以及白老师的具体实例，等到我们简单阐释第二节多层之间的伪歧义的应对以后，可以演示。

第二章第二节，多层之间可能的真伪歧义之区分应对。

对多层之间的真歧义，不外是围追堵截，这样的应对策略在开发过程中也是自然的、intuitive 的，数据制导，顺风顺水。围追堵截从多层上讲，可以在前，也可以在后。在前的是，先扫掉例外，再用通则。在后的是先做默认，然后再做修补（改正、patching）。道理都是一样的，就是处理好个性和共性的关系。如果系统再考究一点，还可以在个性中调用共性，这个发明曾经是刘老师 Expert Lexicon 设计中最得意的创新之一。个性里面可以包括专业知识，甚至常识（根据应用需要），共性里面就是句法模型之间的变式。

好，理论上的阐释就到此了，接下去可以看实例，接点地气。白老师，你要从哪个实例说起？我要求实例，加问题的解释。

白: “中国和美国的经济”。这就是我说的初一十五不一样。

李：这是真的结构歧义，Conjoin （联合结构）歧义。在语言外知识没带入前，就好比西方语言中的 PP attachement 歧义。结构歧义是NLP的主要难题之一。Conjoin 歧义是典型的结构歧义，其他的还有 “的”字结构的歧义。这些歧义在句法层无解，纯粹的句法应该是允许二者的共存（输出 non-deterministic parses），理论上如此。句法的目标只是区分出这是（真）歧义（而这一点在不受伪歧义困扰的多层系统中不难），然后由语义模块来消歧。理论上，句法和语义/知识是这么分工的。但是实践中，我们是把零散的语义和知识暗渡陈仓地代入句法，以便在 parsing 中一举消歧。

白: 一个不杀当然省事。但是应该有个缺省优先的。

李：缺省优先由“大数据”定，原则上。统计可以提供启发（heuristics）。

白: 有次范畴就能做出缺省优先。不需要数据。

李：当然。次范畴就是小规则，小规则优先于大规则。语言规则中，大类的规则（POS-based rules）最粗线条，是默认规则，不涉及具体的次范畴（广义的subcat）。subcat based 的其次。sub-subcat 再其次。一路下推，可以到利用直接量（词驱动）的规则，那是最优先最具体的，包括成语和固定搭配。

白: 次范畴对齐的优先于不对齐的，就联合结构而言。但是，about 次范畴，理论上有太多的层。

李：那是，联合结构消歧中的次范畴不是很好用，因为这涉及词的语义类的层级体系。不管是 WordNet 还是董老师的 HowNet，里面的 taxonomy 可以很深，统统用来作为次范畴，不太现实。但理论上是这样使用的。

白: 再一个，“张三的女儿和李四的儿子的婚事”。这个也是真歧义吗？

李：上例的问题和难点，白老师请说明。"的"字结构的 scope歧义加上联合结构的歧义的叠加现象？

白: 上例是处理深度的问题，各自理解即可。歧义叠加，只有更加歧义了。可是实际相反，叠加限制了歧义。

李：在分层处理中，我们是这样做的:

（1）Basic NP, 最基本NP层的结果是：NP【张三】的 NP【女儿】和 NP【李四】的NP【儿子】的 NP【婚事】

（2）Basic XandY, 最基本的联合结构层：在这个层次，如果条件宽，就可能发生联合错误，错把【女儿和李四】联合起来。这个条件可以是 HUMAN，二者都符合。而且在 95% 的现象中，这个条件是合适的。如果条件严的话，譬如用 RELATIVES 这个语义次范畴（HUMAN的下位概念），而不是 HUMAN 来限定的话，这个句子在这一层的错误就避免了。

那么具体开发中到底如何掌握呢，这实际上决定于设定的目标，没有一定之规。做细总是可以做到更好质量，大不了多加几层 NP 和 XandY 的模块（FSAs），但还是增加了开发和维护的负担。如果做粗一点，只要所造成的 parsing 质量上的后果能控制在应用可接受的范围，那也未尝不可，因为说到底，世界上没有完美的系统。上帝允许人类的不完美。

白: 把这个换成“AB的中点与AC的中点的连线”？同样的结构。

李：另一个思路，就是多层协调中的修补。对于上述两个例子，修补的办法似乎更好。与其分多层，代入各种繁琐的语义条件来消歧，不如任他出错，然后根据pattern的平行因素加以修正。在多层系统中，这个常常是有效的策略，也符合开发的总体规划。先把系统大体弄得work了，可以对付多数现象，然后有时间和余力了，后面可以 patching。前提是，错误是 consistent 和 predictable 的。对于多层管式系统（pipeline system），错误并不可怕，只要这种错误 consistent 有迹可循，后面总可以把它们修正。

多层管式系统常常被批评存在一个 error propagation（错误放大）的难题。其实，多层系统也可以做到负负得正（矫枉过正是也）。一个好的系统设计，是后者，通过 data-driven，可以做到把错误放大控制到最低限度，并发扬负负得正来得到最终正确的结果。

白: 伟哥的诀窍其实是把握一个适中的词例化-次范畴化水平问题。太粗则伪歧义盛行，太细则边际效益大减。

李：上例中 “中点与AC” 可以联合，不过是一个暂时的内部错误而已，后面可以修正。总之，这些都不是根本的 challenge，想做就可以做，实际操作上，也可以选择不做。问题大了，就做；用户发飙了，就做；否则就无视。很少有歧义是做不出来的，功夫和细节而已。最终决定于值得不值得花这份力气，有没有这样的开发时间和资源。

白: 做与不做，有可能影响架构选择。补丁有好处也有后遗症。

李：NLP 可以做一辈子，在基本机制（优先机制，修正机制，范畴、次范畴机制，专家词典等）由平台实现提供以后，慢慢磨到最后就是 diminishing return，与爬山类似，这决定了我们何时罢手。如果85%的精度作为parsing的目标，那么系统会选择不做一些稀有的现象。有了这个 85%，已经可以满足很多应用的要求了。

有了 85% 做底，还可以让机器变得智能起来，自动地自我提高，所谓 self-learning，这是研究课题了，但是是可以实现的。实际上在我指导的实习生实验中已经实现，不过就是在线开销太大而已。

白: 再看“馒头吃光了”？

李：这个例子更容易讲清楚。在系统的某一层，可以有个规则把某种 “V+光" parse 成为动补结构，这个V的限制可以调试出合适的子范畴来。

白: “光”词例化肯定是可以的。

李：好，这就解决了95%以上这类以“光”收尾的现象。如果遇到了反例，譬如，“黑洞吃光了”，那么或者修正它，或者作为个体知识的规则前置。围追堵截是也。总是可以把零碎的专业知识做成规则，如果需要的话。至于这么做值得不值得，那是应用层面的决定。很多时候是不必要的。错了就错了，不过是显得系统缺乏专家的知识，so what？我们普罗 native speakers 也都不是每一行的专家，也并不是每句话都听懂，不也一样没觉得交流困难。就此例来说，决定于听者的知识面，小学生和文盲一般不能正确 parse 理解 “黑洞吃光” 的动宾语义来。动宾的语义是需要语言外知识在语言内非优先的潜在结构上作用才能得出。而动补结构则不需要，那是语言内的句法知识（最多说是句法子范畴或小规则，但不涉及专业知识），是所有国人的默认理解。

白: 这一点非常重要。一个开放，一个封闭。一个外部，一个内部。外部的事儿，就算没有专业知识，也可以大数据招呼。

李：今天似乎可以结束了，说到底，就是：

一，平台需要提供一些基本机制来处理共性与个性的关系，从而应对歧义，这些在 FSA formalism 的教科书定义中可能不存在，或被忽略，但却是实用系统不可或缺的。

二，NLP 的确是个力气活，有无限的可能深入。当然，我们可以选择不深入，可以选择何时罢手。

至于大数据招呼，那个在前述的自学习上也必须用到。我们教授机器做到 85%，大数据基础的自学习可以让它自行提高到 90%，这个是部分证实了的，可惜还没有发表出来，以前说过，懒得成文。都骨灰级老革命了，谁在乎那个。我说的大数据是指与大语料库对应的 grammar trees 自动形成的 forest，比 PennTree 大好几个量级。

这次神侃算不算基本回答了疑惑，可以得出“伪歧义在多层系统中不是困扰”这个结论？

白: @wei 是，非常感谢。

李：不过，我们一方面实用制导，一方面没有忘记基本面和大局。与纯粹的实用主义，头痛医头，脚痛医脚，还是不同。这种积一辈子挖煤的经验之谈，正式论文中罕见，也算一件功德。难得的是白老师还有雷司令身为主流精英，居然能一开始就高于主流，不排斥异端或少数派。所以上次上海聚会，我就说，火药味的架掐不起来的, 因为相互的理解和欣赏多于分歧。但我知道也有很多统计死硬派，甚至大牛，是不尿这壶的。

白: 只要聚焦于深层，一定会殊途同归。RNN记在统计账上，但已经是深层了。

可以再关心一下NLP的商业模式，怎么能讲一个好故事。我们说fsa也好分层也好，资本都是不感冒的。

李：滑稽的是发现有些死硬派做了n年NLP，却真地不懂语言学，有个别大牛连常识都不懂，让人跌破眼镜。当然这个只能内部说说，不能博客的。所以往往是互相地不尿对方那一壶，与宗教之战类似。

RNN 我不敢发言, 不过从白老师零星的介绍来看, 很可能殊途同归。不过 FSA 这套 deep parsing 是已经稳定成熟的技术。RNN 的工业成熟度如何，我不知道。可能都是核弹, 不过是原子弹氢弹区别而已。

白: Ngram说不定变出个什么花样来，也殊途同归。

李：其实多层 FSAs 本质上就是 ngram 的花样，不过 gram 不再仅仅是词了，而是等于或大于词的句素。能以动态句素作为 ngram 的对象，是因为多层的原因，跟剥笋子一样，层层扒皮，gram 当然就是动态的了。这一点很关键，是乔姆斯基都没想到的 power。

白: 对，边扫描边归约，边抛出句素。

李：这里面最 tricky 的不是机制而是细节。魔鬼在细节，就是指的这个。FSA 是“古老”简单的机制了，细节就是玩平衡，玩模块之间的协调。玩得好的就好比中餐的大厨，可以做出满汉全席来，玩不好的还不如麦当劳、keywords。到这一步，经验因素开始起作用。没碰过n次壁，甚至几万小时的炼狱，这个火候掌握不好。这类系统很难做得表面上漂亮光洁，总是在混沌中前行，要忍受不完美。这方面的忍受，数学家不如语言学家。数学家天生追求简洁完美，不愿意将就。

白: 句素的个头大，影响范围就大，相当于抛得就远。可以进入远距离的滑动窗口，伟哥说的Ngram的缺点就不存在了。

dirty是必然的。

李：ngram 的缺点是主流的缺点，不是语言多层派的缺点。恰好相反, ngram 多层以后，很容易比任何 CFG 做得细致深入，以至于，想怎么深入就怎么深入, 如果持续开发的话。

CFG 那套单层范式，无论统计模型还是传统文法加以实现，真地深入不下去，是框框决定的。两边都玩过，这种对比太强烈了。我对我的博导说过， HPSG 真地不好用，那边费那么大劲的事儿，在我这儿是小菜。说拿的是牛刀，可对象不是牛，而是鸡。不如我剪刀和匕首好宰鸡。

白: 我一个学生搞蛋白质折叠的分析。蛋白质大分子折叠的点恰好是若干局部的代表（相当于语言的head中心词）之间发生全局相互作用的地方。真是神了。

李：今天到此，特别谢谢白老师的互动和精彩的及时点评。

原载：
科学网—泥沙龙笔记：真伪结构歧义的对策（1/2) ；
骨灰级砖家一席谈，真伪结构歧义的对策（2/2)

【相关】

乔姆斯基批判

【立委科普：管式系统是错误放大还是负负得正？】

【关于NLP方法论以及两条路线之争】

[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1053411.html

上一篇：【立委随笔：听喜马拉雅老罗侃人工智能】
下一篇：【李白之42：谈谈工具格的语言形式】

【李白之31：绕弯可以，弯不过三】屏蔽留存

【李白之31：绕弯可以，弯不过三】

屏蔽已有 2467 次阅读 2017-2-19 10:19 |个人分类:立委科普|系统分类:科研笔记| parsing, 中文自动分析

白:

“一定要在他家里没有醒过味来的时侯把生米做成熟饭。”

我:

词典：加入成语醒过味来：

白:

填坑严重不全的，要减分啊……

“在他家里”这个，貌似掉进就近结合的陷阱了。

我：

“在他家里”不是主要问题，那个可以补救。“在” 本来就是可有可无的 P。

白:

在和时候的间距，被你这么一弄弄短了。

我：

间距短不是问题，小词配对的目的就是把关系厘清。达到目的了，间距无所谓。“在。。。家里” 与 “在。。。时候” 是两个“在”共享了一个syntax。

白：

“在他家里还没有察觉到这一层利害关系的时候把生米做成熟饭。”

我:

白:

也是辖域问题

我:

“在” 比较特别，是个万能介词。做了补救唤醒，主语还是恢复了。

白:

“他家+里”，做主语的可能性就太小了。要是能搞成“他+家里”，就不一样了。

我:

？

关键还是怎样处置合算的考量。

“在（PRP）家里” 脱离上下文的时候就是一个扩展的合成词。处置成更多做状语的PP 还是更多做主语的NP 就是一个强盗的规定。事实上目前的处置 “（PRP）家里” 已经是主语状语兼容了，因为方位词结构在汉语的确是大多做状语像PP，少部分做 NP，因为方位词本身是从名词变过来的。可是前面出现了一个 “在”，因此就几乎决定了其状语特性很难翻盘了。这时候再带入辖域的考量，说这个 “在” 被 overloaded 了，不能光看就近原则，它可能不就近。然后就要在两股力量里面去权衡。第一股力量是就近原则的 “在+方谓词结构”，非常常见。第二股力量是方位词结构去填主语的空，这个其实不常见，因为主语是经常省略的。然后指望一个 “精巧” 的系统能在上面两股力量的权衡中，恰到好处地拿捏分寸，达到人的具体情况具体对待的灵活性。这样的要求不大现实而且极易弄巧成拙。因为里面绕弯太多了，而且都不是确定性的。系统不能做得太精巧，正如人不能太聪明，有过很多这个教训。绕弯可以，但弯不过三是基本原则。

“弯不过三”是我实践中总结出来的开发原则。这个弯就是规则之间的 dependency。理想的系统，规则之间是完全独立的，相互不牵扯，这叫做“规则与规则分开”：否则规则系统就容易成一团乱麻，宁肯冗余，也不要把规则搅合在一起。但是，实践中，我们其实做不到完全的规则独立，分层处置的本身就已经隐含了某些规则之间的依赖关系（dependency）：某些规则是 assume 另一些规则做了某事以后才有意义的。这时候，设计开发系统的时候，就需要一个原则性的掌控，那就是“弯不过三”。意思是说，相互牵扯的规则最多可以有三层，多于三层的，就违反原则了，容易造成系统的不鲁棒，最好不要到三层： a 依赖 b，b 依赖 c，这就已经危险了。c 如果还指望 d 那就超出了系统逻辑链条可以承受的极限了。可以做出一个绕弯多于三层的系统，在某一个时候也调通它。但是这样的系统几乎不可维护。弯不过三是针对具体规则而言的原则，并不是说作为一个规则系统，只能做三层，那就太局限了。事实上规则系统整体绕弯可以多达百层。至少几十层是常见的，那么在几十层的分层处理中，这个弯不过三的原则一定要坚守。模块之间总体的依赖不在此列，譬如做 PP 要求基本 NP 已经就位，做 VP （包括动宾、双宾、宾补等各种 subcat patterns）要求基本的 XP （NP，AP，PP，VG）等短语都已经形成，做主谓要求VP结构已经解析，等。

白:

为什么我的眼中昨天的把字句辖域和今天的在字句辖域是同一个问题？

我:

因为你是从一个角度看，确实是同类问题。我说的不是辖域，辖域只是弯不过三原则中的一个弯而已。如果这个弯与其他弯的交错中，造成了违背原则的危险，就要舍弃这个弯。

白:

都是介词跨定语从句，而且也可以规定跨不过三，那样的话同一个问题就可以在同一个框架下解决。

我:

你就是要说，有很强的可能应该：家里还没有察觉到 --》 SVO，来让出那个 “在” 去找远距离的搭配。第一，“还没有察觉到”对主语的要求没有那么强烈。主语省略太常见了，以至于人类创造了显式和隐式的被动句。

“在还没有察觉到这一层利害关系的时候把生米做成熟饭”

上句没有主语，一样很顺：“还没有察觉到这一层利害关系的时候”。第二，“在。。。里” 作状语，是压倒多数。甚至 “在。。。家里” 也是压倒多数。这个是我毛姑姑但八九不离十，可以统计验证的。第三 “在” 恰好遇到辖域的远近距离的歧义的情形，就是你现在关注的这个现象，其实没有那么普遍。这个也是我的毛姑姑，也许可以统计推翻。即便就这个辖域现象本身而论，远距离辖域控制多于就近原则的可能性有多大？感觉不超过一半。

白:

定语从句中，本来就有缺项，主语再省略就有点过了。所以，正常主句中主语省略状语强化占优我认，但定语从句中应该是主语填全状语弱化占优。

我:

听起来有理，但照你这些说法做，总觉得走偏的危险大。

白:

顺手而已

我:

感觉是属于过分聪明的思路。你又增加了一个维度：主句 vs 从句。而且用 “占优” 这样的不确定性的平衡。说来归齐，主语和状语弄错了有什么大后果么？

白:

填坑角度，这都是应有之义，根本就不用加维度。

我:

其实主语宾语弄错了都没啥后果。因为主语、状语和宾语都是姐妹节点，都与 parent 有直接亲属的关系。弄错了，对于 IE 抽取，没啥影响（对于 MT 可能有些影响）。这是从语用考量。

白:

不是的，他家+里，没有这个意思。

抽不出来。

我:

从句法考量，就是一种关系弄错了，多大程度上影响其他部分的 parsing。如果影响小，就无所谓。在上面的例子中，是没有影响。第三个考量就是，弄错了，真要翻盘，可以不可以，就当是休眠了，可以唤醒不？当然可以唤醒，都是儿女，不过是标签有误，要翻等句法完成以后也可以翻。我不把句法看成是最终的语义理解，更多是把它看成桥梁和标配的语义理解。作为桥梁，有了架子，怎么改都可以，因为句型清晰了。作为标配，翻盘自然也是可以的。

怎么抽不出来？那么 “难过” 是怎么抽出来的？不能因为 “难过” 不是 “难/过”，于是作为非情感的后者就抽取不了？一样可以抽取，抽取出来说，标配错了，这个不是 sad 的情绪(emotion)，这个是客观的困难(negative behaviour), 虽然都是负面的东西，情报上我们是当作不同的情报来抽取的。后者是 actionable insight，前者不过是情绪而已。

白:

翻盘多了，线速就是个笑话。

我:

QUOTE： Countless lessons learned over the years in the NLP system development show that a robust real life system should not be too sophisticated just as man should not be too smart. As a rule of thumb, anything involving more than 3 levels of dependency is too delicate. You can "make" it work today, but it will break some day.

from 【科研笔记：系统不能太精巧，正如人不能太聪明】。

基本上如此。

翻盘是聚焦以后的动作，都到了雷达上了，还有什么可以影响线速？长尾在语用层面成为短尾了。这个以前论过。指望句法做长尾是劳民伤财，吃力不讨好。句法对长尾能有一个相对 “合理” 的安置，就已经很尽心了。譬如都是 children，但是主宾有错位。其实，宾语很少错，主语有逻辑宾语的可能，不过是多了一种可能而已，对于语用是小菜，谈不上影响线速。譬如我有一条语用规则要查宾语，instead of 查宾语，我不过就是查一下 “宾语 OR 主语” 而已。这个怎么可能影响速度？搜索空间没有任何实质变化。

【相关】

【科研笔记：系统不能太精巧，正如人不能太聪明】

【立委科普：歧义parsing的休眠唤醒机制再探】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1034561.html

上一篇：【语义计算：汉语语序自由度再辩】
下一篇：科普一下条纹码二维码的历史

【NLP主流的反思：Church – 钟摆摆得太远（1）】

当前推荐数：3 推荐人：吉宗祥 xiyouxiyou xlsd

发表评论评论 (1 个评论)

删除 |赞[1]mirrorliwei 2017-2-19 12:17: “绕弯可以，但弯不过三是基本原则”有普适性。在理工科的设计中，用同样技术手段的重叠使用一般不过3次。比如说电磁铁里加电磁铁的线圈，提升磁场强度；再比如3级火箭的设计，都是这样的事例。因为背后都有一个效果递减的法则在起作用。

【语义计算：领域专家是 AI 的未来】屏蔽留存

【语义计算：领域专家是 AI 的未来】

屏蔽已有 2297 次阅读 2017-3-7 03:26 |个人分类:立委科普|系统分类:科研笔记| 人工智能, 领域专家

Feng:
近来一些语言学泰斗提出汉语没有主谓结构的观点，轰动一时，我等做nlp的人怎么办？

Bai:
有无主谓无所谓，有坑就灵。名分的事，NLP不介入也不会损失什么。

Wang:
支持白老师的观点

Bai:
“这本书我只读了第一章。”
反正首先要回答“我、这本书、第一章、读”之间谁跟谁有关系（可以先不问是什么关系）。能答对的理论就比不能答对的理论强。我、这本书、第一章，都跟读有关系。这本书和第一章有关系。怎么起名，其实无所谓。

Dong:
“汉语没有主谓结构”，其实本来应该由nlp学者提出的。其实nlp界早有人对词类、词性标注、树库提出过挑战。然而，人微言轻，更何况语言学界的那种学术民主、平等观念的淡薄，阻碍了学术的发展。

Feng:
振东意见高明。

Feng:
语言学家不关心nlp的研究，但是又想指导nlp的研究。这是很遗憾的？

Liang:
NLP 由数学家研究比较好，也许。思路不一样。语言学家描述，language-as-we-know-it. 老乔的思路其实挺好的，什么样的机制能够生成语言。语言是怎样 emerge 出来的。白老师的“萝卜-坑理论”挺好的，挺简单，动词、形容词、一价二价名词是坑，专有名词都是萝卜。

Me:
语言学家不是不关心是没法关心。不懂怎么关心？只好无视。各种跨学科的事儿有很多，但像 nlp 这样的跨学科还是比较特别。特别就特别在两边大都不懂，互相不认账互相无视。就是这样。

Bai:
小心有人躺枪～

Feng:
nlp是在深层次上跨学科，需要进行更新知识的再学习。

Me:
就是。即便做nlp的互相不懂也不为少数。更不要指望纯粹的语言学家（人称文傻）去懂了，也不要指望精算师（统计学家、数学家，人称理呆）去懂语言学了。隔行如隔山，同行也隔山。没办法，术业有专攻。

Jiang:
太互相不懂了！

Liang:
这很正常。思路不一样。

Jiang:
嗯！亲身工作体验很重要。

Me:
冤家，属于人类学者的 spectrum 中的两极，两种不同的材料制造出来的人。不懂居多是常态；两边都懂属少数。两边懂得又深又透的，可尊为国宝，比大熊猫还稀罕。

Liang:
快灭绝了？

Me:
所处的层面不一样。

肯定有躺枪了。至少显得后继无人不信问白老师。好在白老师桃李满天下，保不定出息几个出来。但大环境在那儿。大环境不利于跨学科相互了解和融入。

Bai：
我觉得微观上从语言学获得了许多营养，宏观上欠语言学一个理论创新。

Me：
我们这种半瓶水只能羡慕嫉妒了。燕雀仰慕鸿鹄之志。

有意思的是，nlp 回归语言学是大势所趋。其实整个 ai 都有回归的趋势。未来的 ai 是领域专家的天下。

Bai:
烈火过后看出来什么是真金

Me:
现在做nlp平台的少数贵族，做 ai 平台的极少数大神，都已经看到了，平台出来是给领域专家施展的，而不是给精算师的。高明的平台创造种种条件，让领域专家有最大的决策和施展的空间。

精算师将来只有两条路，要不升格为贵族，要不降格为机器人。想做领域专家也是一条路可底子不行又放不下身段基本走不通。

Bai:
nlp称不上平台，引擎差不多

Me:
nlp 有平台的一面。当然可以说 ai 平台涵盖了 nlp 平台，不过毛毛虫机制（formalism）的探索，现有的ai平台貌似不能完全涵盖。

我们所处的时代恰好是领域专家被歧视的时代。主流把领域专家看成资料员，或负担，不是一日两日了，是整整一代，有一代的断层。但大趋势是，领域专家在下一个时代会成为香饽饽，他们是 ai 的主力和实施的关键，质量的保证。对于可能降格为机器人的平台维护人员，领域专家是他们的客户，他们的上帝。一切为领域专家服务。

这不是乌托邦的图景，是有相当明显迹象的趋势。其实在小范围内，这也是一种已经实现过的模式。过去18年在我建立的环境中，基本就是采这种模式。语言学家团队属于领域专家，一直被伺候着。一个很深的体会是，领域专家中有两类，一类是可以培训出来，具有某种 engineering sense，因此可以适应这种 AI 模式。也有领域专家就是不入，虽然领域素养很深厚，但就是与 AI 无缘。

【相关】

[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】

【NLP主流的傲慢与偏见】

【Church – 钟摆摆得太远（5）：现状与结论】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1037947.html

上一篇：【立委兄：加拿大东部枫叶游（6/11）】
下一篇：【立委兄：尼亚加拉大瀑布游记】

【李白之22：兼语式的处置及其结构表达】屏蔽留存

【李白之22：兼语式的处置及其结构表达】

屏蔽已有 1833 次阅读 2017-1-21 16:26 |个人分类:立委科普|系统分类:科研笔记| 自动分析, 兼语式, 宾语补足语, 汉语NLP

白:
hownet坑的供给比较充分，但是也很难说一定不会超出上限。（董老师可以试试“这场火多亏消防队来得及时”）

有很多其他类型，比如，“穿着拖鞋就走出来了”。不知道该贴啥标签。还有“撸起袖子加油干”。这两个例子中，在时间上，伴随行为本身在前，伴随行为的遗留状态持续时段包含核心行为持续时段。比如，撸袖子的动作在前，然后遗留状态持续，然后加油干持续，然后加油干结束（或有），然后放下袖子（或有）。

我:
with sentiment:

at least for semantic landing to sentiment, the parse gives decent support。

宋:
O和ObjV是什么关系？

我:
宾语和宾语补足语

白:
比如：知道你来了。你是O，来了是objV

我:
not really

宋:
@wei 你的论元关系分析，相当炉火纯青了。

我:
宋老师果酱。

白:
这俩的区别？“消防队来得及时”为啥不可以是objClause？

我:
“多亏” 直接 link “消防队”，“知道” 不直接 link “你”，only linking to the event

白:
我是问，是否直接link，准则是什么？有什么必要区分这两者？

我:
语言学家的多数有共识。词典subcats 印象也是区分的，落地时候也发现有益。

白:
但很多研究汉语语法的人并不认为汉语有“宾语补足语”的。准则是什么呢？一词一议？
sentiment传递？
“我讨厌他总出差”
这里的“总出差”成了objV，“他”是O。“讨厌”的负面属性可以传递给O，是吗？如果这样，O必须是objV的逻辑S，否则，“我讨厌花摆在阳台上（，掉下来砸到人怎么办？）”
里面的“花”就要受牵连了。

我:
对。

我讨厌ipod
我讨厌iPod老死机
我讨厌花儿
我讨厌花儿老养不活

这事儿真细究的话，属于 subcats 同形打架：带 clause 的句型与带宾补的句型。

白:
“我喜欢厕所门朝北开”
问题是要给宾补一个存在的理由。理由不存在，打架就不存在了。

我:
几乎所有的汉语文法（英语文法亦大同小异）都区别下面三种句型：（1）动宾式；（2）兼语式；（3）宾语从句式。动+宾+宾补的 representation 反映的是兼语式句型。兼语是一种简省的说法，不是一个单纯的（atomic）的关系成分标签。兼语说的是既当V1的宾语又当V2的主语。表面上看，只要我们连上了 O，也连上了 S，所谓的宾补V2 也就间接连上了 V1，因此把 V2 直接联系上 V1 作为宾补似乎没有必要。问题是，那样的 representation 不能表达 V2 在结构configuration上是低于 V1 的。事实上，这是一个典型的 right branching recursion，V2 是一个 VP（V-bar according to X-bar theory），V1 只是一个 lexical V (V no bar)，V2 代表的 VP 整体都是包含在 V1 所辖的边界内。帮助 V1 构成一个更大的 VP。V2 的 VP 也可以是一个兼语式 (递归)。

白:
对。兼语句前后句的坑共享没有疑问。有疑问的是后句不必是前句的objV。在能清晰表达坑共享的前提下，V2有必要成为V1的直接成分吗？如果是，那就做小句宾。如果不是，就是松散的两个谓词做兼语式。为什么要弄出个第三条道路？

我:
小句宾与兼语式有相同的地方，有不同的地方，也有灰色地带。

白:
我知道你来。我喜欢你来。
这是一样的结构。

我:
不能拿灰色说事儿。“得悉”，只能带小句，不能带兼语，这是黑白分明的 case。

得悉你来
* 得悉你

灰色地带最突出的案例在英语的 minimal pair：

I demand him to leave immediately.
I demand that he leave immediately.

白:
这是生成时才用得到的区别，分析时可忽略。

我:
英语句法上泾渭分明的两个句型，在逻辑语义深层其实是大同小异的，很灰色。

白:
汉语里没必要弄出第三条道路

我:
不一定只有生成才需要区分。语义落地也可能得益。如果没有宾补的直接联系，我问 O，就不能区分单纯的 O 和带宾补的 O，如果所有的兼语都变成宾语小句。

白:
我派你去，就是“我派你”“你去”不需要让“去”从属于“派”。
或者说，“派”不需要给“去”预留一个坑。

我:
那就切断了动词 V1 与兼语的直接联系。必须通过 V2 才能间接联系到兼语。

白:
错，萝卜共享就是联系

我:
有时候我们不在乎是宾语还是兼语，我们就没办法用同一个子树句型做抽取。譬如，“多亏”：

多亏老李。
多亏老李送我回来。

这两句要找感谢的对象，就无需区分宾语和兼语。

白:
这没什么不好。多亏我处理成副词。“多亏了”也是一个副词

我:
如果第一句是 VO 第二句是 V+Clause，就必须用两个句型才能捕捉。

白:
多亏老李，是副词升格为动词。

我:
关键是，有时候我们需要区分宾语和兼语，有时候我们不要区分，为了同时照顾这两种需要，把兼语处理成子句是不妥的。

白:
可以不从句法上区分，而从词典来区分。

我:
退一万步，多一个宾补的直接联系，只有好处，没有坏处。

白:
我的处理是要么包进来要么切断。多了歧义打架需要处理，而这本来可以是伪歧义。

我:
是真歧义，那就该处理。是伪歧义，也可以硬走一线，系统内是可以保持一致性的。你这里所谓伪歧义的情形实际是灰色地带，或两可地带，系统内部可以规定走哪一线，内部协调即可。伪歧义的真正困扰是系统无法区分，随机走路径。如果有办法确定性地走一条路径，理论上的伪歧义在实践中就化解了。传统 parser 的伪歧义困扰是，伪歧义与真歧义混淆在一起，使得真歧义无法现身。这里的情形不是。

白:
中间没有N的，也有助动词和补语两种可能性。助动词带的谓宾真包进来，补语我处理成共享萝卜的对等合并，与所谓核心动词并无隶属关系。只不过形式上把根让渡给前面核心动词而已。
看看前面的例子，“我喜欢厕所朝北开门”，什么特征决定了“厕所朝北开门”是小句宾？

我:
不好说。
假如有一家厕所公司专门建厕所，就好像苹果公司造 iPhone 一样，“喜欢厕所朝北开门” 与 “喜欢iPhone照相清晰” 有什么根本区别？再如，“喜欢厕所清洁卫生”。

与其花力气区分灰色地带的兼语 from 子句，不如一条路走到黑，对灰色的那些词规定一条路径。到落地的时候，如果需要，再进一步 fine-tune 来决定。如果是 sentiment 落地，就可以这样来 fine-tune：“喜欢”的兼语必须是产品或其他实体专名，才可以让其得到 positive sentiment，这是从严的 fine tuning。从宽的 fine-tuning 可以要求兼语不能是带有贬义色彩的名词，assuming “厕所”是这种类别。但是这种 fine-tuning 的拿捏，只对做“兼语”的名词需要，如果“喜欢”所带的不是兼语，而是纯粹的名词宾语，那么不管宾语是王八蛋还是杀人犯，喜欢的 positive sentiment 还是落在宾语身上。

“当年的德国，很多人喜欢甚至崇拜希特勒。” 对于希特勒，这是 positive sentiment。但是，cf：

“我喜欢希特勒被处以绞刑，而不是自杀身亡，逃避人民的审判。”

这句中的“喜欢”，对于希特勒就不是 positive sentiment，因为 parser 把希特勒parse成有宾补的O（即兼语），而不是纯粹的 O

白:
喜欢厕所朝北开门与喜欢iPhone照相清晰有什么根本区别？---这话也是我想说的，但我认为它们都是小句宾句式，与兼语无关。

我:
我要说的是，对于这样的 cases，要不一律处理成兼语。要不一律处理成小句宾语，只要 consistent 即可。

白:
希特勒那句，也是小句宾，没兼语什么事儿
什么情况下sentiment可以穿透到下面一层的成分，不是由句法决定，而是由另外因素决定。

我:
“我喜欢少年希特勒努力发奋。” 这句呢，也是小句？

白:
是

我:
我要说的是，对于有灰色地带的那些词和句型，可以人为规定一条路径。
区分：“我喜欢少年希特勒努力发奋” 和 “我喜欢老年希特勒被处绞刑”，一个是对“希特勒”是褒义，一个不是。

白:
褒义针对整体，是否传导到部分，it depends, 针对整体都是褒义。

我:
说的是部分。我喜欢【human】和我喜欢【human】VP，对于这个 human，默认是褒义的。

白:
要区分的只是能传导到部分的褒义和不能传导到部分的褒义。我喜欢【human】vp 是天经地义的，喜不喜欢其中的【human】，不由句法决定。
在我这里不默认。而且默认sentiment设定，和搞出一个句法类别，也是两回事。

我:
默认有很多便利。偷懒的时候，默认在统计上对数据质量有好处。默认这东西，不用白不用，尤其是从工程和实用上考量。我目前的喜欢的 sentiment 规则，不论中文英文，都是走默认的道路：管它后面的 NP 带不带 VP，只要 NP 是 entity，就默认是 positive 落地了。这个 practice 在实践中有莫大的好处。“喜欢厕所VP” 和 “喜欢希特勒 VP” 这样的例外极其罕见，以致于根本不必在默认之外再费力气去区分。

白:
充其量是个heuristic

我喜欢张老师讲古代史，不喜欢张老师讲现代史

我:
这个不是反例，前半句是褒，后半句是贬，都落地到张老师身上。

白:
加分减分都没问题。问题是逻辑推论有没有。喜欢张老师和不喜欢张老师如果都是逻辑推论就有问题。讲逻辑的人是分得很清楚的，喜欢，对事不对人。sentiment也是很清楚的，一个给张老师加分，一个给张老师减分。但是确实没有“喜欢张老师”和“不喜欢张老师”这两个逻辑推论。

我:
回到原来的 arguments，如果（1）我喜欢张老师；与（2）我喜欢张老师讲古代史，是两个不同的 parses，sentiment 落地的时候，就必须有两个规则来对付这两个不同的结构

白:
这个很难吗？我不觉得。爱屋及乌，爱小句及小句逻辑主。一句话的事情.

我:
天下无难事。
但是，对于如此基本而普遍的 sentiment 的表达（love类和 hate 类），本来可以直接搞定，非要绕一个弯儿再搞定。本来一组规则，非要增加一倍的工作量去写规则，去维护，这是很不合算的。

即便不谈 sentiment 这个具体的落地应用，抽象来说策略，这个争论的本质就是：两个句型有相同的部分，有不同的部分，如何处理？其实没有普世标准，就是系统内的一致性和方便性，系统内协调。

白:
不是这样的，就是一个sentiment penetration属性赋值yes还是no的问题，直接写在相关动词的词典里。其他都不受影响。标配赋值no，需要设yes的明示。

我:
我喜欢他。
我喜欢他老实。
我喜欢他做好事。

换一个角度看，第一句和第二、三句在“我喜欢他”这个部分是一样的。后面的 AP 和 VP 也可以看成是喜欢的某个部分或方面（aspect）（或理由），这个角度是先对人后对事儿。与你的“喜欢”应该对事不对人，或由事及人，是类似的逻辑性。即便我说“我喜欢X”，常识告诉我们，世界上没有完美的X。“喜欢X” 后面隐藏着后面的 likable aspects，X 与 aspects 是整体与部分的关系。

白:
我喜欢他，我喜欢他老实，我喜欢他的老实。VS
我喜欢这本书，我喜欢这本书出版，我喜欢这本书的出版。

也就我们这种领域，讨论一个语言学概念的立和废，也要扯上系统甚至应用。

我:
是从部分的角度来推及整体，还是从整体的角度推及部分，不过是角度不同。

白:
如果一个arg，是这样。角度不同。两个坑就未必了。

我:
就好比半瓶水，一个角度看到了半瓶水，另一个角度看到了半瓶空气，都是有效的逻辑。

白:
我喜欢这本书出版，和我喜欢这本书，不是延展后者的关系。我们还可以说，我喜欢这本书春节后再出版。喜欢的重点既不在书也不在出版，而是在出版的时间。可以既不喜欢书，也不喜欢出版，只是对那个出版时间情有独钟。一个坏人干了件好事，我们总可以喜欢那件好事吧。不需要扯上喜欢坏人。

白:
一个出版商可能对某本书恶心到吐，但是那本书的出版可以帮他赚大钱。他喜欢“那本书出版”但不喜欢“那本书”也是情理之中的。heuristic可以进入系统，但进入语言学是否合适要画个问号。进入系统也有“诛心”之嫌。喜欢坏人干的某件好事，被当成支持坏人的证据，这样的系统大家都要当心了。

我:
喜欢坏人干的某件好事，被当成支持坏人的证据，在情感分析上没有错。在大数据分析的时候，点点滴滴皆证据。坏人干了好事儿，只要被提到，就给这个坏人加了一分（褒）。这一点儿也不影响对于这个坏人的舆情分析全貌。恰恰相反，这才是真实的舆情。如果坏人干了好事儿被提及 n 次，坏人干了坏事儿提到了 m 次，纯粹厌恶坏人的情绪表达提到了 o 次，纯粹喜欢坏人的情绪表达提到了 p 次（p 通常接近零），那么这个坏人的褒贬指数，就是（n+p）与（m+o）的比例。请放心，p 基本是 0，而 n 也会远远小于 m，这个大众舆情不仅靠谱，而且真实，没有 bias。

宋：
我喜欢希特勒自杀。

我：
宋老师的这个例子前面已经论及。回顾一下就是：情感分析中，“喜欢”的默认规则的确可能把它算成是对“希特勒”的正面评价。因为这个默认规则是把宾语和兼语同等看待，不去问后面的宾补 VP。理论上，这个结构根本就不是【宾语+宾补】的结构，而是【宾语子句】的结构，但是由于区分二者对于“喜欢”这样的词，有一定的难度，所以我们可以在 parsing 阶段一律当成兼语结构处理和表达。这样一来，默认的sentiment规则就会犯错。

犯错怎么办？如果这种案例极其罕见，不值得做，那就算了，因为默认的sentiment规则在绝大多数的场合是保证了数据质量的。如果觉得还是值得做，那就在默认sentiment规则之上再做一条规则去 override 默认。这条规则不需要改变 parser，而是利用 parsing 在这类结构上的 consistency（错也错得可以预测），将错就错，矫枉过正，把这个错纠正过来。换句话说，这个策略等于是休眠唤醒，不过这个休眠唤醒不是在 parsing 的后期进行，而是在 sentiment 语义落地的时候进行，其效果等价于把【兼语式】重新分析为【宾语小句】，切断“喜欢”与“希特勒”的语义直接联系。

不知道我说清了没有。可能有人会问：既然在语义落地时候要做类似休眠唤醒的工作，为什么不索性在parsing里面（parsing的后期，语义模块）里面做休眠唤醒呢？理论上，提前做休眠唤醒，使得parsing更精准，可以benefit不仅仅这个 sentiment 的语义落地，还可以 benefit 其他的语义落地和应用的场合。但是，实践中在哪个阶段做合算，不是那么简单。因为休眠唤醒这些事儿大多是长尾现象，鸡零狗碎，做不胜做。在还不能确认到底有多少好处前，往往顾不过来在 parsing 中统一处理好。而且很多时候，做了也白做，你需要用到那个落地或那批落地也许根本就用不到。

Anyway，point is，落地的时候是可以包容 parsing 的错误和不足做包容性产品开发（adaptive dev），只要 parsing 是可预测的数据结构，是有内部直通车的，而不是 offshelf 拿来的 parser，缺乏足够的内部支持和协调。Having said that，如果确实事先可以 identify 一些带有普遍性的休眠唤醒现象，以及可以惠及很多可能的语义落地应用，而且也有足够的时间和资源去做这些细线条的深度语义工作，那么不要等到落地就在提前在 deep parser 的语义模块里面做好，当然是更理想的情况。

白:
对坏人的褒贬判断，对事不对人自然左右不了大局，没什么可担心的。问题是拿对事不对人的表述做以坏人为参照的站队分析，这就很可怕了。

我:
可怕啥？或者就是大海里的一颗老鼠屎，丝毫没有影响。或者就是，用休眠唤醒杜绝它（它=“拿对事不对人的表述做以坏人为参照的站队分析”）。休眠唤醒之所以可以进行，是因为 parser，已经准备好了结构基础：要啥有啥，哪怕这个 parse 是不完善的。要 O 有 O，要宾补有 ObjV，要逻辑 S 有对于 V2 的逻辑 S，四通八达的路径都在。driving word “喜欢”也在，可以词驱动。所有的结构的节点词的信息，包括 ontology 都在，包括 “希特勒” 是个独裁者、通常是坏人这样的信息也都在。有了直通车，啥事儿做不成？什么案子不能翻？什么深度休眠不能唤醒？什么具有统计性的“可怕”的后果不可以杜绝？

白:
分析成小句宾，诛心或误伤的责任就不在分析器的开发者。而在后道工序。否则人家会说，都是你分析的我喜欢希特勒，我哪儿喜欢了？一颗老鼠屎，也那个。对于小句宾来说，没分析出我喜欢希特勒，这大不一样。但是小句宾结构与“喜欢”结合，大概率被穿透，这句话可以说，之后也是要啥有啥。谁用了谁负责，但分析器的开发者也没说错话。

我:
话说到这份上了，其实也没有多少进一步需要辩护各自做法的 arguments 了。选择这个兼语的表达，肯定不是因为明明知道处理成宾语小句更好，而不为之。一定是自有苦衷和盘算。

白:
我若干年前也用过这样的表达。最典型就是“我是县长派来的”，把其中的“来”也作为“派”的一个arg。后来发现，其实去掉它没什么损失。因为“派”和“来”共享了一个萝卜，所有联系都在里面了。

我:
隐约的感觉是，去掉它在逻辑语义深层没有损失，可能的损失是句法表层的痕迹（语法学界叫做 configuration info，就是 X-bar 理论里面的 bar 的信息）。

白:
这是有很多其他途径可以记录的

我:
留住它就是留下了这种 bar 的痕迹，就好比我们利用小词解构了实词之间的句法语义关系以后，我们并不把小词当敲门砖丢弃，而是用 X 挂上一样。虽然理论上，这些小词对于深层语义已经没有意义。另一个例子是主动被动，到了逻辑语义的核心，这个 voice 的不同色彩，没有地位，可是语言分析中，留下表层的 voice 信息，还是可能对语义落地和应用有好处的。

【相关】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1029088.html

上一篇：【李白之21：萝卜多坑不够咋办】
下一篇：【语义计算：关于解析逻辑语义角色】

【一日一parsing：#自然语言理解太难了# 吗？】屏蔽留存

【一日一parsing：#自然语言理解太难了# 吗？】

屏蔽已有 2429 次阅读 2017-2-7 00:44 |个人分类:立委科普|系统分类:科研笔记| NLP, 自动分析, 中文处理, NLU

白宫命令司法部申请紧急冻结今天华州政府在西雅图联邦法院申请到的总统冻结穆斯林七国入境EO的临时冻结令。
如果成功的话，临时冻结令将被紧急冻结令冻结，穆斯林七国入境继续冻结
#自然语言理解太难了#

wang:
李老师这是要把机器累吐血啊！
不太理解为何要和这类超长难句对上了。
以前只顾着忙着单句，对篇章理解终未敢有奢望。
恩，到时句法分析，感觉可以分成若干小句来分析也不错。
只要把前继跟准了，把大树搞成森林，由若干棵小树构成，而每个小树分析结果表达清晰准确。也是一种选择

我:
不是跟难句过不去，是 parse 着玩。现如今凡是遇到 “绝妙的中文”、，#自然语言理解太难了# 这类标题，就忍不住想，我 parse parse 会怎样呢。是一种类似于软件工程上 stress test 的心态，人说难，偏试试，看极限在哪里。哭笑不得的结果有之。喜出望外的也有，以为难仔细一想其实不难。总之都会有启发。不特意为这些 outliers 去动手术。不值当。

特别心烦意乱的时候，啥招都不管用，只有调系统可以安神。明知系统是个无底洞，以有涯对无涯。killing time，一点儿也不殆。

白:
“这些泡沫包装糟透了。”
“这些水果包装糟透了。”

我:

“泡沫包装”作为合成词词典化了。

白：
“这些学生宿舍都没回就一头扎进了图书馆。”

我:

第一句差强人意，层次纠缠。知道病源，不敢确定该不该修理。分层这事儿，你不能占尽了它的好处，一点不吃亏啊。主要是衡量亏的大小，值得不值得去打补丁或做高危微调的动作。观望。有时候需要时间和新的数据去驱动和决策开发和维修。

【相关】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1031986.html

上一篇：【李白之27：莫名其妙之妙，妙可道，妙不可言】
下一篇：【语义计算：耍一耍中文 SyntaxNet 和百度翻译】

当前推荐数：1 推荐人：张珑

【李白之28：“天就是这样被聊死的”】屏蔽留存

【李白之28：“天就是这样被聊死的”】

屏蔽已有 2275 次阅读 2017-2-8 07:10 |个人分类:立委科普|系统分类:科研笔记| parsing, 自动分析, 休眠唤醒

白:
“天就是这样被聊死的。”

我:
说谁呢？

梁:
@wei ，I also admired your “层次纠缠“ comment.

我:
哦那是刘少奇主义, 吃小亏占大便宜。真的，反单层parsing的传统潮流，悄悄地不知道占了多少便宜了，不吃点亏都觉得不好意思了

白:
“的”可以“买一送一”或者“卖一送一”。比如“卖火柴的小女孩”中，“小女孩”既可以作为整个定中结构的代表正常对外填坑，也可以“无偿”填定语从句内部“卖”的坑；“这本书的出版”既可以作为整个定中结构的代表正常对外填坑，也“无偿”对内接受定语部分“这本书”的填坑。“无偿”的意思是，一个括号配一个反方向括号后，对方消失了自己还在。多“饶”了一次匹配机会。现在从坑的角度看，最不情愿的一个处理就是把形容词的使动用法处理成一可选的坑。如果坑可以强制出来就好了。

我:
多一次匹配机会，就是一个儿子可以有两个老子，类似一个是生父，一个养父。对外填坑是句法的显性 dependency，对内无偿就是逻辑语义的隐性 dependency，中外皆然。“小女孩”就是如此，“小女孩”做“卖火柴”的【逻辑主语】。而“卖火柴”其实是“小女孩”的【定语】：让自己的显性的儿子去做自己的隐性的逻辑老子。到了谓词指称化就不同了，对外填坑不变，爱啥啥。对内的逻辑关系则反过来，自己的显性的句法定语儿子（adjunct），被用来填充为自己的隐性的逻辑儿子（argument）。“这本书” 做 “出版” 的逻辑宾语。与英语平行。

this book‘s publication；girl selling matches
? the sell-matches girl

白:
这两件事，被我统一成一件事了。

我:
统一的好处是？

白:
词典化，没有规则，只有词典和原则，一条原则管两头。到原则层面，只需要解决什么条件下谁提供bonus。

我:
一边是 NP ，一边是 V 或 VP。如果是 NP 的 V，V有坑，尽管 V 指称化了。那么 NP 就去填坑（宾语，或主语），如果是 VP 的 N，那么 VP 有主语的坑，N正好填。

白:
根本不看POS，只有买单和卖单。一对多的订单、一对一的订单、可以提供bonus的一对一订单。

我:
POS 也没啥，不过就是填坑中几百上千个可能的约束条件的一个而已。我要 Human 来填坑，与我要名词来填坑，对系统不过就是条件的宽窄不同而已。这是从填坑的角度看 POS。对于设坑的一方，当然无所谓 POS，V 也好 N 也好 A 也好，他们有没有坑，有几个坑，都可以认为是词典化的 subcat 规定的。都直接量（词）驱动了，自然就不谈 POS 了，因为 literal 永远比任何抽象信息量更足。

据说当年一个叫 Small 的人首创专家词典（Expert Lexicon），里面全部是词例化的规则，没有任何抽象规则，可以想象这样的系统在一个狭窄的 domain 里面的可行性。譬如在天气预报的 domain 里。词条 “下雨”里面规定要到左边去找 “老天”，到右边去找 “很猛、很急”，等等。

白:
肯定不是这样的。

我:
在一个小词汇表中是可行的的而且准确有点组合爆炸而已。这是没有任何抽象的本义。一旦有抽象，哪怕是词例化，也必须引入 features，而不是直接量之间的交易了。lexical-POS 就是最简单的一个 feature。

白:
原则不看POS，matcher要看。但原则不放水，matcher就没有bonus给。

“张三这两条建议是关于修宿舍的。”

这里面，“建议”有两个坑，“张三”填了一个，然后这个词的“母体”填给“是”了，剩下一个坑成了没娘的孩子。后面当“关于修宿舍的”作为一个整体与“修宿舍”剩下的没娘孩子（human）不匹配的时候，匹配点会迁移到前一个没娘孩子（info，建议的内容）进行匹配。

我:

白:
这不是说，建议的内容就一定是“关于修宿舍”，万一“是”换成了“不是”呢？只是说，这一萝卜一坑，存在着语义类型上的关联。至于肯定否定，那是由围绕着谓词的修饰语决定的。

我:
肯定否定是另一层次的东西，无需牵扯进来。说到底就是 “建议” 有 Subcat，里面有 human agent，和 “关于 content” 的 PP 的规定。human S 连上了，【关于】的坑暂时没连上，但也不难。

白:
建议谁修宿舍，文本中找不到，作罢

“他死去多年的战友就埋葬在这里。”

“他”要憋着不参加后面的VP，直到被定语从句修饰的中心语露面，填入中心语所带的坑，才算了结。什么样的“过程性”控制策略能给出这个选择？

宋:
他死去多年，儿女都已经长大的战友埋葬在这里。

白:
嗯，其实谓词部分是收束的，只有谓词部分对外需要消解。所以，需要栈，但栈不必很深。栈和RNN是不矛盾的。栈顶元素可以作为输入的一部分，对栈的操作可以作为本轮输出的一部分。

我:
查一下后条件不就解决了？在主谓规则中，一个 np 与一个 vp 不着急结为 s，往后查一下条件再决定。

没问后条件，错了。可以加上：

白:
往前看一个，只能做等待与否的决策，不能做结合与否的决策。等待就意味着要记忆某种东西。

我：
等待与否与决策与否，这里不是一个简单的答案。因为涉及两个问题：一个是“他死” 的主谓问题，一个是“死”做定语（兼“战友”的逻辑谓语）的问题。如果不考虑二者相交，第一个问题当成一个独立的问题，当然可以决策，不过是问合适的条件包括后条件而已。这样“他死”本来的主谓错误可以避免，但还是需要有人（“埋葬”）接盘。从相交的角度看，关键是定从句型的处置安放在何处合适的问题，定从解决好了，顺带也就解决了“他死”要不要就近连主谓的问题。涉及的句型也不那么复杂：

NP+VP+de+N

就是一个四元组。把上述句型在做主谓之前 fine-tune 到正好涵盖【定从】，问题就解决了。宋老师的句子是难一些，难在那个 VP 复杂化了，VP 实际是两个 VP 用逗号并列了（其实应该用顿号的，可国人把逗号当万金油，没办法）。这倒也罢，第二个谓语本身也是一个主谓结构：“儿女都已经长大”。“儿女长大” 与 “身体健康” 类似，都是那种句型紧凑的典型的【主谓谓语】。这类主谓只能有限扩展，跟通常主谓的自由度无法比，也因此可以考虑先行解决，给个标签，作为整体，它有一个逻辑主语的坑（通常是其前的 Topic 去填）：实质上是对付一层的中心递归（center recursion）。总之是有些难缠，但并非无迹可寻，要做也可以做，考验的是细活。等低枝果实都摘差不多了，再去磨这个细活好了，现在不必。

白:

他那些杀红了眼，刺刀上沾满血的战友们可管不了那些了。

“儿女”有坑，把“战友”捎带上还可以解释。“刺刀”的坑是“枪”，“枪”的主人是human，这弯儿拐的。句法非标配的坑，靠语义中间件凌空凿开一个坑，才能把定语从句的钩子钩上。第一个“那些”如果去掉：

？他杀红了眼，刺刀上沾满血的战友们可管不了那些了。

好像不通了。或者说链条断开了。所以凌空开凿的坑无法填装远距离的“友元”。

我:
看样子这个 “那些” 是个关键的小词，应该善加利用：

human+那些+[human action] + 的+human

麻烦的是 human action 的谓语的扩充性。如果这个句型足够的频繁（感觉上是的），那么一个策略是，对于那个【定从谓语】的界定可以放的很宽，一路扫描下去，直到发现【的+human】，就把这个【定从】的性质卡住了。定语定性以后，再慢慢对付里面的monsters，这个策略可能管用。

他的那些blahblah的朋友们

管它 blah 有多长、多复杂。一个 token* 就卡住了。还有一个策略就是 patching，对上面的那颗“循规蹈矩”而出错了的树做修补:

S1[X那些] + Pred1 + Conj + Mod(Pred2)+S2+Pred3

要问五个链条才能修补全，也不知道能概括多少现象，值得费这么大力气，会不会弄巧成拙。道理上是可行，问了这五个链条了，然后

（1）离婚 S1 和 Pred1
（2）结合 S1 与 S2，让 S1 zuo S2 的定语
（3）切断 Conj
（4）用新的 Conj 链接 Pred1 和 Pred2

可以做个实验玩玩，看这条路可行不。
MY GOD 值不值得做先放在一边，可的确做成了！

这个太tm牛了。我都不得不崇拜自己了。

还是那句话，没有翻不了的案子，毛太祖钦定的文化大革命都彻底否定了。这样的翻案 patching 应该没有副作用，因为都是 word driven 和非常 restricted 的现象。

同一条规则略加微调（没有“那些”但原主语是 human），就把宋老师的难题一并解决了。休眠唤醒术好使，以后要多使，这比条件不成熟的时候霸王硬上弓轻松多了。

白:
不对呀……
怎么是“他”死去？应该是“战友”死去才对。另外，“战友”并没有“长大”，“长大”的是战友的“儿女”。

我:
鸡蛋里挑骨头啊。明明“儿女”是“长大” 的 S。长大的战友，不过是一个边界不合适的 XP 懒得在 patching 的时候再动手术去重新修理边界而已。

白:
就是说，定语从句的两个分句，第一个“死去”的坑被提取出来，由中心语“战友”反填；第二个“长大”的坑由“儿女”填充，同时“儿女”挖了一个新的human类的坑，由中心语“战友”反填。

我:
真要修理也不是不可以，但已经没有啥意义，因为逻辑语义上已经阻止了 “战友” 做 “长大” 的主语。对，“他” 不该是 “死去” 的 S，这个我去查查 code

白:
要简化也是“儿女长大的战友”，而不是“长大的战友”

我:
那是因为偷懒共享了 “那些”的规则。得，我分开来一步步来。
目前的机制可以改关系，暂时不可改边界。有空了写个 specs 让工程师增加边界调整的功能。不该有的 S 没有删去，是个 bug，规则是对的。对数据结构做手术，要做干净、不拖泥带水、不留后遗症，还需要磨一阵子。不过苗头是好的。

白:

“目前尚未毕业、导师已经超过六十三岁且不是院士的博士研究生要来教务处登记。”

谁不是院士？导师，还是博士研究生？如何确定？两个conj并列，是一股势力；“导师”辖域延展，是另一股势力。

我:
不用 common sense 出场？

白:
后一股势力因为“导师”自带的坑得到“博士研究生”在右侧遥相呼应而得到加强。当然“博士研究生”自身也因距离更近参与“不是院士”的逻辑主语坑的争夺。定性分析这是打个平手。common sense之外似乎看不到一锤定音的结构性要素。或者换个说法，大数据里，“导师”和“院士”共现的频度，与“博士研究生”和“院士”共现的频度比起来，谁高？

一提common sense就有把问题搞复杂的嫌疑，提大数据则明显把问题简化了。

我:
不错。现在的问题是，应该怎么挖掘和表达大数据的这些隐含了常识的知识，使得需要用的时候，够得着。人手工费那么大劲精心构建的 ontology 和常识，目前用起来还是不能得心应手，挖掘的东西应该呈现怎样的形态才好用呢。

白:
词向量可直接反映共现。

我:
在两个词抢夺同一个词的时候，最简单的办法就是看他们的两两共现来决定力量对比。这个听起来简单，但这种三角争夺是 on-the-fly 的，共现数据可以预先计算并 index，三角计算必须是 at run time，感觉上有一个不小的 overhead

白:
现场直接变成算距离了，index出来是向量，向量的距离直接反映共现。而且是“应该的”共现而不是“现实的”共现，中间加上了互通有无。互通有无是数学模型帮我们做的。

我:
大数据出来的统计不都是“应该的”么？都只是一种趋向。增加一个砝码，不是铁定。（一定有违反大数据统计的反例在。）

白:
不是这个意思，是说很多数据是稀疏的

宋:

（1）应该做大数据挖掘，与专家的规则结合起来。白硕建议比较两对共现频次，我觉得比常识知识库靠谱。

（2）这种大数据中的知识挖掘应当是实时的。应该有某种大数据存放的中间形式，支持快速的实时统计。这种中间形式会比原始的线性字符串对于统计更高效，同时应当有一定的通用性。

白:
在降维中稠密化了，原来语料中直接没搭上钩的，经过降维处理也可以搭上钩了。

宋:
（3）恐怕会有一些问题不是单纯的词语共现所能解决的。

白:
算距离，复杂性主要跟维度有关。维度降下来了，不仅数据稠密了，而且计算开销也下来了。@宋老师的（3）完全赞同。共现的数学模型，build和run的确是分离的。我:

我:
synonym 或 clustering 就是降维和数据稠密化吧，但同时也抹平了。不知道目前有没有哪个系统真地在歧义判别时候用到大数据统计的。

白:
word embedding并不严格抹平，但可以拉近，而且如果只为了比较大小，距离算到平方和足矣，没必要再开方。

我:
对，根本不需要精确计算，只需要相对的结论，谁强谁弱，或打平。

康：【首届语言与智能高峰论坛会议邀请函】 …

白:
这种会怎么不请伟哥啊……

阮:
第一届会议重在推动，伟老师估计会泼凉水。

白:
我们大家还在混圈子，伟哥已经高处不胜寒了。

我:
一觉醒来左眼发跳原来是白老师。冷不丁开个涮由头却是啥高峰会议。
认真滴说休眠唤醒是正道开始尝甜头了。感觉以前syntax下力可能太大太苦，不如把负担更多转嫁给语义唤醒。

【相关】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1032238.html

上一篇：【语义计算：耍一耍中文 SyntaxNet 和百度翻译】
下一篇：【李白之29：依存关系图引入短语结构的百利一弊】

Trap of Information Overdose

当前推荐数：1 推荐人：马德义

【杞人忧天：可怕的信息极乐世界】屏蔽留存

【杞人忧天：可怕的信息极乐世界】

屏蔽已有 3677 次阅读 2017-1-17 01:09 |个人分类:立委科普|系统分类:科普集锦| 信息过载, 抵抗诱惑

今天想

信息过载的

问题，

有点感触。

我们生在大数据信息过载的时代。以前一直觉得作为NLPer，自己的天职就是帮助解决这个过载的问题。就好像马云的宏愿是天下没有难做的生意，我们玩大数据的愿景应该就是，天下没有不能 access 的信息。于是谷歌出现了，用粗糙的关键词和数不厌大的气概，解决了信息长尾问题。于是我们开始批判谷歌，信息长尾解决的代价是数据质量太差。于是人智（AI）派来了，借力深度作业（deep processing, whether deep learning or deep parsing），企图既要解决大数据的长尾，也要大幅提升数据质量，让全世界对于信息感兴趣的心灵，都有一个源源不断的信息流。这是从我们从业者的角度。

今天换了个角度想这个问题，从信息受众的角度。作为消费者，作为白领，我们从人类的信息过载的战役不断优化的过程中得到了什么？我们得到的是，越来越高质量的、投我所好的信息流。以前是在过载的海洋、信息垃圾里淹死，如今是在精致的虚假的满足里噎死。感受不同了，但反正都是死。哪怕做鬼亦风流，死鬼却从不放过我们。于是我们花费在朋友圈、新闻apps、娱乐apps的时间越来越多。无数天才（很多是我的同行高人）绞尽脑汁研究我们的喜好，研究如何黏住我们，研究什么诡计让我们拼死吃河豚。

一个人敌不过一个世界，这是铁律。七情六欲血肉之躯的消费者个体敌不过无数盯着消费者喜好的商家及其帮凶（包括在下）。于是我们沉沦了，成为了信息的奴隶。我们同时也不甘心，在努力寻求自救，不要在糖罐里甜腻死，虽然这甜越来越幽香、巧妙，充满诱惑。我们就这么一路挣扎着。但随着信息技术的提升，中招的越来越多，能自救的越来越少。

世界有n十亿人，m千万个组织，在每时每刻产生信息。假如我们把自我信息满足的门槛，用各种 filters 无限拔高，拔高到千万分之一，我们面对的仍然是 n百人和m个组织的产出。当技术提升到我们可以 access 这个高纯度但仍然能淹死人的信息的时候，我们一定相见恨晚，乐不思蜀，有朝闻道夕死可矣的感觉。这是一个可怕的极乐世界。

我们作为消费者在打一个注定失败的自虐之仗，试图抵制抵制不了的诱惑。说一点个人的应对体会，结束这个杞人早忧天的议论。这个体会也从朋友中得到印证过。

体会就是，有时候我们可以学林彪副统帅，不读书不看报，突然就掐了信息源和apps，专心做自己的事儿。一个月甚至半年过去，回头看，自己其实没有损失什么，而且完成了拖得很久的工作（其中包括如何去用语言技术提高信息质量诱惑别人的工作，不好意思，这颇滑稽，但无奈它是在下借以安身立命的天职）。

同行刘老师有同感，他是做事儿的人。我问他要不要加入群，咱们大伙儿聊聊NLP啥的。刘老师说，我这人经不起诱惑，曾经加入了n多群，一看话题有趣，就忍不住要看、要回应、要投入。结果是做不完手头的事儿。后来一横心，退了所有的群，就差把手机扔了。刘老师的做法也是一种自救。

其实我们最后还是要回到信息流中，再坚强的灵魂也不可能苦行僧一样长时期拒绝高品质信息以及消遣式信息享受。一味拒绝也自有其后果。意志力强的是在这两种状态中切换。更多的人意志力不够，就一步步淹没。退休了被淹没，也可算是福气。年轻人被淹没，这就是罪过，而恰恰是后者才是最 vulnerable 的群体。

“忽视

信息视而不见

”乃是白领劳动者的生存技巧，但对于涉世未深的年轻人很难很难。据观察，在信息轰炸中淹没（info-addiction），其问题的严重性已经不亚于吸毒和酗酒，感觉与游戏的泛滥有一拼，虽然我没有统计数据。

因此，我想，人智可以缓行，我们没必要那么急把全世界的人生和时间都吞没，可以积点德或少点孽。同时，希望有越来越多的人研究如何帮助人抵制信息诱惑，抵抗沉沦。理想的世界是，我们既有召之即来的高质量信息，又有挥之即去的抵制工具在（类似戒毒program）。虽然后者的商业利益少，但却是拯救世界和人类的善举。

最可怕的是在下一代，可以看到他们的挣扎和无助。games、social media 和 internet 吞噬了无数青春。而世界基本是束手无策，任其沉沦。家长呢，只有干着急。我们自己都不能抵制诱惑，怎么能指望年青一代呢。充满 curiosity 和躁动的心灵，注定受到信息过载的奴役最深。其社会成本和代价似乎还没有得到应有的深入研究。

今天就扯到这儿，希望不是信息垃圾。

【相关】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1028040.html

上一篇：【李白之17：“我的人回来了, 可心还在路上”】
下一篇：Trap of Information Overdose