《李白荀舟詹128:从专名的层次纠缠谈到NLP前路漫漫 一缕曙光》

舟:新闻标题:“球员明天昨日与爱妻举行婚礼,武汉队官方送上祝福” 如何解析?

白:爱妻一个坑,球员一个坑,武汉队反填球员坑,球员反填爱妻坑。明天做专有名词。什么都能做专有名词,明是一个姓,更能。昨日倒是只能做状语。再加上一个矛盾的时间状语,优先级折损,让专有名词义项露出来。

“明天”本来就是名词,组成同位结构和降格成为状语两个可能性,在句法层面本来都是存在的。只不过,同位结构是NN合并,需要白名单制。进入白名单的条件之一就是“类型相谐、一称呼一实例”。现在,是要在句法标签同为N的情况下,解决本体标签由Time向Human转换的问题。

舟:@白硕 谷歌百度,都没有搞定翻译![Tongue][Scream]

球员明天昨日与爱妻举行婚礼,武汉队官方送上祝福。

百度:The players will have a wedding with their beloved wife tomorrow and the Wuhan team will send their best wishes to them.

谷歌:The player held a wedding with his beloved wife yesterday, and the Wuhan team officially sent blessings.

谷歌还是聪明一些,把明天扔掉了……[Tongue][Grin][Shhh]

詹:这个得有篇章处理能力才好。正文第一句“武汉队球员明天与爱妻举行婚礼”。这个“明天”还得继续是专名。

荀:从工程角度看,类似这样的极端例子,不是现阶段NLP能力所及,处理对了也未必理解了上下文。可以愣是迎着困难上,很可能得不偿失,灌入更多类似语言现象数据,或者引用更多语言知识,这句对了,可能受伤大批句子。

学理上可以深入讨论,能得到以点带面的结论是非常好的,但是那这些句子去测试机器翻译,测试大模型的能力,没有意义。

李:荀老师所言极是。

有过教训的。极端例子的处理很难“包圆”,这往往造成副作用远大于正面作用。这是因为极端例子统计上属于极小概率。对于极小概率的现象,最有利的工程策略是选择忽略它,与噪音过滤同理。

可以探讨原则性的解决方案,实现的时候需要小心与现架构或pipeline小心对接。例如,专有名词的任意性是一类现象,虽然每一个具体案例都是小概率,但这类现象可以探讨一种原则性的出路。出路往往出现在另一个层面,例如应用场景的动态词典层面:一个与常用词同形的专名在 discourse 或某个数据源中反复出现,当它远远高于它作为常用词的正常出现频率的时候,它作为专有名词的小概率就变成了现实可能性。动态词典或用户词典可以收录它,增加它作为专名的权重。把动态词典与系统核心词典融合,可望帮助解决这类层次纠缠。但这种融合还是需要格外小心。比如,动态词典不仅仅要适合的时机融入处理,也要在合适的时候退出,以免对于变化了的场景产生持续的副作用。

通常的 NLP 只针对局部字符串。现在出现了更大的场景约束: dicourse、data source(source 本身也份不同层次)、domain 以及用户词典。为这些场景规划范围,以及资源进出的条件边界,是一个远远超出常规NLP处理流程的更高层面的控制逻辑。很不容易处理妥帖。

弄巧成拙的坑,不知道栽进去多少回了。

很多年前,还是在跟随刘倬老师做MT的时候,我们做过一个动态领域词典帮助确定领域场景的简单实现,有动态加入和忘记的功能:就是建立一个有限长度的先进先出的队列,当进入某个 discourse,有足够多领域A的词汇时候,就认定为A领域场景。当数据源源不断进入系统处理,领域B的词汇进来会冲刷领域A词汇,系统就进入领域B的场景。

这是为了解决WSD的领域问题,很多常用术语是跨好几个领域的,不同领域的译词不同。当时的办法就是希望动态决定,实际上就是 domain 词汇 propagation 的效果。取得了局部成功。当然,现如今的神经系统对于更大的上下文有表示记忆,这类当年的难题原则上在 discourse层面已经解决。超越 discourse 层面的,很多翻译软件(例如搜狗)允许用户自己设定一个大的领域。

另:现在对预训练的好感越来越浓,彷佛看见了一道曙光。隐隐觉得 预训练+下游NLP落地 可能是人间正道,可望碾压 parser+落地,但在当下的时间点,还不好说这条道路在规模化领域落地方面的可行性究竟如何。觉得时间窗口是 5-10 年。按照现在的科研进步和资源投入,5 年左右还做不到遍地开花,那就是遇到了真麻烦。否则,有可能终结符号路线。

荀:深度语义解析,离不开符号和结构,但不会是之前合一运算那样暴力使用知识,而是跟模型结合,处理好符号和参数方法的适用边界和做好两者融合是关键。我们在这个方向探索了多年,有了一些经验和体会,正在努力地把它写出来并开源。

李:looking forward to it ….

有时候,我也有建设开源社区的冲动,一直没有机会和精力。同时也觉得真开源了,也是门可罗雀。不知道要经营多久才有可能形成社区效应。但有一些积累如果总不开源,一辈子的思索和闯荡,也就老死手中了,想想也挺悲催的。

荀:是的,有心理准备,学习代价就是最大障碍。在努力地做到简单易学易用,届时各位老师多指教。

李:学习代价是个拦路虎。无论怎么简单易学,实现低代码,符号NLP 还是很难普及。

内部曾经说过,正则和 Excel 够简单了吧,真学好还是要费力气的。我说我定义的语言script 比正则还要简单,为什么说难呢?被告知:正则学了,Excel 学了,到处可用,那是万金油。学这个 哪里认呢?

想想也是。这不是简单降低门槛,把设计做到极致简单就可以普及的事情。

荀:不管效果如何,算是多一些不同的声音和思路。不过还是小有信心的,在北语,可以部分放在课程体系中,几轮下来,辐射面挺乐观的。

李:嗯,学校环境有所不同,可以渐渐辐射。工业界不一样,前场救火似的,很难有耐心和动机坐下来学一门偏门的东西。

荀:nlp往深里做,不可能不结合语言知识,只是找到好的做法。逼到墙角了,不得不学,不得不用,现在还没到墙角,还可以发论文,还可以拿到项目。

白:script的服务对象是程序员,那是最难伺候的用户群。

学一套特殊的表示如果能赚许多钱,没人跟钱过不去。有了钱,把这套特殊的表示传承下去也不是问题。否定别人的时候用百年老店的思维,肯定自己的时候用急功近利的思维,这叫双标。恐怕掌握特殊表示的人是否稳定,才是真正需要解决的问题。

李:好绕 lol

表示无所谓,不过就是面子而已。但是没有面子,也不知道如何传达里子。魔鬼在里子。

这种矛盾的确道可道非常道。

朋友圈刚看到这篇:Yann LeCun:发现智能原理是AI的终极问题 | 独家对话

很有意思的对话,其中谈预训练和自监督 从 raw corpus 学习所谓先验知识/结构,LeCun 信心满满认为这是AI的革命性转折。

在 raw corpus 里学习知识/结构,这与人们跳到水中学会游泳同理,与孩子在语言环境中自然学会说话同理。学校里学文法(成为 parser)是明着学结构,而预训练是暗着学结构。 表示不同,目标和原理一致。

白:其实明暗还可以细分,明着学what暗着学how是一种选择,what和how都暗着学是另一种选择。目前主流做了后一种选择,我看不出来除了商业考量(标注成本)之外有什么科学上的依据证明“明着学what”有何不妥。

李:没有不妥,主要是消化不良。主流还没有 figure out 如何接受明学的结构。既然消化不了,索性禁食,另有所食,发现还原到热量和维生素差不多是等价的。

这里有一个断裂。主流其实某种程度上 figure out 了如何生成显式结构,例如谷歌的 SyntaxNet 和 斯坦福 parser,都是深度神经训练出来的,在新闻类标准测试集上表现优异(但对于数据太过敏感,一旦换到领域数据,质量悬崖式下跌),可以媲美专家系统。但是,这是为 parsing 而 parsing,因为主流 parser 的结果主流自己也不知道如何消化和落地。

 

 

 

【相关】
 
 
 

李维 郭进《自然语言处理答问》(商务印书馆 2020)

预告:李维《巴别塔影:符号自然语言处理之旅》(人民邮电出版社 2022)

立委随笔:面对快餐文化,要牺牲一代人吗?

Peter Wang: Python and the Source Code of Humans, Computers, and Reality | Lex Fridman Podcast #250

今天看了这个访谈,很有感慨。访谈很长,可以跳着看:

是自媒体大V,采访天下名流,尤其是IT和AI界大牛。Peter Wang 是 Anaconda 的联合创始人兼首席执行官,也是 Python 社区中最具影响力的领导者和开发人员之一。此外,他还是一位物理学家和哲学家。
 
https://www.youtube.com/playlist?list... 剪辑播放列表: https://www.youtube.com/playlist?list... 大纲: 
0:00 - 介绍 0:33 - Python 4:04 - 编程语言设计 24:07 - 虚拟性 34:07 - 人的层次 41:05 - 生活 46:29 - 想法的起源 49:01 ——埃里克·温斯坦 54:00 - 人工源代码 57:58 - 爱 1:12:16 - 人工智能 1:25:39 - 意义危机 1:48:12 - 特拉维斯奥利芬特 1:54:38 - Python 续 2:24:21 - 最佳设置 2:31:39 - 给年轻人的建议 2:40:12 - 生命的意义

访谈提到人抗不过环境,尤其是 teenagers。面对以抖音和脸书为代表的流量商业和快餐文化(包括游戏和色情)的潮水般冲击,年轻一代毫无抵挡之力。这就好比从忍饥挨饿缺乏热量时代走来的人,面对食糖完全没有抵抗力。

 
食糖造成肥胖症和种种疾病的后果,是经过很长时间才为社会群体意识到,这才有如今的低糖饮食(包括各种低糖饮料)的健康生活方式的逐渐流行。同理,移动互联网快餐文化的恶果也需要一代人的牺牲和教训才会逐渐为社会意识到。
 
堕落是容易的,站起来却很费力气,这符合熵增原理。但人与万物之不同,就是最终还是会选择站起来,只是在这种选择之前和之中,要牺牲多大的问题。快餐文化攻击的是人的软肋,开始的时候,没有人可以抵挡。但人在低层次满足和麻痹的过程中,会逐渐产生麻木和空虚。麻木让人变得皮实,不再那么容易深陷其中。空虚是对低层次的反动。最终会产生更高层次的服务和追求,限制快餐文化的蔓延,这算是乐观主义。否则,悲观主义视角看后现代的趋势,这个世界是无药可救了,科技越发展,人类越堕落。
 
群里讨论这个话题,马老师深有感慨:快餐文化渗透到各个方面,以前我这博客,现在根本不写了,只发微博和微信。
 
我也有同感:没几个人愿意深入思考。再说,认真写了博客,也缺乏受众。很少人有那个耐心。全民浮躁的社会,人的注意力宽度(attention span)是渐行渐窄。坐冷板凳的成为珍稀物种。
 
毛老说:不是越堕落,而是越两极分化。
 
梁:绝大多数人任由环境支配,顺流而下,极少数人反之,逆流而上。生命是一种小精灵,它抗拒熵增,尽量推迟与大自然达成平衡(死寂)。
 
我的问题是:面对快餐文化,要牺牲几乎整整一代人吗?你看现代的年轻人,多少人沉迷于游戏、毒品、memes。所谓元宇宙,各大资本巨头加持,汹涌呼啸而来。这是像哦米克隆病毒一样,到底是加速这种牺牲还是结束这种文化疫情?
 
但愿物极必反。
 
另:这个访谈真地精彩,摘录一些访谈后读者的反馈如下:
 
我对 Peter Wang 一无所知,但我绝对被他的洞察力、批判性思维和引人入胜的哲学思想所震撼。我非常喜欢这个人说话的方式。再次感谢 Lex,为我们带来这种类型的对话。
 
学习 Python 是成为办公室“Excel 专家”的下一步。我用无能的意大利面代码自动化了这么多重复性任务。
 
这场辩论比标题所暗示的要深入得多。来自计算机编程的思维逻辑和原则对于各种问题都非常具有说服力。在这样一个瞬息万变的时代,有着如此多的可能性,哲学比以往任何时候都更加重要,可以帮助我们找到人类前进的道路。非常感谢您进行这些对话。
 
伙计。Peter Wang 是一个处于底层的海德格尔主义者。这个播客是传奇。
 
我很高兴我们现在有机会免费聆听这些珍品。Lexs Podcast 是一种智力乳清,适合喜欢提升思想的人。
 
我很感激这一点,彼得的内容气息是一种现象,涵盖了很多主题。这可能是最好的之一,在 2 小时内,这感觉像是最短但也是最长的采访!请更多被低估的客人!
 
顺便说一句,令人惊叹的采访和真正非凡的观点。从我的内心深处喜欢这次采访。
 
谢谢你,Lex,给我们带来这些采访。这就是我(我们)在 90 年代从哲学专业毕业的那一天,在西班牙马德里,互联网还没有出现的时候所渴望的。有一些有趣的电视节目,但它们总是达不到我们的期望(由于电视节目时间表的时间有限,缺乏解决主题的深度等),并且总是让我们想要更多。您频道的质量非常出色,确实有助于弥补我所指的电视上的不足。再次感谢并祝愿 2022 年。
 
我 85 岁了。我发现自己有感恩的时刻,因为我活得够久了。例如见证这次谈话。谢谢你俩。
 
这是迄今为止我在 YouTube 频道上看到的最聪明、最有趣的频道。
 
Lex 我希望你问一下通过技术导致人类灭绝的可能性。程序员更有可能成为实现这一目标的途径。比病毒学家更是如此。
 
多么雄辩的采访,详细阐述了如此广泛的主题。喜欢最后给年轻一代的建议以及创造的术语“闷闷不乐”。干得好,莱克斯。
 
32:05我们必须在这里推理的一件事是,社交媒体是我们第一次遇到技术系统,该系统围绕我们自己的认知和注意力运行一些循环。这不是最后一个——它远非最后一个,它触及了西方哲学体系的一些哲学阿喀琉斯之踵的核心,即每个人都可以做出自己的决定;每个人都是一个个体,在他们的代理和主权方面是神圣不可侵犯的。这些系统的问题在于它们能够集体管理每个人,因此每个人都在做出自己的决定,但是,更大的系统使它们成为一个群体动力,这对人们来说是非常有利可图的。
 
要点:TikTok 正在给我们带来社交糖尿病。
 
才发现这家伙的名字叫“王彼得”——他别无选择,只能是才华横溢。
 
 
【最近博客】
 
 

李维 郭进《自然语言处理答问》(商务印书馆 2020)

预告:李维《巴别塔影:符号自然语言处理之旅》(人民邮电出版社 2022)

 

立委随笔:王力宏的危机处理

2021年公关危机事件中,处于事业巅峰的王力宏事件虽然时间跨度不长,但凸显了信息时代的公关灾难,不亚于当年罗胖子怒砸西门子冰箱门的公关危机。

短兵相接,轰然倒下,王力宏处理失当,造成无法挽回的结果。毛估估,他的事业至少要停滞五年,其实际影响远远不止今后五年。除了名誉损伤与创作停滞以外,直接经济损失可达数亿,甚至数十亿。

这一切都是从家庭争端开始。导火索就是离婚,以及前妻对离婚协议的不满,虽然她还是签了字。最大的不满是她没有得到自己带孩子居住的豪宅的房产权。清官难断家务事。前妻既然在协议上签了字,她在法律上想要得到豪宅是不可能了。于是一不做二不休,她诉诸自媒体爆料。

王力宏前妻李靓蕾在离婚协议签字后没几天,就写下4538字自媒体长文,控诉王力宏爱约炮、劈腿,遭王家人冷暴力、羞辱、签下不合理的婚前协议书等罪状。该篇文章在新浪微博阅读量达23.2亿,超过《哈利波特》小说的总销量。网络时代,23亿流量,这是什么级别?自媒体核弹。

王力宏被迫应战,发文回应前妻指控:“我没有对我们的婚姻不忠。5年又8个月时间,我活在恐惧,勒索和威胁之下。” 王力宏说:“被逼结婚那天觉得最无奈,没想到比起今天,那是小菜”。妻子以孕逼婚,后来在家的强势,大概不是子虚乌有。虽然在外面,前妻一直非常配合各种秀恩爱。

分居两年,谈判长达一年,好容易把离婚协议签字了。据说王力宏家财总共约7亿,前妻得到超过一个亿(洛杉矶豪宅以及一些投资的分成),但是前妻居住的台北豪宅却不归她,种下祸根。王力宏这边觉得终于熬出头了,可以重返单身自由生活。刚要舒口气,离婚第三日,多年来保持沉默的前妻终于火山爆发。

离婚协议的谈判要不是那样寸土必争,本不至于如此。可是话说回来,他也不知道退守到哪条线不会引起火山。王力宏死活不愿意把台北一个亿的豪宅给她,也有个中苦衷。这个豪宅在他母亲的名下,当时的安排就是王家尤其是王母为防止财产流走的一个处心积虑的操作。以王母的强势,王力宏岂能违背?网上有人评论说,王是孝子,性格软弱,一直听他妈的。他妈肯定是寸土不让那种。这下好了,他在娱乐界吃的就是青春偶像饭,靠的就是自己的道德楷模人设,以后还怎么红下去。前不久还与谭维维合作唱《寸心》,风靡乐坛呢,这下子不知何时能翻身。

老友说:“钱能摆平的都不是事。现在可倒好。社死。事业算完了,没有大陆市场,唱中文歌没法红。损失岂止几个亿。”

王本来没想结婚,就做个娱乐界的黄金王老五,到处风流。在娱乐界,他有钱更有压力,还到处是美女帅哥各种诱惑。他那种私生活紊乱,娱乐界其实不鲜见。

面对突发公关危机,王家被迫应战,却是一系列烂操作。王先是矢口否认,拒不道歉。紧接着,王力宏老爸手写信帮儿子反击,数落李靓蕾的不是,力挺王力宏是好孩子,没有婚内出轨。李靓蕾嗤之以鼻,责令王力宏发声道歉,否则将起诉王力宏父子诽谤。王力宏再上场揭露前妻不是开始说的不求钱财,而是已经拿了一个多亿。

李靓蕾亮离婚协议,怒飙王力宏:读者不是傻子,强调那一个多亿财产本来就是夫妻共同名下她应得的部分,并不是离婚补偿。李靓蕾连续发文,要求王力宏回应婚内出轨、冷暴力。

感情早已破裂。这事说到底不过是离婚分割财产让李觉得不公。勉强签字了,但这个不平埋在心里,终于爆发。王作为娱乐一哥,这些年挣钱很拼,积攒家财大约7个亿,离婚的时候,房产股票加在一起给了李1.5个亿。王觉得不少了,还有孩子们今后的开销,菲佣、司机种种,对于李与孩子们住的台北豪宅(1.2亿RMB)不舍得分割,但三个孩子的妈,又无法赶人家出户,离婚协议中写明是暂住18年。

什么话?孩子长大了,前妻也就老了,到时候滚出去。人家怎么能忍呢?你不是偶像明星吗,人家有的是料,看你跋扈。王为了保住这一个亿,把自己从事业巅峰炸飞下来。

这场烂仗,明眼人一看就知道你王家再觉得委屈,也没有用,选择辩白,只会越描越黑。王说自己没有那么烂,说会对出轨嫖娼的虚假指责一一回应。李说好哇,那就对细节一一辩诬吧。

事已至此,王家乱了方寸,前妻步步紧逼。舆论站在她这边,她不怕事大。还好,也许有高人,也许自己觉悟了,王终于意识到,互联网上的“道德法庭”,他没有任何胜算,只会在网民的口水谩骂中遍体鳞伤。终于公开道歉,并且承诺把房子转给前妻。一路来,只有这一步走对了。看来不大出血,他不知道止损。

此事终以王力宏道歉,交出豪宅,李靓蕾宣布休战,落下帷幕。王力宏最新发文:”不再做任何辩解”。同时会把1.1亿人民币的“吾疆”转户到李靓蕾名下。这个结果对王力宏而言,全盘皆输。李靓蕾事后受访也表示:“不会告了。”

前互联网时代,女的再强势、聪明,也只得忍了,没有渠道。现在不同了,一个微博就能搞死你。明星的悲剧在于,你自己再有能耐,也是可以被替代。一个倒下去,后面无数候补冲上来。范冰冰多么光芒万丈,最耀眼的时候,说下来就下来,很多年就是爬不起来。

可以理解李女士的愤怒。但是仔细读她,发现下手真狠毒。她把婚前婚后、交往前交往后的很多年的事情(“劣迹”)罗列在一起,成功塑造一个渣得不能再渣的小人形象,让人百口莫辩。这个女人不简单。

这是一场不对等的博弈。天平反而向无权无势无资源的一方严重倾斜。王的权势和名声成了累赘。大概属于所谓超限战。

理论上,王力宏可以告前妻诽谤,要求赔偿天文数字的名誉损失,他的确也遭受了难以估量的财产损失。但实际上完全不可行,只会把事情弄得更糟。这是因为打铁需要自身硬,王力宏并不硬,可以说娱乐圈染缸里浸染的多数渣男的所为,他都沾边了。前妻的指控并非空穴来风。更多是两人对于事件的不同角度以及感受的差异,远非黑白分明。事情闹大对于他将来的事业复出会雪上加霜,对他的实际损害只会更严重。真上了法庭,他也不见得能赢。何况即便赢了他也得不到可以补偿其损失万一的实际好处,无论物质的还是精神的。再者,她是你孩子的母亲和监护人,孩子们最亲的人,你把她逼垮逼疯,整得她一无所有,你如何面对孩子,面对自己。

乍一看,李女士立于不败之地。王力宏不得不道歉,也不得不公开表示把房子转给她。她似乎得到了她想要的一切。但其实还是两败俱伤。前妻非公众人物,没有自己名誉的实质损伤,但是她把她的三个宝贝孩子的父亲搞得名誉扫地,将来如何面对孩子的成长。互联网是有记忆的,孩子是要长大的,父子之间的感情和关系是割不断的。这种阴影对她孩子的伤害,会是很残酷的。

事情爆发以来,王力宏的危机处理实在不敢恭维。好在此事终于以王的撤退消停了。

一切缘于人性的贪婪寡情,见利忘义。好说好散,存有起码的同理心,本来可以不这样的。

人啊人。

 

 

原载 汉阳一江水《立委:王力宏的危机处理

 
【相关】
 

科学网-【社媒挖掘:大数据时代的危机管理】-李维的博文

 

李维 郭进《自然语言处理答问》(商务印书馆 2020)

预告:李维《巴别塔影:符号自然语言处理之旅》(人民邮电出版社 2022)

 

立委随笔:祝各位老友新朋 Have a “Good Next” Year!

快过年了,做了个奇怪的梦,趁着还记得,记下:

不知为啥事,一位专业人士老友开车带着我在外奔波了一天,说,晚饭时间了,咱们进去吃个饭。车就开到了一个熙熙攘攘的餐厅聚集区(肯定不是北京就是上海、南京啦),好容易找到 parking,然后带着我进了家高档餐厅。

我进门见餐厅高档豪华,一个个都西装革履,这才发现自己匆忙间光着脚,尴尬极了。于是老友陪我回去找我拉在车座位下面的鞋子、袜子,也都是满是灰尘。找个角落赶紧穿鞋。为打破窘迫尴尬,老友说:我们老了。我问:一直不知道,你多大了?(我心里估计他是50左右。)他神秘地蹦出带着中文口音的两个英文字出来,说:GoodNext。

我困惑: good next 啥意思?知天命还是耳顺?

他说:就是不够好,过了年富力强。

感觉我还一直在琢磨 next??就醒了。醒来后,赶紧查网络,用了双引号查谷歌,“good next”,结果除夕了,都是展望未来的话:good next year 之类。

至少确认了“good next” 不是一个固定用法或网络语,为什么在梦中表示老朽,不得而知。但愿这不是讽刺,而是新年吉语,祝各位老友新年快乐!Good next year, good next luck, good next plan, good next  ……

根据“梦的解析”的说法,语言学家梦中的“新词创造”应该有某种元宇宙造词逻辑,如果是自嘲的味道,我想也许是 “good,next” 的来源: good 是应酬,重点是 next.  就好比在挑拣一个对象或物体,一个个候选上来,大部分看不中,说: good,next(please)。就是 pass 掉的意思,不合格,人家要看下一个,下一个永远是最好的。

想起看过的李永乐老师的一个视频,讲女神挑对象如何做到最优的数学原理。追求者太多,眼花了,如果总是 good,next,那肯定不行,最后一不留神自己成了“剩女”。他提出的数学,精神上与华罗庚的黄金分割点理论相通,细节忘了,就是pass了三四成的候选以后,遇到比前好的,就绝不放过,不能再等 next best or next better one 了,这才能保证统计最优。

扯远了,反正除夕了,扯一扯无妨。国内大概都在看跨年晚会了吧。

祝你我新年快乐!

记于2021年12月31日早晨7点,苹果镇

 

【相关】
 

李维 郭进《自然语言处理答问》(商务印书馆 2020)

预告:李维《巴别塔影:符号自然语言处理之旅》(人民邮电出版社 2022)

 

《朝华午拾:创业之路》

已有 10314 次阅读 2009-12-11 04:23 |个人分类:立委科普|系统分类:人物纪事| 泡沫, 创业, 华尔街, 高科技, 问答系统

1996年11月来到B城,发现自己是公司的第二号员工。第一号是一位富有经验的瑞典籍的软件工程师,为人朴实,是很好的合作伙伴。印度女老板是大学教授,很有修养和风度,待人热情和气。当时正赶上美国网络热潮,股市狂涨,高科技项目成为宠儿。网络泡沫最盛的时候,总使我想起国内的大跃进。不怕做不到,就怕想不到。各种概念型公司如雨后春笋,只要有个主意,加上三寸不烂之舌,就有可能弄到钱。然后就是大把地烧钱,不需要有真正意义上的产品,不需要顾客,也不需要盈利,只要你能吸引眼球,在这个所谓注意力经济的年代,你就被认为有了潜力,在风险投资家精心策划的媒体抄作后,股票上市就会身价百倍。在这样的美国式大跃进的环境下,一个项目如果确实有点技术含量和后劲,就更加被追捧,跟我们自然语言技术有关联的askjeeves.com 的迅速窜红就是一个典型例子。

 

AskJeeves声称可以回答用户用英语提问的各种问题,IPO后股票一路上扬,成为大红大紫的华尔街宠儿。我认真研究了他们的做法,发现他们技术含量并不高,只用了一点粗浅的自然语言技术,对英语问句做自动分析,而网络文本是大头,那方面基本没有自然语言的应用。他们的聪明之处是以不变应万变,把千变万化的用户问句归类到相关的预先设置好的问题模板,再由用户点击选择,这样就保证了对用户问题的确认。至于答案,他们采用人海战术,雇佣了几百个分析员,收集常见问题和热点,更新问题模板,手工录入存在答案的链接。AskJeeves的成功为自然语言技术扬了名,为我们后来者开辟了道路。

当年我们运用自然语言和信息提取技术,研制了一个自然语言问答系统的雏形(prototype),在美国国家标准局比赛中获奖。该系统可以回答一些简单的问题,诸如:“谁是1995年物理诺贝尔奖获得者”,“中国哪一年加入联合国”,等等。这一新的研究开发方向,被广泛认为是下一代智能搜索引擎的希望所在,在工业界和投资界引起狂热。当时我们想注册一个跟ask/question有关的域名,凡是我们能想到的,比如 answer.com, exact-answer.com, this-is-answer.com, 1-800-question.com, etc. 几乎全部被人抢先注册了。在这样的形势下,寻找风险投资不仅是诱惑,而是势在必行。

老板联系上一位华尔街投资家。这层关系刚接通,老板就让我尽快给这位投资家提供我们系统的架构图和系统简介。我手头有一张为了写政府项目最后报告而准备的架构图,前后修改了不下十遍了。可是,投资人不是技术人员,所以我必须做进一步修饰,深入浅出,力图给人一种技术艰深,而用途广泛的印象。我的苦心没有白费,我早上送出材料,中午就收到回音,请我们尽速去纽约面谈投资合作事宜。后来,投资人告诉我们,这是他见到的最激动人心的项目之一,我画的那张架构图,经过他们进一步润饰,后来在华尔街投资人中间反响很大,被誉为 million-dollar slide,我们后来的主要投资人跟我说:“I love it, I just love it”。一幅好的图画胜过文字千行,我是亲身经历了这种威力。(前知识图谱钩沉: 信息抽取引擎的架构)

于是,老板跟我动身去华尔街,拜访Park Ave豪华公寓的主人,我们的投资联络人。这位投资人早年是物理博士出身,自称其师是诺贝尔奖获得者。他现在是华尔街的亿万富翁,已经成功地把30家左右的创业公司推向IPO,早已赚得钵满盆盈。Park Ave. 是纽约华尔街不远处的著名高档住宅区,濒临中央公园,这条街上住满了银行家和金融大亨,也有一些影视娱乐出版界的名人。这是我第一次走进亿万富翁的家,这个家占据了一层楼,从外面看并不很起眼。内部却极尽奢华,到处点缀着艺术收藏品。有两个佣人在默默收拾和擦洗。女主人很热情,招呼我们坐下,让佣人给我们预备早餐,她告诉我们她丈夫每天看材料,谈项目,总是工作到后半夜,现在尚未起床。餐后,投资家已经起来了,出来跟我们握手寒暄,留下一些需要我们填写背景资料的表格。他自己却走进房间,去做他每日必做的半小时晨功,念经似的朗朗有声。我不懂这是什么功,还是什么宗教仪式,只是觉得有点滑稽,不过在他这样紧张惊险的生涯里,这样的晨功应该是有益的精神调剂。

他后来跟我们谈了两个小时,可以看出在见我们前,他已经做了一些专业背景调研,问了一些技术问题,特别要求我们详述我们的技术和AskJeeves技术的异同。当他确认了他原先的猜想,AskJeeves 的技术含量只相当于我们所做的一个部分以后,当即拍板,由他个人先给天使基金100万(所谓天使投资是风险投资的最早期,天使投资家冒险最大,但投资得当,回报也最高),三个月后帮助我们寻找第一期投资。他对我们信心十足,说是他经手的公司之中第二个最有希望的(此前他还有一家特别中意的公司,跟AskJeeves类似,早已红透半边天)。

拿到天使基金的这三个月,我们做了两件大事,首先是把我们的系统和PDA无线连接上,这样就可以现场展示通过象手机一样的PDA向系统用英语提问,并立即得到系统的答复,这在当时对于投资人有震撼性的效果。另一项工作,是跟天使投资人紧密合作,数月磨一剑,精益求精,撰写设想如何赚钱的生意计划书(business plan),并在此基础上制作寻找投资的幻灯片。要想给投资人好印象,开始阶段用文字是没有用的,他们根本没有时间和兴致研究什么深奥的技术。所以,幻灯片要做得明白易懂,图示要简洁有力,需要有广告式的夸张,要的就是wow的效果。其实,在这个圈子里,大家都在夸张,推销自己,所以,投资人已经习惯对听到的夸张之词本能地打个折扣。对于不熟此道的技术人员,即便手头有很好的项目,不能有效地推销自己,也很难引起注意。我们很幸运,一开始就找到了独具慧眼,又谙熟华尔街之道的天使投资人。

三个月后,二闯华尔街。我身背一个死沉的膝式电脑,随时准备现场展示我们的问答系统,老板口才很好,负责向投资家利用幻灯片介绍我们的技术和商业前景。天使投资人不放心,要求老板事先多次演练,确保最佳效果。我也几乎一夜没睡,测试系统。说句老实话,我对现场演示很担心,因为当时的系统对于任意的一个问题,即便档案里面有答案,也只有70%左右的机会可以找出来。这个压力很大,因为只能成功,不能失败。投资人相信的是直觉,一旦测试失败,再怎么解释也很难挽回印象。何况他们也少有耐心,一般也就测试两三个问题,基本上是一锤子买卖。因为无法预料他们会测试什么问题,所以实际上只能听天由命。我就是这样胆战心惊地走进华尔街投资公司的大门。到系统演示时,我先介绍我们的资料库存的是以前的新闻存档,并演示了一个预先测试过的问题和系统答案。投资商中有一个看到我们的新闻存档包含有尼克松访华事件,于是提问道:“When did Mao meet Nixon?”,我录入问题后,系统立即显示如下答案和文句:

Answer: February 21, 1972
On February 21, 1972, President Nixon went to China to meet with Communist Party Chairman Mao Zedong and hold discussions with PRC Premier Zhou Enlai.

投资人的震惊可想而知,他们知道 Yahoo 和 Google 是无能为力的,就是AskJeeves也只能显示比较准确的链接,难以给出精确答案。我们趁热打铁,把 PDA 拿出来,请他们自己现场输入问题,通过无线连接我们在水牛城的服务器,其中一个问题是 “how to make chocolate chip cookie?” 这个问题其实超出了系统设计的范围,因为所问不是时间、地点、人名和机构名之类的实体,而是一种方法和配方,在自然语言中的表述形式往往很长,难以把握。幸运的是,存档里面刚好有一段提到制造巧克力cookie的技巧,系统因为无法断定什么是答案,就干脆把最相关的那个段落给提取出来,居然获得喝彩。

过了这一关,投资人的胃口已经给吊起来了,我们掌握了讨价还价的主动权。当然还要经过一系列手续,包括所谓 due diligence, 由投资人聘请资深专业人士对我们的技术做出鉴定,以减少投资失误。然后是双方律师的很烦琐的 paper work,最后终于达成协议,成功引进1000万美元的风险投资。

鉴于我对公司技术发展和资金引进的贡献,老板在引入风险投资前夕任命我为研究开发副总裁,就这样我阴错阳差成为公司第一位,也是在位最久的高级主管。这是我三年前来美创业时从来没有想到过的。

记于2006年六月二十四日

【相关】

《朝华午拾:用人之道》
《朝华午拾 – 水牛风云》
《朝华午拾:知识图谱的先行》

前知识图谱钩沉: 信息抽取引擎的架构

~~~~~~~~

创业九年祭 (60160)
Posted by: liwei999
Date: February 24, 2007 01:43AM

今天收到消息,说Cymfony明天正式出售给英国一家大公司,售价不足以收回投资(不包括政府的近千万投资)。终于运行近10年的公司有个不算最糟的了断。我的股权比水漂还不如。

想想高科技公司也不容易。现在经济形势比较好,尚可以卖个价钱,不至于血本无归,形势不好的话,连买家也找不到。

Cymfony 将成为历史名词。

此祭。

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-277738.html

上一篇:mirror – 有人又提起了“李杨”的问题
下一篇:《朝华午拾:用人之道》

 

7  李宇斌 黄仁勇 武夷山 吕喆 蔣勁松 韩健 yyfy105

发表评论评论 (3 个评论)

IP: 125.46.48.*   删除 |赞[2][游客]jiaomei   2010-10-19 16:11
做地好,写得好,照得好___欲与金牛试比牛!
删除 |赞[1]蔣勁松   2009-12-12 19:32
寫得真好,祝賀博文被編輯部推薦!
博主回复:还要多谢您的引荐。

《AI 随笔:从对张医生的综述抄袭指控谈起》

网友爆张文宏医生博士毕业论文涉嫌抄袭,有图有证据。这是最近闹得沸沸扬扬的大事件。主要是张医生在疫情期间由于言论大胆独特而成为争议人物。爱的爱死,恨的恨死。张黑要掘地三尺,粉丝要誓死捍卫,背后有许多社会学的因素在。但这不是我考察此热点事件的角度。

我的角度是AI,得出的结论是,综述抄袭的指控跟不上时代了。随着AI语言模型的进展,不仅是对张医生,对任何人的综述抄袭的指控很快就会无效。 改写别人写好的综述,经过机器变换算自己的,实践中是无法从技术上做抄袭指控的。

目前学术界的要求是综述的文字必须是自己的文字,可如何定义“自己的文字”呢?说到底就是不要被目前“查重软件”揪出来就算自己的了,那简直不算事儿。除非把“自己的文字”定义为必须符合这个个体一辈子文风的平均值,这一点虽然技术上是可以想象的,但没有意义。最终,人还是要拼内容,而不是拼形式。而现代的技术可以某种程度上做到把内容与形式分开。

举报说:

张文宏论文第79页至82页,从被抄袭文章的第一节开始全文照抄,只是去掉了小节编号。

这是据举报的张医生综述抄袭的第一页

把它自动转成 text 如下:

kat6 基因是 MTB 染色体中的一功能区段,虽然 MTB 全基因序列目前尚在研究中,但 katG 基因的结构已很清楚。它的上游相隔 44个碱基与 furA 基因相连51,下游相隔 2794 个碱基与 embC 基因相连,应用 kpnI 限制性内切地MTB INH 教感标准株 8 Rv 进行消化后,得到一个大约 4810bp 的 DNA 片段,它作为开放可读框架存在被分析时,具有高度编码概率价值.KatG 基因就位于该片段的第 1979 – 4201位,全长 2223bp,其中 A428bp,C696bp,C740bp,T359bp,C+C 占64. 6%。将此片段转玉到一个能在 500hg/ml INH 中生长的耻垢分支杆菌 ML, smegmatis) 中,结果使后者获得了对 INH 的敏感性 (MIC为 8- 32hg/ml ),而对其他药物的 MIC 不变,证实了此 DNA 序列确是katG基因,它与 MTB 对 INH 的耐药性至直接相关0加。Cooderill以及lin 等对MTB 的 ATCC25618 株的 katG 基因含圾 2223 个核巷酸,除了第 700 位一个碱基由乌嗓叭取代了胞喀喧【它们的产物均为甘氨酸] 之外,与 RY 株的核苷酸种类和顺序都是一样的,但当他们对MTB 的 HRv-MC 株和 ATCC27294 株进行 kat6 基因分析时,则发现它们与 HRv 株的 katG 基因序列至少存有 16 个破基的差异,因此,在进行 katG 基因的研究,选择 MTB 标准对照柏时,应充分考虑不同菌株间基因差异的可能性, 尽量选用通用的标准析 HRv 株。 在对 katG基因进行分子学检测,尤其名聚合醇馆反应 (PCR ) 或 DNA 杂交检测时,其引物和探针的设计应尽可能地各开 kat6 的变异区域。

kat6 基因的同源性和功能

许多微生物都含有 xatG 基因,它们与 MTB 基因有较高的同源性-Heymiy直等用一个找带着来自 MTBkatG 基因的探针进行杂交分析,,结果 MTB H Rv 株和麻风分支持菌等 6 株分支杆菌均可见有亮度不同的杂交带,应用氨基酸序列分析显示,MTBkatG 基因编码的过氧化氢- 过氧化物酶,与胞内分支杆菌、大肠杆菌和沙门氏菌、和芽孢杆菌属的嗜热脂肪杆菌编码的过氧化所 – 过氧化物酶,其氨基酸残基符合率为 60% 、53. 3% 、45.7% ,与来自啤酒酵母菌的细胞色素 5也有部分同源性,表明 kat6 基因的分布是非常广泛的。Kat0 基因编码产生 hene-conting 酶,也称为过氧化气 – 过氧化物酶,醇分子量为 8000,在细菌的氧化代谢过程中发挥重要作用。虽然 katG 基因广泛存在于其他微生物中,但众所周知,INH 通常只对 MTB 野生株有效,MIC 多在 0. 02hg/ml1; 对绝大多数的其他分支杆菌的效果就……

我们用seq2seq语言模型自动改写试试:

kat6基因是MTB染色体中的一个功能片段。虽然MTB的整个基因序列仍在研究中,但katG基因的结构已经变得清晰。其上游相隔44个碱基与furA基因51相连,其下游相隔2794个碱基与embC基因相连,用kpnI限制性内切酶MTB INH教义标准菌株8 Rv进行消化后,得到约4810bp的DNA片段,当以开放可读框分析时,编码概率值较高的KatG基因位于该片段的1979-4201位,全长2223bp,其中A428bp,c6996%.将该片段转化为能够在500hg/ml INH生长的耻垢分枝杆菌ML,导致后者获得对INH的敏感性(MIC 8- 32hg/ml),而对其他药物的MIC没有变化,证实该DNA序列确实是katG基因,其与MTB对INH的抗性直接相关。Cooderill和lin等人的MTB ATCC 25618株的katG基因含有2223个核酸,除了700位的核苷酸被Wusangpa取代(他们的产物是甘氨酸)外,核苷酸类型和序列与RY株相同。然而,当他们分析MTB HRv-MC株和ATCC27294株的kat6基因时,发现它们与HRv株的katG基因序列至少有16个片段差异。因此,在研究katG基因和选择MTB标准参比柏树时,应充分考虑不同品系间基因差异的可能性,尽量选择通用标准HRv品系。在katG基因的分子检测中,特别是著名的聚合酶链反应(PCR)或DNA杂交检测中,引物和探针的设计应尽可能分离kat6的变异区。

kat6基因的同源性和功能

许多微生物含有xatG基因,与MTB基因具有高度同源性-heymie等人使用携带MTBkatG基因的探针进行杂交分析。结果显示,6种分枝杆菌,分别为MTB H Rv株和麻风分枝杆菌等。,具有不同亮度的杂交条带,氨基酸序列分析的应用表明,MTBkatG基因编码的过氧化氢-过氧化物酶与芽孢杆菌属的胞内分枝杆菌、大肠杆菌和沙门氏菌以及嗜热乳酸杆菌编码的过氧化物酶的氨基酸残基符合率分别为60%、53%。分别为3%和45.7%。与酿酒酵母细胞色素5的部分同源性也表明kat6基因的分布非常广泛。Kat0基因编码产生hene-conting酶,也称为过氧化物酶,其醇分子量为8000,在细菌的氧化代谢中起重要作用。尽管katG基因广泛分布于其他微生物中,但众所周知,INH通常仅对MIC大于0的MTB野生菌株有效。02hg/ml1。对大多数其他分枝杆菌的影响是……

以上是全自动改写版本,免不了有瑕疵,但是意思应该接近。对于专业人士,在机器辅助生成的基础上做一些必要的后编辑是自然而容易的事情,基本上就是通读一遍,顺它一顺就行了。

不知道“查重软件”能不能发现改写版本是抄袭的文字?不知道如果经过软件自动改写以后的综述,还会不会陷入“综述抄袭”的指控?

指控的抄袭对象的原文也附上作为比对:

搞不清楚在张医生毕业的年代,科研规范的平均水平如何,关于科研规范的教育和风气如何。

在我们入行的80年代,我知道是没有什么严格规范的,论文中只有极少数留洋归来的人才遵循国际规范,每个该有出处的地方都会注明。大部分论文,包括我的导师辈的权威们的论文,大多不严格注明出处。只在论文最后,有个【参考文献】列表,但这个列表与论文没有 coreference,根本搞不清哪个部分是哪个参考文献来的,哪个部分是原创思想。当时我们觉得这就是论文该有的样子。所以,如果以现在的规范回去检查80年代的论文,可能会打倒一大批名人,甚至泰斗。我说的80年代某些领域不规范,是指的引用出处不规范,不是说抄袭。导师辈论文其实很多干货,但是还是有很多引用不规范的问题。当时的圈子没人意识到这是不规范。那还是中国学术圈与国际学术圈没有接轨的年代。很多事情都有个时代局限性的。

当然,张医生的年代应该大有改进,与国际学术规范开始接轨了。但现在与20年前到底改变多少,不得而知。就事论事,我相信按照现在的注定短命的学术规范看,张医生的确是抄袭了。这种综述抄袭在当时(上个世纪末)估计是个有一定普遍性的问题?

什么是现在的学术规范?对于综述(或科普),对抄袭的理解是,文字相同就算。如果idea一样,文字不同,不算抄袭,因为综述和科普都是介绍别人的工作,而不是自己的原创思想。

这个标准貌似有理,但我想指出的是,这个标准落后于时代,已经难以为继了。

因为 AI 领域有一种东西叫“生成语言模型”,最著名的要算是 openAI 推出的 GPT-3 与国内华为等多家研究团队协作推出的“盘古”,二者都是超大规模的语言模型。

GPT-3 参数高达1750亿,据传光训练更新一次模型,就需要两千多万美元的投入,这是AI领域的核武竞赛似的算力和算法的大竞赛。盘古模型有千亿参数,训练数据量也是天文数字,高达40TB,是全球最大的中文语言(NLP)预训练模型。在生成文本时,这类模型非常强大。生成的文本与人类生成的文本从形式上看是难以分辨的。除了辅助写作(包括改写 paraphrase)外,这类模型最大的特点是真正解决了 open-domain 的问答难题,它们所涵盖的知识实在太大了,远远超过曾经名噪一时的打败人类的IBM沃森问答系统。

关于综述抄袭的问题,过去是不规范的问题;将来也不是问题,因为可以利用NLP模型来改写。过去与将来之间才是问题。综述内容相似,说法必须不同的要求,要用自己的字句组织来表达类似的内容,有了AI语言模型的助力,不会成为问题了。特别值得强调的是,生成模型的本质具有随机性,因此同样的内容trigger出来的生成品从字面上看每次都不相同,根本无法查证最终结果来自机器还是人,还是二者的协作。将来对于综述的规范标准势必要改,不能是查字句的相似度。除非是说综述也要求内容完全不同:这怎么可能呢?既不能查内容,也不能查字句,到底综述还能不能确立标注都成了难题。虽然理论上讲,综述是需要功力的,能反映一个人对学科的宏观理解和最新进展的把握,但是制定可以执行的规范标准,可能是一个巨大的挑战。

道理上可以从综述的段落组织、逻辑线条等角度去要求不同,但总是越来越难于量度,无法 enforce,也难以服人。也许未来最终的结果是,综述文章不算发表,至少比原创要打个折扣。将来让机器做综述,让专家做一点后编辑,可以批量而及时地生成种种综述,也不是不可想象的。

有老友说:综述是指对一个领域一个时期的工作的综合评述,并指出当前热点,存在的关键问题,今后的发展方向。在好的刊物,通常是邀请行内权威来撰写的。学生改文字不改结构,还是算抄袭。即使结构改了,不加引用地叙述某个已发表的观点,而且逻辑相似,还是算抄袭。

道理是如此,可是怎么落地执行呢?怎样定义综述的结构是抄袭的呢?而且如果避免了文字雷同后,谁有精力去查对、指控 并且可以证实这种指控而且服众呢?没有可行性。

现在 GPT-3 故意神秘兮兮的,说不敢公开发布,怕模型被滥用、误用或恶意使用,譬如用来制造机器水军。但是武器已经造出来了,怎么挡得住人们的使用呢?如果只有部分人有使用特权,其他人排除在外,这不是在滥用之上又增加了一层不公平么?

而且的而且,一个有 access 的人使用模型生成了结果,结果本身是没有追踪痕迹的(除非带上区块链 LOL)。这是生成模型的随机性质决定的。

小结一下:现在看重的所谓综述抄袭的学界标准很快就会跟不上时代了。因为世界上没有什么“自己的文字”才算原创,内容重复不算抄袭这码事儿。现在的同学不会那么傻和懒,他们其实不费吹灰之力就可以利用电脑生成,来规避这个综述文字抄袭的指控。这项指控不久将来估计就会成为历史。

重要的是他的论文本身的含金量,到底如何,外行无从知道。而当前的综述抄袭是软件和傻子都可以挖掘的。同时,用语言模型以毒攻毒,如果学界规矩不做改变,综述抄袭将来连权威都难以做实指控了,更不用说naive的“查重软件”了。也可以换个角度来看这件事:在没有电脑和打印机的年代,我们中小学交的作业都是手写的,那么字写得好看可以加分,不好看减分,也就是理所当然的明规则或者潜规则了,虽然字好看不好看纯粹是形式,与内容没有一毛钱关系。现在还有老师批改作文的时候考虑字的好看与否吗?你想这样做也没条件了,大家都是电脑交作业,好看程度拉平了。

 

【相关】
 
 

李维 郭进《自然语言处理答问》(商务印书馆 2020)

预告:李维《巴别塔影:符号自然语言处理之旅》(人民邮电出版社 2021)

《李白梁严127:神经的要害在数据瓶颈与定点纠错盲区》

李:我觉得,神经的要害在数据瓶颈与定点纠错盲区,而不是非符号化或可解释性。

这几天在琢磨可解释性的问题。可解释性与性能是两码事,道理上,产品讲的是性能,可解释性最多算是客户友好,让人感觉舒服一点而已。(可解释性的基础是与用户共享的符号系统。不共享的符号也不具有可解释性。这就好比我买了个吸尘器,你给了我一份我不认识的外语说明书。或者接待我的客服以为我是日本人,叽里呱啦跟我说了一通,没带机器翻译的话,虽然也是符号系统,对我是完全不具有可解释性。)

好,回到NLP。

我们追求NLP系统的可解释性,好像是说,程序做什么、怎么做的,算法背后的那条逻辑线索,你需要让我明白,否则我不舒服。这实际上有点强“机”所难。说老实话,就是设计者本人,如果系统变得复杂了,也很难总是搞明白算法的每一个逻辑线条,更遑论对用户解释了。如果容易搞明白,也就没有 debug 的繁难了。

严:可解释性,是指从输入到输出的推理路径可显示,而不是算法自身。

李:输出是输入的函数。可以脱离算法来解释吗?路径不是算法的产物或表现?

感觉粗线条的可解释性 目的是为用户友好。细线条的可解释性不可行 也没意义 很像一个伪问题。

特斯拉为了这种用户友好 不得不花力气在屏幕上显示机器 “看” 到了什么物件。用户见到机器看见了障碍物,障碍物渲染的图片越逼真,心里就觉得越心安。如果机器没看见,屏幕上没有那个障碍物,就不放心。但是从看到环境中用户聚焦的物件到驾驶决策,路径很长也非确定性,可是人的这种心理需求不能不照顾。

我的主要意思是说,应该把开发重点放在“用户友好”范畴下的可解释性上,而不是一味追求过程的透明性。

接着“神经网络短板”的话题讲,迄今为止,神经网络基本上不能落地领域,在NLP领域场景无所作为,这是基本事实。原因也很清晰,就是绝大多数领域场景应用,只有 raw corpus,缺乏或根本就没有大规模带标数据。神经网络无法做无米之炊。于是给符号路线的冷启动应对留下了空间。

白:不能落地是因为没有带路党,而带路党很可能切走很大一块蛋糕。

李:冷启动就是一种带路党。

白:带路党不需要懂符号,只需要懂客户。带路党可以把数据补完全。

李:神经网络主流认知把带路党简单定义为标注,然后就撒手不管了,大不了就是砸银子 找成百上千的标注大军去标注。我可以对任何领域一窍不通 也一样做领域的应用。这个策略对于可以简单明确定义任务又有资源标注的场景,的确是普适的。

梁:数据只是说“有”,没有说“无”,that’s the problem

李:这也是那位挑战神经网络的老教授的口头禅。来自数据的知识不全,完成不了认知理解过程。

白:没有的数据你怎么标注?

李:说的是NLP,没有数据就没有NL对象了,哪里有 P 的问题。

白:带路党可以让数据从无到有,所以,挑战毫无意义。带路党牛就牛在他们是活的数据,我觉得老教授在用一种外行的方式挑战内行。

李:老教授对机器学习很了解,不是外行。传统机器学习肯定做过很多,大概没亲手做神经网络研究,但总是拿别人的神经系统“玩耍”。他不是看不懂神经奥秘,而是认知定位决定了他的批判角度。想起来毛说的知识越多越反动。老教授涉猎太广,知识太多,反而牵累了他。

白:王朔书里的小混混在街上喊“谁敢惹我?”一个人高马大的主儿过来说:“我敢惹你。”混混马上搂着人高马大的主儿说:“那TM谁敢惹咱俩?” 我觉得,老教授应该向小混混学习,混成“咱俩”之一。否则啥也不是。

李:有时候做一个事儿,少一点知识也许更加有利,无“知”一身轻。现如今做NLP的后学,连语言学基本教程也不看的,为多数。今天的气候,这显然不影响成为NLP专家。今天是NLP专家,一转身就是图像专家,再转身就是华尔街金融模型专家。神经网络横扫专家的架势。

白:这是落地之前,落地时不是酱紫滴。落地时有太多不适应,当然跟缺数据有关,跟缺知识不直接有关。知识不能直接变成缺失的数据,知识处理的工具也无法拿来处理大模型已经消化了的数据。

李:话说回来,缺乏专业知识也不是长久之计。前面提过的那个NLP后学 傻傻地问 it 为什么跟形容词 wide 那么强相关,就是因为缺少语言学的常识。词与词相谐是普遍的,绕一个弯就糊涂了,不是语感差,而是基本专业知识不够。

白:长久之计就是语言学知识和带路党深度结合,不着痕迹地把语言学知识灌注在带路党的工作环境之中。

梁:其实,我们能够交流,我们共现于同一个时代,那就是我们已经共享很多知识了。

李:这也是老教授立论的基础,共享的知识是理解和认知的外在前提,不是数据里面的东西,因此光靠数据是不行的。

还有个有意思的发现,密集听了一批最新神经网络的讲座,发现用的最多的几个词是 meaning / information,这就是共同语言了。句子来了,embedding 转成 vectors,vectors 在里面做种种变换计算,就成为 meaning (的载体)了。从 information 的流向和处理角度来看,vectors 对于 information 的各种处理空间大,灵活度高,里面可以有足够的余地尝试各种信息叠加、抵消、门槛等等操作来验证效果。

相比下来,符号基本上是 1-hot coding 的表示,处理 info 就远远不如 vector 的高效和灵活。Not even close,实际是天壤之别。符号主要的好处就是用户友好,看着似乎容易懂,“感觉”比较容易掌控。另外一个好处就是,符号可以外加一个 hierarchy或图谱,进行透明的“过家家”一般的逻辑推理。

白:符号带优先级不就行了?

李:优先级如果是离散的少数参数的调控,也不好敌大数据落地训练出来的种种 weights。

白:符号外挂啊,瓤还是神经。

information一万个人有十万个定义,躲着走为妙。

李:还好啊,反正有个信息论的精确定义做底,信息也是现代物理的基本对象。虽然讲的时候不一定按照数学定义来,但多数人觉得自己的定义离开它不远。

白:用到语义的时候,怎么着都不对味儿。

李:在讯飞的时候,与同事大牛讨论过,我说你的神经网络是个黑盒子,同事说,我觉得一点也不黑。现在比较理解他了。你可以说具体的参数和权重 难以从细节上一一说明白含义,但是总体上的逻辑线条对于设计者是相当透明的。很多时候 学到的巨大的向量表示看上去难以理解 只要结果对了 就不去究竟了。但是真要做一些用户友好的符号化翻译或可视化努力,可解释性是可以不同程度显示出来的。这些都是聪明绝顶的人,模型绝不是瞎撞出来的黑盒子。所以 可解释性作为一个批判要点,更多是从用户友好层面来说 说他们做得不够 还有些道理,而作为对神经系统的总体批判 有失公允。

与其批判机器学习“欠缺可解释性”,不如批判“难以定点纠错”,后者对于大型工程的确是个痛点。

白:外挂可以解决定点纠错问题。批判它干啥,你带路党悄悄把外挂做了,啥都有了。

李:例如,我用自动驾驶每次在相同的几个地点 总是犯错 莫名其妙刹车,我没有办法让特斯拉去做定点纠错,你就是把这个问题录频了 n 次反复提交上去,然后每两周一次软件更新,你盼啊盼,多数时候你的 bug 是泥牛入海,永无改期。这也不能怪特斯拉,它只能收集规律性问题,然后扩大训练,希望下一个 release 整体好一些。客户个体的痛点他不仅是没时间照应,而且也没有有效的办法去定点改正。

 

 

【相关】
 

《李白126:神经 attention 机制搞定代词指代的案例》

李维 郭进《自然语言处理答问》(商务印书馆 2020)

预告:李维《巴别塔影:符号自然语言处理之旅》(人民邮电出版社 2021)

《李白126:神经 attention 机制搞定代词指代的案例》

李:看到 attention 机制一个图示:

这可算是 attention 机制可视化以后,明确显示其解决了 pronoun coreference 的难题。看前后两句 it 与 animal 和 street 的关联强度就明白了:

1. The <animal> didn’t cross the street because [it] was too tired.
2. The animal didn’t cross the <street> because [it] was too wide.

这只是过程中其中一幅 attention 的图示化,图中没有显示其他两两 attentions 的图示(包括 it/animal/street 与 wide/tired 的两两关联度),看完就知道形容词(wide/tired)与 host noun(animal/street)之间的相谐性,是如何对 it 的 coreference attention 的影响力了。

这种两两配对的机制 简直令人发指地有效 而且有解释性,也不怕爆炸,反正所谓 multihead self-attention 机制都是可以并行计算的,大不了多上GPU,费些电而已。

白:怕不怕干扰?

李:不知道 不过就看到的这个结果,已经让人嫉妒得咬牙。好玩的插曲是,下面留言貌似还有个“理呆”傻傻地问:老师 为什么 it 与不相干的词 wide 有很强的关系?这位学生理解了 it 与名词的关系 却不能理解与形容词的关系,哈。

白:我们的观点是,it与其所指建立关系时,会把所指的本体标签复制到it这里来,然后跟tired/wide检查相谐性就是邻居之间的事情了。飞线不是白拉的,是有本体标签输入的。

特别是,飞线的建立,是在各个chunk内部的萝卜填坑都搞定的情况下才会发生。而内部填坑就意味着,it的分子萝卜已经被chunk内部的坑所同化,不相谐的百毒不侵。相谐的一路绿灯。

李:感觉是 如果句子处理满足下列条件,能穷举两两关系 而且有足够数据训练去计算这种关系,那么我们引以为傲的结构,其桥梁价值就会趋近于零,因为位置信息加语义相谐的 attentions,应该可以搞定这种 hidden correlations。这样说来,attention is all we need 即便从字面上看 也说的不错。

自然语言说复杂也复杂 但说简单也简单。简单在于,有无穷无尽的语料,预训练可以发掘很多语言知识。到下游应用的时候 单位开始变小,小到一句一词 大也不过一篇文章 对于 attention,这都不算事。(也有人现在尝试把 input 扩大到一组文件,来做跨文件自动摘要,结果也让人开眼)。

白:NN容纳了结构,正常。

李:可几年前,我们是不相信神经系统可以搞定 long distance(hidden) correlations 的,当时觉得非符号结构不能的。这个不服不行。 

白:

在这个模型看来,光刻机是“我们的”了。其实是“它的”。“我们”的间接宾语角色没有被揭示出来。如果没有那个“给”,这一切本来都是说得通的。

谁没告诉别人?

李:是 he,不是 we。嗯,这两例的确没搞定,也更 tricky 一些,有间接宾语干扰项。再等两年,等最新机制和方法慢慢渗透消化部署到商用神经翻译系统后再看看搞定了多少。总之,总体方向上是向好的,我觉得。越来越多的“非低枝果实”正在被神经吞噬,一个幽灵在地球徘徊……

 

 

【相关】
 

《李白梁严127:神经的要害在数据瓶颈与定点纠错盲区》

李维 郭进《自然语言处理答问》(商务印书馆 2020)

预告:李维《巴别塔影:符号自然语言处理之旅》(人民邮电出版社 2021)

《AI 随笔:观老教授Walid的神经网络批判有感》

昨天在 YouTube听了一个数小时的批判深度学习的小圆桌会,有点意思:

NLP is not NLU and GPT-3 – Walid Saba (可惜国内需要翻墙才能看youTube,我截屏如下)

是三个名校中青年学者对一位学富五车的老年教授,大家抱着尊重老专家的尊敬之心,与这位批判者深入交谈究竟神经网络的短板在哪里。

Walid 教授对于领域一边倒极为不满,凭着他对于电脑科学(早年好像是伯克利电脑博士)、传统机器学习和现代神经网络、符号AI、心理学、语言学等多学科的了解,讲述自己对于所谓 Bertology(就是 Bert 这类神经方法论)的批判,他的博客也有系列点评和批判。他是真有学问,所以批判中不时有闪光金句和洞见,但总体而言,说老实话,他的批判显得无力。

说来说去 他批判的焦点就是 embedding 词向量这样的数据结构虽然是伟大的发明 因为语言单位可以做各种信息计算了 但是说到底会遭遇无结构的天花板。他所谓的结构 不是指的文法结构 而是说 向量本身算来算去 无论求和 求product 还是 concatenate 这些信息操作的结果 他认为还是平面的 没有结构的。最终无论模型多大,也只是对于语言数据中可以观察到的词与词之间的某种角度的 similarity 计算而已,尽管可以捕捉语言中的 long distance dependency。

但是 语言理解有两个部分,他说,一个是说出来的 可以观察到的部分 一个是没说出来的脑补的 “我知道你知道(I know you know)”的部分。二者缺一不可,但是纯粹通过大数据训练的模型没办法得到后者,因此是跛脚的。

这个论点有其闪光之处,但是他说的太绝对了。

所谓数据里面学不到的后者 听了半天就是指的某种 ontology(本体知识),他有点遮遮掩掩,说自己几十年探索的最新创新还不想马上公布于众,又忍不住说其实就是一个 type ontology,并不复杂,规模也不大,2000 个基本概念,是四岁儿童都具备的先验知识。这其实就是 HowNet 的头部 features,也是 Longman 词典中用来定义所有词汇的大约 2000 基本词汇的某种映射物,他也许会有些不同的组织方式,不会相差太远。

总之,这些基本概念或 types 所构成的常识(他称 type checking,和 type unification)在语言理解中一直在下意识中起到脑补作用,否则人类的交流难以进行。既然人类是这样利用二者理解和交流的,电脑单单凭借大数据怎么可能模拟人类的语言能力呢?

我来批判一下他的批判(其实三位后学中的一位也不断礼貌地在反驳他的系列批判)。

蕴含常识的基本ontology确实有脑补作用,这个我们在白硕老师的语义计算群讨论过的无数案例中都有体现,但是铁口说这些东西是不可能从大数据学出来的,感觉偏差很大。他举例说 want 需要的 agent 是 human,这是四岁小孩子都知道的常识。其实大数据里面这种主语谓语的 type correlation 太普遍了,不可能不在大数据(预)训练中反映出来。

他还举了两个图片的例子,一个是女老师辅导学生的照片,一个一家三口的全家福,他说这两张图片的数据本身是没有区别的,都是成年人与孩子在一起的合照。他挑战说,因为数据本身没有区别,所以系统学不出来前者是辅导员与学生 后者是父母与孩子的关系。这个笑话闹大了 因为后学马上把两幅照片输入谷歌图片理解系统。结果是:第一张图 tutoring 的概率最高,第二张图 family 概率最高。

他实际上是犯了同样的错误 他以为数据中不存在的某种知识 其实在大数据的雷达上是有反映的。如果是小数据 可能的确找不到区别性特征或规律 数据大了就不同了。老教授这时候不得不说 你不能拿我举的个别案例说事,总之是有一种数据里面不存在的知识在起作用。这么说自然也有一些道理 但是感觉他批判的力度太弱,而且留给自己的批判空间也越来越小了。

说他有一点道理 是说大数据即便学出来常识 这些常识也是支离破碎的 没有内部的组织性和严格的结构 hierarchy,学出来的 onology 和人头脑里的 ontology (以及语义学家精雕细琢的ontology模型)总是有区别的。这一点需要承认,但很难说在语言应用现场前者的效果比后者差,本体知识与其他知识一样最终还是要落地的,要以落地赋能效益作为最终衡量。

他还举了一个有意思的例子,他说大学校园(campus)与大型商场群(mall),从物理角度观察几乎没有区别。但是人类的认知很容易区别二者。既然没有物理区别,机器怎么能够区别它们?这实际上是 tutoring 与 family 的放大版,实际上也经不起质询。二者的区别即便在物理层面也还是有蛛丝马迹。

总之,老教授的道理越来越难验证,他费了很大力气找出来的批判反例,其实大多不能构成神经网络的真正挑战。

他还举了一个 product 的例子,他说人类的ontology中有 product 的概念,可是千差万别的几乎任何东西都可以是 product,数据中怎么能区分这样的概念呢?人怎么认知的呢?人是把 product 与 manufature(制造) 结合起来的,“制造”的结果/宾语 就是 product,不管结果如何不同。同理,teacher 这样的概念离不开 teaching,先有 teaching 才会有其 agent 来做 teacher,形成这个概念的 type。这样的先验知识 他认为纯粹数据是学不出来的。因为学不出来 所以需要用到这种知识的认知理解过程 神经网络就是无能为力的。

总之,不能说他的批判完全没有道理,但是力度很不够,不足以批判神经系统的潜力。有些知识目前的神经系统也许没有捕捉,因此表现不出来,但很难说以后就没有。关键是,坚持 ontology 只能先验,不能反映在大数据中,这个论点是有问题的。常识在个例中通常是不说的,人吃饱了撑的,不会总是说出来人人都知道的常识:人要吃饭;枪可以杀人,等等。但是既然是常识,大数据的趋向中就会有反映,而捕捉这种趋向,是多维度的向量空间的拿手戏。常常是系统其实捕捉了,但因为向量表示如果不做可视化的用户友好努力,不变成人可以理解的符号或图示,我们不知道模型已经捕捉了。

他的有道理之处可能是在常识的深度推理、长链条的推理方面,目前的神经架构纯粹靠大数据可能局限于框架而学不出来,也用不起来。但大数据深度学习是一个进展变化迅速的上升领域,今天的无能就是明天的突破口,很难说推理这条路它一定跨不过去。这就好比几年前我们都觉得 coreference 和其他篇章的关联,神经网络应该是无能的,直到今天我们亲眼看到了神经系统在篇章方面的成就,这才改变成见。

这才十年左右的功夫,从CNN,到 RNN,到双向RNN,到LSTM,到 transformer,到各种 attention机制,深度学习的进步让人眼花缭乱,而每次进步都是真实可测的。以前看不上所谓的 transfer learning,觉得有点不实在,但超大规模预训练落地以后,产生了GPT3和盘古这样的庞然大物,NLP方面的 transfer learning 一下子变得触手可及了。今后几年这方面可以预见有越来越多的应用实践出现。

老教授还反复质问:心理学家、语言学家、逻辑学家这么多学者这么多代人艰苦探索语言和思维的奥秘,做了那么多的工作,难道这些人都是做无用功吗?你凭着大数据,一招打天下,只靠神经网络就搞定了人类认知?come on,give me a break

这种质询诉诸感情大于讨论问题,没多大意义。不同的路线和方法论虽然理论上不可能完全覆盖和超越另外的路线和方法论以及先贤,以此说一边倒对科学发展是不健康的,盲目迷信神经网络是不智的,两条路线可以取长补短,这些道理都没问题,但是以此来挑战新方法 还是需要拿出更加实在的立论和案例。老教授给人的感觉“虚”了些,有些倚老卖老,又有点像堂吉柯德战风车。精神可嘉。毕竟这种声音已经很少听见了,即便发声了,也很快淹没。乔姆斯基也多次批判过经验主义路线和机器学习,谁把他老人家当回事呢?都是我干我的,供着他或无视他,敬而远之。

时代大概就是这么前进的。连坚信“上帝不掷骰子”的爱因斯坦反对量子不确定性固执了一辈子,物理界还是达成共识认定老爱错了,普遍接受了现代量子理论。人不会因为曾经伟大,就可以改变潮流方向。

老教授的批判,其实还不如我们的批判深刻。我看到的神经网络的短板很简单:迄今为止,神经网络基本上不能落地领域,在NLP领域场景无所作为。

这是基本事实。原因也很清晰:就是绝大多数领域场景应用,虽然有数据,但是多是 raw corpus,缺乏或根本就没有大规模带标数据。皮之不存毛将焉附?神经网络除了预训练的语言模型以外(其实也是监督学习,只不过不需要人工标注而已,无数的语料本身就是自然标注的语言模型训练集),全部的拿得出手的应用成功都源于标注数据的监督学习。不管怎么神经,无米之炊是做不到的。于是符号路线就有了用武之地,就是这么简单。

我们可以做领域NLP的无米之炊。符号NLP在建立了平台和parser以后,就可以用“冷启动”快速结构开发来弥补领域应用的空档。无米(labeled corpus)可以,有稻(raw caorpus)就成,parser 就是碾米成稻的机器,结构就是一种通用标注,在此基础上的领域落地不过就是配置调适到最终目标,这条路经过多领域的实践证明是快速有效的。(但是,预训练也许是个竞争性威胁,在此基础上的 transfer learning 可能是个领域落地的替代品。我们当翘首以望。)

往深里说,除了带标数据的知识瓶颈外,老教授提到的外在知识,譬如领域知识图谱,等也是一个因素:不能说大数据完全学不了,但学得不系统不完整链条没有深度和结构的确是目前的神经局限。

关于领域场景冷启动,可以从我们最近的电力场景知识图谱的实践得到一些启发。这个落地尝试我体会特别深。那真是冷启动,比冷还要冷,是冻启动。平常的冷启动,产品经理至少还能给一个 完整的 specs,里面给出领域知识抽取的样例,定义的每一种类至少给一个 input-output 对照的例子,作为种子去启动冷知识的开发过程。

回顾一下背景,电力NLP落地一直想做,但觉得很棘手,主要是行业太深,看不明白。而客户自己也说不清楚需求的细节,只是感觉有必要首先把这个场景的知识学习出来才好。这次是我们自己与电力客户做沟通了解,我们的一位 leader  临时充当产品经理的角色,给了一个电力图谱的初步 schema 设计图,有原始文档作为参照,完全没有时间去做例示化 specs 定义。我们要自己消化去启动知识工程。等于是把产品经理的任务转移到我们开发人员了。几天后做出的结果与做知识融合的后处理模块开发人员接口。知识融合需要做一些 dirty work,不仅仅是应对NLP抽取的碎片化知识结果,同样要应对半结构化表格抽取出来的碎片化结果,这个过程所化的时间远多于NLP冷启动抽取(现在看来语言parsing和抽取不是真正的瓶颈,后面的融合目前是瓶颈,这方面我们需要一些时间抽象和总结,来提高平台化的融合能力)。不久,做出来的图谱原型看上去有模有样,符合 schema 的设计要求。

电力领域的数据很各别。这与我们以前尝试过的金融文书、法律文本完全不同,因为金融法律虽然是领域风格的文字,但读起来与新闻类还是有不少类似的地方,起码外行也能大体读得懂,因此消化理解图谱里面的关系,心里感觉有谱。可是到了电力,虽然其实行文很规范(没有风格,完全的机械性文字表述,力求精确),但是没有领域基本知识,很难看懂,无从下手。

刚拿到薄薄的一页 schema 设计图,也是一头雾水,一组抽象的概念连接起来,到底想表示什么领域知识呢,不确定。但是几个小时对着原始文档的对照讲解和讨论,很快就冰释了这个领域知识的壁垒,有点豁然开朗的感觉。

说这是一次奇妙的NLP领域落地的产研经历,是很真实的感受。今后遇到其他暂新的领域,也不要被表面的“黑话”形式所吓倒。只要冷启动的方法论过硬,感觉困难的领域知识理解问题,也许实际落地操作层面就是一层没有捅破的窗户纸。

我们主打的RPA(Robotic Process Automation,机器人过程自动化)是普适的,可以触达各种各样的不同领域场景。由此带来的更加“高深”的领域知识抽取任务就会五花八门。这拓展了我们对于不同领域数据的视野。方法论和NLP平台的威力和意义就在于,任你千变万化,万变不离其宗。这个宗不仅仅是指背后的语言结构(这个高深一点,培训难度也大一些),也包括从原始数据自动做领域词汇习得(关键的一环)、上下文约束机制(线性的、结构的,线性的约束比较简单,能很快培训一线人员做低代码开发)、多层松绑机制、冷启动质量保障控制流程(没有大量标注数据也可以对精度和召回做系统性控制)等一系列配套工具,这些就是可以普适的NLP的平台工具。

这样的零标注数据的领域场景,神经纵然三头六臂,奈其何也?

 

 

 

【相关】
 
 

李维 郭进《自然语言处理答问》(商务印书馆 2020)

预告:李维《巴别塔影:符号自然语言处理之旅》(人民邮电出版社 2021)

《成长花絮:小鬼子成为共产主义者》(留存)

《成长花絮:小鬼子成为共产主义者》

屏蔽已有 2160 次阅读 2011-10-14 06:13 |个人分类:成长花絮|系统分类:生活其它| 历史, 马克思, 共产主义

陪女儿研究马克思主义
 
早上起床,甜甜告诉我:Dad, I had a weird dream.  The last sentence I remember saying to somebody is:
 
“If there is anything that I know, communism is for you.”
 
看来,这个学期学世界历史,甜甜是对共产主义学说着迷了。
 
前几天,女儿回来告诉我,说她的世界历史课程要求介绍一位历史名人,其他同学有选卢梭、拿破仑、教皇保罗二世等,她选的是卡尔马克思,要求我帮助她了解马克思主义。我说那没问题,我从小就学习马克思,谈马克思主义如数家珍。女儿说,首先要了解马克思的生平事迹,然后主要是介绍马克思对下面两个问题的论点:马克思怎么看人性?马克思怎么看政府?
 
马克思的人性论,我这个当年的学马列小组积极分子也不大了解。人性在我们的少年时代是塔布(taboo),学习马克思也要绕开它:当年我们强调的是阶级性,而不是人性。改革开放以后,在老邓发动反自由化之前的思想解放年代,曾经有过对青年马克思异化理论的大讨论,印象深刻。顺藤摸瓜,上了维基百科 wiki,发现还真有专题论及青年马克思的人性论及其异化论。马克思的生平、其他论述,包括政府,wiki 上都有很好的概述。互联网上的百科wiki是人类新技术时代的一个创举,女儿已经养成习惯了,凡事查 wiki,我也鼓励她做这类研究项目尽可能参照 wiki.
 
生吞活剥看了维基百科的马克思条款,甜甜对马克思佩服得五体投地,整理了不少笔记。笔记上交给老师前,必须用自己的话综述改写,这样就对有些问题需要深入理解。譬如人性,维基的讲解围绕马克思对于人的自然性、创造性以及天赋才能的肯定,反衬生产关系对于劳动者创造本性的异化,显得太过抽象。女儿问:马克思到底是说人性是好,还是坏啊?我根据自己的理解,回答说:马克思是持肯定态度的,他要说的是,其所以产生阶级斗争等残酷的事件,那是人的社会环境和地位决定的。资本家作为人,并不是生来就要压榨无产阶级的坏蛋,但是他的阶级地位决定了他必须剥削无产阶级,以追求最大利润。资本家作为人格化资本的本质,是他的资本家身份决定的,不是他的本性问题。一个无产者,无论多么善良,一旦成了暴发户,变成资产阶级以后,他一样要被异化,成为资本的代表。
 
女儿最感兴趣的是共产主义,说我们从小被洗脑了,以为共产主义导致独裁和邪恶,其实共产主义是多么地美好。
 
“we were brain-washed to believe that communism is associated with dictatorship and leads to evil. But according to Marx, communism is a beautiful society, no class. no class struggle, work is fun and not a burden, one can satisfy his most potential with his gifted talents.  But why the countries experimenting with communism all failed?
 
“They failed for a good reason.  The reason is clearly stated in Marx’s works but the followers did not take it seriously.  That is, an ideal society like communist needs to be supported by the maximum productivity.”
 
女儿说:马克思了不起,资本主义太臭了(sucks),你看这两年的金融风暴,目前席卷欧洲资本主义国家的政府倒债危机,处处说明资本主义必然灭亡,共产主义必然胜利。
 

女儿说,我觉得我现在已经是共产主义者了,资本主义太烂,一定要被共产主义所取代(Dad, by now, I think I am already a communist.  Capitalism sucks, got to be replaced by communism.)

 
我乐了,这话怎么与四十年前我们的信仰如出一辙呢。

http://blog.sciencenet.cn/blog-362400-496571.html

上一篇:《成长花絮: I love me too》
下一篇:《每日一歌: Savage Garden – I knew I loved you》

 

3  武夷山 全嬿嬿 吴吉良

发表评论评论 (2 个评论)

删除 |赞[1]武夷山   2011-10-14 08:05
四十年前是被灌输的,现在她是自己得的结论—-尽管还处于结论常变的青春期.

《成长花絮:Hi, I’m Karl Marx》(屏蔽留存)

《成长花絮:Hi, I’m Karl Marx》

屏蔽已有 2458 次阅读 2011-10-14 07:15 |个人分类:成长花絮|系统分类:生活其它| 历史, 马克思, 课堂, 华盛顿

几周前,甜甜世界历史课的项目《与思想家见面:卡尔 马克思》终于完工了,接着是要在课堂上给老师同学讲演。首先,要着装成学者马克思的样子。马克思的形象甜甜很熟悉,还在她很小的时候,她就从我小时候的临摹素描中看到了马恩列斯毛,还有华盛顿(见《成长花絮第一期:学画》)。服装好办,她就穿我的长衫西裤凑合,主要是马克思的大胡子。我陪着孩子转了好几家店铺,她都不满意。幸好由于万圣节将临,湾区临时增加很多化妆店,里面充满了稀奇古怪的服饰、骷髅,当然也有面具和大胡子。最后找到的胡子倒是很像马克思,就是颜色太黑了点儿,印象中马克思是花白胡须的。我安慰甜甜说,这是青年马克思的大胡子,完全没有问题。何况你讲演中的人性主题确实是青年马克思的思想,老年马克思更加激进和革命,远离了人性的主题。

就这样,甜甜上场了,讲得激情昂扬,特别是结句“全世界无产者,联合起来!” 甜甜先是用的德语,然后用英语重复,掷地有声。受到老师的赞许。下面是讲演稿的纲要:
Meeting of the Minds: Karl Marx

Hi, I’m Karl Marx, a middle class, 18th century German scholar, who was born at the beginning of the Industrial Revolution, when Capitalism was just starting and not yet mature. There were no social welfare programs (such as healthcare or pension) or worker unions, and everything was a class struggle between the rich, Bourgeoisie, and the working class, Proletarians. My theory, Marxism, is about the ultimate government, Communism, in which the property of a society is owned by all members, and peoples’ talents are utilized to their full potential, so that people enjoy their work while working toward the common good. Capitalism is a corrupted system in which the Bourgeoisie have all the power and exploit the Proletarians, while the Proletarians are unfairly treated, wage-earning robots. Even in democracy, when people vote, they are affected by mass media, controlled by the Bourgeoisie. All humans are naturally creative and talented. So I say to you all, everyone is equal. We should overthrow the dictatorship of the Bourgeoisie, “Proletarier aller Länder vereinigt Euch!” Proletarians of the world, unite!

http://blog.sciencenet.cn/blog-362400-496578.html

上一篇:《成长花絮: I love me too》
下一篇:《每日一歌: Savage Garden – I knew I loved you》

 

5  武夷山 吴飞鹏 张玉秀 曹聪 吴吉良

发表评论评论 (1 个评论)

删除 |赞[1]武夷山   2011-10-14 07:32
共同经历。我小学在美术课自选作业上画马克思头像,得了100分!

小鬼子的马克思研究笔记(屏蔽留存)

小鬼子的马克思研究笔记

屏蔽已有 2566 次阅读 2011-10-14 08:16 |个人分类:成长花絮|系统分类:人文社科| 马克思

Notes on Karl Marx and Communism
 


1. Bio

Karl Marx was a German philosopher, sociologist, and communist in the 18th century. He developed a famous theory, called Marxism, that fundamentally influenced the human history. In fact, Karl Marx is among the most quoted scholars in history and is one of the most influential figures of all time. His two most famous works are: The Communist Manifesto published in 1848, mainly a political statement for the communist movement, and Das Capital, a book he devoted his life to on the nature of the capitalist system. In the last century, following his revolutionary theory, there were communist movement and revolutions in many countries to form a communist group of states, led by Soviet Union in 1922 and led to the founding of Red China in 1949. However, since the collapse of Soviet Union towards the end of last century, the communist movement suffered a big retreat and even the post-Mao China turned to market economy, a system closer to the capitalist economy than the communist economy. Marx’s predictions that the global revolutions will end the capitalist system in the world are not proven right.

2. Marx’s view on government

Marx has a theory of social development involving 5 major social types, from lower stages to upper stages, i.e.

Primitive Communism –> Slavery system –> Feudalism –> Capitalism –> Socialism –> Communism.

He regards the capitalist government as an inhuman government which only protects the capitalists (bourgeoisie) while oppressing the working class (proletarians). He believes that despite the name of democracy, a capitalist society is in essence based on Dictatorship of Bourgeoisie. He concludes that capitalist government should be overthrown by the working class and replaced by the socialist government based on Dictatorship of the Proletariat. Eventually socialism transitions to communism when the productivity gets to the highest level. Communism is the ideal society in Marxist theory in which every one enjoys his work, which brings job satisfaction and fulfillment of his creativity, at the same time producing the products to meet the needs of all the society. In communism, there is no distinction of class, no class struggle and everything is in harmony.

3. Marx’s theory of human nature:

Contrary to the popular view that human is selfish by nature, Marx thought that human is a naturally creative animal. Accordingly, an ideal society creates a condition for the whole development of human nature. But capitalism is an evil society which turns humans into wage slaves.

Marx’s theory of human nature plays an important role in his criticism of capitalism and his ideal of communism. A closely related and even more influential theory of Marx is about alienation from human nature caused by the capitalist system.

4. Marx’s theory of alienation

By alienation, Marx refers to the social separation of people from their “human nature” which is supposed to be decent and creative. Marx believed that alienation is a systematic result of capitalism. He believed that it is the alienation that deformed human nature, making people behave differently depending on one’s social status. The nature of capitalists becomes exploiting and oppressing the working class purely for the seeking of profits. The working class becomes wage-slaves like robots working in inhuman conditions.

Only in the communism can all men gain freedom and be liberated from wage-slavery, enjoying the full nature of their creativity.

5. why he thinks that way

Marxism was formed in an age when the capitalism was not mature and there were waves and waves of class struggle and society conflicts : there were no social programs, no unions and other forms of laws as seen in the modern society. For example, there were no minimum wage law, child labor law, income tax regulations and social welfare to protect the lower working class and to balance the interests between the capitalists and the proletarians. Out of deep compassions for the lower working class who has been struggling for very basic living, and out of the anger towards the early capitalists who were after profits by forcing the working class to work long hours with very low pay and very poor working conditions, Marx concluded that the capitalist government is inhuman and will be overthrown by the proletarians and replaced by the socialist and then communist government.

Works Cited

“Karl Marx.” Wikipedia: The Free Encyclopedia. 19 Sep. 2011. Wikimedia Foundation. 21 Sep.

2011 http://en.wikipedia.org/wiki/Karl_Marx

“Marx’s Theory of Alienation.” Wikipedia: The Free Encyclopedia. 26 Aug. 2011. Wikimedia

Foundation. 21 Sep. 2011 http://en.wikipedia.org/wiki/Marx’s_theory_of_alienation

“Marx’s Theory of Human Nature.” Wikipedia: The Free Encyclopedia. 22 Jun. 2011.

Wikimedia Foundation. 21 Sep. 2011 http://en.wikipedia.org/wiki/Marx%27s_theory_of_human_nature

http://blog.sciencenet.cn/blog-362400-496591.html

上一篇:《成长花絮: I love me too》
下一篇:《每日一歌: Savage Garden – I knew I loved you》

 

2  杨华磊 曹聪

叛逆期的小鬼头(屏蔽留存)

叛逆期的小鬼头

屏蔽已有 1826 次阅读 2012-2-19 21:44 |个人分类:成长花絮|系统分类:生活其它| 叛逆

女儿到了叛逆期,脑后有反骨,凡事逆向思维,不仅总是与父母对着干,对很多传统认知、社会共识也很 不屑。

在学校,她在初中和高中最喜欢的个别几个老师也都是对时政冷嘲热讽的,或者特立独行的那种。其中一位大谈地球变暖是政客和媒体危言耸听,虚拟出来糊弄百姓的乌龙,女儿极为信服。

后来学历史,他选择写毛泽东。在西方的教科书和大众话语中,毛和希特勒斯大林是一类独裁者,反面人物。可女儿觉得自己被洗脑了,她要挣脱出来,一定要找出毛泽东和毛泽东时代正面的东西来写自己的作业。于是跟我谈,开宗明义,阴暗的、反面的、残暴的一面,我看到的很多,你不必谈。你专门给我列一个清单,具体谈谈毛和毛时代的亮点。我说,对于这么复杂的历史人物和历史阶段,自然是正反两面都有。你要正面的材料和论据,我就给列出一个清单来,清单的最前一条就是毛的医疗制度的革命,使得最贫困的农民得以享受几乎是免费的最基本的医疗服务(见  【老爸:毛时代的送医下乡制度】 ;老爸:毛时代的王一千美谈 )。

另一位教语文的老师极度自大,宣称自己永远不会错,他擅长语言结构分析,教孩子画句法图,做主谓宾分析,有语言天赋的女儿在语法分析方面是他最好的学生。后来女儿看到我让机器自动分析,再复杂的句子,也被分析出很漂亮的句法树出来,终于承认她的老师是天下第二,山外有山,还有语言学博士的老爸在他老师之上(女儿知道这位老师正业余攻读语言学硕士)。看来,逆反如女儿,也还是信服权威,我的博士头衔显然比她老师候选硕士的头衔让她相信我的语言学要高出她老师一头。女儿表明她最大的愿望之一就是,跟老爸学一手,哪天去当面找老师的茬子,证明他语法分析错了,他并不是如他自己标榜的那样伟大光荣正确。我说,这很容易,你把他的分析拿给我看,我总可以找出错误或者不合适的分析出来,但是不要指望他承认错误。文科的东西,测不准原理在作祟,并非黑白分明的。

http://blog.sciencenet.cn/blog-362400-539237.html

上一篇:看铁匠打铁
下一篇:【老爸:毛时代的送医下乡制度】

 

8  吴飞鹏 曹聪 武夷山 肖重发 刘立 李宇斌 吴吉良 杨正瓴

发表评论评论 (1 个评论)

删除 |赞[1]肖重发   2012-2-20 00:03
毛时代,总体上还是有干劲、有理想、有自信。不像现在,大家都只剩下性和钱了。要整倒高级干部,也只能拿性和钱来说事!

社会媒体是言论自由的天然突破口 (屏蔽留存)

社会媒体是言论自由的天然突破口

屏蔽已有 2239 次阅读 2012-5-11 23:18 |个人分类:成长花絮|系统分类:科研笔记| 人权, 突破口, 言论自由, 古巴, Yoani

  [立委按]

 

女儿历史课要求写一篇 research paper,选取一个对社会发展有影响的当代人物或机构,论述其成就和意义。社会发展的领域包括政治、经济、教育、卫生、慈善和人权。虽然技术领域不在列表上,女儿还是选了她心目中的 传奇偶像人物 Steve Jobs,因为他 made a ding in the universe, 可以从教育或其他领域谈他的技术革命带来的影响。可是选题提交上去,没被老师批准,说 Steve 前不久刚去世,铺天盖地都是关于他生平事迹的资料,使这个选题具有不对称的优势。于是女儿转选即将上市的社会媒体巨头 Facebook 的创始人 Mark Zuckerberg,还是技术改变世界的传奇人物,结果以同样理由不得通过。

女儿有点扫兴,这两位是她读得最多,最有兴趣研究的人物,其余的人物和机构大多提不起兴趣来,少数有意思的名人如诺贝尔奖获得者南非的曼德拉和美国前副总统戈尔都已经被其他同学抢占了。想了半天说,那我就写盘尼西林的发明者弗莱明吧,说明医药的革命性突破在偶然里面包含了必然,伟大发现是预备给有准备的心灵的(prepared mind)。可是弗莱明不算当代人物,也不行。

最后老师把一个古巴人权斗士 assigned 给她了,算是命题作文。于是上网查资料,做笔记,折腾半个多月,终于写出了这篇研究文字,其主旨就是“社会媒体是言论自由的天然突破口”。特转载于后,与各位分享。虽然只是一个美国中学生的粗浅笔记,可能对转型期的当代中国也许也有些意义。

 

论述这篇的主题并不难,高技术支撑的社会媒体成为言论自由的平台和突破口是自然而然的事儿。除非当政者退回到前数字时代,废除互联网,任何长城都不可能完全阻挡信息的自由流通。古巴的人权英雄 Yoani Sánchez 女士抓住了时代的机遇,以其勇敢智慧和不屈不挠成为世界人权史上第一批利用技术对抗独裁的先驱之一,因此成就一世英名(以她的国际名声和影响,有望获得明后年的诺贝尔和平奖)。美国这边的论文训练,除了 thesis (中心思想)要鲜明突出外,还要求承转起合(transition)到位,段落要有 topical sentence,人物和事件要有背景介绍,材料来源必须详细标注来源,最后的总结概括阐述其意义和价值后,还需要几句话谈 so what,即从长远的角度预示其历史意义。女儿问:她很了不起,已经为人权做出了很大贡献,so what?我给她提示了两点:一是星星之火,榜样的力量是无穷的,等群众都觉悟了,追随她的结果就会演变成改变世界的力量。第二点就是和平演变,追求自由是人类的天然权利和本性,钳制言论自由和基本人权的反动力量和独裁政权,终将为保护自由的民主社会所替代。但这个过程不一定要伴随流血和革命,和平演变对国家和人民最为有利。女儿有些懵懂,但还是把这两点融合进去了。

 

 

不知她的老师买不买账?

 

 

11 May 2012

Blogging Through Silence

Living with a fear of speaking is not easy, while the free world takes for granted the freedom of speech, the citizens of Cuba are still deprived of this basic human right.  Yoani Sánchez, who uses the power of WordPress blogging to air her views freely, is one of Cuba’s best-known human rights activists to fight for free expression.  Sánchez manages to use her blog as a forum to exercise free speech in the totalitarian reign of Castro in Cuba.  Her use of Internet and technology to blog through silence pioneers a new direction for the movement of human rights in the world.

The end of The Cold War twenty years ago did not end entirely the communist dictatorships.  Today, there are still a few extremist regimes such as Cuba and North Korea.  The communist Cuba, founded by Fidel Castro half a century ago, still continues the system of Stalin in which free speech is a political taboo: “Stalinism with conga drums,” says Ms. Sánchez as she compares it to the former totalitarian Soviet Union (“Cuban Revolution”).  The press in Cuba is under strict government censorship.  The traditional media such as newspapers and television act as a propaganda device for the government to control the people who also cannot elect their own leaders.  The current leader, Raúl Castro, was not elected but was appointed by the former leader, his brother, Fidel Castro.

Born in 1975, Yoani Sánchez spent her childhood worry-free at a time when Cuba was fully supported by the former Soviet Union.  However, her generation had to go through the time of hardships when the Soviet Union collapsed and the soviet aid was discontinued.  Soon there was severe food shortage along with difficulty for all necessities.  Disappointed and disillusioned with her home country, she moved to Switzerland in 2002 where she got used to the life of style in the free world.  Her husband ended up not being able to find a professional job in Switzerland and the couple decided to return to Cuba in 2004.  After studying computer science, Ms. Sánchez later started her career as a freelance writer and was determined to be a free person.  Starting from 2008, she began signing her blog with her real name, a brave move in Cuba. (“Generation Y: My Profile”)

Yoani Sánchez’s blogging enters a taboo area in Cuba.  Time magazine comments about Sánchez saying, “under the nose of a regime that has never tolerated dissent, Sánchez has practiced what paper-bound journalists in her country cannot: freedom of speech” (“The 2008 Time 100: Yoani Sanchez”). Traditionally, journalists who dare to break the silence are punished — even sent to jails!  This has happened to a number of dissidents and journalists, including Yoani’s husband who used to be a journalist and was sent to prison (“Desde Aqui: The Year of Yoani”).  The regime controls the people through fear and terror and using the police to enact these efforts to brainwash the citizens. Saying what you think in Cuba can be dangerous. In 2002, Cuba imprisoned dozens of journalists, who declared themselves dissidents and published criticisms of the regime. Many are still in prison (“Desde Aqui: The Year of Yoani”).  Most Cubans are so afraid of being labeled a critic that they are reluctant to utter the words “Fidel Castro” in public.  Sánchez believes that the fear of Cuba’s own secret police is the main reason why the vast majority of people choose to keep silent. “Fear leads Cubans to restrict what they say and do,” Sanchez states (Sánchez xii).  Worse still, people who live in a totalitarian country for too long tend to generate an “internal policeman,” for subconscious self-censorship (“Cuban Revolution”).

To break the silence as well as the internal fear, Sánchez started exercising free speech by blogging in the cyberspace.  The use of blogs and twitter allow her to publish her opinions and report events in Cuba any time she gets access to the Internet.   The digital revolution, also referred to as the information age, helped to provide a platform for Yoani to change the society, in her own way, as part of the worldwide human rights movement.  In April 2007, Sánchez launched her blog, Generación Y (Generation Y: My Profile).  Within a short time, “her name passed from anonymity to popularity” in 2008 (“Desde Aqui: The Year of Yoani”).  Thanks to her honesty in describing the true life of Cubans under the communist regime, and her excellent writing ability, her blog was an instant hit and has become internationally influential.  Generación  Y has about 14 million hits a month and is now translated into seventeen languages by volunteers (“In Cuba, the Voice of a Blog Generation”). In fact, her blog becomes a must-read for any serious researcher who needs to study contemporary Cuban society (“Cuban Revolution”). Her numerous awards, recognizing her pioneering work, include Time magazine’s “One of the 100 Most Influential People in the World” in the “Heroes and Pioneers”  category, “Spain’s Ortega y Gasset Prize” for “Digital Journalism”, and the prize for “Best Weblog” in “The BOBs” contest (“The 2008 Time 100: Yoani Sanchez”).

Sánchez’s work shows that freedom can only be earned by people who strive for it.  Freedom is not a gift one can expect or beg for from a dictator.  The Internet provides a new platform for all people to take freedom into their own hands.  With her knowledge of computers and the web, Sánchez is grasping this historical opportunity.  Her voice is instantly carried over the country and around the world.  The Internet is a new space, a gray area where the Cuban regime does not yet have explicit regulations, nor can it enforce practical means to stop people from expressing and publishing.  While many people still choose to blog only anonymously, Yoani broke the silence in signing her blog and commenting on any subjects to which she turns her attention, including taboo subjects like corruption, political systems, and democracy.  Her description of Cubans’ daily lives provides a true picture of their society, which is not depicted in the official journals of the country.   “You have to believe that you are free and try to act like it,” she says. “Little by little, acting as though you are free can be contagious” (“Cuban Revolution”).

Yoani Sánchez is wise to move one step at a time, trying not to break explicit laws, only pushing the limits in the gray area.  She chooses not to associate herself with existing dissident groups.  Under the pressure from the international community, Cuba has to be cautious in handling her.  It has blocked her blog within Cuba, trying to stop her words from spreading and impacting the Cuban people; but it cannot block many of her mirror sites hosted outside the country.  From time to time, her blogs are also made into CDs and smuggled back to Cuba (“Cuban Revolution”).  This is the power of The Internet: unless the government abandons The Internet and goes back to the pre-digital age, the government cannot block the free information flow.  When Sánchez cannot directly reach her blog site, she asks her foreign friends to help publish the posts she has emailed them.  (“Desde Aqui: The Year of Yoani”)  Over time, other Cuban writers have begun to follow her example and the Desde Cuba website, famous for hosting her blog, has since seen an increase of Cuban bloggers, including her husband Reinaldo’s and several other popular writers’ blogs.  In 2009, President Obama wrote a letter to compliment her great efforts in using technology for free speech.  “Your blog provides the world a unique window into the realities of daily life in Cuba.  It is telling that the Internet has provided you and other courageous Cuban bloggers with an outlet to express yourself so freely, and I applaud your collective efforts to empower fellow Cubans to express themselves through the use of technology” (“Generation Y: My Profile”).  

With her pioneering work, Sánchez’s free speech is now a fact of life in Cuba albeit only in a limited space.  Sánchez’s effort has made a lasting difference in the human rights campaign. Her persistence and sense of responsibility have earned her a great reputation in the world.  She is a symbol in the digital age for fighting for freedom of speech under a dictatorship.  Gradually, governments in totalitarian countries may have to face the fact of free expression as more and more people follow her example in publishing in social media and exercising their freedom of speech.  When a variety of voices are heard in cyberspace, the same process will eventually occur in the traditional media, sooner or later.  As freedom of speech is exercised long enough, it will become a natural style of living, and there will be no way back.  It is imaginable that a democracy, which protects people’s human rights, will eventually replace the existing totalitarian governments.  As an old saying goes, a single spark can start a prairie fire.  Sánchez is just that spark.  Everything she has done is only a beginning in Cuba, but a remarkable breakthrough in human history.

 

Works Cited

“Cuban Revolution.” Wall Street Journal. Wall Street Journal. Web. 11 May 2012. <http://online.wsj.com/public/article/SB119829464027946687-2qWBoM9EpwF1S0_7hn6prJNeJqo_20080121.html?mod=tff_main_tff_top&apl=y&r=139874>.

Escobar, Reinaldo. “The Year of Yoani.” Desde Aqui / From Here. WordPress, 31 Dec. 2008. Web. 11 May 2012. <http://desdeaquifromhere.wordpress.com/2008/12/31/the-year-of-yoani/>.

Hijuelos, Oscar. “”The 2008 Time 100: Yoani Sánchez”” Time Specials. Time Inc., 30 Apr. 2009. Web. 11 May 2012. <http://www.time.com/time/specials/2007/article/0,28804,1733748_1733756_1735878,00.html>.

Rohter, Larry. “In Cuba, The Voice Of a Blog Generation.” The New York Times. The New York Times, 06 July 2011. Web. 11 May 2012. <http://www.nytimes.com/2011/07/06/books/yoani-sanchez-cubas-voice-of-a-blogging-generation.html?_r=1>.

Sánchez, Yoani. “Generation Y » My Profile.” Generation Y: My Profile. WordPress. Web. 11 May 2012. <http://www.desdecuba.com/generationy/?page_id=108>.

Sánchez, Yoani. Havana Real: One Woman Fights to Tell the Truth about Cuba Today. Brooklyn: Melville House, 2011. Amazon.com: Havana Real: One Woman Fights to Tell the Truth about Cuba Today (9781935554257): Yoani Sanchez, M. J. Porter: Books. Amazon.com, Mar. 2011. Web. 11 May 2012. <http://www.amazon.com/Havana-Real-Woman-Fights-Truth/dp/1935554255>.

 

转载本文请联系原作者获取授权,同时请注明本文来自李维科学网博客。
链接地址:http://blog.sciencenet.cn/blog-362400-569854.html

上一篇:互联网有史以来最大的IPO:Facebook 眼看就要上市了,怎么玩?
下一篇:自来水和地沟油的话题

收藏修改删除|

当前推荐数:4 推荐人: 王亚娟 曹聪 李银生 李宇斌

推荐到博客首页

发表评论评论 (1 个评论)

 

删除 |赞[1]mirrorliwei   2012-5-12 11:11说到当代、现代和近代的区分,镜某的孩子说:自己出生后的事情是当代,父辈的事情是现代,爷爷辈以前的是近代。或者干脆说,自己出生前的事情都是“历史事件”。这也是个分类方法。

选人物,看上去好写,实际上难写。而选择某些(国际)组织、机构,看上去不好写,但是写起来会比想象要容易。比如说联合国及其下属的组织,科教文组织、粮食机构、难民问题、国际标准等等的。甚至各类的体育运动的组织,比如国际奥委会、足球等也都可以写。

Tian (Age 15): Karl Marx in Tanya’s eyes

Tian (Age 15): Karl Marx in Tanya’s eyes

屏蔽已有 2251 次阅读 2013-4-27 01:54 |个人分类:Little Stories of Tian Tian|系统分类:生活其它| Tanya, Karl, Marx

This is Tanya’s history course project, researching an influntial thinker and then making a presentation in the form of addressing the world with his ideas.  Tanya chose the communist god-father Karl Marx, who she thinks is an intriguing figure with a great dream but failed in the practice.  

(1) Meeting of the Minds: Karl Marx

Karl Marx addressing the world

(Tanya was dressed like an old scholar wearing a grey wig and white thick beard just like Marx and made the following speech passionately, with the ending sentence first in German and then repeated in English, word by word, very powerful.  The teacher was impressed and gave her an A.)

Hi, I’m Karl Marx, a middle class, 18th century German scholar, who was born at the beginning of the Industrial Revolution, when Capitalism was just starting and not yet mature. There were no social welfare programs (such as healthcare or pension) or worker unions, and everything was a class struggle between the rich, Bourgeoisie, and the working class, Proletarians. My theory, Marxism, is about the ultimate government, Communism, in which the property of a society is owned by all members, and peoples’ talents are utilized to their full potential, so that people enjoy their work while working toward the common good. Capitalism is a corrupted system in which the Bourgeoisie have all the power and exploit the Proletarians, while the Proletarians are unfairly treated, wage-earning robots. Even in democracy, when people vote, they are affected by mass media, controlled by the Bourgeoisie. All humans are naturally creative and talented. So I say to you all, everyone is equal. We should overthrow the dictatorship of the Bourgeoisie, “Proletarier aller Länder vereinigt Euch!” Proletarians of the world, unite!

 

(2) The U.S. is a land of free speech.  Despite the bad association with communism in the media, Tanya shows keen interest in Karl Marx and his theory of communism.  The other day when she got up, Tanya told me, “Dad, I had a weird dream.  The last sentence I remember saying to somebody is: If there is anything that I know, communism is for you.”  

Looks like she really got intrigued by communism during the study of World History.  This was quite a surprise to me, as we have seen and experienced too much of “communism”.  Tanya told me that kids in America had been brain-washed to believe communism is evil, leading to dictatorship, but after research, she now realizes that communism is a very nice dream of mankind, perhaps too nice to be practical.  

“we were brain-washed to believe that communism is associated with dictatorship and leads to evil. But according to Marx, communism is a beautiful society, no class. no class struggle, work is fun and not a burden, one can satisfy his most potential with his gifted talents.  But why the countries experimenting with communism all failed?

“They failed for a good reason.  The reason is clearly stated in Marx’s works but the followers did not take it seriously.  That is, an ideal society like communist needs to be supported by the maximum productivity.”

Tanya continued, “Marx is a great man, and capitalism sucks.  Look at the financial storms in recent years that spread from US now to Europe, all the signs show that capitalism is doomed and communism will most likely conquor the world, if made practical. “

She smiled, “Dad, by now, I think I am already a communist.  Capitalism sucks, got to be replaced by communism.”

 

I was really shocked, at the fact that her speech was almost identical to my thinking when I was her age.  It took us years to get out of it.  Nevertheless, I still like the fact that free thinking and speech enable Tanya to research and understand the world in her own way and pace.   Like all teanagers, the existing reality is always the worst, the ideas from the other world look so much better and beautiful.  

(3) Research Karl Marx

Notes on Karl Marx and Communism
1. Bio

Karl Marx was a German philosopher, sociologist, and communist in the 18th century. He developed a famous theory, called Marxism, that fundamentally influenced the human history. In fact, Karl Marx is among the most quoted scholars in history and is one of the most influential figures of all time. His two most famous works are: The Communist Manifesto published in 1848, mainly a political statement for the communist movement, and Das Capital, a book he devoted his life to on the nature of the capitalist system. In the last century, following his revolutionary theory, there were communist movement and revolutions in many countries to form a communist group of states, led by Soviet Union in 1922 and led to the founding of Red China in 1949. However, since the collapse of Soviet Union towards the end of last century, the communist movement suffered a big retreat and even the post-Mao China turned to market economy, a system closer to the capitalist economy than the communist economy. Marx’s predictions that the global revolutions will end the capitalist system in the world are not proven right.

2. Marx’s view on government

Marx has a theory of social development involving 5 major social types, from lower stages to upper stages, i.e.

Primitive Communism –> Slavery system –> Feudalism –> Capitalism –> Socialism –> Communism.

He regards the capitalist government as an inhuman government which only protects the capitalists (bourgeoisie) while oppressing the working class (proletarians). He believes that despite the name of democracy, a capitalist society is in essence based on Dictatorship of Bourgeoisie. He concludes that capitalist government should be overthrown by the working class and replaced by the socialist government based on Dictatorship of the Proletariat. Eventually socialism transitions to communism when the productivity gets to the highest level. Communism is the ideal society in Marxist theory in which every one enjoys his work, which brings job satisfaction and fulfillment of his creativity, at the same time producing the products to meet the needs of all the society. In communism, there is no distinction of class, no class struggle and everything is in harmony.

3. Marx’s theory of human nature:

Contrary to the popular view that human is selfish by nature, Marx thought that human is a naturally creative animal. Accordingly, an ideal society creates a condition for the whole development of human nature. But capitalism is an evil society which turns humans into wage slaves.

Marx’s theory of human nature plays an important role in his criticism of capitalism and his ideal of communism. A closely related and even more influential theory of Marx is about alienation from human nature caused by the capitalist system.

4. Marx’s theory of alienation

By alienation, Marx refers to the social separation of people from their “human nature” which is supposed to be decent and creative. Marx believed that alienation is a systematic result of capitalism. He believed that it is the alienation that deformed human nature, making people behave differently depending on one’s social status. The nature of capitalists becomes exploiting and oppressing the working class purely for the seeking of profits. The working class becomes wage-slaves like robots working in inhuman conditions.

Only in the communism can all men gain freedom and be liberated from wage-slavery, enjoying the full nature of their creativity.

5. why he thinks that way

Marxism was formed in an age when the capitalism was not mature and there were waves and waves of class struggle and society conflicts : there were no social programs, no unions and other forms of laws as seen in the modern society. For example, there were no minimum wage law, child labor law, income tax regulations and social welfare to protect the lower working class and to balance the interests between the capitalists and the proletarians. Out of deep compassions for the lower working class who has been struggling for very basic living, and out of the anger towards the early capitalists who were after profits by forcing the working class to work long hours with very low pay and very poor working conditions, Marx concluded that the capitalist government is inhuman and will be overthrown by the proletarians and replaced by the socialist and then communist government.

Works Cited

“Karl Marx.” Wikipedia: The Free Encyclopedia. 19 Sep. 2011. Wikimedia Foundation. 21 Sep.

2011 http://en.wikipedia.org/wiki/Karl_Marx

“Marx’s Theory of Alienation.” Wikipedia: The Free Encyclopedia. 26 Aug. 2011. Wikimedia

Foundation. 21 Sep. 2011 http://en.wikipedia.org/wiki/Marx’s_theory_of_alienation

“Marx’s Theory of Human Nature.” Wikipedia: The Free Encyclopedia. 22 Jun. 2011.

Wikimedia Foundation. 21 Sep. 2011 http://en.wikipedia.org/wiki/Marx%27s_theory_of_human_nature

http://blog.sciencenet.cn/blog-362400-684386.html

上一篇:Tian Tian (Age 10): Tanya’s Amazing Life (4/4)
下一篇:Age 9, Age 10 and Age 16: Father’s Day Gifts

从人类认知谈AI融合之不易

听了一些深度学习的大神们的各路演讲,有些感触。

他们的科普类演讲大多有个共性,就是哲学味道很浓,有上帝视野,或干脆自己做上帝状。这是可以理解的情绪和姿态,也是一种自然的表现。在AI寒冬走过来的这些人,面壁N多年,终于迎来了扬眉吐气的深度网络横扫AI的各种奇迹和荣誉,不俯视天下反而是不可能的。

面对新闻记者的采访,有时候会给人一种自己被自己的成就吓倒了的极端自豪感,很有趣也很人性的一种表现,这种时候最容易天马行空。记者问,你认为什么时候神经网络可以自主意识呢?回答是,我认为已经自主意识了啊。

不过他们的长篇演讲还是有很多让人启发的思考,他们都在寻找下一个突破口,并不满足于小修小补。小修小补,模型越做越大的渐变式成功,他们认为是年轻人的事儿,水到渠成。他们希望自己能带领AI迎来下一个范式转变或者根本性突破。这种心理非常强烈,也是很自然的。人的本性都是,无论多大的成就,盛筵过后总是要追求下一个更大的辉煌。

其中思考最多的问题之一是,人用小数据就可以高效训练自己的技能,可是深度神经却需要大了好几个数量级的数据才能训练好。图像识别是最典型的例子,儿童开始识别猫啊、狗啊,见过的实例非常有限,但识别率则很高,什么机制?为什么机器只能蛮力去学,不能像人类一样?

在与人的认知机制的比较中,他们出现了两极的表述,很有意思。上面是强调人和机器的不同,思考如何弥合这种不同,或者如何更加逼近人的认知过程来提高机器学习效率。另一个方面说法却是强调深度神经就是人的神经。敢于这么说我觉得主要是因为生物领域的大脑机制研究很多年陷入泥潭。有人说这不怪生物学家,因为人的认知和意识是世界上最难解开的谜,目前人类对它的认知只是冰山一角。既然脑神经系统是怎么工作的留下太多的空白,AI 神经系统的大神们就理直气壮认为深度神经网络就是人脑机理的最完美模型就可以理解了,毕竟这套模型在很多认知任务(语音、图像、翻译等)的表现中已经接近或超过人脑的水平。

AI神经与生物认知这两个领域以前大多处于老死不相往来的状态。有意思的是,由于AI的高亮度,现在越来越多的生物界人士开始关注神经网络系统的进展。听过一些生物学家的看法,认同AI的不少,大概是看到了AI的表现,有点信服的意思。

谈点自己的观感。人脑的认知和决策比较复杂,大概其中有些部分的机制的确很像是各个节点互相连接以不同权重互相影响的神经网路,特别是那些我们称为“本能式反应”的下意识过程(例如遇到紧急路况的驾驶反应,在水中学会的游泳技能等),这些反应人也说不清,有些甚至已经固化到我们的条件反射里面,但这些反应是有效的生存策略。

但是,人的确有非常有逻辑条理和清晰的认知过程存在,包括我们所熟知的语言理解过程,虽然说 native speaker 似乎都可以“本能”学会说话和理解,但是其中绝大多数理解过程细细琢磨是可以找到背后的逻辑脉络的。这种认知通常是符号化(概念化)的,往往非常抽象而高效,不依赖大数据,只需要有限量数据做微调。这方面的理性认知与目前流行的神经网络很不相同。

能够清晰梳理出来的语言理解案例,在白硕老师的语义计算群里有过无数案例、讨论或解说,【语义计算:李白对话录系列】对此有所记录。其特点是:1. 符号化的;2. 多层面的较量;3. 就事论事都可以讲清楚哪个层面哪个因素主导了最终的理解,如果出现歧义,歧义背后的脉络也是清晰可见的。这些层面其实并不多,列举下来:第一是词汇概念及其背后的本体知识(常识),也包括情感分析的因素;第二是形式制约(句法、形态等);第三是篇章上下文;第四是领域性行业知识;第五是说者和听者的社会关系影响。大概就这几项了。原则都是有限的符号体系可以勾画、模拟和演算的。

符号AI在这方面的尝试已经很多,创新在悄悄发生,虽然听不到太大动静。这一路更像是真实逼近或模拟的高级认知功能。感觉到的痛点不是高度抽象的符号化概念化本身的问题,而是以上各种力量对比在语言理解过程中如何较量的问题。这正是符号化规则的短板,压下葫芦浮起瓢。也正是在这点上,神经系统或统计模型应该可以助力,主要是要找到合适的接口来做对接。这方面白老师也说过多次。我的理解是,符号系统画出骨架,血肉可以让大数据神经/统计模型来填写。

可是这种对接和融合的构想,不是神经系统 leaders 所要的。这也可以理解,每个人有不同角度。他们的角度总是,确立神经的骨架,在神经网络的延长线上,希望其他知识系统用某种方式融入。但迄今为止也大多想不出来如何融入“异质” 的知识资源,毕竟这看上去是不兼容的怪物。不少人不是不想深度融合,但困于不兼容的感觉是普遍的。

宏观上看是两条路线的不兼容,根本就没有起码的共同语言与词汇,只不过恰好面对的问题领域重合了而已。一边是离散的符号,一边是各种向量/参数,怎么交融?这就好比物理学家、化学家和生物学家很多时候不兼容一样,物理面对的是基本粒子,化学玩的是分子,生物研究细胞,不同层次的体系,如何交融。

~~~~~~~

有生物医学老友评论说:

“人用小数据就可以高效训练自己的技能”, 不知道这有啥证据。

人从生下来就在学习。把猫狗图像识别用于刚出生 的婴儿试一试,估计还不如机器快。

人的认知过程本质是环境输入信号和大脑已有模型的拟合过程,而人脑的已有模型是通过学习建立的。这个模型的建立过程归记忆的机制在研究。很显然目前还不能在分子和细胞水平进行解释。

AI识别和人脑识别最大的不同是AI没有情绪成份。人脑情绪成份的加入会严重影响记忆建模过程,并因此影响模型和环境信号的拟合过程,也就是影响对环境信号的识别。情绪成份是生物上亿年进化出来的东西,和个体生存和种系繁衍有关。情绪的逻辑和AI的数理逻辑差异巨大。

说不准算不算小数据认知。只是感觉认识物体与学习语言类似,并不需要海量样本。

我们教孩子认识一个物体,也就是给有限的几个样本,他们就认识了。后去这些物体的各种变形,基本上一样可以认出来。

类似的过程在学习语言这种复杂的系统中最为明显。所以乔姆斯基认为,人生下来就有一个普遍语法机制在头脑,这个机制有一些参数需要数据去训练,但人在学语言的时候,其实面对的并不是海量数据,也不是完整无误的数据。就是这些片段的有限数据,让最傻的孩子也可以自如学会母语。

可是机器学习不同,最新的深度学习的语言模型的预训练规模是:

GPT-3 is a very large language model (the largest till date) with about 175 billion parameters. It is trained on about 45TB of text data from different datasets

当然,现在的语言模型的语言生成能力包括流畅度和合法性,已经超越普通人的水平。

乔姆斯基批评这种学习是蛮力,没有科学意义,因为不能揭示人类的认知过程。

的确,关于生物演化而来的喜怒哀乐情绪,在人机对比中更具有区别意义。

本来情绪这种东西,看上去是非理性的 比较低级的心理过程,因为一些高级动物也会有某些情绪的表现。而理性思维和智能被认为是人类独有的高级认知功能。

但是,现在看来,机器在不断压缩或逼近人类的智能空间,原先以为人类独有的很多智能活动,逐渐被机器学习超越了。反而是情绪这种东西,成为人机的真正鸿沟。

教会机器“谈”恋爱并不难,但是让机器堕入爱河是不可能的。让机器呼天喊地哭鼻子叫苦叫疼也可以做到,但证明他是因为痛苦而哭现在看来是天方夜谭。自主意识和自主感情是科学幻想所热衷的话题,但是至少迄今没有任何可信的迹象表明,生物科技(基因工程)与电脑科技会真正深度融合人机,以至于可以创造出具有情绪的超级机器人。担心自主的机器起来造反或谋杀人类,是相当可笑的。AI如果有灾难,是人自己把自己玩死了,是某种 bugs 没消除就部署造成的意外灾难,这是可能的,但绝不是机器人犯上作乱。

图灵测试不是人机不可逾越的界限,情绪证明才是。

 

【相关】
 
 

 

 

《李白125:语言学的爱因斯坦之梦》

白:

“写作业”被整体强制为N/N。

终于搞清楚了,只有“最大投射”才有权利参加Swap,即从已饱和的坑中置换出免费萝卜的操作。一个成分所包含的所有最大投射,按“加入革命”(即配属于当前中心词)的早晚排列,last-mentioned不是指自然顺序,而是指参加革命顺序。越晚参加的,免费额度越不牢靠,越有可能被替换成临时工。

李:为什么要强制转N?

另一个可能的做法也许是:

(1) “当成”: S/2N X
(2)“把”:X+

然后就齐了,介词可以带着S的介宾,S的三个坑可以匹配一个 X。

白:想过这个方案,某种意义上是等价的。

李:一个旁证:“当写作业为负担”,“当” 的两个坑,一个是 X 做宾语,一个是 PP(为) 做补足语。“当成”实际上是 “当+成/为” 而来的合成词,结果合成动词整体就有了三个坑。

白:感觉X+容易惹火烧身,X好控制一些,所以用了后者。把的这个,因为是直接成分,所以用了N+。用了X+,弄不好就把整个谓语给吞了。

一般的介词是S+/N或者S+/X,后置的也有+S/N或者+S/X。单目运算,即升降格、泛化特化这种,虽然中心词没有改变,但中心词的句法属性有了重大改变的,也属于“最大投射”。比如“吃食堂”,“食堂”从N变更为+S前后,是两个不同的最大投射。

李:这样的话 如何区分:“在中国服务” vs “为中国服务”,这种介词搭配如何体现?

白:S+/N N S/2N,这是一样的。但是,惠格是必选论元,可以置换一个免费额度给萝卜“中国”重用。间宾是正式工作,发工资的,介宾是客串临时工,不发工资的。在中国,不是惠格,没有这个待遇。介宾就是正式工作了。中间代表“中国”的那个N,重用与否,有免费额度与否,区别主要在这儿。这是“服务”的论元结构决定的。

李:嗯,“在” 标注为 S+/N,“为”的格怎么表示?或者说 “服务” 怎么表示需要这个 “为”-格?从词典角度,这种介词搭配信息应该是在 “服务” 的词条上吧。

白:我们在S+的modee里表示 +beneficial 这个控制标签。服务的对象,在服务第二个坑里,有一个 -beneficial 的控制标签。二者匹配,就可以。

李:嗯 那行。

白:之前还讨论过“张三向李四出示身份证”“张三为李四出示身份证”的问题,也是类似。惠格会截胡。把李四当成身份证的宿主,对格(向)不会截胡,所以宿主是张三。这个介宾转正,实行的是白名单制。

把和被,直接用N+转正了,与动词无关。

李:对 这两个介词就是格标志。

白:而其他与动词有关的就采用白名单制。即使“在”格,遇到合适的动词也可转正的。比如“放在桌子上”。

S/3N +S/N N +N

桌子上,可以转正。但是,在桌子上打滚,就不是标配论元,只能老老实实地做介宾。打滚是S/N,不特别强调处所。在天上飞,类似。

李:放:locative+,这样的标注缺少方向,如何区分:

“在家 放 在抽屉里”
“在外 放 在口袋里”

为什么 “在家/在外” 斗不过 “在抽屉里/在口袋里”?“放 在家”、“放 在外” 也都是通的。

locative 的候选PP,在谓词前是静态状语,谓词后才是 动态/目的地/结果 意义的所谓补语;前者一般认为是随机的,后者才是(萝卜/坑)配对。

白:已填坑的萝卜,只有本体、控制标签都相谐的最大投射,才可以考虑重用与否。控制标签,类似自动机的状态,但一般从命名上即可看出句法意义,所以比较方便语言学家维护。

“假如不是家人在绑匪手里,谁会忍得下这口气啊?”通过条件连接词组成复句,主句的已填坑萝卜“谁”,在从句中“家人”处的残坑被复用。兼语句式更是典型的萝卜复用。

右填坑、右修饰,先验优先级都高于对应的左填坑、左修饰。但像惠格,放在前面也好使。

“为他把邮票贴在信封上。” 既有locative,又有beneficial。

“为他把胡子刮了”,刮的是“他”的胡子;“为了他把胡子刮了”,刮的是自己的胡子。如果一定要“为她把胡子刮了”,可以因为不相谐而强制指向自己。“为”效果等同于“为了”。

类似的吞音段子有:“今天我要讲两个小时,【停顿】你们肯定烦透了。”——其中的“要”一开始被理解为“想要”,停顿后自动被脑补为“要是”。

“为他把扣子扣在扣眼里”,扣子是衣服的部件,衣服是人的部件(缺省场景)。那扣子是介宾的,而不是逻辑主语的。因为惠格介宾可以截胡残坑。

“他的基本信息已经被公安部门编码在身份证里。”——谁的身份证?好像很显然,但是想要让计算机做到,就要让位于逻辑主语的定语位置的“他”有机会出来走两步,才能碰上那个放出了“残坑”的“身份证”。我们的做法是:给一个免费额度,看动态(后验)优先级造化。

李:宏观上看,回答谁的身份证这个问题(填逻辑所有格的坑),是一个与本句其他谓词填坑的问题处于不同层次的问题。【N1 “编码” N2 PP(N3)】 已经完满了,只不过恰好 N3 本身是个部件,那么部件就有个逻辑宿主的问题出现。换句话说,这貌似另一层次的问题,感觉上较少受到句法条件的约束。既然不是同一层的问题,超越这个层次找宿主的自由度就大很多。策略可以是左右扫描,找距离最近的本体相和谐的宿主为最优。不必顾忌结构的约束,只要看线性距离即可,前提是相谐。上句中,唯一的 candidate 是“他”,无论 “他” 处于结构树的什么节点上。

白:转正问题和这个不一样,这是对的。前者是白名单制,后者是黑名单制。在自身辖域里,唯一相谐的已填坑萝卜,要复用也只有它了。可万一不那么相谐呢?比如“她意识到妻子的责任。”  ——这时,宁可空着,也不乱填。

“作为这个网站的访客,我居然不知道(其)域名。” 这个顺序,“访客”是最新参加革命的,但与“域名”的宿主在语义上不相谐,于是需要进一步顺藤摸瓜,找出下一个大瓜——“网站”。不加“其”,机器翻译给自动加its的很少;加了“其”,做对的就多了。

如果坑的总数超过萝卜的总数,那么有合适的萝卜优先复用,这个精神是一致的,只不过,有的用白名单制,有的用黑名单制而已。

李:白名单是要求相谐,黑名单是要求只要不相悖(对象没在黑名单上)即可,是吗?

白:不是,白名单是不在里面就不考虑萝卜复用,在里面也还要过相谐这一关。黑名单是不在里面就可以考虑萝卜复用,在里面同样要过相谐这一关。

李:里面?辖域?同一个句子之内?

白:两方结合,一方有未饱和坑,且在自身辖域之内寻萝卜未果;向另一方的已填坑萝卜寻求复用。所以范围是另一方的辖域。两方正式结合,辖域合并的不算。萝卜复用都是辖域内部的事情,不涉及辖域合并。

人家都搞C-Command,我这萝卜复用的位置更宽泛,只要是最大投射就ok。不如就叫M-Command。

李:C-command 之类对于反身代词 self 似乎的确有可以感触的结构约束效用。但是对于其他寻求宿主的行为,感觉结构不起作用。Binding theory 其实是从反面证明了这一点,其中第二条约束说的不是“谁可以回指谁”,而是“谁不可以回指谁”,后者实际上是几乎放弃了结构约束。

白:不一定是宿主,谓词合并时过继而来的那些残坑怎么寻找相应的可复用萝卜,都需要研究分析树的拓扑。残坑和代词释放出来的空范畴可以一并处理。

李:所有格宿主问题感觉不是结构问题。至于其他的合并共享,应该是有结构约束的。

白:我这里已经统一了。是一个完整的大一统理论。

李:哈哈。联想到这段时间老看到物理大牛的大一统理论,theory of everything,每个人都想实现的爱因斯坦之梦。

白:中心词萝卜对正常坑,只需要CFG;中心词萝卜对残坑,需要C-Command;非中心词萝卜对正常坑和残坑,都必须突破C-Command,但后者是纯粹的交叉,画出来都是飞线。用程序实现也不难,这个部位的核心代码也就200行。四种情况一个理论模型就可以搞定。

李:嗯 听上去蛮 comprehensive and reasonable。

飞线的实质就是本体决定论,绕过结构,再深也压不住。句法(结构)语义(本体)的“统一场”中涵盖句法约束和语义约束的不同比例分配,包括两个极端:1. 结构决定论;2. 本体决定论,plus anything in between, white- or black-lists。

白:只有第三种情况:非中心词萝卜对正常坑,才需要白名单控制,其他不需要。

把四种情况分别列一下,除了第一种,都有“交叉”。第二种,是非中心词分母把自己的未饱和坑(残坑)托管给中心词分母,让这些残坑有跟亲坑一样与外界结合的机会。第三种,是给非中心词最大投射一个进入主流成为其论元的机会,前提是,最大投射携带的控制标签在对方设定的标签白名单之内。第四种,是让合适的非中心词最大投射和对方携带的残坑之间有一个“拉飞线”的机会,前提是,最大投射携带的控制标签不在对方设定的标签黑名单之内。

M-Command关系,萝卜一方处于某一个非中心词所在子树的继承链顶端,坑一方处于中心词所在子树的任何位置。C-Command关系,萝卜一方处于所在子树的中心词位置,坑一方处于中心词所在子树的任何位置。

垂直方向是局部中心词继承方向,斜向转角处是最大投射成分。

寻找萝卜复用的算法,涉及到把所有最大投射按类型链在一起,随着分析的进行,这个链会动态调整,但是一旦正常邻接成分处理完毕仍有未饱和坑,就会启动这条链的搜索。这个算法也就是把各类飞线一网打尽的算法,号称“大一统”。

李:这个 c-command 和 m-command 图示,看不大懂。通常说的 c-command 就是姐妹及其下位。蓝点和红点没看出姐妹关系。两个点是姐妹,需要共同的 parent ,不知道在哪里。

白:对啊,姐妹,这里还要考虑中心词继承关系。蓝点顺着中心词继承路线可以走到转角点,也就是左子树的根。它就可以统辖整个右子树。M-Command,就是蓝点不一定走到根,可以走到任意最大投射。只要你相谐。但是对面的坑,亲疏有别。

李:所谓 m-command 说到底我的理解就是放松 traverse 的条件限制。其实可以从反面来想这个问题。条件放松到极致,就是遍历每一个节点。那么问题就变成 m-command 比起遍历,到底多了什么限制?或者问 到底哪些是 m-command 的例外区间?

白:中心词继承路上,不用多关注,盯住最后结果就行了。一开始并不一定给你很具体的本体标签。越继承,越具体。修饰语的每一次汇入,都会带来modee的标签。比如,“不男不女的东西”,“不男不女”给“东西”带来了更加specific的本体标签吧。

实用角度,对于M-Command,我们可以只考虑N和S的继承链。需要遍历的数据组织非常清晰。

 

【相关】
 
 

社媒挖掘:关于狗肉的争议

社媒挖掘:关于狗肉的争议

 

蒋老师看了关于柴静的社会媒体舆论挖掘后留言,问可不可以帮助挖掘一下狗肉的话题。这也是一个极其有争议的热点话题。凸显动物保护主义与传统文化的冲突。

蒋老师何等人物,岂敢怠慢。n 年前,是蒋老师最先介绍我到科学网来的。恭敬不如从命,还是赶紧交家庭作业吧,这是对过去27个月的中文社会媒体样本的初步挖掘结果,还没有做细致的分析解读。

一 总览和回顾


Download

上面是过去27个月的“狗肉”话题在社交媒体的热议度,能看到两个高峰,那应该是在玉林狗肉节期间引起的广泛争议。

下图叫 Brand Passion Index Trend,内涵舆情挖掘的简约但丰富的信息,反映的是对于狗肉好恶的消长趋势,图中截取了过去一年半中社会舆论喜爱或痛恨(吃)狗肉的争议变化,三个泡泡反映了每半年的好恶(BPI)指标:泡泡的深浅度反映了数据的新旧,具体说就是,左下颜色最深的泡泡是最近半年统计挖掘出的好恶指标,中间那个泡泡是一年前的统计,颜色最浅的右下泡泡反映的是一年半前的指标。泡泡的大小表明了热议度,譬如一年前比半年前热议更多。泡泡所处的坐标位置反映了两项舆情,一是好恶(越往左越喜欢),二是情绪烈度(越往上越情绪化)。可见,一年前那个统计情绪烈度最大,而对(吃)狗肉的厌恶则随着时间推移越来越大(越来越靠左)。这说明什么呢?应该可以看到近年来,动物保护主义的影响在逐渐增大,反对吃狗肉的呼声正在变高。

Download

二 相关热点话题


Download

Download

Download

Download


Download

三 褒贬比例


Download

Download

四 情绪及其好恶的理由


Download

Download

Download

五 社会舆论的地理分布


Download

六 数据样本的来源


Download

8  蔣勁松 吕喆 戴德昌 余池明 张珑 赵美娣 uneyecat bridgeneer

发表评论评论 (12 个评论)

删除 回复 |赞[8]蔡小宁   2015-3-8 10:29
愿意吃的吃,不愿意吃的就不吃,自由选择,相安无事。
删除 回复 |赞[7]bridgeneer   2015-3-7 21:08
谢谢博主给的链接,图很清晰 
删除 回复 |赞[6]bridgeneer   2015-3-7 12:28
饼图看不清 
删除 回复 |赞[5]uneyecat   2015-3-7 09:31
口袋里的钱是多起来了,但离文明社会还相差甚远。
删除 回复 |赞[4]余池明   2015-3-7 08:10
信息化好厉害,是用什么软件搜集舆情反应吗?
 回复  : 自家的软件。是为企业服务的。
追踪热点话题是副产品,作为测试、展示、消遣用,多少可以显示一些自然语言技术的潜力和价值。

2015-3-7 09:491 楼(回复楼主)赞|回复
删除 回复 |赞[3]戴德昌   2015-3-7 07:35
韩国的情况没有包括进来 
 回复  : 等我把韩语做出来再做一次。大约半年后会有韩语的挖掘进入系统。

2015-3-7 08:021 楼(回复楼主)赞|回复
删除 回复 |赞[2]冯喆   2015-3-7 07:31
这种挖掘确实能找到让人意想不到的线索。现在大家关注的信息渠道都很丰富,但实际上来源并不多。有些观点我自以为支持的人很多,看到您的挖掘才知道还有同样多的人反对。
 回复  : 那就好。最好的挖掘是,如果与人的日常感知吻合,虽然情报本身并不新鲜,只是对已有感知的印证,那也间接证明了挖掘质量的靠谱,因而没有理由不相信这种挖掘(无论挖掘出的是已知还是未知的信息,因为挖掘方式是同样的)所具有的参考价值。如果情报出乎预料,那就更具情报价值,可以帮助人看到全局。

2015-3-7 11:021 楼(回复楼主)赞|回复

删除 回复 |赞[1]蔣勁松   2015-3-7 00:26
谢谢,感恩!
 

【社煤挖掘:雷同学之死】(屏蔽留存)

【社煤挖掘:雷同学之死】

屏蔽已有 10098 次阅读 2016-5-14 08:54 |个人分类:社媒挖掘|系统分类:观点评述| 舆情挖掘

这是最近的热点新闻,舆情鼎沸,有蔓延之势。值得挖掘和跟踪。

 

社煤选样:

雷洋遗体外伤严重

质疑雷洋案件十大疑点

雷洋妻报案:有充分证据警察涉故意伤害致死罪(图)

雷洋事件解决不好,非正常死亡可能成为常态【时局深度】-

蔡慎坤:血与泪的控诉还原雷洋遇害真相

对比家属报案书和警方通报再看雷洋致死案

转发雷洋案刑事报案书:描述死亡过程(真相即将到来)-衡阳

雷洋案件之疑点-第11页-

血与泪的控诉还原雷洋遇害真相-

网传’大学生屁股被警察叔叔打开花’,警方:属实!图_中华论坛_中华网社区-

雷洋死亡当晚到底发生了什么?央视专访当事警察

雷洋家属向北京市检报案要求侦查涉事民警-

‘他沒有嫖娼時間’ 家屬報案指雷洋被無辜毆死

吴文萃(雷洋妻子):关于要求北京市检察院立案侦查雷洋被害案的刑事报案书

血与泪的控诉还原雷洋遇害真相

雷洋死有余辜!

雷某的家人实在太不要脸了!

“刑事报案书”描述雷洋之死【李鸣生】-常德

雷洋妻子报案,事件最新爆料!嫖娼是栽赃,雷洋被打死-休闲侃吧-

[原创]雷洋遗孀之报案书等于官媒的死刑判决书

雷洋父母看完遗体后,为何当场给尸检证人下跪?

雷洋最新情报:“刑事报案书”描述雷洋之死经历

关于要求北京市检察院立案侦查雷洋被害案的刑事报案书(转载)

我们为什么要关注雷洋之死?

雷洋案刑事报案书,警方涉嫌故意伤害(致人死亡)罪、滥用职权罪、帮助伪造证据罪-

转帖:雷洋妻子向北京市检察院报案:嫖娼是栽赃,雷洋被打死

1) 雷洋家属告控告警方 2) 雷被殴打致死当日是雷结婚纪念日 3)尸检结果延迟到60天出结果

一个昌平“嫖娼者”为何引燃了全国公众的怒火?(转)

陈有西律师曝雷洋案发现最新一个重要疑问

吴文萃(雷洋妻子):关于要求北京市检察院立案侦查雷洋被害案的刑事报案书

雷洋家属向北京市检报案,要求侦查涉事民警

【时评】雷洋之死,疑云重重

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

作为正在人大读书的研究僧,分析雷案可能的结果吧-

七律读微信圈雷洋数帖激愤有咏一气呵成重字不改也

何新:悼雷洋

哀悼环保烈士雷洋

血的事实告诉我,雷洋事件很快就平静下来!

警察滥用国家暴力必须予以遏制

雷洋事件解决不好,非正常死亡可能成为常态【时局深度】-

雷洋之死纯属咎由自取_中华论坛_中华网社区-

人大硕士雷洋真的嫖娼了吗?十三省

朝吉:足疗送命记

雷洋之死击碎了中产阶级的优越感!

昌平的一个“嫖娼者”为什么会引发公众的怒火

雷洋案:尽管真相还在路上,三种共识可以先到

北京公安回應雷洋案:決不護短

北京市检察院:已将雷某家属报案材料移送昌平检方

北京市公安局公开回应雷洋案:高度重视绝不护短

横河:雷洋案为什么应该怀疑警方

关于雷阳事件的随想

警察蜀黍为何喜欢抓嫖?-

“雷洋事件”终于开了个好头

雷洋用牺牲捍卫一个公务员的尊严 _网上谈兵_中华网社区-

从目击者证言和记者调查的报道看被忽略的雷洋事件关键点

雷洋被强押致死案,槽点多多,警方说辞漏洞百出

雷洋事件:中国人民大学88级部分校友向公安部门下战书

雷洋家属联系第三方鉴定机构将第二次与检方沟通-

雷洋事件,显示了老百姓的焦虑,不安全和无助感_网罗天下_天涯论坛

雷洋的家属成了大输家!!!

雷洋案真相不难搞清,但很多人打死也不愿相信

解密雷洋之死的根本原因!-常德

有见过抓嫖不在店里抓现行而在马路上盘查的吗

【视点】比雷某嫖娼事件真相更可怕的,是“相信”尽失!

【时评】雷洋事件,送环球时报两字无耻

中国人民大学88级部分校友就雷洋同学意外身亡的声明

[原创]雷洋之死:给你真相又何妨?

雷洋遗体外伤严重尸检后家属控告警方涉嫌犯罪 – 中国禁闻网

呼格案律师谈雷洋之死:涉事警察是嫌犯警方无权再接触证人-常德

民众为什么关注雷洋的案子?

转载:雷洋妻子正式报案:嫖娼是栽赃,雷洋致命处睾丸异常肿大系被打死

妻子坚决捍卫老公嫖娼有理正义吗。打飞机不算嫖娼吗_中华论坛_中华网社区-

雷洋之死的九大谜团,谁能告诉我们真相?

雷洋案:守住私德的底线,恢复人性的的良知

一周新闻聚焦:雷洋之死掀起舆论风暴,各方谴责警方滥权

雷洋案:守住私德的底线,恢复人性的的良知

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

雷洋案真相不难搞清,可怕的是有人就是打死也不愿相信

网友热议:雷洋的事,恐怖在哪儿?(图) – 看中国 secretchina.com

雷洋尸检报告未出,但问题已显现:(第3页)_天涯杂谈_天涯论坛

[原创]嫖娼案拒谈嫖娼,雷洋老婆居心叵测,图谋不轨

雷洋死亡案铁证如山,雷洋没有白死

雷洋案新证据浮现:警察有问题

快讯!雷洋家属正式控告警方涉嫌犯罪

雷某嫖娼案最终结果的终极预测-第2页-

雷洋怎么死的,我来分析下。

[原创]雷洋死因的逻辑分析

[原创]雷洋怎么死的?【猫眼看人】-

雷洋嫖娼,谁又在嫖中国法律_天涯杂谈_天涯论坛

警方回应雷洋案热点问题昌平检方介入调查

【转帖】中国人民大学88级部分校友就雷洋同学意外身亡的声明-

橫河:雷洋案為什麼應該懷疑警方

最新消息:从警方提供及其他方面提供的证据看,雷洋涉嫌“嫖娼”的疑问太多!【铁证】 – 有啥说啥

我们为什么要关注雷洋之死?(第4页)_关天茶舍_天涯论坛

雷阳嫖娼就可以打死吗?转_网罗天下_天涯论坛

我服了雷洋家人了,到底要闹哪样?没见过这么无赖的(第5页)_天涯杂谈_天涯论坛

[原创]草根今日谈:依法治国请从雷洋事件开始

人大部分88级校友就同学雷洋身亡声明:对恶我们不会忍太久全文 – 中国禁闻网

中国人民大学77、78级校友关于雷洋的声明

大陸雷洋離奇死亡聯合國貼文關注

雷洋尸检超过12个小时北京昌平警方回避不

热帖:为什么我们应该感谢雷洋的妻子(图)

雷洋死有余辜!

[原创]由雷洋事件看恶警李乐斌杀人未受惩罚的危害性

[原创]支持雷洋遗孀依法起诉诬陷其亡夫的媒体

雷洋之死的真相究竟是什么?

[原创]雷洋,愿你的名字叫做公正与法治【猫眼看人】-

雷洋事件,显示了老百姓的焦虑,不安全和无助感_网罗天下_天涯论坛

‘嫖娼者’雷洋的安全感要不要保护

亦忱:简评陈有西代理雷洋案的前景

雷洋案新证据浮现:警察有问题

雷洋之死的两个最重要真相! – 云中茶社

[原创]由雷洋事件看恶警李乐斌杀人未受惩罚的危害性

雷洋家属发表声明:警方的做法是在混淆视听

昌平警方的行为完全合法!

周小平:酷吏以法杀人,奸生以文灭口-真相为何败给愤怒?-第6页-

雷洋案:守住私德的底线,恢复人性的的良知

[原创]三点详析雷洋事件严重亏空损耗了XX公信力!

雷洋有没有嫖娼,有一个绝招,立刻就能见分晓!

风云洞评劣等民族情商高?(图)

周小平:酷吏以法杀人,奸生以文灭口-真相为何败给愤怒?-第6页-

周小平:酷吏以法杀人,奸生以文灭口-真相为何败给愤怒?-第6页-

雷洋有没有嫖娼,有一个绝招,立刻就能见分晓!

雷洋案:守住私德的底线,恢复人性的的良知

涉案警方擅自检验死者DNA是否涉嫌违法犯罪?

贾冀豫__北京出租车司机说雷洋是打死的

【风青杨专栏】对不起,我并不想知道雷洋如何嫖娼(第8页)_天涯杂谈_天涯论坛

雷洋之死让普通人感到无比恐惧

雷洋之死或可推动社会三大进步

雷洋之死让普通人感到无比恐惧

这不是两个人死亡的问题_社会热点_中华网社区-

解密雷洋之死的根本原因!-常德

性价比。。。。_上海汽车论坛_XCAR

有见过抓嫖不在店里抓现行而在马路上盘查的吗

雷洋嫖娼离奇死亡案。

重大消息!国资委官员嫖娼被抓猝死(组图)

这不是两个人死亡的问题

张鸣:雷洋之死

雷洋案,网友如何“推波助澜”?全民一起破案,真相越来越近了吗?-

人大硕士求救帖,几乎每一段都充斥着谎言!

中国人民大学77、78级校友关于雷洋的声明

中国人民大学77、78级校友关于雷洋的声明

2016年05月13日

人大的校友别再发声了,77,78,84,88级的

女人天天被杀都激不起水花,雷洋死就激起千层浪!

《雷洋案》引起北京公安局领导高度重视

雷洋是不是嫖娼不重要?扯淡!笔者用十点给某些人普法

快讯!雷洋家属正式控告警方涉嫌犯罪

雷洋案:守住私德的底线,恢复人性的的良知

雷洋事件也许将有助中国执法部门的公正、警醒?

那些声嘶力竭认为雷洋嫖娼该死的人,他们是些啥人?

雷洋事件也许将有助中国执法部门的公正、警醒?

关注小人物的命运!就是关注自个命运!小人物之死网友理应关注

雷洋案:守住私德的底线,恢复人性的的良知

“欺负死人不能说话”乃世间首恶

“欺负死人不能说话”乃世间首恶

拿雷洋殒命事件大肆鼓噪的那些人,可把死者一家人害惨了

“欺负死人不能说话”乃世间首恶

[原创]“欺负死人不能说话”乃世间首恶

力瑾:還有多少國人在意雷洋案的真相?

雷阳嫖娼就可以打死吗?转_网罗天下_天涯论坛

【野渡专栏】草根今日谈:依法治国请从雷洋事件开始_天涯杂谈_天涯论坛

【野渡专栏】草根今日谈:依法治国请从雷洋事件开始_天涯杂谈_天涯论坛

雷洋案:守住私德的底线,恢复人性的的良知

警方续昌平涉嫖男子在查处过程中突发死亡通报有无问题 – 第2页 – 警务探讨

[原创]草根今日谈:依法治国请从雷洋事件开始

【野渡专栏】草根今日谈:依法治国请从雷洋事件开始_天涯杂谈_天涯论坛

雷洋案:为何警方信息发布总显得很被动?

【视点】比雷某嫖娼事件真相更可怕的,是“相信”尽失!

【时评】雷洋事件,送环球时报两字无耻

 

中国人民大学88级部分校友就雷洋同学意外身亡的声明

‘嫖娼者’雷洋的安全感要不要保护

打飞机为何没有改变雷洋案的舆情走向?

一个昌平“嫖娼者”为何引燃了全国公众的怒火?(转)

十族沦为下一个魏则西比雷洋尤恐怖 – 有图有真相 – 中豫爆料

十日谈;我想说几句了,关于何新的两篇文章_中华论坛_中华网社区-

女人天天被杀都激不起水花,雷洋死就激起千层浪!

女人天天被杀都激不起水花,雷洋死就激起千层浪!

喝我这七星茶听他摆龙门阵再饮三盅

喝我这七星茶听他摆龙门阵再饮三盅

喝我这七星茶听他摆龙门阵再饮三盅

【今言野语】副省长私访被警察殴打的社会问题?_新闻众评_天涯论坛

[原创]雷洋死亡案铁证如山,雷洋没有白死

雷洋死亡案铁证如山,雷洋没有白死

说雷阳打飞机我的看法不成立!_中华论坛_中华网社区-

陈中华;警察威严不容丧尽,法律遵严不容侵犯_中华论坛_中华网社区-

为违法警察洗地,无耻!_中华论坛_中华网社区-

雷洋事件,某些人已经玩过火了!

雷洋父母看完遗体后,为何当场给尸检证人下跪?

雷洋父母看完遗体后,为何当场给尸检证人下跪?

雷洋事件:雷洋律师团调集近20位律师参案

雷洋事件:雷洋律师团调集近20位律师参案

雷洋案:守住私德的底线,恢复人性的的良知

转载:一个昌平“嫖娼者”为何引燃了全国公众的怒火?|洛阳城事

一周新闻聚焦:雷洋之死掀起舆论风暴,各方谴责警方滥权

雷洋之死第二季

规范警务活动:从雷洋案开始

雷洋之死击碎了中产阶级的优越感!

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

雷洋案:守住私德的底线,恢复人性的的良知

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

李悔之:比雷洋之死更可怕的是龙兴伟

从雷洋案看科学研究思维在生活中的应用

从雷洋案看科学研究思维在生活中的应用

人大部分88级校友就同学雷洋身亡声明:对恶我们不会忍太久全文 – 中国禁闻网

民主到底能不能当饭吃?

 
 

对警察说两句,你们不感到愧疚吗

涉嫌嫖娼男突发死亡,你怎么看?-

雷洋事件,让我想起那些年采访过的奇葩嫖娼案_三秦网

雷洋被嫖被死案,急呼性合法化_京味悠长_天涯论坛

贪官雷洋嫖娼被抓,畏罪拘捕逃跑未遂身亡

雷洋父母看完遗体后,为何当场给尸检证人下跪?

 

[原创]我又不嫖娼,我为什么会成为下一个雷洋

我们追问雷洋是怎么死的,他们却要证明他是怎么嫖的!

雷洋怎么死的,我来分析下。

一周新闻聚焦:雷洋之死掀起舆论风暴,各方谴责警方滥权

雷洋妻儿父母岳父母的今后生活北京警方必须承担-

雷洋案件之疑点-第5页-

投票赢取《狄仁杰之神都龙王》..

《意外的恋爱时光》都市剩男&..

为您梦想中的“土豪人生”投票..

雷洋事件需要真相而非真像

雷洋案件之疑点-第3页-

有谁认为雷洋不是警察打死的_亚洲论坛_天涯论坛

拍案尖笑(集锦)

雷阳事件现场群众偷拍视频

雷洋疑案:史上效率最高最变态最廉价的嫖娼

雷洋事件解决不好,非正常死亡可能成为常态【时局深度】-

雷洋事件解决不好,非正常死亡可能成为常态

老徐:雷洋事件需要真相而非真像

雷洋事件,让我想起那些年采访过的嫖娼案

雷洋案:守住私德的底线,恢复人性的的良知

警察能让处女嫖娼,何况男士乎?

雷洋事件解决不好,非正常死亡可能成为常态_中华论坛_中华网社区-

雷洋事件解决不好,非正常死亡可能成为常态_中华论坛_中华网社区-

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

雷洋之死击碎了中产阶级的优越感!

雷洋之死击碎了中产阶级的优越感!

贾冀豫__北京出租车司机说雷洋是打死的

”这份“公平正义”,雷洋听不到了,但我们必须感受到!(第2页)_重庆_天涯论坛

警察能让处女嫖娼,何况男士乎?

让子弹飞一会:人大硕士涉嫖身亡(集中讨论)(第2页)_国际观察_天涯论坛

雷阳嫖娼就可以打死吗?转_网罗天下_天涯论坛

这些事发生在啥国度?!

德媒:雷洋之死公信力缺失之下人人自危(图)

德媒:雷洋之死公信力缺失之下人人自危(图) – 中国禁闻网

德媒:雷洋之死公信力缺失之下人人自危(图)

女人天天被杀都激不起水花,雷洋死就激起千层浪!

对不起,我并不想知道雷洋如何嫖娼-邵阳

中国人民大学77、78级校友关于雷洋的声明

罗竖一:检方应尽快就雷洋一案启动侦查程序

雷洋死亡案,我持消极看法

[原创]草根今日谈:依法治国请从雷洋事件开始

【野渡专栏】草根今日谈:依法治国请从雷洋事件开始_天涯杂谈_天涯论坛

张鸣:雷洋之死

说服公众

【话题】常识变为异端的社会

 

下一个“雷洋”不会太远,或是你我,或在身边-

下一个“雷洋”不会太远,或是你我,或在身边-

被雷洋案击中的那根弦

雷洋案与毒地案有关?网传因特殊身份致死(组图)

警方:已證實雷洋有嫖娼行為

喝我这七星茶听他摆龙门阵再饮三盅

喝我这七星茶听他摆龙门阵再饮三盅

喝我这七星茶听他摆龙门阵再饮三盅

雷洋嫖娼案的所有证据都是事后补上?

雷洋嫖娼案的所有证据都是事后补上?(图)

雷洋嫖娼案的所有证据都是事后补上?(图) – 中国禁闻网

重要质疑:就雷洋案请教昌平警方几个问题-常德

雷洋嫖娼案的所有证据都是事后补上?(图)

关注雷洋,也关注人民警察

[原创]就雷洋案请教昌平警方几个问题

没有嫖娼动机的说法很可笑

[原创]雷洋死亡原因的最简单分析

雷洋案新证据浮现:警察有问题

三个字道破宇宙真理,破解《道德经》三千年谜团。

雷洋家属状告公安局全体民警,称雷洋没嫖娼,一切都是警方伪造,故意杀人后伪造事实

[原创]凯迪何公然支持传谣?!有关“雷阳视频”的真相

[原创]十年一觉京华梦赢得娼平嫖客名

雷洋“嫖资收据”铁证如山_胜利社区_东营论坛_油城茶座

985各校新闻量排行

张鸣:雷洋之死…………..

尸检结论获一致认可前雷洋遗体不会被火化

[原创]洗脚女,昌平警察提供了雷洋没有进入洗脚店的证据

民主到底能不能当饭吃?

识不足则多虑,不要因个别负面事件过于恐慌 – 我说深圳事

谁在妖魔化中国人

中国人开始追求免于恐惧的自由

有谁认为雷洋不是警察打死的_亚洲论坛_天涯论坛

致人“屁股开花”的警察有兽性无人性

有谁认为雷洋不是警察打死的_亚洲论坛_天涯论坛

雷洋事件,某些人已经玩过火了!

中国人开始追求免于恐惧的自由(转载)_邯郸_天涯论坛

[原创]雷洋案:“我上车,我必死”

公知们,不要搬起石头砸了自己的脚(转载)_时尚资讯_天涯论坛

质疑雷洋案件十大疑点

雷洋父母看完遗体后,为何当场给尸检证人下跪?

雷洋妻报案:有充分证据警察涉故意伤害致死罪(图)

[原创]雷洋案:“我上车,我必死”

欲追究警方刑責雷洋家屬向北京市檢報案 | 暴力執法 | 大紀元

欲追究警方刑责雷洋家属向北京市检报案

[原创]雷洋家属及代理律师已提出刑事起诉

雷洋事件,某些人已经玩过火了!

欲追究警方刑事责任雷洋家属向北京市检报案 – 中国禁闻网

四川省纪委与厅纪委过去有结论吗?王书记上任后又是什么结论?-

四川省纪委与厅纪委过去有结论吗?王书记上任后又是什么结论?-

有谁认为雷洋不是警察打死的_亚洲论坛_天涯论坛

每日大盘走势预判和盘中分时高低点的实时分析

各国《宪法》中几种《权利法案》之比较

除了移民我们还有什么更好的选蔡慎坤

家属最大的交代和安慰

雷某嫖娼案最终结果的终极预测-第2页-

很奇怪,没抓现行,雷洋已死,警方是怎么锁定雷洋所嫖失足女的?

有谁认为雷洋不是警察打死的_亚洲论坛_天涯论坛

有谁认为雷洋不是警察打死的_亚洲论坛_天涯论坛

民主到底能不能当饭吃?

[原创]雷洋死亡案,已经形成死结

喝我这七星茶听他摆龙门阵再饮三盅

民主到底能不能当饭吃?

雷洋事件引发更深刻的社会问题

蔡慎坤:雷洋之死真相早己大白于天下

民主到底能不能当饭吃?

喝我这七星茶听他摆龙门阵再饮三盅

民主到底能不能当饭吃?

民主到底能不能当饭吃?

蔡慎坤:雷洋之死真相早己大白于天下

民主到底能不能当饭吃?

民主到底能不能当饭吃?

民主到底能不能当饭吃?

[原创]三点详析雷洋事件严重亏空损耗了XX公信力!

喝我这七星茶听他摆龙门阵再饮三盅

民主到底能不能当饭吃?

民主到底能不能当饭吃?

民主到底能不能当饭吃?

蔡慎坤:我們為什麼恐懼為什麼憤怒?

童大焕:中国人开始追求免于恐惧的自由|洛阳城事

蔡慎坤:我们为什么恐惧为什么愤怒?

雷洋是否嫖娼和怎么死亡证据链暴光

童大煥:中国人开始追求免于恐惧的自由-

喝我这七星茶听他摆龙门阵再饮三盅

转发:我们追问雷洋是怎么死的,警方却非要证明他是怎么嫖的?

赏析《还原雷洋之死》(续)

一周新闻聚焦:雷洋之死掀起舆论风暴,各方谴责警方滥权

雷剧大反转之二:让子弹飞一会儿(ZT)

国资委官员嫖娼死的“春秋笔法”-

程序正义高于实质正义的理念,规则重于道德的理念,生命高于一切的理念_胜利社区_东营论坛_油城茶座

有谁认为雷洋不是警察打死的_亚洲论坛_天涯论坛

有谁认为雷洋不是警察打死的_亚洲论坛_天涯论坛

雷洋事件需要真相而非真像

雷洋之死真相早己大白于天下

几乎所有关注雷洋之死的舆论和公

雷洋,你能否为暴力执法敲一个警钟?_新浪杂谈_历史论坛_新浪网

童大焕:中国人开始追求免于恐惧的自由

雷洋之死真相早已大白于天下【猫眼看人】-

[原创]雷洋家属有责任立即单方面公布解剖真相

雷洋案:守住私德的底线,恢复人性的的良知

转发:我们追问雷洋是怎么死的,警方却非要证明他是怎么嫖的?

童大焕:中国人开始追求免于恐惧的自由

老徐:雷洋事件需要真相而非真像

转发:我们追问雷洋是怎么死的,警方却非要证明他是怎么嫖的?

下一个雷洋是谁?

律师从法律角度看雷洋案:警方认定嫖娼的事实不能成立_中华论坛_中华网社区-

转发:我们追问雷洋是怎么死的,警方却非要证明他是怎么嫖的?

力瑾:還有多少國人在意雷洋案的真相?

国资委官员嫖娼死的“春秋笔法”——雷洋事件再反转_中华论坛_中华网社区-

“友邦人士,莫名惊诧,长此以往,国将不国”:是不是鲁讯的文章?!_汽车时代_天涯论坛

“友邦人士,莫名惊诧,长此以往,国将不国”:是不是鲁讯的文章?!

雷洋“嫖资收据”铁证如山_胜利社区_东营论坛_油城茶座

让子弹飞一会:人大硕士涉嫖身亡(集中讨论)(第2页)_国际观察_天涯论坛

雷阳嫖娼就可以打死吗?转_网罗天下_天涯论坛

人大硕士雷洋真的嫖娼了吗?十三省

下一个’雷洋’是谁?

雷洋之死击碎了中产阶级的优越感!

雷洋嫖娼,谁嫖了法治?

为北京警方的“嫖资收据管理”叫好

通过雷洋案,都要洗干净自己的灵魂,多一份正能量,就少一份阴暗

我服了雷洋家人了,到底要闹哪样?没见过这么无赖的(第5页)_天涯杂谈_天涯论坛

雷洋之后谁会成为替补

蔡慎坤:雷洋之死真相早己大白于天下

【普欣夜话】拿嫖娼说事,最终谁会被嫖娼?(第3页)_天涯杂谈_天涯论坛

雷洋猝死政府忙公关:雇水军、删贴、掉包视频

[原创]雷洋嫖娼,谁嫖了法治?【猫眼看人】-

昌平警方说明其实暗示了真相宽带山KDS-宽带山社区-第一城市消费门户

[原创]雷洋嫖娼,谁嫖了法治?【猫眼看人】-

[原创]草根今日谈:依法治国请从雷洋事件开始

【野渡专栏】草根今日谈:依法治国请从雷洋事件开始_天涯杂谈_天涯论坛

端宏斌:国资委官员嫖娼死的“春秋笔法” – 警务探讨

雷洋案:检方已出手,“涉嫖死”真相,在这

讨论:雷洋案应抓重点,不然就被人给误导了

汪剛強:從鄧玉嬌到雷洋

昌平警方说明其实暗示了真相

‘嫖娼者’雷洋的安全感要不要保护

成年男子安全路过洗脚屋行动指南

妻子不关心嫖娼 ‘雷洋之死’还存疑点真相究竟是什么妻子不关心嫖娼,’雷洋之死’还存疑点。硕士雷洋死亡之夜到底发生了什么?雷洋死了,意外地死在一起嫖娼事件当中,揪住全社会的心。今日,有协调处理此事的警员感叹舆论发酵到这般程度,受到伤害最大的是家人……

雷洋案中警方存在’钓鱼’抓嫖的可能

人大硕士雷洋之死

对“如果雷洋没有死”的一些推论

端宏斌:国资委官员嫖娼死的“春秋笔法”_上海汽车论坛_XCAR

再次重复:雷洋死后谁是下一个?

中国人民大学77、78级校友关于雷洋的声明

国资委官员嫖娼死的“春秋笔法”-

雷洋事件引发更深刻的社会问题

童大煥:中国人开始追求免于恐惧的自由-

中国人开始追求免于恐惧的自由

女人天天被杀都激不起水花,雷洋死就激起千层浪!

童大焕:中国人开始追求免于恐惧的自由

新华社连发两篇评论追问

童大焕:中国人开始追求免于恐惧的自由

人大学生会秘书长郝鹏程说,雷洋嫖娼不是第一次。

人大法学院就雷洋案举行研讨会案情惊动联

昌平警方的行为完全合法!

嫖娼釣魚執法,坐地分贓

深度剖析雷某嫖娼案…

姜杰律师:雷洋案件管辖权的法律分析

雷洋案件之疑点-第4页-

雷洋案:守住私德的底线,恢复人性的的良知

嫖就嫖了,何必美其名——“被嫖娼”?|【新鲜茶馆】

雷洋案真相不难搞清,但很多人打死也不愿相信

央视:足疗女帮雷洋打飞机,帮助他射精你怎么看?

看“嫖资收据”雷洋嫖娼铁证!(图)

雷洋之死背后的阴谋论-

雷洋案真相不难搞清,可怕的是有人就是打死也不愿相信

雷洋之死背后的阴谋论

人大部分88级校友就同学雷洋身亡声明:对恶我们不会忍太久全文

不成为下一个雷洋:就要围观不悲观

蔡慎坤:血与泪的控诉还原雷洋遇害真相

对比家属报案书和警方通报再看雷洋致死案

雷洋惊天大推论——喊假警察居然为报信

觀察:徹查雷洋案誰是獨立方?

对比家属报案书和警方通报再看雷洋致死案

雷洋妻子正式报案:嫖娼是栽赃,致命处睾丸异常肿大_中华论坛_中华网社区-

转发雷洋案刑事报案书:描述死亡过程(真相即将到来)-衡阳

血与泪的控诉还原雷洋遇害真相-

雷洋事件:有百姓的信任危机,或许也有被利用!_中华论坛_中华网社区-

雷洋死亡当晚到底发生了什么?央视专访当事警察

雷洋妻子正式报案:嫖娼是栽赃,致命处睾丸异常肿大

雷洋家属向北京市检报案要求侦查涉事民警湖南人在北京-常德

雷洋家属向北京市检报案要求侦查涉事民警-

雷洋案「刑事報案書」細述雷洋之死經歷 | 刑訊逼供 | 暴力執法 | 大紀元

‘他沒有嫖娼時間’ 家屬報案指雷洋被無辜毆死

吴文萃(雷洋妻子):关于要求北京市检察院立案侦查雷洋被害案的刑事报案书

血与泪的控诉还原雷洋遇害真相

雷洋事件:有百姓的信任危机,或许也有被利用!

‘刑事报案书’细述雷洋之死:外力伤害所致

雷洋是不是嫖娼不重要?扯淡!笔者用十点给某些人普法

雷洋死有余辜!

雷某的家人实在太不要脸了!

吴文萃(雷洋妻子):关于要求北京市检察院立案侦查雷洋被害案的刑事报案书

血与泪的控诉还原雷洋遇害真相

雷洋妻子报案,事件最新爆料!嫖娼是栽赃,雷洋被打死-休闲侃吧-

质疑雷洋案件十大疑点

[原创]雷洋遗孀之报案书等于官媒的死刑判决书

雷洋父母看完遗体后,为何当场给尸检证人下跪?

雷洋最新情报:“刑事报案书”描述雷洋之死经历

关于要求北京市检察院立案侦查雷洋被害案的刑事报案书(转载)

我们为什么要关注雷洋之死?

雷洋案刑事报案书-

雷洋案刑事报案书,警方涉嫌故意伤害(致人死亡)罪、滥用职权罪、帮助伪造证据罪-

转帖:雷洋妻子向北京市检察院报案:嫖娼是栽赃,雷洋被打死

雷洋死有余辜!

1) 雷洋家属告控告警方 2) 雷被殴打致死当日是雷结婚纪念日 3)尸检结果延迟到60天出结果

一个昌平“嫖娼者”为何引燃了全国公众的怒火?(转)

陈有西律师曝雷洋案发现最新一个重要疑问

吴文萃(雷洋妻子):关于要求北京市检察院立案侦查雷洋被害案的刑事报案书

别忘了雷洋案中被抓的另五名嫌疑人

雷洋父母看完遗体向专家证人痛哭下跪

四川省纪委与厅纪委过去有结论吗?王书记上任后又是什么结论?-

求助帖:别忘了雷洋案中被抓的另五名嫌疑人 – 有啥说啥

那些声嘶力竭认为雷洋嫖娼该死的人,他们是些啥人?

雷洋事件昌平警方两份通报比较出的问题

别忘了雷洋案中另五名被抓的嫌疑人

父母看完遗体向专家证人痛哭下跪-常德

[原创]雷洋死亡案,已经形成死结

[原创]警察蜀黍为何喜欢抓嫖?

崔家楠律师认为:确定雷洋死亡的时间,比确定死亡的原因更重要!

歐陽南山:下一個雷洋是誰?

 

童大煥:中国人开始追求免于恐惧的自由-

[原创]雷洋,愿你的名字叫做公正与法治【猫眼看人】-

我们追问雷洋是怎么死的,他们却要证明他是怎么嫖的!

雷洋没有抗拒执法,铁证如山!证据就在此

一周新闻聚焦:雷洋之死掀起舆论风暴,各方谴责警方滥权

哀悼环保烈士雷洋|龙虎文苑

雷洋案:守住私德的底线,恢复人性的的良知

雷洋案:守住私德的底线,恢复人性的的良知(第7页)_关天茶舍_天涯论坛

雷洋案件的焦点应该回归到如何死亡的问题上_文学论坛_中华网社区-

雷洋案件的焦点应该回归到如何死亡的问题上_社会热点_中华网社区-

小区内现蛇窝:5条大蛇吓得消防员直冒汗(图)

程序正义高于实质正义的理念,规则重于道德的理念,生命高于一切的理念_胜利社区_东营论坛_油城茶座

雷洋的父母下跪为哪般?(原创)

明天就是5.16,大家还是说点什么吧

[原创]雷阳事件肯定不是跨区执法

雷洋案中,当事警察说谎了没有?

雷洋案中,当事警察说谎了没有?

天啊——这位律师是在为雷洋鸣不平吗?!_中华论坛_中华网社区-

童大焕:中国人开始追求免于恐惧的自由-

童大焕:中国人开始追求免于恐惧的自由-

童大焕:中国人开始追求免于恐惧的自由-

女人天天被杀都激不起水花,雷洋死就激起千层浪!

女人天天被杀都激不起水花,雷洋死就激起千层浪!

雷洋案件的焦点应该回归到如何死亡的问题上

雷洋案件的焦点应该回归到如何死亡的问题上

关注小人物的命运!就是关注自个命运!小人物之死网友理应关注

童大焕:中国人开始追求免于恐惧的自由

律师:事后搜集卖淫女的供词根本不能作为证据!

童大焕:中国人开始追求免于恐惧的自由

天啊——这位律师真是在为雷洋鸣不平吗?!

中国人开始追求免于恐惧的自由

雷洋案:守住私德的底线,恢复人性的的良知

我们关注雷某事件的重点:执法人员滥用职权、非法拘禁致人死亡_娱乐八卦_天涯论坛

律师从法律角度看雷洋案:警方认定嫖娼的事实不能成立-常德

雷洋案:守住私德的底线,恢复人性的的良知

雷洋之死击碎了中产阶级的优越感!

力瑾:还有多少国人在意雷洋案的真相?

人大硕士之死果然反转了,这小脸,抽得啪啪的响!(转载)(第35页)_娱乐八卦_天涯论坛

雷洋之死击碎了中产阶级的优越感!

致人民大学88级部分校友:看了你们的声明我很无语(转载)(第2页)_网罗天下_天涯论坛

律师从法律角度看雷洋案:警方认定嫖娼的事实不能成立_中华论坛_中华网社区-

雷洋案中案和常州毒地案有關係 ??

雷洋死于无知

雷洋嫖娼,谁嫖了法治?

【话题】关于垒洋之死的问答

通过雷洋案,都要洗干净自己的灵魂,多一份正能量,就少一份阴暗

如果雷洋案发生在美国

再次重复:雷洋死后谁是下一个?

人大法学院就雷洋案举行研讨会案情惊动联合国

狗哥评论雷洋事件!_天涯杂谈_天涯论坛

中国人民大学77、78级校友关于雷洋的声明

朋友圈骂交警“擦亮狗眼”被拘2日是执法滥权

雷洋之死或可推动社会三大进步

议雷洋之死

看了这么多人关心雷阳事件,我感觉警察存在钓鱼执法行为。_新闻众评_天涯论坛

雷洋屍檢釐清死因 校友發聲明轟警違法瀆職 – 東網即時

再次重复:雷洋死后谁是下一个?

戴套打飞机

雷洋怎么死的?

女人天天被杀都激不起水花,雷洋死就激起千层浪!

雷洋这事,关键看标题

雷洋之死牵动人大校友上百人联署声明要真相

雷洋案中案神秘便衣牵出常州毒地案

雷洋家属指警方误导公众

雷洋案新证据浮现:警察有问题

一周新闻聚焦:雷洋之死掀起舆论风暴,各方谴责警方滥权

“雷洋嫖娼”案惊动联合国

立此存照:雷阳的事情经过

BBC:雷洋之死背后中国人对中国没信心(图)

雷洋死后的人血馒头,不知道网上各位公知吃的好不好?

张鸣:雷洋之死

观察:雷洋事件舆论风暴眼中的盲点

朱征夫:卖淫嫖娼收容制度违宪,早该废

雷洋嫖娼案的所有证据都是事后补上?

为什么雷洋案这么高的社会关注度能持续一周时间?

重要质疑:就雷洋案请教昌平警方几个问题-常德

雷洋嫖娼案的所有证据都是事后补上?(图)

人大校友声明是粗暴干涉司法的恶劣行为

关注雷洋,也关注人民警察

”这份“公平正义”,雷洋听不到了,但我们必须感受到!

[原创]细思极恐,雷洋之死或有更深内幕

[原创]就雷洋案请教昌平警方几个问题

对比家属报案书和警方通报再看雷洋致死案

对雷洋家属说几句话

橫河:雷洋案為什麼應該懷疑警方

贪官雷洋嫖娼被抓,畏罪拘捕逃跑未遂身亡

雷洋死亡案铁证如山,雷洋没有白死

雷洋父母看完遗体向专家证人痛哭下跪

雷洋是不是嫖娼不重要?扯淡!笔者用十点给某些人普法_中华论坛_中华网社区-

【江西卫视】北京昌平的警方

雷洋尸体应严加监控,以防M帝下手

童大焕:必须全面还原并公开雷洋案执法过程

对不起,我并不想知道雷洋如何嫖娼-邵阳

大反转:目击者详述雷洋事发过程:警察没打人!请火速扩散! (转载)_婆媳关系_天涯论坛

[原创]警方塑造出神一般的雷洋

雷洋案尸检初步结果出炉:等待病理结果警方回避不在现场

雷洋之死的看法_北京_天涯论坛

【调查】探访雷洋案’神秘’专家证人张惠芹

雷洋用牺牲捍卫一个公务员的尊严!!!!!

雷洋尸检超12小时家属请她全程监督

“雷洋事件”终于开了个好头

雷洋之死真相早己大白于天下(转帖)-

雷洋之死击碎了中产阶级的优越感!

滨州刑警支队原副支队长张惠芹,作全程见证雷洋尸

雷洋案:尽管真相还在路上,三种共识可以先到

雷洋没有抗拒执法,铁证如山!证据就在此

雷洋尸检超12小时警方回避家属坚持请她全程监

雷洋嫖娼案的所有证据都是事后补上?(图)

下一个雷洋是谁?

“雷洋嫖娼”案惊动联合国

十日谈;我想说几句了,关于何新的两篇文章_中华论坛_中华网社区-

雷洋案蹊跷中国官方的处理手段令人心寒

郭宝胜呼吁海内外人大校友都来关注雷洋案, 为雷洋讨取公道

[原创]雷洋没有抗拒执法,特证就在此。

雷洋是否嫖娼不重要?怎么就不重要了?!很重要好吗!_天涯杂谈_天涯论坛

中国人民大学77、78级校友关于雷洋的声明

看“嫖资收据”雷洋嫖娼铁证!(图)

警方续昌平涉嫖男子在查处过程中突发死亡通报有无问题 – 第2页 – 警务探讨

【麻辣舆情】人大硕士雷洋非正常死亡舆情分析-麻辣棱镜舆情通-

从目击者证言和记者调查的报道看被忽略的雷洋事件关键点

人大硕士涉嫖身亡死因蹊跷背后真相》给人民一个交代

应当理直气壮的为“暴力执法”正名!

他嫖不嫖娼关我屁事,我只关心他到底是怎么死的

雷洋“打飞机”能把自己打死吗?

家属澄清雷洋调查常州毒地等三传言

雷洋被强押致死案,槽点多多,警方说辞漏洞百出

时代尖兵:雷洋的官方背景值得关注!

雷洋案的焦点就是有没有受到粗暴对待?

雷洋真嫖娼了吗? – 第2页

 

【相关】

 

【置顶:立委科学网博客NLP博文一览(定期更新版)】  

韩春雨事件
http://blog.sciencenet.cn/blog-362400-977111.html

上一篇:【deep parsing:“对医闹和对大夫使用暴力者,应该依法严惩”】
下一篇:【新智元笔记:巨头谷歌昨天称句法分析极难,但他们最强】

 

12  许培扬 武夷山 蔡小宁 魏焱明 黄永义 汤伯杞 徐晓 苏德辰 张阳阳 侯成亚 gaoshannankai aliala

发表评论评论 (14 个评论)

删除 回复 |赞[12]liudongshen   2016-6-5 17:25
警察为什么热衷这项事业?因为这项事业在中国首先具有道德制高点。违法不违法只是技术问题。莫须有的道德污点却在中国更具备杀伤力

删除 回复 |赞[11]张阳阳   2016-5-15 09:57
和某个教授一下,是恶法杀人。
这个嫖娼条例,压榨了失足妇女(她们都要直接或变相的缴纳保护费或罚款),恐吓了嫖娼者(如解决生理需求的雷洋同学),肥了某些部分的腰包,增加了社会的不安定因素(如强奸)。这样的恶法,还不能废除,大抵是披着道德的外衣吧。
 回复  : 恶法杀人。不从根子上解决问题,悲剧不绝。

2016-5-15 11:421 楼(回复楼主)赞|回复

删除 回复 |赞[10]dafwlg   2016-5-14 23:25
围观此事件人群有各种心态:
1、哇!嫖娼!看看有图没?看看真正的嫖娼现场什么样的!满足一下猎奇心理,我还没嫖过呢!
2、哼!硕士也嫖娼吧!学习好怎么了,我当年一直学不好,一直被你们排挤,很自卑!
3、嫖娼被打死也活该!
4、嫖娼也不应该打死啊!

删除 回复 |赞[9]gaoshannankai   2016-5-14 16:50
雷洋一案-嫖娼问题是关键问题
http://blog.sciencenet.cn/blog-907017-976650.html
核心是 嫖娼

删除 回复 |赞[8]柳竹浠   2016-5-14 13:10
让人想起2003年被活活打死的大学生孙志刚,从孙志刚到雷洋,不服从的代价就是死?
看看这次这么大的舆论事件怎么平息?

删除 回复 |赞[7]yao101yao   2016-5-14 12:33
这篇的分析真的很有意思。这可以从很多角度来分析这个问题。心理上的 社会上的 逻辑上的 数据挖掘 统计的

删除 回复 |赞[6]赵锐   2016-5-14 11:45
https://www.youtube.com/watch?v=E2ZcdociKZI

删除 回复 |赞[5]赵锐   2016-5-14 11:45
https://www.youtube.com/watch?v=CerUrdH1J5Y

删除 回复 |赞[4]姚小鸥   2016-5-14 11:27
圆饼如何读啊,不会。

删除 回复 |赞[3]junkscience   2016-5-14 10:29
当最后的结论与大数据不符合时, 就是对大数据最不可靠,最不科学的审判

删除 回复 |赞[2]魏焱明   2016-5-14 10:21
我刚刚写了一个呼吁,欢迎好友及时推荐。
《“雷洋事件”是催生文明徭役抵罚和发展慈善机构的大好契机!》http://blog.sciencenet.cn/blog-2339914-977077.html

删除 回复 |赞[1]蔡小宁   2016-5-14 10:21
能不能对这些图做点解读?
 回复  : 那个没法自动化,要仔细研究数据。虽然工具很好用,可以从不同角度追踪、展示舆情和信息,但解读还是需要分析师的去粗存精、去伪存真。

2016-5-14 12:021 楼(回复楼主)赞|回复
 

大数据淹没下的冰美人(之二)(屏蔽留存)

大数据淹没下的冰美人(之二)

屏蔽已有 3216 次阅读 2015-5-13 09:33 |个人分类:社媒挖掘|系统分类:科普集锦| 范冰冰, 挖掘, 社会媒体

女神 or 妖精,总之不似人类

好,我们开始范冰冰的社媒深度挖掘,看看网友都怎么说她。

先看网友的赞美(绿字体)和吐槽(红字体)等情绪化评语的词云分布,显然是东风压倒西风:

分类总结前五类情绪评语如下。

先看赞誉,毫无悬念,迷恋她、惊艳其美和粉丝的溢美之词占绝大多数,见(1)(2)(3):

(1)   喜欢, 爱,迷恋, 羡慕, 中意, 享受, 怀念, 惊喜,飞吻,💋,相中, 看中

(2)   QQ, 粉丝,给力,成功,最强,很火,不错,很好,最佳,可爱,受欢迎

(3)   美, 美爆, 绝美, 女神, 传奇, 完美,逆天,耀眼, 精彩, 更胜一筹

(4)   倾国倾城,性感,威武,强大,厉害,独特, 优雅, 经典, 华丽

 

(5)   支持, 欣赏, 赞, 夸赞, 看好, 期待, 关注

有意思的是(4)中系列形容词所发出的信息:把倾国倾城、性感厉害、优雅华丽与威武强大等集合起来,在当今华裔女星中是不多见的,她反映冰小姐的御姐女皇范儿给观众留下的印象,她是独特的。冰美人绝不是传统的温婉贤淑小家碧玉类的女子。

各花入各眼,萝卜青菜各有所爱,她这一款自然不会人人喜欢。作为娱乐界耀眼的公众人物,在排山倒海的网友和粉丝的赞誉中,自然也不免被吐槽,也分五类如下:

 

(1)   不喜欢, 吐槽, 讨厌, 抱怨,烦, 骂, 恨, 气,不爱, 不欣赏, 不羡慕,失望, 无语, 受不了,无法忍受,
   大跌眼镜,大失所望

(2)   质疑, 怀疑, 鄙视, 讽刺, 嘲讽, 不接受, 批评, 不关注, 抵制, 看不上, 看不惯,不看好,看不起

(3)   不美, 不好, 差, 破, 不怎么样,不完美, 不行, 没多美,没有我美,算不上一流,一无是处, 不给力

(4)   低能儿蠢货, 不要脸,我操,垃圾,变态,傻逼,坑爹,这么狗血,最不要脸, 恶心,鸡肋,操, 吓人,
   美个屁,挖鼻屎,白痴,二货

(5)   还不如现在的张馨予,还不如穆婷婷可爱,太胖,臃肿,

第一类表达各种程度的不喜欢不欣赏,第二类是各种鄙视看不惯,第三类酸溜溜的多少带有嫉妒的不屑,这些大多是口味问题,或者源于人皆有之的某种小小的嫉妒之心。第四类竟是破口大骂了,这是社会媒体作为许多匿名网虫无遮挡发泄负面情绪的一个反映,你美了就骂你蠢,你急智就骂你丑,总之是无冤无仇也要骂娘,特别是要骂名人。倒是第五类的负面信息最为具体,说她不如张美人穆美人(张穆都是啥妖精,怎么从来没听说过,演过啥,没有一丝印象),说她太胖臃肿,虽然明显有偏见,却也不是空穴来风。

为了过来看看

@素颜锦诗 350938楼 2014-05-07 19:46:10 萝莉粉真不爱范爷这款长相的, 我觉得也许在萝莉看来, 范爷还不如穆婷婷可爱…

人总是健忘的 RT @zmt0516: 记得当年范冰冰的名声还不如现在的张馨予,现在已经被公关团队刷成女神之神了。。。

#freedom #民主 范冰冰黄裙现身体态臃肿 群众爬墙头睹芳容 组图 http://t.co/xprlcS1RdE 

总体来看,情绪化用语无论正面负面,大都当不得真,只是反映了舆情的好恶分布而已。真正有价值的舆情挖掘是情绪背后的理由,为什么喜欢或者不喜欢她?这类细线条的深度舆情挖掘,我们留待下一篇博文给您提供。

【大数据淹没下的冰美人】的系列博文链接:

大数据淹没下的冰美人(之一) 

大数据淹没下的冰美人(之三): 喜欢的理由 

大数据淹没下的冰美人(之四): 流言蜚语篇(慎入)

大数据淹没下的冰美人(之五):  星光灿烂谁为最?

【置顶:立委科学网博客NLP博文一览(定期更新版)】

社会媒体舆情自动分析:马英九 vs 陈水扁(屏蔽留存)

社会媒体舆情自动分析:马英九 vs 陈水扁

屏蔽已有 4966 次阅读 2012-9-29 16:51 |个人分类:社媒挖掘|系统分类:科研笔记| 马英九, 陈水扁, 社会媒体, 舆情分析, 社会形象

Different social images and social media sentiments for Ma Yingjiu, Taiwan President, and Chen Shuibian, Taiwan former president.
 
不同的社会媒体评价,截然不同的民间形象,台湾现总统马英九 vs 台湾前总统陈水扁,社会媒体自动分析的初步结果凸显二者的不同形象和风格。
 
(1) 高频情绪性词的词频分析的对照图示
 
(2) 高频褒贬描述性词的词频分析的对照图示
 
 
 
相关篇什:

研究发现,国人爱说反话:夸奖的背后藏着冷笑

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-617870.html

上一篇:两种啤酒罐的开口结构
下一篇:评《有关太阳内光子想到一个类比——金属导电》

 

1  王芳

【『科学』预测:A-股 看好】(屏蔽留存)

【『科学』预测:A-股 看好】

屏蔽已有 4306 次阅读 2012-12-4 13:37 |个人分类:社媒挖掘|系统分类:博客资讯| NLP, 监测, 股市, 舆情, 社会媒体

有什么大众话题想要测试我的中文系统么?
作者: 立委
日期: 12/03/2012 17:40:25
RE: 老李,你这玩意儿能不能用来炒股啊?要是能预测股票走向,哪怕一点点,就牛大了。
 
能啊。见图:
 
 

自动舆情监测分析表明:A-股 看好 哎!!!

那谁谁,还不进场!据说外资已经陆续到位抄底了呢。股市应该不久会反弹。
 
【免责声明】舆情检测虽然大数据,很客观,无人为干扰,但是过去和现在的舆情不能成为未来预测的保证。有网友听信陪钱,概不负责。
但有听信而赚钱者,务请捐款1/10至:大数据NLP立委基金,c/o 通天塔委员会 @ 牛市。
 
【立委名言】总统人气犹可预测,况股市走向乎?
 
想起前不久总统竞选辩论来。两位总统候选人比着对中国强硬。这是美国政客惯用的竞选伎俩。由于种种原因,起飞中的中国在美国选民中隐隐成为某种威胁,对中国强硬有利于吸引选票。在野总统候选人打中国牌比较有利,因为他不必顾忌对中国现实贸易的相互依赖和利害关系。于是,罗姆尼一直批评奥巴马对中国太软弱,宣称他一旦当选,就立即宣布中国是汇率操纵国,列入操纵者黑名单意味着贸易制裁的强硬态度。奥巴马反守为攻,辩论中告诉听众,千万不要相信罗姆尼的口头激进。他指着罗姆尼说:他对中国最不可能强硬,因为亿万家财的罗姆尼有大笔投资在中国呢。罗姆尼急了,反驳说,你奥巴马回去查查你自己的退休基金的流向,我担保里面有中国概念股,这么说你也有中国投资,因此影响你对中国的政策,笑话嘛。
 

确实,资本唯利是图。投资理财的美国资本顾问,一个个猴精,一方面不断唱衰中国,一方面绝不会放过中国经济这块蛋糕。一边把中国概念股系列弄得垃圾似的,一方面又不失时机进来抄底。总统候选人怎么可能摘得清呢。

【相关】

 到底社媒曲线与股市曲线有没有、有多少相关度?

转载]ZT:牛津大学王宁博士:大数据与有限理性

舆情挖掘用于股市房市预测靠谱么?

【舆情挖掘:房市总体看好】

【置顶:立委科学网博客NLP博文一览(定期更新版)】

 

http://blog.sciencenet.cn/blog-362400-639090.html

上一篇:三代 “大跃进”
下一篇:【凡事不决问 social:切糕是神马?】

 

2  王号 曹聪

发表评论评论 (1 个评论)

删除 回复 |赞[1]wuqunan   2012-12-4 21:11
哥来抄底了!呵呵。艾玛,肿么下面还有地板,地板下面还有地下室,介个真有木有?
 

尝试揭秘百度的“哪里有小姐”(屏蔽留存)

尝试揭秘百度的“哪里有小姐”: 小姐年年讲、月月讲、天天讲?

屏蔽已有 8461 次阅读 2012-12-14 15:41 |个人分类:社媒挖掘|系统分类:博客资讯| 百度, 社会媒体

一个偶然的系统测试,暴露出百度与“哪里有小姐”身影相随。这个发现在朋友间立即引起轩然大波,有称妙的(way to go, u r onto sth),有调侃的(曰:百度本来就源自“众里寻她千百度”嘛),有怀疑的(the results are not faked?)。阴谋论者伊妹儿我,指责此云有侮辱百度之嫌。
 
我跟老友说:我没有结论。有牢骚的话也是借题发挥(讽刺据传是平西王当年以扫黄为名打压挤走谷歌,为百度开道),不是正经“结论”,不足采信。但是我有数据,怎么解读这个数据见仁见智。要想发现背后的真相,还需要一番深入调查的功夫。
 
先谈数据:
 

百度在所调查的一年跨度的社会媒体统计中共出现近 227 万次,其中“哪里有小姐”与它共现 50 万次,是关联度最高的 term (占据与其共现的 top 100 关联词语之首,share:22%),这就是词云出来的背景数据:

 
 
什么是词云呢?
A word cloud displays the frequently occurring terms surfacing from a topic’s text.
 
 
从一年到半年、三个月、一个月、一周、一日,永远是小姐为主题,邪门了
 
是不是百度上的某种广告,这么黏糊,百度甩也甩不开。竞价排名惹的祸?

请看六个月 的词云数据图:

 
三个月 的词云数据图:
 
一个月 的词云数据图:
 
一周的词云数据图:
 
一天 的词云数据图:
 
再看对同样的社会媒体同样的一年时段的“谷歌”的调查结果
谷歌 出现的总次数远不如 百度,只有 73万4千,但也足够多 到可以观察其关联词了
 
 
 
Let US Drill down: 百度小姐的真相在这里
 
是什么样的推手把 小姐 与 百度快照 弄得满世界都是
日期: 12/14/2012 17:40:43

一定是有人编制了程序,到各网站(包括宠物网站)张贴小姐的广告及其百度快照。
 

Drill down 发现很多链接,Spam 一样,点了链接进去大多已经失效了,大概已经被网管删除。

大概是删不胜删。
 
 
 
最后在百度直接做了一下“哪里有小姐”的搜索,果然是东土最响亮的广告词。
 

最后在百度直接做了一下“哪里有小姐”的搜索,果然是东土最响亮的广告词。

 
 
前一篇博文:
 

社会媒体测试知名品牌百度,有惊人发现

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-642614.html

上一篇:社会媒体测试知名品牌百度,有惊人发现
下一篇:“我们为什么选择在学校学习”的思考

 

7  刘洋 张婷婷 蔣勁松 武夷山 贺天伟 sz1961sy sun879109994

圣诞社媒印象: 简体世界狂欢,繁體世界分享。(屏蔽留存)

圣诞社媒印象: 简体世界狂欢,繁體世界分享。

屏蔽已有 4127 次阅读 2012-12-26 05:27 |个人分类:社媒挖掘|系统分类:生活其它| 圣诞, 社会媒体

狂欢 vs. 分享
 

狂欢也应该,劳苦一年了。

 
 
不过,当然是分享高出狂欢一头。
 
狂欢没有问题,狂到找哪里有小姐就有些过了。
 
 
 
大众心理里,圣诞节的 pros and cons 呢?
商品社会嘛,离不开打折!
 

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-646437.html

上一篇:手表的价值观
下一篇:WordClouds: Season’s sentiments, pros & cons of Xmas

 

5  曹聪 武夷山 刘洋 贺天伟 sz1961sy

【社会媒体:现代婚姻推背图】(屏蔽留存)

【社会媒体:现代婚姻推背图】

屏蔽已有 4098 次阅读 2013-1-11 05:23 |个人分类:社媒挖掘|系统分类:生活其它| 婚姻, 推背图

立委按:哈,【爱情推背图】甫问世,一个小时点击1000多次,编辑MM有立马加精,风助火势,风靡理呆成疾的科网。原来埋头基金和论文的理呆们也食人间烟火,对人性的探究兴趣一样盎然。好,再接再厉,来个姐妹篇【社会媒体:现代婚姻推背图】。

 
【大众心理探究:婚姻】
日期: 01/09/2013 16:39:34

所挖掘的数据源:来自中文世界社会媒体过往一年的档案,繁体约五千五百万文档,简体文档达三亿五千万。大约有一亿论坛帖子来自百度(贴吧等),两千多万来自搜狐,两千五百万来自天涯论坛。

婚姻(简体)被提及390万次;繁体被提及约 41 万次

繁简体的分别调查可以透露出大陆社区与台湾社区对待几乎永恒的话题“婚姻”的有所不同的社会认知。首先值得注意的差别在对于婚姻的总体评价上,简体世界基本是负面的,净情绪指数为-5%,而繁体世界是正面为多,净情绪指数为+5%。这正负5%共10个点的对照,虽在意料之中,仍让人嗟叹无语。祖国大陆经济起飞,社会巨变,带来的是社会的两极分化以及婚姻关系的不稳定等系列问题,从而影响了普罗百姓对婚姻的信心和评价,这是意料之中。而台湾呢,虽然生活在夹缝中,整体社会情绪还是向上的,乐观的,这在对“爱情”观念的调查中也得到印证。另一点对照就是所谓热情强度的指数,简体世界高出繁体世界五个点(21-16=5),说明海外华人社区比起国内,更加平和一些。

 
 
1. 婚姻的关系概念

可以提出的看点有:

(1)婚姻是男人与女人之间的事情(貌似废话。本来不是事儿,可如果调查美国社会媒体,可能就是事儿了:不同州法律不同,同性婚姻是敏感的热点话题,其合法化似乎有蔓延全国之势。)

(2)爱情与婚姻关联度极高(那自然)
 
(3)除了男女爱情老公老婆结婚证外,与婚姻概念最相关的不外乎是 家庭、父母 和 孩子,对了,还有房子(至少在大陆很多城市,房子对结成婚结不成婚至关重要)。
(4)有意思的是,婚姻问题总是与 岁月 和 时间 不可分(所谓n年之痒?)
(5)浮出水面的其他与婚姻有瓜葛的人和事包括:霍启刚(是不是那个与我们奥运之花搞世纪婚礼的大款?)、还没结婚儿子越来越多(这又是谁?有几房?)、姚晨(谁?婚姻怎么啦?)、婚纱照、婆婆、裸婚、剩女(错过了?)、假证(假结婚证还是假房产证?待查)。
 
 
 
看看以臺灣社會為源頭的繁體世界中婚姻的社會形象如何吧
 
(1)婚姻最大的concern似乎是 歲月(誰經得起歲月?樹猶如此,婚何以堪),其次就是 愛情 問題(愛情枯萎、愛情褪色?婚姻難道真是愛情墳墓?)
 
(2)跟愛情生活一樣,繁體世界特別重視 星座 在婚姻生活中的影響,什麽 處女座、金牛座、雙魚座,不亦樂乎,星座不同,就不能婚麽?同胞,你們也太迷信了吧。
 
(3)不像愛情馬拉松,婚姻的核心是行動:結婚結婚結婚,聽上去很像【義勇軍進行曲】,赴湯蹈火呢?
 
 
 
2. 与婚姻有关的情绪分析
 
情绪上,无论简体社会还是 繁体社会,围绕的核心问题就是幸福和不幸福,大多源于婚姻的破裂和失败。
似乎美满婚姻只是一个传说。婚姻需要支持,尽管如此,不幸福、不看好,破裂和失败的婚姻仍然像一个幽灵,在华人社区徘徊。以前都说西方社会乱象丛生,满大街都是陈世美,离婚率高达50%,如今起飞中的中国据说也快赶上来了。
 
婚姻带来的情绪对立看下图一目了然。总体来看,大陆社区正不压邪,缺乏正能量,负面情绪如病毒一样在蔓延:厌倦、烦恼、悲惨、不如意、不美满、不愉快、太荒唐、太难熬、出状况、有名无实、不能忍受。海外社區也有很多矛盾情緒和牢騷,可總體上還是東風壓倒西風,相信婚姻,渴望婚姻,享受婚姻,感到婚姻 甜蜜美滿 的也大有人在。
 
 
3. 探幽婚姻的是非得失
 
1. 无论繁简,婚姻世界映入眼帘都有两个大字 问题. 外交无小事,婚姻大问题。婚姻最大的问题就是问题。啥问题呢?本来我们系统是非得失的挖掘着眼于发现具体的缺点或优点,而不是抽象的问题。大概婚姻的是非太难缠了,清官难断婚内事,结果就是大大的问题,却搞不清问题所在。保不准啥问题都有。
 
2.  問題之外,繁體世界顯然比較美好,甜蜜、合法、穩定/固 占了主流,建議欲享受婚姻的同胞,一定要找臺灣女生,移民到臺去做乘龍佳婿,那裏似乎還有一片美滿婚姻的綠洲!简体世界可就惨了,婚姻不但 没有浪漫色彩,而且总是 不顺,不稳定,不容易。
 
3. 把婚姻比作 沉重的枷锁,不是首创,是很多人的真切感受。可彼岸同胞,却有称它为 一種甜蜜的負荷,行啊,同胞,服了您,简直太可爱太乐观了。
 
 
 
 
朋友,您从这些从成千上万人思想言谈中真实发掘出来的推背图系列里,又发现什么呢?您的婚姻观与大众的婚姻认知有差距么?在婚姻这古老的制度和观念上,对于您自己的切身环境以及未来社会,您是乐观派、悲观派,还是绝望族?
 
从爱情到婚姻,种种纠结啊,好比面对一个蜜罐转成的火坑,跳也不跳?
 
婚姻就是围城:颠扑不破的宇宙真理。
【立委名言】归纳是预测之母
 
 
 
 
 
 
这两天在看非诚勿扰,感觉人类迄今对于婚姻最深刻的认识就是围城论
作者: 立委
日期: 01/09/2013 13:14:24

真的是在城外的一个个拼命要钻进去
城内的呢, 隐隐约约多多少少又想出来(太累啦)。
 
所谓“进化论”,其实就是对“稳态”的否定。当然不是说个体的不稳定,
作者: mirror (*)
日期: 01/09/2013 18:03:39

而是说要有“鲁棒性”。嫁 鸡随鸡嫁狗随狗,用个学术词儿的表达其实就是鲁棒性。

鲁棒性好,就可以象昆虫、寄生蟹那样拖着盔甲、房屋跑。鲁棒性不好,只有推到重建了。

———-
就“是”论事儿,就“事儿”论是,就“事儿”论“事儿”。

 
 
 

http://blog.sciencenet.cn/blog-362400-651871.html

上一篇:论“论”
下一篇:卫生巾和纸尿布

 

1  杨华磊

【社媒挖掘:臺灣政壇輿情圖】(屏蔽留存)

【社媒挖掘:臺灣政壇輿情圖】

屏蔽已有 3312 次阅读 2013-2-23 08:58 |个人分类:社媒挖掘|系统分类:博客资讯| NLP, 臺灣, 政壇, 輿情圖

                   

 
今天測試我們中文輿情挖掘的繁體系統,想何不借此了解一下臺灣政客的社會形象。好在臺灣是亞洲民主化程度較高的社會,並非老蔣時代,議論政客惹不了麻煩,也不會被禁聲。藍也好綠也好,不議白不議,就是剝掉皇帝的新衣,他奈我何?
 
 
 
說來慚愧,我對臺灣政壇並不熟悉,所熟知的政治人物不到一打。好,那就把能想到的幾位調查一下,得輿情圖一張如上。請臺灣朋友看看,靠譜不靠譜。
 
一眼看去,臺灣的藍綠政客幾乎全部擠在輿情圖的左下角(弱+反感),說明什麽?說明他們在民眾中的形象都不咋樣。不僅如此,大家對他們的情感也不強烈,大概是失望已久,又沒有其他備選項,已經疲怠了,無所謂了。
 
仔細比較,可以看出,蘇貞昌名聲最佳,毫無疑問是這次自動民調中的矮子叢中的將軍。謝長廷緊隨其後,然後才到蔡英文和馬英九。蔡(指數19)比馬(指數18)略高,但由於是當選總統,馬的議論最多(泡泡最大)。從圖上看,馬英九幾乎把蔡英文整個兒攬於懷中(滑稽不?簡直成了絕妙的政治諷刺漫畫了)。老總統李登輝的聲望則日落西山,更在馬蔡之下。
 
至於阿扁前總統嘛,名聲太臭,凈情緒指標-12,處於地下冰窖第18層,根本浮不上輿情圖的臺面。連戰、蕭萬長、宋楚瑜也未能浮現輿情臺面,原因不是被民眾唾棄,而是被民眾遺忘,他們根本就沒有多少議論,泡泡太小,非置於放大鏡之下不得見也。其實,論褒貶指數,連戰的凈情緒 36 才是冠軍,蕭萬長也有 33,二者均高出蘇貞昌的28一頭。詳細數據比較見下圖。
 

 

資料來源及分布:迄今一年的社會媒體檔案(正體)

 
【立委名言:政治輿情圖旨在計量社會公仆在社會媒體中的被關註度、褒貶度和愛憎情緒強度,反映其公眾網絡形象】
 
【預告】
下期【社媒挖掘】繼續比較臺灣的政治人物,顯示民眾的正反情緒,比較政客們的得失。敬請留意。

http://blog.sciencenet.cn/blog-362400-664312.html

上一篇:米拉围脖:什么是原创? 张亭栋是原创么?
下一篇:初中科学教育是分科教学好还是合科教学好?

 

1  李伟钢

发表评论评论 (4 个评论)

删除 回复 |赞[2]陈楷翰   2013-2-23 13:24
换个字吧?这看起来多累啊老哥?
 回复  : 这是台湾的那些事儿,还是原汁原味吧

2013-2-23 18:361 楼(回复楼主)赞|回复

删除 回复 |赞[1]陈熹   2013-2-23 09:04
没看到图呀
 回复  : 麦当劳免费上网,传图总是失败,等晚上回家再弄

2013-2-23 09:061 楼(回复楼主)赞|回复

【社媒挖掘:馬英九施政一年來輿情晴雨表】(屏蔽留存)

【社媒挖掘:馬英九施政一年來輿情晴雨表】

屏蔽已有 3368 次阅读 2013-2-23 20:07 |个人分类:社媒挖掘|系统分类:博客资讯| normal, style, 晴雨表

【馬英九施政一年來輿情晴雨表】

看點及分析:
 
(1) 一年來馬英九的總體形象偏低,凈情緒指標在零度以下居多,他一直試圖改善形象,但總也不大成功。究其原因,凡臺上的政客,除非社會經濟出現奇跡般改善,作為常規,總是招致的批評遠多於贊揚。民眾總是憤怒的,而在野黨不會放過任何一個機會推波助瀾。
 
(2)不過一年來也有10多次短暫的亮點,聲望處於零度以上(褒大於貶),雖然都好景不長:從圖上看,去年七月初到九月初之間是正面聲望持續最長的區間(只在八月短暫跌入零度以下),不知道有什麽亮麗的政治表現還是由於團隊公關得力,有興趣的讀者可以查證一下。馬總統宣誓就職的五月中,凈情緒指標尚在零下30度左右徘徊,怎麽到了七月就迅速回暖至零度以上,持續約兩個月,直到九月2日的+35的峰值。我對臺灣政治不熟悉,也沒有精力去探究 data 和證據鏈(盡管我們的工具提供了多項 drill down 的功能),但這個區間似乎確是馬總統二度當選以來得到民眾認可的最佳時期。此後就一蹶不振,只在十月、十一月與今年元月短暫回升。一年來的最低點在三月四日的-44,十二月16日也很慘,一度跌入-42,冰凍刺骨。總而言之,馬英九自從去年初當選以來,不是很順,民眾的失望抱怨情緒彌漫網壇。
 
我們來看看針對馬英九的公眾情緒的雲圖,鐵桿支持相信他的藍營很搶眼,與罵他笨蛋反對他的呼聲針鋒相對。但從數據點上看,還是紅色負面情緒更多。
 

 
網民眼中馬英九之榮辱得失究竟如何?
 
先看馬的支持者的理由
 

 
再看馬的批評者的指責
 

對比一下馬施政一年來的得失榮辱:
 
 

正面評價中最大的亮點是清廉,負面評價除了無能外,最大的批評就是一意孤行和畏懼中國(嫌他在兩岸關系中對大陸不夠強硬,在我接觸到的臺灣朋友中,這是一個相當普遍的抱怨)。
 
立委的觀感是,臺灣民眾比較煩,比較煩。馬總統要想贏得民心,光靠已有的清廉形象遠遠不夠。他要青史留名,改變無能總統的批評浪潮,扭轉其頹勢,今後三年一定要交出一份更大的成績單。
 
正所謂:
 
總統輪流做,明朝到誰家?
帥俊小馬哥,憔悴如明蝦。
 
【立委名言:民主總統不好玩,當家五年狗都嫌】
 
【相关篇什】

社媒挖掘:社会媒体眼中的臺灣綠營大佬

【置顶:立委科学网博客NLP博文一览(定期更新版)】

http://blog.sciencenet.cn/blog-362400-664500.html

上一篇:米拉围脖:什么是原创? 张亭栋是原创么?
下一篇:初中科学教育是分科教学好还是合科教学好?

 

1  孙根年

发表评论评论 (2 个评论)

删除 回复 |赞[1]孙根年   2013-2-24 06:58
很好,能详细介绍所用方法吗?
 回复  : 【立委科普】专栏有系列介绍,今后还会继续:
http://blog.sciencenet.cn/home.php?mod=space&uid=362400&do=blog&classid=123261&view=me&from=space

2013-2-24 07:111 楼(回复楼主)赞|回复