【李白99：从大小S的整体部分关系看舆情挖掘的统计性】

屏蔽已有 1487 次阅读 2018-3-10 04:15 |个人分类:立委科普|系统分类:科研笔记| NLP

白:
“这家公司从年报看业绩没什么起色。”

李:
“业绩”可以是小s 也可以是“看”的宾语，其实语义基本不变。“从N看”很像个习惯表达法，可以等于 “从N看上去”（“以N而观之”）。

白:
“这个人从眼睛看瞳孔是蓝色的。”

董:
两位，“这家公司”、“这个人”，还是“状语”吗？怕不合适吧？

李:
主语。“从N看”可以做状语。还是大s小s那套，及其变式。逻辑上就是整体与部分的情形，谓语说部分自然也在说整体。感觉大小S的问题有很强的逻辑意味是逻辑在语言中的表现形式。大S是整体小s是部分谓语直接说的是部分，自然也就间接说了整体，这是逻辑上的不完全归纳，与三段论的演绎正好相反。归纳不如演绎严谨，容易引发种种争议，但归纳是人类认识和表达世界广泛使用的手段，表现在语言形式上就很有说法了。

这个问题我们在做舆情分析中，无数次遭遇：说 “iPhone 屏幕很好”，直接说的是“屏幕”，间接说的是 “iPhone”，算不算是说 iPhone 的好话？当然算，至少是找到了 iPhone 的一个亮点。

A：iPhone屏幕好
B：iPhone 屏幕好，但别的都不行。
A：照你说，iPhone 只剩屏幕好了？
…………

A 是说 iPhone 的好话，用的逻辑是不完全归纳。B 是说 iPhone 的坏话，但也做到了与 A 并不矛盾，根据的是归纳的不完全原理。所以说不完全归纳就是那半瓶水，乐观主义看见的是水，算是点赞；悲观主义看见的是空气，可以是吐槽。如果反过来用三段论演绎法，说的是整体而不是部分，譬如 “iPhone 就是好”，就没有这些弯弯绕了，不会留下模糊的空间。

大前提：iPhone 好
小前提：iPhone 屏幕也是 iPhone （有机部分）
结论：iPhone 屏幕好。

这跟 “文化大革命就是好” 一个道理，是点赞没商量。

回到原句：“这家公司从年报看业绩没什么起色。” 句法上的大S在逻辑语义层转为O，句法上的小s上升为S，这些都说得通，只欠O（整体）与S（部分）之间的关系了：

愿意做细活的话，这个有点特别的 “从N看”（习惯表达法）可以看成是状语或插入语，它不是语句的重心。不过，这种细活做多了，不仅费工，而且也难免弄巧成拙，譬如，万一前面出现了一个通常不出现的主语“我们”或“大家”，就找不到自己的谓语了。

“这个人从眼睛看瞳孔是蓝色的。”

“瞳孔是蓝色的。”
？ “这个人是蓝色的。”

这就是不完全归纳法推向极端的情形：上句因为是极限事例，听上去不 make sense，但却的的确确隐含归纳法从部分到整体的逻辑链条在内。如果改写成这样，就貌似有些道理了：

“就瞳孔而言，这个人是蓝色的。”

“瞳孔” 这个概念在其常识性本体知识库里在Color的字段下其 appropriate 的属性值里面包括了“蓝色”。但是 “人” 这个概念里面常识本体库里面的 Color 栏目没有“蓝色”这个选项，只有“黑白黄红”。说这个人是蓝色的违背了这个常识所以觉得很怪：除了妖怪和童话，怎么会有蓝色的人呢？但人的某个部位的确可以是蓝色的。部分的属性推广到整体的时候遇到了矛盾。

“希特勒特别善于演说”

是说希特勒好吗？还真地就是说他的好话。在舆情抽取的时候，我们记录每一个这种表述，部分好相当于给整体好投了一票，但抽取的碎片化情报只是零散的一票一票，到了对于整个数据源进行信息融合（fusion）的时候，这每一张投票就被统计出来，“舆情”就自然得出。

白:
这是诛心。说鸡蛋好是不是也给下蛋的母鸡投了一票？

李:
最后的结果非常 make sense。原来，在与希特勒相关的舆情数据里面，整体而言，点赞的不足 1% 吐槽的高达 99%，可见其不得民心。这是全貌。舆情的细线条分析进一步揭示即便点赞，赞他的方面（aspects）或依据（why）几乎总是其客观能力（演说才能）等，吐槽的却是他的实质：思想，行动，内心，等。

说鸡蛋好，的确是给那只老母鸡点了赞。虽然钱先生对喜欢他的《围城》的粉丝说，鸡蛋好吃，又何必认识老母鸡呢。其实钱先生不仅仅是谦虚或清高，其实就是懒。懒得搭理那些无穷无尽的崇拜者。他内心何尝不知道，鸡蛋吃得香的人，对于老母鸡是有赞的。至少，我去超市买鸡蛋，对于能下黄鸡蛋的母鸡，比只会下食之无味的白鸡蛋的母鸡，心里不是一视同仁的。anyway，我们做了多年舆情挖掘，就是这么个原理。利用的是不完全归纳，对于不完全归纳所带来的副作用和逻辑不严谨，弥补的手段就是大数据投票。并不离谱，有全貌，有细节。

在大数据下，好人不会被评坏了，坏人也不会被评好了。当然，国内水军据说可以左右大数据，另当别论：主要是数据还不够大，水军也太便宜。

白:
无罪推定的原则，逻辑上（典型的就是三段论）推不出来的，你不能安给我。统计算个数也就罢了，把标签落到人头上，贻害无穷。这与诛心何异。比如，我反对一个人的证据（比如钓鱼贴里面那种荒唐证据），对其结论并没表态（尽管结论可能很政治正确），这是一个正常的理性行为。如果因为这个给我打上政治不正确的标签，我很难接受。

李:
大数据下，任何标签都不是黑或白。

白:
可是这种粗暴做法，冠以“舆情分析”的高科技帽子，几乎每天都在发生着。

李:
说你 99% 的政治正确，1% 的政治不正确，你应该很高兴。我要是开个餐馆，或经营一家NLP咨询公司,只要有 80% 的赞誉度就笑懵了。每次找餐馆，我从来不特别找全五星的，总是找4星以上的，一万个评论打了四星的，比一千个评论打了五星的，要好得多。

白：
评好人缺点的人、不赞成拍好人马屁的人、不赞成捧杀好人的人、不赞成用荒唐论据支持好人的人被当作跟好人不一伙的人，这样的技术是危险的。其实是在诛心，或者在实现一种诛心的逻辑。

李：
退回到人工问券调查民意的时代，手工民意测验其实更差更不完备。因为大S作为调查对象虽然是确定的，这个大S的方方面面那些点赞他吐槽他的种种理由却五花八门。这些五花八门个体可能有诛心的风险整体统计却化解了风险。到了民主政治一人一票根本就无心可诛。大数据下只看票不看理由。

白：
挺转和反转，就因为双方的旗手而呈现站队状态。反崔挺崔，反方挺方，本来与挺转和反转是互相独立的，在舆论场中愣是给弄成掰不开了。这个话题与政治关系不大。一个人只要不满崔，就会被当成挺转分子。

【相关】

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《朝华午拾》总目录

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：http://blog.sciencenet.cn/blog-362400-1103141.html

上一篇：【李白98：从对联和孔子遗言看子语言自动解析】
下一篇：【立委兄：小城记忆】

【李白99：从大小S的整体部分关系看舆情挖掘的统计性】屏蔽留存

【李白99：从大小S的整体部分关系看舆情挖掘的统计性】

发布者

立委

发表回复