嫖还是没嫖,这不是语言学的问题
屏蔽 |||
薛蛮子的嫖娼事件,由于其社交媒体的高知名度以及主流媒体包括央视的渲染,在网络上传得沸沸扬扬。堂吉诃德曰,鸟大了,什么林子都有,网络世界见怪不怪。甚至有卫护者抱怨薛蛮子空有千万粉丝,居然没有女粉给他送温存,以致老顽童不得不寻花问柳,养成“特殊癖好”。
这些都不当紧,当紧的是我们做媒体自动挖掘的,对热点话题不能放过。热点话题是技术人小试牛刀(或吹破牛皮)的机会。
于是,用自家研发的系统一挖,傻了,难道真是成也嫖娼,败也嫖娼?
See,老顽童的短处(cons,左图)是嫖娼,老顽童的长处(pros,右图)居然是(不)嫖娼(那个小圈圈是远距离否定的一个图示)。另一个长处是“(不)是官吏”,似乎是说,既然不是官吏,也就无需私德无暇,也是常见的替他辩护的一种说法。
到底嫖还是没嫖,这不仅仅是哈姆雷特的天问,这更是语言学的拷问。难道地球人都知道的嫖娼事件,还有广泛流传的他本人供认不讳的视频等,系统居然挖掘出否认事件的情报?吹破大天的语言技术就这么颠倒黑白,歪曲事实?
作为系统设计者,本能的第一反应是,这一定是一个 bug,技术层面的 bug。不管怎么说,挖掘出的反面情报前15中的第一位就是嫖娼,多达 4861 条,占 95.6% 呢,比起否认嫖娼的仅有 44 条的情报,即便44条全抓错(反)了,精确度也远超 90%,还有什么好说的,咱的中文系统就是牛!
虽然这么说,心里还是一个疙瘩。灰色地带的挖掘,不准确也就罢了,这黑白分明铁板钉钉的铁案,如果抓错,是可忍,语言学不能忍。一定要查个究竟,到底是在社交媒体说话的人信口胡说,还是代码化了的中文语言学出了问题?Drill down,看看原句都是怎么样的(见【附录】)。
原来、原来是酱紫的:V大了,什么粉丝都有,一些确实是他的粉丝真滴在矢口否认(“早知道薛蛮子不是嫖娼被抓”,“说薛蛮子嫖娼会有人信吗”,“我认为薛蛮子没有嫖娼”),另一些是以否定或疑问的口气在反讽(“薛蛮子不是嫖娼好吧! 是去为性工作者谋取利益”,“谁说薛蛮子就一定是去嫖娼的? 楼主不要造谣哦, 也许人薛老汉是去买淫呢”:这不是坑我嘛,机器再聪明再语言学,也难琢磨你的言外之意呀),再有就是句子太绕,把如此冰雪聪明的系统也给绕进去了("薛蛮子就不会嫖娼吗? 薛蛮子嫖娼你怀疑个屁, 除非你能证明他没嫖娼或者他性无能")。
总而言之,言而总之,检查结果是事出有因。中文系统虽然不完美,却也非常不赖:晚上可以睡个安稳觉了,天下太平。中文是复杂的;语言学是工作的;而工作着是美丽的。
【附录】否认情报的挖掘来源样本(随机):
|
|
早知道薛蛮子不是嫖娼被抓, 而是此鸟人殷建光所说:"薛蛮子被抓获, 实际上就是对网络文化中虚伪丑陋的的严厉打击; 同时, 对于我们广大网民也是一个提醒, 读其微博, 观其言行, 思其自己, 千万不要盲冲, 盲目, 被情绪化控制.."
2013-08-26 19:51:48
|
|
我认为薛蛮子没有嫖娼, 这样的栽赃陷害太弱智了吧。 怎么 这么巧, 接到群众举报?
2013-08-25 15:01:36
|
|
薛蛮子不是嫖娼好吧! 是去为性工作者谋取利益, 为一个22岁的无知少女当人生的校长导师, 为一个在中国受到歧视的弱小群体维权!
1 similar 2013-08-25 23:06:30
|
|
薛蛮子是宣传宪政被抓的? 这么说薛蛮子没有嫖娼? [哈哈] //@唐巴马_tangbama:[嘻嘻] //@良心于-20://@玳簋三世://@钟鼎文无声: [偷笑]再宣传宪政, 你也快了
2013-08-25 17:27:24
|
|
薛蛮子就不会嫖娼吗? 薛蛮子嫖娼你怀疑个屁, 除非你能证明他没嫖娼或者他性无能、或者他根本就是个女的。
2013-08-25 13:03:51
|
|
你怎么就知道梦鸽的儿子就一定是强奸而不是嫖娼? 凭什么薛蛮子就不是嫖娼? 有立场没原则啊。
2013-08-25 06:29:3
|
|
薛蛮子不是嫖娼被抓了吗? 呵呵, 你李庄敢说你没嫖过?
2013-08-27 09:54:51
|
|
谁说薛蛮子就一定是去嫖娼的? 楼主不要造谣哦, 也许人薛老汉是去买淫呢。
2013-08-25 05:19:51
|
|
回复@迈步twitter: 对呀, 薛蛮子不也是嫖娼。 别只拿美国说事, 美国有美国的法律, 中国有中国的法律。
http://blog.sciencenet.cn/blog-362400-721104.html
上一篇:小学生“减负”成了一个话题
下一篇:北京富人的郊外生活