【研发心得:sentiment 的诡异】

我:
domain 很有意思,今天 study 客服的数据,发现我们现系统 tag “loyal customer” as positive,但实际上几乎总是 negative 抱怨。因为很多人(包括我自己,譬如跟电话公司打交道的时候)的抱怨总是这样开始:
I am your loyal customer for n years, blah blah [complaints: how can u treat me like that]

还有一些有意思的发现:new 这个词并不是啥褒义词,第一即便原义有一丝褒,但太弱,用得也太多。更重要的是,这个词最常出现在 promotion 的广告里面。客户情报里面很少用它表示褒义。那么 brand-new 呢?似乎稍微褒一些,但也很灰色,放过它可能更好。还有一个词 叫 available,以前以为是好话,其实用起来很 tricky:说 no Pepsi available, 不是说的 Pepsi 的坏话,很可能是说的好话 ,抱怨的是这么好的东西怎么没提供呢。诸如此类,不看 data 不知道。

白:
这么好的数据,不神经,糟蹋了

我:
大而言之,语义是泥坑;具体到 sentiment,几乎就是粪坑了。跳进去不仅可能被淹死,还会被呛死。

我等着神经在shentiment上来一个绝活。

目前为止,对手的 sentiment 全部用的学习,用没用 神经 就不知道了,但他们的 data quality 实在不敢恭维。

还有就是: I would kill for Pepsi,这样的说法是强烈的褒义:NND 为了 Pepsi 让我杀人都可以。这个倒不难逮住,无论是 pattern 去拿它,还是数据够了去训练出来它。

白:
可怜的米国人

我:
记得还有这么一句: Hell no man, pepsi or die. 这是对 pepsi 的极度褒扬:没 Pepsi 毋宁死(与自由同价: 不自由 毋宁死)宋柔:

宋:
@wei 可见,要做情感分析,对于所处理的语言必须有相当强的语感。国内的人做英语的情感分析恐怕不容易。

我:
昨天说了 sentiment data 的貌似诡异的事儿,明明说的是正面的词“loyal customer”,却几乎总是抱怨,至少是客服领域:原来人在表达情绪的时候,不仅会正话反说,而且还会先退一步。

今天再说一个案例:care about(关心) 一般认为是正面的动词,甚至关心钱财,从正面角度也可以说明这个企业懂得为 stake holders 创造价值,可能是一个兢兢业业的好企业吧。但是在客服领域,绝大多数场合,这却是抱怨的开始。

“All AT&T cares about is money. Worst service ever.”
AT&T is one of the most GREEDY companies I have ever saw. All they care about is the $$$$$.
“there aledged customer service is beyond ridiculous, they seem to care more about being paid than helping there customers”

等于说:你他妈只认钱,贪得无厌。

顺便一提,我也是 AT&T 很多年的“loyal”customer,完全认同上面的抱怨。看这家公司的账单,那真是跟天书一样,变着法儿跟你要钱。昨天来账单,我的电视涨了近30元,原来是 promotion 到期了,我就 call 他们,说,我们基本不看电视,时间和视屏都耗在网上了,不过是多年的习惯而已,你怎么一个月 charge 我 80 多刀,比互联网的 70 多刀的 charge 还大?你不给 discount,我就掐了电视算了。不过真要掐电视,领导怕不同意,如今的乐视盒子小米盒子啥的,节目虽多,还是不那么灵光,有时连不上。

结果客服说,现下没有新的 promotion 可以提供 discount,不过不久会有。说你要是电视少看,那就降一级吧,从 TV-family 降级为 TV-basic,那个才 19 块钱,来 20多个频道,你们也该够了。于是,我就降级了,然后一查看,说是TV 19 块,其实是 50 多块。什么 HD 费10快,receiver 费 15 块,录像费,等等等等。这种企业真该死。可是美国电信企业,好人不多,也就懒得挪动了。互联网+++ 再发达一些,这 cable TV 就该自生自灭了。

【相关】

舆情挖掘

【置顶:立委NLP博文一览】

《朝华午拾》总目录

发布者

liweinlp

立委博士,计算语言学家,多语言多领域自然语言处理(NLP)资深架构师。前弘玑首席科学家,聚焦RPA+AI的NLP低代码多领域落地,设计NLP核心引擎雕龙,落地多领域场景,包括金融、电力、航空、水利、客服等。前讯飞AI研究院副院长,研发支持对话的多语言平台,前京东主任科学家, 主攻深度解析和知识图谱及其应用。Netbase前首席科学家,期间指挥研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的解析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论

您的电子邮箱地址不会被公开。

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据