【研发随感:情感分析的沟沟坎坎(catches)】

A sentiment analysis catch:冤枉:1 [human]-A 冤枉 [human]-B 2. [human] 冤枉

冤枉:1 [human]-A 冤枉 [human]-B 2. [human] 冤枉

in (1), human-A is adversary and human-B is victim; in (2), human is a victim
in sentiment analysis, if the adversary is the topic, it is always a negative mention.  The catch is about the victim: if the topic is an event, or unknown, then sentences mentioning victims or actions or states involving victims are negative in tone; but if the topic is the victim, it is difficult to classify.  By human nature, when unfortunate events happen to victims, the natural sentiment is sympathy.
Sympathy is not negative at least; and it cannot be classified as positive either. It does not seem to be neutral. So it is tricky in the two-way or three-way sentiment classification.And in

And in text, we have tons and tons of expressions involving victims or victim-events, making sentiment classification difficult to conform to a traditional standard. For another example, John was ill.

For another example, “John was ill”.  Most people would classify John as being mentioned negatively here, which sounds right, after all, unhealthiness is not a desirable state.  But on second thought, we would find it inappropriate to have such a sentiment analysis: John did not want to be ill; it was very unfortunate that he fell ill, and it was not his fault to be ill so how can we conclude him simply to be a negative mention?

情感分析在不幸事件和受害人角色方面,该怎样确定一个合适的标准呢?大拇指或中指显得不够了。请各位语义计算的老师指教。1. 指责的对象(中指);2 赞扬的对象(大拇指);3 (理应)同情的对象算什么呢?当然我们可以考虑增加一个标签。这个标签是 Victim 【受害者】】还是 Sympathy【同情】?前者是描述事实;后者带有情感。但是不是对于每个提及受害者的文句,里面都必然有同情意味呢?如果不是,Sympathy 的标签就有点强加的味道,不符合语言理解和情感分析的本义。

对于好人好事和坏人坏事的情感分析 并不对称。做好事的人是 benefactor 【做好事者】自然是正面的,这件好事惠及的人是 beneficiary 【受益者】,也无疑是正面的
相对应的做坏事的人 自然是负面的。但坏事伤及的对象 如上所述 却不能总是不分青红皂白划归负面。虽然很多情感系统的确这么做 但会出现与事理不合 让人难以接受的场景或啼笑皆非的舆情分析结论。

倒霉的确带有负面语气 但倒霉的人通常是无辜的弱者 应该引起同情 而同情心是人类正面的情感。就这么点事儿 要说也没那么复杂 但在情感系统落地为应用的时候 常常闹出笑话。

索性再分享一些情感分析的坑。这些个沟沟坎坎,搞 thumbs-up-down 分类的人通常无感,也无能区分,却是细线条真实情感分析和应用绕不过去的。表达需求的说法,如何做情感分析呢?“小姑娘需要一台 iPhone7”,正面还是负面?对于品牌 iPhone7,这是一个很正面的事儿。品牌被人需求,这说明它受欢迎。但是对于“小姑娘”,这是负面的情形:她有这个需求表明她的愿望还没有得到满足。如果我们把主语从【human】改成品牌,需求的 statement 常常是:

“iPhone7 需要加长续航时间。”

这是很负面的表述:iPhone7 有很大缺点,续航时间不足。这是两种最常见的需求表述。对于细线条情感分析意义重大,涉及非常有用的市场和客户情报的挖掘。

顺着这个思路往前走一步,可以从直接表达情感的语句,进入表面上的陈述句,但背后却隐藏了正面负面的情报。譬如 购买,驾驶,使用等表述。得,打住,今儿个就分享到这儿。

 

【相关】

舆情挖掘

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录

发布者

liweinlp

立委博士,自然语言处理(NLP)资深架构师,Principle Scientist, jd-valley, Netbase前首席科学家,期间指挥团队研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的分析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个美国国防部的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论