【泥沙龙笔记:弃暗投明,明在何方】

我:
just had a small talk with Tanya on US election, she was super angry and there was a big demonstration against Trump in her school too

行:
@wei
在我们这个群里,我们都见证了立委清晰的预测了川普对希拉里的领先优势。与传统媒体相比,这次社交网络所反映的民意更准确。也许更为重要的是分析整个选举过程中与时间相关的一些关键变量。
不过有一个问题和缺点,这个分析没有反映美国的选举人制度,事实上希拉里克林顿所取得的选票高于川普。如果能有回缩的地域分析,特别是,摇摆州的地域分析,比如说佛罗里达等的回溯

我:
是的。这次其实是千载难逢的机会,因为太多人关注,太多人 bet,应该认真当成一个项目去做,精心设计。

利:
不光是美国人关注,我们在国内也非常关注

行:
证明了新工具的力量。这也是这次川普当选的最正面的事件。

我:
我这种票友性质地玩,只是显示了大数据里面的确有名堂
但不是震撼性的。

利:
我跟美国的朋友们说:不管谁赢得了总统,都是大数据分析赢了

行:
等我有钱了,我来投你。

毛:
对,我也想过这个事,难点恐怕在于网上的信息恐怕难以分清出自何地?

我:
票友性质不是说的技术:技术是deep,靠谱和专业的,我从来都不小看自己;票友是说我对 domain (政治、大选)是票友 ,到现在对选举人制度还是模模糊糊,它到底怎么工作的

行:
lP地址不是相对能反映地域吗?

我:
推特是最大最动态的数据源,我们有推特的地理,应该大体足够从地理上区分了
我们也有种族,还有年龄和性别等信息。

行:
强烈建议回溯一下摇摆州。挖矿!非常值得进一步挖掘。

我:
没那个精力和兴趣了,公司缩水,也没有几个兵了,日常的琐务也要做
大数据不好赚钱。烧钱倒是哗哗的。

行:
需要设计出一个能赚钱的商业模式。技术是根本,但不是全部。

毛:
如果能把地理年龄这些结合进去,那你的系统大有前景。

Nick:
同意,伟哥可以写本书:
how is a presidential election won or stolen?把选举人票考虑进去

我:
有兵的时候,鸡毛蒜皮我不管,我爱怎么玩怎么玩, 到头来连兵都保不住,还玩个球啊。一个教训,不要把技术开发得过头。小公司的构建内,任何一个部门都不宜超前太多,超前了,就意味着末路的来临。

Nick:
@wei 早就叫你弃暗投明

我:
弃暗投明倒有个明啊 一厢情愿哪里行。

技术并不是越深入越先进越好,by nature 作为科学家,我们总是想越深越好
结果是产品来不及消化,技术总吃不饱,最后最先裁剪的就是技术 呵呵 反正也消化不了全部,你再优秀也没价值 其实是有前车之鉴的:《朝华午拾 – 水牛风云》
十几年再来一次,仿佛时光倒转。

一个机构作为一个整体,必须保证大体相称的发展水平,才可相谐。一个部门太出色,overperforming,其他部门无法消化,也就成了目标。譬如研发,要质量我给你最好的质量,超过“世界第一”,要广度我给你整出20个世界主要语言的深度分析 (deep parsing),cover 语言数据的 90+%,要领域化可以在两周内 deliver 一个 domain 所需的情报单位(一种关系,或一个事件),只要定义明确,产品的情报挖掘的瓶颈永远不在这个自然语言研发部门。结果呢,部门需要为部门的太好表现付出代价。这个世界就是这样诡异。

话说回来,一套技术在同一个公司挥洒了10年还没走人,对我这样害怕变动的人,公司也已经相当不易了。对得起我,我也对得起它了。当年没有我的技术,公司早死翘翘了。如今有了技术不能起飞,也怪不得我,公司从上到下,在这一点是共识:论技术和由此而来的数据质量,我们绝对领先对手。市场做不起来,打败不了对手,是技术以外的因由,我无能为力。另一方面也可以说,市场不成熟,技术变钱不是那么简单 market economy 决定的。

白:
NLP部门因为表现太好而不受欢迎,听起来是天方夜谭,如果不是伟哥亲历,谁信呀……

我:
反正我信。
我们吃不饱有日子了。一直都是我们催产品经理,而不是相反:求求你,给我们一个任务吧。产品经理说:就根据客户反馈小修小补吧。我们的数据质量已经行业领先很久了,一直是领先。

白:
用嘴投票还是用脚投票,这是一个问题

我:
新的 specs,或者出不来,或者出来了,我们 deliver 了,产品却实施不了。

严:
@wei 还是觉得公司产品方向太窄了,这么好的技术被局限在这么窄的应用范围。董事会老是要Focus。

邓:
听起来CEO应该负很大的责任啊

我:
据说是市场太小了,或饱和了。产品在一个 niche market,这个社会媒体大数据挖掘的market一度被疯狂追捧和夸大。几年下来发现,价值得到验证,市场也确实存在,但是就是不够大。拓展其他 market 需要有眼光的产品老总。对于“高新技术”,有眼光的产品老总比熊猫还稀少。高新技术比较适合做大公司的花瓶,其价值在于花瓶的股市效应。或者,适合一个巨大平台,帮助连接顾客和厂家: 这个可以产生真正的价值,譬如 Facebook。高新技术对于创业其实很难,第一缺乏资源(不能吃一辈子VC),第二缺乏平台(连大数据都要花大价钱购买,更甭提顾客与厂家的network了),第三缺乏熊猫。好不容易都凑齐了,最佳的出路也就是有幸被巨头看重收购了事。这个概率不到十分之一吧。也就是说,你哪怕有再牛的技术,你这辈子活过了三个人的寿命,有机会创业10次,你可能创业成功,如果成功是以被收购作为标准的话。如果成功是以上市成为独角兽作为标准,那么你需要的机会数是下一个量级,五年一个轮回,你大概需要活500岁才可撞上狗屎运。

老总的眼光各有自己的局限,譬如,原来一直做 b2b saas 的 就一直沿着以前的经验和熟悉的领域想技术的用场。超出经验领域之外 是很难的。产品创新不再是技术的创新,而是产品层面不断加 features,越加越多。为了讨好不同的客户。结果是 90% features 基本没人用,产品也因此变得让人眼花缭乱了。为什么 agency 喜欢这样的产品?因为他们是 power users, features 越多,他们越爽。其他客户面对众多 features,只会晕菜,反而起反作用。

NLP 的真正威力是把数据转为情报,如果一个产品只需要一种情报,譬如舆情,无法消化其他可能有用的情报,NLP 就处于语义落地吃不饱的地位。你吃不饱,你的价值就丧失。

我:
洪诗人有空可以为nlp写一首挽歌,为nlp超出产品一叹。

悟:
李氏唐朝西游记
维度无穷NLP录
立宪定法三权六
委身侍主天地合
@wei 我先抛砖引玉, 见笑了

我:
这砖抛的,狂赞。
【相关】

Final Update of Social Media Sentiment Statistics Before Election

Trump sucks in social media big data in Spanish

Did Trump’s Gettysburg speech enable the support rate to soar as claimed?

Pulse:tracking US election, live feed,real time!

【大数据跟踪美大选每日更新,希拉里成功反击,拉川普下水】

【社煤挖掘:大数据告诉我们,希拉里选情告急】

【社煤挖掘:川普的葛底斯堡演讲使支持率飙升了吗?】

【社煤挖掘:为什么要选ta而不是ta做总统?】

Big data mining shows clear social rating decline of Trump last month

Clinton, 5 years ago. How time flies …

【社媒挖掘:川大叔喜大妈谁长出了总统样?】

【川普和希拉里的幽默竞赛】

【大数据舆情挖掘:希拉里川普最近一个月的形象消长】

欧阳峰:论保守派该投票克林顿

【立委科普:自动民调】

【关于舆情挖掘】

《朝华午拾》总目录

发布者

liweinlp

立委博士,自然语言处理(NLP)资深架构师,Research Director, Beyond AI.前 Principle Scientist, jd-valley, 主攻深度解析和知识图谱及其应用。Netbase前首席科学家,期间指挥研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的解析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得联邦政府17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论