mei:
@wei 我提议过,你的parser,能做个API 吗?NLP as a service。如diffbot.com. They are good revenue. Single founder. Large impact. Recently got $10 million series A from ten cent.
还有,你能做几个语言?
diffbot 的NLP/IE 比FB 好。其实小公司 比大公司做的好是 常有的事。所以大公司只好靠acquisition
我:
现在就是 API,内部也是 API 调用。NLP 做 service 或 component technology 作为 business 以前很少见到挺得住的,但对于个人创业,是可能短期“成功”的,毕竟现在的形势也不同了。
我带领我们组做过 18 个语言,囊括所有主要欧亚主要语言。我自己亲手做的是英语汉语世界语,亲自指导过的是法语、俄语、土耳其语。
我:
你说的是 FB 的 deep text??
mei:
FB 几次 NLP effort都差
现在形式是不同
Diffbot 很成功。每个大公司要买,他们不卖
我:
前两年我与FB里面的人聊天,他们才刚想 NL 的事儿,没什么概念,做得很浅。
Diffbot 是个什么背景?
马:
这家公司不算NLP吧 他们主要做爬虫和正文抽取
我:
抽取可以不用 parsing,或者只用一点 shallow parsing 但抽取是 NLP 这个大伞下面的。另一方面,有了 deep parsing,抽取就是一个玩儿。
马:
他这个抽取不是IE而是从html里提取文本 对文本的结构并无任何分析
我:
那是当年 whizbang!,一个路数。
当年做得很好 泡沫破灭投资人撤资 可怜几麻袋源码 白菜价拍卖。最后 inxight 买了也没见消化 自己也当白菜卖了。
马:
也许会历史轮回,也许会" This Time Is Different "
mei:
Diffbot 没做parsing做IE
crawling,取text只是第一步
白:
深层就算做出来了,怎么抽取还有很多问题。几个难点:1、多重否定:我不是没注意到这件事他没生气。2、多重模态:我知道他相信你不否认某某的领导能力。3、高阶表述:对油价快速上涨的预期减弱。
如果都还原成情感三元组:《对象、属性、极性》,貌似有问题。
你可以放过,前提是识别准确;如果没放过又做了错误识别,就玩大了。
mei:
IE parsing 都只是NLU 的一部分。真正的story understanding 且得做呢。研究生时学的story understanding/knowledge representations, 现在没一家做到。做NLU/AI且得做呢!
我:
白老师说的那些 都见识过。Sentiment 做了四五年了 抽取挖掘做了18年了 能想到的 都见到了。只不过 绕弯不过三 这是基本原则 有时有意选择不做。不是不可以做 是不必做。
白老师的所谓三元组的表达更不是问题 因为表达是自己跟自己玩。识别了 还能无法表达 人不会被尿憋死的。
白老师认可一部分长尾可以选择不去做 但警告说不做不过是漏掉长尾而已 对于大数据 漏掉不是问题 问题是没漏掉 却抓反了。这个对没有经验的开发者 的确是个挑战。对于我们 早已突破了。
白:
自己跟自己玩是因为同质化的东东放在一起有计算手段上的优势,来一个异质化的东东,只好撇在大锅之外了。伟哥有本事开小灶,其他人就难说了。
我:
因为选择不做 与识别准确 不在一个量级上。白老师说的这些问题对学习系统构成的挑战 要比规则系统大很多。
白:
不怕漏识,关键是别误识
我:
对于学习 不是选择做与不做的问题 基本上是到不了选不选的那一步。因为缺乏结构 只能撞大运。凡是绕了几层的结构对于缺乏结构的系统 基本上是噪音 如果标识的时候 手工排除 对学习更有利。不要指望解决它 最好是不要干扰了学习 把系统弄糊涂。
我们从来不是为深层而深层 深层从 day one 就是与抽取挖掘无缝连接的 就是为了支持语用的。不像 syntaxnet 离开应用还有 n 丈远。