【语义计算沙龙：深层做出来了，抽取还会远吗？】

mei:
@wei 我提议过，你的parser，能做个API 吗？NLP as a service。如diffbot.com. They are good revenue. Single founder. Large impact. Recently got $10 million series A from ten cent.
还有，你能做几个语言？
diffbot 的NLP/IE 比FB 好。其实小公司比大公司做的好是常有的事。所以大公司只好靠acquisition
我:
现在就是 API，内部也是 API 调用。NLP 做 service 或 component technology 作为 business 以前很少见到挺得住的，但对于个人创业，是可能短期“成功”的，毕竟现在的形势也不同了。
我带领我们组做过 18 个语言，囊括所有主要欧亚主要语言。我自己亲手做的是英语汉语世界语，亲自指导过的是法语、俄语、土耳其语。
我:
你说的是 FB 的 deep text？？
mei:
FB 几次 NLP effort都差
现在形式是不同
Diffbot 很成功。每个大公司要买，他们不卖
我:
前两年我与FB里面的人聊天，他们才刚想 NL 的事儿，没什么概念，做得很浅。
Diffbot 是个什么背景？
马:
这家公司不算NLP吧他们主要做爬虫和正文抽取
我:
抽取可以不用 parsing，或者只用一点 shallow parsing 但抽取是 NLP 这个大伞下面的。另一方面，有了 deep parsing，抽取就是一个玩儿。
马:
他这个抽取不是IE而是从html里提取文本对文本的结构并无任何分析
我:
那是当年 whizbang！，一个路数。
当年做得很好泡沫破灭投资人撤资可怜几麻袋源码白菜价拍卖。最后 inxight 买了也没见消化自己也当白菜卖了。
马:
也许会历史轮回，也许会" This Time Is Different "
mei:
Diffbot 没做parsing做IE
crawling，取text只是第一步
白:
深层就算做出来了，怎么抽取还有很多问题。几个难点：1、多重否定：我不是没注意到这件事他没生气。2、多重模态：我知道他相信你不否认某某的领导能力。3、高阶表述：对油价快速上涨的预期减弱。
如果都还原成情感三元组：《对象、属性、极性》，貌似有问题。
你可以放过，前提是识别准确；如果没放过又做了错误识别，就玩大了。
mei:
IE parsing 都只是NLU 的一部分。真正的story understanding 且得做呢。研究生时学的story understanding/knowledge representations, 现在没一家做到。做NLU/AI且得做呢！
我:
白老师说的那些都见识过。Sentiment 做了四五年了抽取挖掘做了18年了能想到的都见到了。只不过绕弯不过三这是基本原则有时有意选择不做。不是不可以做是不必做。
白老师的所谓三元组的表达更不是问题因为表达是自己跟自己玩。识别了还能无法表达人不会被尿憋死的。
白老师认可一部分长尾可以选择不去做但警告说不做不过是漏掉长尾而已对于大数据漏掉不是问题问题是没漏掉却抓反了。这个对没有经验的开发者的确是个挑战。对于我们早已突破了。
白:
自己跟自己玩是因为同质化的东东放在一起有计算手段上的优势，来一个异质化的东东，只好撇在大锅之外了。伟哥有本事开小灶，其他人就难说了。
我:
因为选择不做与识别准确不在一个量级上。白老师说的这些问题对学习系统构成的挑战要比规则系统大很多。
白:
不怕漏识，关键是别误识
我:
对于学习不是选择做与不做的问题基本上是到不了选不选的那一步。因为缺乏结构只能撞大运。凡是绕了几层的结构对于缺乏结构的系统基本上是噪音如果标识的时候手工排除对学习更有利。不要指望解决它最好是不要干扰了学习把系统弄糊涂。
我们从来不是为深层而深层深层从 day one 就是与抽取挖掘无缝连接的就是为了支持语用的。不像 syntaxnet 离开应用还有 n 丈远。

发布者

立委

立委博士，多模态大模型应用咨询师。出门问问大模型团队前工程副总裁，聚焦大模型及其AIGC应用。Netbase前首席科学家10年，期间指挥研发了18种语言的理解和应用系统，鲁棒、线速，scale up to 社会媒体大数据，语义落地到舆情挖掘产品，成为美国NLP工业落地的领跑者。Cymfony前研发副总八年，曾荣获第一届问答系统第一名（TREC-8 QA Track），并赢得17个小企业创新研究的信息抽取项目（PI for 17 SBIRs）。查看立委的所有文章

发布者

立委

发表回复