关于NLP 落地以及冷启动的对话

友:我比较好奇一个问题,方便的话请教一下李老师。像您开发的那一套parser或者引擎,一旦您离开了,还有人能持续提升么?我个人感觉能有人维护好就不错了。毕竟那套涉及很多语言学的东西,想深入到里面去改进或者维护,应该不容易。

李:基本不能,但是在NLP落地所需要的抽取层面可以继续。就是 NLP-core 一般人不要动。但是 NLP-IE 是可以的。

友:明白,就是如何利用nlp core的输出,这是和业务紧密联系的

李:IE 那些下游任务,可以假设 NLP-core 为空,选择不利用 NLP-core 的结果,也是可以的:那就成了大号的正则表达式。但比正则表达式还是强得多,因为内部有本体知识库对于词的特征支持,可以泛化。而且,虽然不要动 NLP-core,但是下游可以选择去 leverage 其潜力,因为可以根据 core 的输出结构来决定部分利用结构。就是说 core parser 不必预设它是正确的,只要其中有一些正确的部分 下游就可以选择利用。这样的灵活性都 build in 在引擎里面了。

友:nlp-core为空,那就是不要那些词之间细节关系了?然后大号的regex是否可以理解成一种所谓的end2end,给一个句子,得到整体大概是个什么意思。

李:同一条 IE 规则也可以一半用物理上下文(窗口距离限制),一半用结构,例如宾语比主语可靠。宾语就可以作为条件利用,而主语可以通过窗口限制找前面的合适的词。

友:不过话说回来,这个可能就是李老师的方法和统计的方法最大的区别了,李老师这个讲究积累迭代,统计方法训练完模型就结束了,要新的,加数据重新来。

李:其实也有很多类似。我的方法论中 可以半自动开发迭代,这与深度学习里面的梯度下降是相通的。只不过我的迭代开发过程有 human in the loop,去判断迭代效果是否符合预期。因为是冷启动,没有标注数据,只能靠 human 做判官。实质是把开发者从 coder 解放为 judge。这是一个创新,可以大大加快开发并降低门槛。当然我这边的“梯度”是预先确立的离散的路径(否则会爆炸,只有根据以前的 best practice 找到离散的泛化路径),由开发者(知识工程师)选择执行迭代的步骤。

友:嗯嗯,明白。这个感觉是更抽象层面的统一。都需要manual work,但是在不同的阶段,统计方法里的manual work就是标注,一旦标注完成,后续不会再有明显的manual work了。但是李老师的方法尤其在前期需要持续的manual work,稳定之后也很少了。

李:就是,我的方法更靠近常规软件工程方法:低代码数据驱动迭代。而机器学习/深度学习实际是一种极端主义的方法论,因为本质上 机器学习就是要实现自动编程,追求的是全自动开发(即训练)。等于是说,要消灭码农。因为深度学习在有些地方作出了突破进展,是主流,结果其极端主义的一面 一般人看不到了,被广泛视为理所当然。

友:是的是的。统计方法的模型更适合做产品系统里的某个模块,而不是产品系统本身。李老师有没有考虑过自己干?提供这种nlp-core的服务。

李:太费力,因为提供这种小众服务有擦不完的屁股。

友:哈哈,也是,最好还是套到某个具体赚钱的业务上。

确实,人们其实并不在意机器怎么理解具体句子,人们只在意怎么指导具体的业务,也就是下游的任务。这个我想也是统计方法的优势,不在细节里纠结,直接建模输入和输出。

李:end to end。

能够端到端的前提 是有大量的标注冗余数据,但这个条件在很多领域应用场景中都不存在。这就是冷启动做业务目前的难以取代的价值所在。理论上,预训练可以代替 Parser 来节省对于大量标注数据的依赖。但是 预训练+下游 这种 transfer approach 的规模化工业落地 还有很多沟沟坎坎。如果真有大的突破,parser 的价值就会降低了,也许整个符号路线会被终结。但现在判断其前景,还是有点为时过早。

友:哈哈,所以nlp的创业公司都做不了toB,因为没数据;做toC又做不过有用户的大厂,所以nlp创业公司挣不到钱,做不大。

李:EXACTLY

 

【相关】
 

李维 郭进《自然语言处理答问》(商务印书馆 2020)

预告:李维《巴别塔影:符号自然语言处理之旅》(人民邮电出版社 2022)

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据