【从 sparse data 再论parsing对信息抽取的核心作用】

parsing关键是它节省了语用层面的开发。没有parsing，抽取是在表层进行，存在的困境是 sparse data 和长尾问题。表层的东西学不胜学，而有了 deep parsing 的支持，抽取规则可以以一当百，至少从规则量上看，这绝不是夸张。这是其一。

其二，deep parsing 使得领域移植性增强太多。

没有 parsing 抽取任务变了，一切须推到重来。

对于规则体系，有了 deep parsing，抽取任务随领域变了就不需要那么大的返工。parsing 吃掉了约 90% 的重复劳动（语言知识和结构本质上是跨领域的），返工的部分不到 10%。

parsing 意义之重大正在于此。

对于机器学习，NLP应用的知识瓶颈在（1）sparse data；（2）任务变，训练库必须重新标注：前一个任务的标注对后续任务基本没有可重复使用的可能，因为标注是在语用层进行的。

如果有 parsing support，理论上讲，机器学习可以更好地克服 sparse data，但实践上，到目前为止，结合 structure features 和 keywords 在机器学习中一锅煮，目前还处于探索研究阶段，没有多少成熟的案例。我们以前尝试过这种探索，似乎parsing的参与有推进系统质量的潜力，但是还是很难缠，模型复杂了，features 混杂了，协调好不是一件容易的事儿。

事实上，规则体系做抽取，没有 parsing 差不多有寸步难行的感觉。因为人的大脑要在语言表层写规则，数量太大，写不过来。只有机器学习，才可以绕开parsing去学那数量巨大的抽取规则或模型，但前提是有海量标注的训练集。否则面对的是 sparse data 的严重困扰。

sparse data 远远不是单指表层的出现频率低的 ngrams （习惯用法、成语等）的累积，那种 sparse data 相对单纯，可以当做专家词典一样一条一条编写，愚公或可移山。如果训练数据量巨大，譬如机器翻译，那么这类 sparse data 对于机器学习也有迹可循。当然大多数场景，标注的训练集始终大不起来，这个知识瓶颈 is killing ML。

更重要的 sparse data 是由于缺乏结构造成的，这种 sparse data 没有parsing就几乎无计可施。表层的千变万化，一般遵循一个正态分布，长尾问题在结构化之前是没有办法有效捕捉的。而表层的变化被 parsing 规整了以后，表层的 sparse 现象就不再 sparse，在结构层面，sparse patterns 被 normalize 了。这是 parsing 之所以可以称为NLP应用之核武器的根本。

没有 parsing，结构性 sparse data 就玩不转。

乔姆斯基纵有一万个不是，一千个误导，但他老人家提出的表层结构和深层结构的思想是不朽的。parsing 就是吃掉各种表层结构，生成一个逻辑化的深层结构。在这种深层结构上做抽取或其他语义语用方面的应用型工作，事半功倍。

Deep parsing consumes variations of surface patterns, that's why it is as powerful as nuclear bombs in NLP。

别说自然语言的语句的表层多样化，咱们就是看一些简单的语言子任务，譬如 data entity 的自动标注任务，就可以知道表层的 sparse data 会多么麻烦：如 “时间”的表达法，再如“邮件地址”的表达法，等等。这些可以用正则表达式 parse 涵盖的现象，如果在表层去用 ngram 学习，那个长尾问题就是灾难。

自然语言文句之需要 parsing，与标注 data entity，正则表达式优于 ngram 学习，其道理是相通的。

原载：《泥沙龙笔记：从 sparse data 再论parsing乃是NLP应用的核武器》

【相关】

《李白毛铿锵行: 漫谈中文NLP和数据流》

【自然语言parsers是揭示语言奥秘的LIGO式探测仪】

《创新，失败，再创新，再失败，直至看上去没失败》

科学网—乔姆斯基批判

【置顶：立委NLP博文一览】

《朝华午拾》总目录

发布者

立委

立委博士，多模态大模型应用咨询师。出门问问大模型团队前工程副总裁，聚焦大模型及其AIGC应用。Netbase前首席科学家10年，期间指挥研发了18种语言的理解和应用系统，鲁棒、线速，scale up to 社会媒体大数据，语义落地到舆情挖掘产品，成为美国NLP工业落地的领跑者。Cymfony前研发副总八年，曾荣获第一届问答系统第一名（TREC-8 QA Track），并赢得17个小企业创新研究的信息抽取项目（PI for 17 SBIRs）。查看立委的所有文章

发布者

立委

发表回复