立委 NLP 频道开张大吉

承蒙高博协助，立委牌NLP博客频道今天开张大吉，广告一下，尤其对后学：https://liweinlp.com/

其前身是【立委科学网博客】的NLP科普相关博文，所谓 NLP University： http://blog.sciencenet.cn/blog-362400-902391.html。我将逐渐把原NLP博客转移至此，新的博客会同步在此发布。非 NLP 博文仍然以科学网为基地。

本大学有网无墙，有教无类，对公众无条件全天候开放。学分以研读立委教授博文为单元，从下列清单任选100篇博文，计100分，急用先学，学有所得，学以致用，是为有效学分，学员自我判分，过60可毕业也。门槛说高不高，说低不低，师傅领进门，修行靠个人，能否诚实毕业，就看造化了。

不知道多少次电脑输入 NLP（自然语言处理），出来的都是“你老婆”。难怪 NLP 跟了我一辈子，or 我跟了 NLP 一辈子。不离不弃。

开篇词：余致力自然语言处理凡30年，其目的在求交流之通畅，信息之自由，语言之归一，世界之大同。积30年之经验，深知欲达此目的，必须启蒙后进，普及科学，同心协力，共建通天之塔，因作文鼓而吹之。处理尚未成功，同志仍需努力。

分八章。

第一章：体系和方法论，关键是这一篇【NLP 联络图】。除了体系和术语联络图，也谈方法论及其两条路线的斗争。

第二章 Parsing，包括 shallow parsing 和 deep parsing 的方方面面。要强调的一点是，deep parsing 是 NLP 的核武器。当自然语言的 unstructured text 被精准分析成 structures 以后，语言因为有了有限的 patterns 而变得有迹可循，NLP 应用的很多难题就迎刃而解了。

第三章抽取，进入NLP语用。虽然学界绝大多数抽取都是不用parsing的，或者只用 stemming，最多是 shallow parsing，这里更注重的是在 deep parsing 基础上的抽取。可以看成是针对知识图谱的全自动最终解决方案。

第四章挖掘。抽取和挖掘常常搞混，但一般的共识是它们处于不同的层次：抽取针对的是个体，一颗颗的树，而挖掘针对的是森林，是语料库或文本数据源。在大数据年代，文本挖掘被认为是开采金矿的核武器，可以领跑下个 decade，但是从 NLP 体系框架来看，它是处于 parsing 和抽取之后的，是抽取的统计化结果。真正的核武器是 deep parsing，因为有了它，抽取才能快速进入domain，以不变应万变，同时抽取的质量也能大幅度提升。这才为最终的大数据挖掘打牢了基础。

第五章 NLP 的其他应用，文本挖掘是 NLP 的主打应用，可以用在很多产品和domains，其他的应用则包括机器翻译（MT），问答系统（QA），智能搜索，如 SVO search （超越关键词的结构搜索）。当然也包括语言生成（聊天机器人要用的），还有自动文摘等。这些方面目前还没有面面俱到，有些应用笔者迄今没有找到机会涉猎。

第六章中文 NLP。作者读者都是中国人，写的是中文博客，加上中文处理有其特殊的挑战，所以单列。更重要的是，很多年来，中文 NLP 被认为远远落后于欧洲语言的 NLP。这里的材料深入研究了中文的特点和难点，展示中文 NLP 的新进展。结论是，中文处理的确有其挑战，但其处理水平并没有落后太多。与英语NLP或其他欧洲语言NLP一样，最先进的中文NLP系统也已经进入了大规模大数据应用的时代。

第七章舆情挖掘实践。舆情挖掘也是挖掘，这里单列是因为这是笔者目前的研发重心，也是因为这是 NLP 中最 tricky 也很有价值的应用，展示其挖掘实例可以激发大数据挖掘的想象力。本章集中了舆情挖掘的中外实例，几年来的热点话题追踪，或者打趣，也有不少闹着玩的成分在，包括给男星女星排名，甚至挖掘他们的花边新闻。

舆情挖掘比事实挖掘难很多，虽然体系和方法论上二者有很大的相同点，但难度有天壤之别的感觉。这是因为主观性语言（subjective language）是人类语言中较难的一面。严格说 sentiment analysis 属于抽取，sentiment extraction 才是更准确的说法，不过大家都习惯了沿用 sentiment analysis，而 opinion mining 才属于挖掘（or mining of public opinions and sentiments）。这个里面学界最多报道的工作实际是 sentiment classification，但classification只是sentiment analysis 的一个皮毛。舆情舆情，有舆有情。舆就是 public opinion，情才是 public sentiment，后来为了统一在大家习惯的 sentiment 的 umbrella 下面，我们把情限定于 emotion 的表达，但 emotion 的表达只是一种情绪的挖掘，可以与 classification 很好对应，不管是分两种情绪（褒贬），三种情绪（褒贬中），还是四种情绪（喜怒哀乐），或 n 种，总之是 classification 。但是 deep sentiment analysis 不能停留在情绪的 classification，必须找到背后的东西。这就是为什么我们强调要挖掘情绪背后的理由，因为人不能老是只有情绪（喜欢不喜欢）和结论（采纳不采纳)，而不给出理由。前者仅仅是发泄，后者才是为了传达、说服或影响人的具体情报，是可以帮助决策的。挖掘的主要目的有二：一个是把这些情报统计出来，给出概貌，不管是制作成图表还是使用词云等可视化的表达。第二就是允许用户从这些情报开始做任意的 drill down 或顺藤摸瓜。很多时候我们只展示了前者，其实真正的价值在后面（系统demo可以展示其威力，博文很难表现其动态）。后者才真显系统的威力，前者不过是静态的报表而已。Deep sentiment analysis 是 NLP 应用中最难啃的果子。

第八章是最后一章，NLP 掌故。这里面说的都是故事，有亲身经历，也有耳闻目睹。

希望这个 NLP University 提供一些 NLP 课堂和教科书中没有的内容和角度。前后积攒了几百篇了，不仅分了大类，也尽量在每一篇里面给出了相互之间的链接。

【相关】

科学网【NLP University 】

立委 NLP 频道开张大吉

发布者

立委

《立委 NLP 频道开张大吉》上有2条评论

发表回复

发布者

立委

《立委 NLP 频道 开张大吉》上有2条评论

发表回复

《立委 NLP 频道开张大吉》上有2条评论