【立委科普:美梦成真的通俗版解说】

凑热闹参加【征文:美梦成真】 ,有网友搞不懂这美梦是啥,怎么叫美梦成真。说明我瞎激动的所谓美梦,非但没有做到老妪能解,甚至没有让科学人士明白,就科普而言,那是相当的失败。

看我能不能用大白话说明白这事儿:

我们人类的语言说简单也简单,说复杂也复杂。简单到不管多笨的人,也大都从小就学会了语言,交流没问题。但是人学会语言,大多知其然,不知其所以然。只有专门研究语言的语言学家一直在尝试对人类语言讲出点所以然来。可语言这玩意儿,不研究也就罢了,一研究就发现这是上帝的恶作剧,复杂得很,深不可测。

几千年的探索,总结出一种叫文法的东西,用它可以对语言的内在规律做一些总结,这样,千变万化的语句就可以分析成有限的句型结构,可以帮助语言理解和把握。人类本能的语言理解能力也因此显得有迹可循了。这就是我们在学校文法课上老师教给我们的知识,特别是一种语句分析的结构图的画法(grammar diagramming),条分缕析建立主语谓语宾语定语状语等结构联系,证明是一个很管用的语言分析技能。这一切本来是为了加强我们的语文能力。

电脑出现以后,就有人工智能的科学家想到,要教会电脑人类语言,这个领域叫自然语言理解(Natural Language Understanding),其核心是对人类语言做自动分析(parsing),分析结果往往用类似文法课上学到的树形图来表达。自动语言分析很重要,它是语言处理的核心技术。一个质量优良、抗干扰强(所谓鲁棒 robust)而且可以运行到大数据上面的自动分析引擎,就是个核武器。有了这样的自动分析,就可以帮助完成很多语言任务,譬如人机对话、机器秘书、情报抽取、舆情挖掘、自动文摘、机器翻译、热点追踪等等。(也有不少日常语言处理应用,譬如关键词搜索、垃圾过滤、文章分类、作者鉴定,甚至自动文摘和机器翻译,不分析,不理解,只是把语言当成黑匣子,把任务定义成通过黑匣子的从输入到输出的映射,然后利用统计模型来学习模拟,也可以走得很远。这些绕过了结构和理解的近似方法,由于其鲁棒性等优点,实际上是主流的主导性做法)。

自动分析语言方面,英语研究得比较充分。中文还刚刚在起步阶段,原因之一,是中文比欧洲语言难学,歧义更严重,大规律少,小规律和例外较多,不太好捉摸。因此有不少似是而非的流行说法,什么,词无定类,入句而后定,句无定法,“意合”而已矣。总之,中文自动分析是一项公认的很有意义但非常艰难的任务。尤其是要教会电脑分析真实世界的社交媒体大数据中的形形色色文句,更是难上加难。就是这个中文自动分析的美梦,最近被实现了。

这样的成就可以不可以说是美梦成真呢?

[11]方锦清  2013-10-17 15:04

我看不懂啊,可以进一步解释一下?

博主回复(2013-10-17 19:18):

这是一个跨越1/4世纪科研美梦终成真的现实故事。故事的主人公做助理研究员的时候,满怀热情,不知天高地厚地为世界上最微妙的语言之一现代汉语,描绘了一幅自然语言理解(NLU)蓝图,其核心是对千变万化的中文文句施行自动语法分析。这幅蓝图距离现实太过遥远,其实现似乎非人力可为。然而,1/4世纪之后,积累加机缘,天时和地利,主人公终于实现了这个理想,正在投入真实世界的大数据应用。
The mission impossible accomplished.

征文在此,请支持:【征文参赛:美梦成真】

 

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据