本月底(11月25号)在深圳给个中文NLP的学术主题演讲
报告题目:中文自动句法解析的迷思和痛点报告人: 李维(京东硅谷研究院) |
报告摘要:深度中文信息处理的核心是自动句法语义解析(deep parsing)。长期以来,由于中文文法缺乏显性形式手段,没有形态,功能小词常常省略,中文深度自动解析显得举步维艰,很容易陷入中文分词和短语抱团的浅层漩涡难以自拔。迄今为止的中文NLP应用大多局限于浅层分析或者端对端的系统,并没有做到语言的深度结构分析和语义理解,而后者才是自然语言万变不离其中的奥秘所在,也是中文NLP快速领域化的一条根本出路。本次演讲从通向中文深度解析之路的迷思入手,梳理中文自动处理的痛点并提出和展示可行的对策。主题涉及:中文分词(含切词、合词)与解析的关系,词类识别(POS)与句法角色的关系,离合词(如“洗澡”)带来的词典与句法的接口问题,针对结构伪歧义的细线条词典化道路,以及针对错误放大的休眠唤醒机制(负负得正)。
个人介绍:李维博士,现任京东硅谷研究院主任研究员,领导Y事业部硅谷NLP团队,研发自然语言深度解析平台及其NLP应用,目前聚焦于中英文大数据情报和舆情挖掘,以及智慧供应链应用。李维NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索、机器翻译等等。 加入京东前,李维在硅谷社交舆情公司Netbase任首席科学家,Cymfony任研发副总。Cymforny期间荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个美国国防部的信息抽取创新研究项目(PI for 17 SBIRs)。Netbase期间,设计并指挥团队研发了精准高效的20种自然语言的理解和应用系统(英、汉、日、法、德、俄、西班牙、葡萄牙、意大利、土耳其、阿拉伯、菲律宾、韩、越等),产品服务财富500强。特别是汉语和英语,具有世界一流的分析精度,并且做到鲁棒、线速,scale up to 社会媒体全网大数据。李维是Simon Fraser University计算语言学博士,中国社会科学院研究生院机器翻译硕士,在国际学术刊物和大会上发表论文约30篇。2015年,李维被评为SFU 杰出校友(建校历史上50名之一)。
from
http://conference.cipsc.org.cn/annual2017/
下月初(12月8号)在北京的架构师峰会上也要给个talk
专题演讲嘉宾:李维(博士)
京东硅谷研究院 主任研究员
李维博士,现任京东硅谷研究院主任研究员,领导Y事业部硅谷NLP团队,研发自然语言深度分析平台及其NLP应用,目前聚焦于大数据情报和舆情挖掘,以及智慧供应链应用。NLP深度分析平台具有广阔的应用前景,方向还包括客户情报、信息抽取、知识图谱、问答系统、智能搜索、智能客服、自动文摘等。
加入京东前,李维在硅谷社交舆情公司Netbase任首席科学家,Cymfony任研发副总。Cymforny期间荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个美国国防部的信息抽取创新研究项目(PI for 17 SBIRs)。Netbase期间,指挥团队研发了精准高效的20种自然语言的理解和应用系统(英、汉、日、法、德、俄、西班牙、葡萄牙、意大利、土耳其、阿拉伯、菲律宾、韩、越等),产品服务财富500强。特别是汉语和英语,具有世界一流的分析精度,并且做到鲁棒、线速,scale up to 大数据,系统质量有第三方评测认定大幅度领先竞争对手(”best of class” by Forrester,Pivot Labs Analytics)。他领导研发或参与的各类NLP应用产品获多项工业界奖项,早期包括INFORMATICS’92 (新加坡) 银奖,近十年包括企业社煤平台行业领先者(A LEADER IN THE FORRESTER WAVE),消费者商品技术(CGT)首选奖等共计17 项工业奖项,多次被主流媒体报道,包括《华尔街日报》《纽约时报》《华盛顿邮报》《财富》MSN,CBS,NBC等等。
李维是Simon Fraser University计算语言学博士,中国社会科学院研究生院机器翻译硕士,发表论文二十余篇,美国专利三项,并多次受特邀就NLP自动分析和大数据挖掘做主题演讲,近年的演讲活动包括哈佛大学医学院,台湾中研院,中国科学院和中文信息学会。2015年,李维被评为SFU 杰出校友(建校历史上50名最杰出校友之一)。
演讲:自动深度语法分析是自然语言应用的核武器
文本自然语言处理(NLP)是人工智能的重要方向,是继图像和语音处理技术(感知技术)突破之后的一个令人期待的关涉认知技术的核心环节。
大数据文本给自然语言处理提供了广阔的场地。本次演讲通过深入介绍自然语言自动分析的历史和现状,勾画出自然语言技术的应用前景。重点在展示和论证深度自然语言自动分析对于自然语言技术应用的革命性作用,这些应用包括智能搜索,情感分析,数据挖掘,问答系统和智能助理等。迄今为止的自然语言应用大多局限于浅层分析或者端对端的系统,并没有做到语言的结构分析和语义理解,而后者才是自然语言表达信息的奥秘所在。自然语言深度分析的技术正在成熟,已经到了显示威力的前夕。
演讲过程中将结合知识图谱和大数据舆情挖掘,来展示深度语法分析(deep parsing)的原理和威力。
演讲提纲:
- 人工智能的历史和现状简介:从感知到认知
- 自然语言技术的历史和现状:端对端的突破,大数据和深度学习的革命,知识瓶颈的困境,深度分析的对策
- 深度分析是什么?非结构的结构化
- 什么样的深度法分析是自然语言技术应用的核武器
- 应用举例:知识图谱
- 应用举例:舆情挖掘
- 应用举例:智能搜索和问答系统
- 结语
听众受益:
- 对于人工智能与自然语言的从业人员,以及对自然语言技术感兴趣的人士(学者、学生、投资人、企业家、IT人士)开阔眼界,了解动态以及促进技术的产品化有益。