【关于 NLP 以及杂谈】

关于 NLP 以及杂谈

关于NLP体系和设计哲学

关于NLP方法论以及两条路线之争

关于 parsing

【关于中文NLP】

【关于信息抽取】

【关于舆情挖掘】

【关于大数据挖掘】

【关于NLP应用】

【关于人工智能】

【关于我与NLP】

【关于NLP掌故】

 

导亦有道,我是这样做NLP导师的

我:
我是这样教导学生 NLP和 AI 的:
人工智能里面没有智能
知识系统里面没有知识
一切都是自己跟自己玩
一切都是为了自己玩自己的时候 努力玩得似乎符合逻辑 自然 方便 而且容易记忆和维护

学:
前面的听懂了,AI 这块有点懵懂

我:没关系 前面听懂了是关键。后面是哲学,哲学的事儿不必那么懂。你都懂了 我这个做导师的怎么吃饭呢?

学:
给功能词加 features 怎样才妥?

我:
功能词可以枚举,原则上可以没有 features,无所谓妥不妥。看你怎么用 用起来觉得妥就妥 觉得别扭或捣乱 就不妥。如果你永远不用 则没有妥不妥的问题 给了与不给一个样 因为永远没用到。没用到是可能的,譬如你总是为这个词写 WORD 的规则, 不让它有机会被 feature 的规则匹配上 那么 features 就是摆设 也就谈不上妥不妥。

学:
有道理。本来就这么几个词,写WORD就好了,不需要为Feature伤脑筋。

我:
有点开窍的意思

学:
跟老师多交流,才能开窍,不然我就钻进自己的死胡同了。

我:
人都是这样的 钻进n个胡同以后才能在 n+ 的时候开窍。没进过胡同就开窍的 那不是天才 那是死人。

学:
NLP 里面的知识表达,包括词典的 features,应该怎么设计呢?

我:
从词典表达 lexical features 到句法语义逻辑的表达,大多没有黑白分明的标准答案。
就是自己这么给了 显得蛮合理 也好记忆 否则自己就不舒服 或记不住。更重要的是 给了 features 以后 规则好写了 规则自然 简洁 有概括性 且方便维护。
almost everything is coordination
u assign
u use
no one is in between
no intelligence no god
as long as it makes sense to you (not to others) so u know what u r doing
as long as it is natural and easy to remember
as long as you find it convenient to use certain features in rules and rules are easy to read and easy to maintain
in principle u can assign anything to any words
or choose not to assign
what goes around comes around
you play with yourself
computer knows nothing
features are just 0s or 1s
WHAT GOES AROUND COMES AROUND
that is NLP in an integrated system
whether it refers to POS, chunking, SVO or logical form
it is to make your job easy and yourself comfortable
u have no need to make others happy unless your system is a middleware commodity to serve your clients
if your NLP and your NLP apps are within your own control
they are integrated in your system in your own architecture
everything is internal coordination
This is my lecture on NLP Architecture for Dummies

白:
you是谁?个人、团队、公司?

我:
good question, it is the architect in most cases: he has the say.  Sometimes it can be a bit democratic if the architect wants to motivate his team, for example the naming right.

白:
是全局系统的architect,还是NLP这嘎达的architect?

我:
a bit of knowledge is named as f1 or f2, that is arbitrary and the major consideration is memonic-like,  features must be easy to remember, but sometimes we let a team member decide its name, such practice often makes the team happy, wow I can act like God, wow I can decide a drop of the sea in the system language ...

白:
伟哥还没回答我最后一个问题: 是全局系统的architect,还是NLP这嘎达的architect?

我:
the former because we are talking about NLP and NLP apps in an integrated system:
apps 不是产品 而是语义落地。落地后 还有一个产品层面 包括 UI 等 那已经不劳我们操心了。落地是与产品的接口而已。NLP 核心引擎与 NLP 落地 是一个无缝连接的系统 这种 design 可以羡慕死人。
如果是有缝对接 如果是两拨人马 两个设计师 甚至两个公司 那就扯不完的皮 擦不完的屁股 成不了大事儿。NLP 和 NLP 产品可以分开 而且应该分开  但是 NLP 与 NLP落地 最好不分开。NLP 落地 包括(1) IE (2) MT (3) dialogue (mapping) (4) QA (5)...... 内部分层 但外部不分开 这就叫无缝连接

可以说 offshelf 害死人,component technology 没有啥前途。选择 offshelf 或 license components 往往是无奈之举,自己暂时没有能力 或不具备条件做,也有找的借口冠冕堂皇:不要 reinvent wheels,最后害的还是自己。
我们已经害过几次自己了 吃尽了苦头 才有这 “十年一悟”,以前说过的: 做工业NLP 自给自足是王道。

白:
这个,关键看公司拥有什么样的专家了。专家不同模式也不同。

我:
也与时代有关: 20 年后也许不必自给自足,就一样做好NLP落地。

【相关】

【立委科普:NLP 联络图 】

【立委科普:自然语言系统架构简说】

自给自足是NLP王道

置顶:立委科学网博客NLP博文一览(定期更新版)】

《朝华午拾》总目录

 

【关于人工智能】

我其实是个蛮可怜的“砖家”,一辈子只做一件事儿,除了 NLP 语言工程的一亩三分地,每日掘地三尺,愚公移山,对于化外之地,基本是白痴一枚。特别羡慕仰望那些学富五车融会贯通的达人,如董老白爷洪仙尼克。尽管如此,我却还是不满足于低头挖煤,不甘心做语言学腐儒,老有一种哲学家的心魔压迫着我,不时要不知天高地远地天马行空一番,但总是飞不远,最多是飞到 NLP 的顶头上层AI瞅瞅,hence 下面几篇关于AI的哲学随笔。自然语言理解(NLU)正是AI在语言领域的体现。

 

关于 NLP 以及杂谈

关于 parsing

【关于信息抽取】

关于NLP体系和设计哲学

关于NLP方法论以及两条路线之争

 

 

【关于NLP体系和设计哲学】

 

关于 NLP 以及杂谈

关于 parsing

【关于信息抽取】

关于人工智能

关于NLP方法论以及两条路线之争

 

《朝华午拾》总目录

【置顶:立委NLP博文一览(定期更新版)】

立委NLP频道