语言创造简史

(见鬼,这一篇旧文居然被kexuewang屏蔽,留存 here)

屏蔽已有 4203 次阅读 2014-12-18 00:36 |个人分类:立委科普|系统分类:科研笔记| NLP, 语言, 编译, 自然语言

设计和实现一个语言是一种非常有趣的事儿,自己做上帝。说起语言王国和上帝的关系,话也长了。自然语言据说是由一群名叫约定俗成的众神团队创制的,缺乏规划,无为而治,词汇和文法的起点均具有很大的随意性,显然不是一神教说的真神所为。然而,语言是何等神器,它是交流的工具,知识的载体和合作的基础。人类一旦掌握了共同语言,齐心造反就容易了,绝不会安于伊甸园里面吃吃果子。真神于是有些怕了,决定搅乱自然语言,使得人类不能顺畅交流,内讧不断。这才有人类世代努力建造通天塔企望大同而不成。直到如今,世界仍不太平,语言依旧混乱,战争和恐怖时有发生。尽管如此,人类还是迎来了电脑革命的新时代。

以前一直不理解计算机这么些年为啥有那么多狂人前仆后继,发明了这么多不同句法和风格的语言,这不是为难人吗。说到底还是,人毕竟不是神,想制定语言王国的条条框框,又要富于表现力,修行不足也。

人类语言繁多是可以理解的,除了前面讲到的神话,也有历史的、地域的和经济的诸原因。可是计算机的硬件和底部机器指令及其背后的逻辑都是基本一致的,完全没有道理人为生出这么多语言来。至少对于高级通用语言,书同文应该是大势所趋。连电脑语言都不统一,何来世界大同?

苹果公司最近设计的mobile平台语言叫啥来着,对,Swift,据说帅呆了。其实,历史上最成功的人造语言不是 BASIC 或 Visual Basic、C 或 C++,不是 Lisp 或 Prolog,也不是 Java 或 Swift 等电脑语言,而是为人类和世界和平而创造的 Esperanto(世界语)。世界语之父柴门霍夫博士才是简约规范与丰富灵活的无与伦比的平衡大师,值得世代景仰。

有意思的是,有时候人会因为创制了一门新语言,就以为该工具针对的问题就已经解决了。人工智能历史上,Lisp 语言以及 为其量身定制的 Lisp 机曾经刮起一阵旋风。女儿最近课上接触它,为那些没完没了的括号头疼不已,我说,难道你没看到设计者的匠心?“I can sense that”,美则美矣,太过极端(大意)。

后来 Prolog 的设计和实现,成为日本五代机大跃进的主要依据。一时间极度乐观主义在日本精英阶层流行,人定胜天,似乎制作能说人话、能自主思考的智能机器指日可待了。泡沫破灭,五代机项目是完败,本来日本雄心勃勃要借助五代机项目赶超美国,做软件产业和IT的带头羊。其结果是与美国的距离更远。

不过反过来说,知道解决问题的 knowhow(窍门),可没有合适的专项语言工具来实现,也往往望洋兴叹。通用语言可以书同文,也的确可以看到书同文的大趋势,但通用语言毕竟难以照应众多领域的特殊需求,因此专项语言的创造会不断深入下去。对于很专业的问题领域,没有针对性的专项语言,解决问题往往事倍功半。比如,很难想象用通用语言可以写出有深度的自然语言的 parser 出来。

最近思考这辈子 involved in 的三次 NLP 专用语言的设计和应用,悟出来语言设计的简洁和表达力之间的某种平衡,会对利用这个语言解决问题并维护系统产生很大的影响,哪怕本质上都是相同的 formalism。设计NLP 专用语言的特殊魅力在于其元语言(meta-language)的特性:为了分析(parse)和处理自然语言,我们需要一种元语言(专用的formalism)去描述自然语言,而用元语言编写的程序,其主体是自然语言的形式化文法,本身也是一种语言,也需要被分析(parse)、编译(compile)和运行(running)。这是何等有趣的语言之塔的螺旋上升。

第一次接触是在国内,导师制定的语言标准,简洁到无语,整个语言不允许有 SPACES,虽然基本功能都有了,还是失之于陋,而且天书一样不具有可读性。然而,在上世纪80年代的软硬件的条件下,在中国相对隔绝的环境里,我的导师刘先生创造出了一整套适合MT和NLP的语言(单有绝顶智慧是不够的,主要还是他有前20年机器翻译的经验做底),亲手实现其 parser(专项语言分析器) 、 interpreter (解释器),和融合了流程控制的 runner (导师称其为语言处理的控制器),并成功应用于实用机器翻译系统的研发中,这是非常了不起的成就。高山仰止,是我对恩师一辈子的感觉。

第二次在水牛城,与瑞典工程师合作,照猫画虎,跟着欧洲施乐实验室的样子,共同创制的。表达力丰富而规范,但没有风格,也不够专项,NLP 本体要求渗透不足。

第三次是来加州以后与印度工程师合作,NLP 本体工作是做足了,语言功能强大,具有扩展性,远远超出了传统的有限状态 formalism 的框框。但该工程师偏好结构清晰,不惧繁琐,叠床架屋,离简约渐行渐远。一个简单的模式规则,也要写一大篇代码,几乎可以与老老年 COBOL 媲美了。

有了阅历之后,如果有机会重新来过,有时间从容设计,我想创制一款既简约又丰富的专项语言来,使用她会减少出错机会,增强可读性,方便 debug,而且看上去要很美很美,过一把做优秀上帝的瘾。

【相关】

看望导师刘倬先生,中国机器翻译的开山鼻祖之一

 

【科研笔记:NLP “毛毛虫” 笔记,从一维到二维】

【泥沙龙笔记:NLP 专门语言是规则系统的斧头】

 

[转载]【白硕 - 穿越乔家大院寻找“毛毛虫”】 

【置顶:立委科学网博客NLP博文一览(定期更新版)】

https://blog.sciencenet.cn/blog-362400-851882.html

上一篇:裤子设计的一些观察
下一篇:千古一问:一切目标的制定有何意义呢?

 

9  武夷山 刘洋 徐晓 文克玲 袁贤讯 鲍得海 陈辉 zdlhsh rosejump

发表评论评论 (4 个评论)

IP: 219.140.217.*   删除 回复 |赞[4]李方和   2014-12-25 09:47

由博主此文顿悟。
历史是语言创造的!由此解决了我多年的困惑。
谁掌握了话语权,谁就能还历史以公正……!

IP: 180.156.186.*   删除 回复 |赞[3]icgwang   2014-12-18 14:39

“这是何等有趣的语言之塔的螺旋上升。”——自然进化产生自然语言,机器进化产生机器语言。按照进化生成的理解更顺些,设计/实现的描述模式有点儿人想造人的感觉。房子是先造出来的还是先设计出来的?我看还是理解为先造出来的比较实在!

IP: 61.183.148.*   删除 回复 |赞[2]张能立   2014-12-18 14:10

自然语言与现代数学及科学之间的关系(之一) http://blog.sciencenet.cn/blog-39840-852034.html 。不解决 语言落后问题,其它 问题 一切 无解。

IP: 130.87.181.*   删除 回复 |赞[1]mirrorliwei   2014-12-18 09:27

别开生面。赞一个。

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据