《立委随笔:keep ambiguity untouched》

《立委随笔:keep ambiguity untouched》 (788 bytes)
Posted by: 立委
Date: April 27, 2007 06:09PM

 

机器翻译:至美必在其中。 (22347) 
Posted by: liwei999 
Date: September 19, 2006 12:15AM 

冰冰说: 

馒头的翻译:茶之至美则必在其中矣。 藕修改后的翻译:茶道必有至美匿于其中。 

原句 
The truly beautiful must always be in it 

要我说,你们两位都对,都不全对。不全对的地方有相同的原因:自作聪明。 

还是第一次看见掐架双方一个劲地说对方正确自己错了: 

“你有道理” 
“你没错” 

文明礼貌至此,语言学者想批评,都不好意思了。 

我们做机器翻译的有一个原则,叫做:keep ambiguity untouched (as much as possible),这样才可以立于不败之地。The key 是不要自作聪明。 

举个例子吧: 

A and B of C 

怎么翻译? 

很多人翻译成:甲和丙的乙 
另有很多人翻译成:丙的甲和乙 

争论不已,又不懂文明礼貌,搞不好伤了和气,丢了朋友。 

机器翻译就绝不会有这个麻烦: 

丙的乙和甲

《立委随笔:汉语并不简单》 (1326 bytes)
Posted by: 立委
Date: April 22, 2007 10:09AM


汉语并不简单 (456) 
Posted by: liwei999 
Date: April 22, 2006 10:31AM 

>为什么汉语语法相对印欧语系语言要简单得多? 
语言类型不同。汉语是所谓孤立语,主要依靠词序和虚词表达语法关系,印欧语系的多数语言依靠形态(语法后缀之类,比如性数格的形态)表达语法关系。 

表面上看,汉语没有那些罗嗦的语法限制(主谓语一致关系啦,宾语要求宾格啦,等等),似乎简单,但是没有形态,只能求助于其他手段:语序,虚词或语义搭配。特别是依靠语义搭配的场合,最难掌握。 

比如: 

“我爱你”为什么不是“你爱我”,那是语序手段决定的,否则不乱套。 

“我把作业做完了”,怎么知道“作业”是受事(逻辑宾语),因为有虚词“把”的帮助。 

我要吃鸡。 
鸡我要吃。 
我鸡要吃。 

为什么第二句,鸡在头里,没有词序(宾语按照词序要求应该位于动词后)和虚词帮助,它也仍然是受事,那是因为语义搭配:是常识语义告诉我们,人被鸡吃掉的可能几乎没有,而鸡是人类常用的美味食品,所以上述三种表达,语气可能有不同,基本语义关系是不变的。 

你想,一个有时需要借助常识语义才能确定关系的语言,容易掌握么?我们是 native speakers, 不觉得,让外国人来学,就太难。他觉得无规则可循,有的多是潜规则。 

〉相比之下汉语和英语算是相当接近的. 
对。现代英语便得比较接近汉语。但是也不能小瞧了那几个语法后缀的功能:-s, -ed 等。 

》为何汉语没有谓语的性数格?这是否一定程度上决定了汉人大而化之,不求精进的性格? 
这是大胆假设,可我无力求证了,你可以当作一篇语言文化学的博士课题。

Edited 1 time(s). Last edit at 2007-04-22, 05:15PM by 立委.

Re: 《立委随笔:汉语并不简单》 (2959 bytes)
Posted by: 立委
Date: April 22, 2007 05:17PM


xj 真是杂家,这一篇牵涉面更广,没有能力做总体comments。 (16323) 
Posted by: liwei999 
Date: July 27, 2006 05:40AM 

挑几个纯语言学的issues说说吧。 

1 人类思考主要借助于语言这个vehicle, 而语言的基本物质形式是语音(书面语和手势语等形式是后来发展的),所以“语言思考是独立于语音之外”的论点是有问题的。 

2 由于对语言学基本概念的不了解,你的下述论点很有问题(江毅也没有搞清什么是语素,有同样误解): 

引用: 
一个简单的事实是汉字的词汇量比英文小。英文的最小语言单位是词,而中文的最小单位是字。一般人的英文的词汇需达1万以上才算有高小水平,而中文则2000足以。 

这是拿苹果跟樱桃比较。汉字大体对应于语素(即 morpheme, 有例外,比如“葡萄"中的“葡”和“萄”,以及音译词如“沙发”中的“沙”和“发”,这些字就不是独立的语素,但总体而言汉字和语素的吻合度很高),可英文单词是等于或者大于语素的单位(否则就没有morphology了)。所以,不能这样比较。正确的比较是用现代汉语词典中的词条数目,跟英文词典的词条数比较,就没有那么悬殊了。 

英文的语素包括词根,前缀(pre-,non-,anti-),后缀(-ize,-er, 也包括语法后缀,如-s, -ed, -ing)。比如: 

read-abil-ity/in-comprehens-ible/ir-regular-ity/relat-ed-ness 是一个单词(派生词),3个语素,相当于汉语中的三字词。 

是不是学会2000汉字,就基本掌握汉语词汇(vocabulary)学会汉语了呢?显然不是。因为由字成词并不一定具有semantic compositionality(很多是半透明), 也就是说,一个单词的意义并不总是语素的简单相加,1+1并不总等于2。多字词(现代汉语词汇主要是双语素词,表现在书面语就是双字词)也还需要一定的死记。比如,“语素”这个词,并不因为你认识“语”和“素”两个汉字,而自然理解,否则汉语只需要一本小字典就够用了,没有必要编纂汉语大词典和众多的专业词典。再举一例,我女儿汉字学得很快,但是让她独立阅读老友论坛就很困难,很多字认识了,可还是不明白讲什么,因为她不认识有些多字词,她的字汇量够了,可词汇量不够。 

当然,相对于英语而言,现代汉语的词汇大多是多语素词,而不是由词根独立成词为主,这就给人一种不陌生的印象。即便遇到新词,由于语素构词的半透明性质,加上上下文,理解起来,也可能八九不离十。从这个意义上,学汉语比学英语,词汇的记忆负担确实减轻了一些。 

最后说一个有关的议题:外来词(比如laser)的意译(比如“激光”)和音译(比如“雷射”)问题。从语素分析的角度,意译实际上是利用汉字的语素性质创构多语素新词,而音译就是利用汉字的音节性质构成单语素多字词(多音节词)。两种方法各有利弊:意译词一定程度减轻了记忆负担,让人似曾相识。这个优点同时也是缺点,常常导致望文生义,“秀才识字认半边”,给不求甚解者开了绿灯。权衡利弊,一般而言,对于需要精确定义的专业术语,音译(或者不译,直接用原文)比意译要好,可以避免误解。但是对于已经进入大众生活的外来新词,意译比音译好一些。 

感谢小日本,很多现代汉语意译词汇(现在大多已经进入大众词汇),是由他们先行利用汉字语素创造合成,然后我们拿来就用的,节省了我们的先辈翻译家“一名之立,旬月踟躇”的麻烦,也避免了现代汉语蜕变成中西混杂的怪物,试比较下列文字: 

(1) 俱乐部已经邀请名讲师来举办青少年生理和心理健康的讲座,这是本俱乐部青春期性教育的重头戏。 

(2) 克辣布已经邀请名莱克切入举办青少年菲锐澳勒基和塞靠勒基的莱克切,这是本克辣布青春期塞克司爱纠开心的重头戏。

《立委随笔:文科、理科、逻辑和其他》 (1941 bytes)
Posted by: 立委
Date: April 22, 2007 09:37AM


人生来都是文科的。文科是自然状态。理科是训练的结果。训练有素另人钦佩。能进奥林匹克训练班(牛校,跟牛教授)的人让人羡慕。(偶然也见过训练过度的。) 

有此一叹,是看到甜甜给馒头写的读书报告。标题是:Harry Potter is a pretty good book. 结尾却说:All in all, these books are soso. 矛盾嘛!我问甜甜,你怎么能一点不讲逻辑,前后不一致呢。她跟我说: 

I did it on purpose. This is written for Uncle Mantou. He recommended the books to me. I cannot say they are not good. But they are really soso. 

原来她有比逻辑要大的考虑。 

说到这个话题,我有两个疑惑。 

陪审团制度在普通文科百姓里面挑选团员,不怕他们素质不够,胡乱定案么?面对巧舌如簧的检控双方律师,在同样的事实下,各自用逻辑得出相反的结论,他们怎么断案? 

疑惑二来自编程的粗浅体会。永远不要对自己的逻辑过分自信,凡编过程序的人都有体会,甚至一个小程序,调试起来也经常发现逻辑错。再严密的人,逻辑链条也在不知不觉中断裂。我以前有个很聪明的师兄,他是那种无限自信,跟机器较劲的人。每次运行他的程序出错时,他都怪罪机器:不可能,肯定是机器弄错了。 

模糊性是人类思维的特点之一。语言作为载体,充满歧义。另人惊异的是,在思维模糊和语言歧义的情况下,人类居然可以做出大体正确的判断,社会由此而进步。 

甜甜:Harry Potter is a pretty good book (17492) 
Posted by: liwei999 
Date: August 09, 2006 12:45AM 

Thanks Uncle Mantou for recommending this book. I read Harry Potter 2 in 2 days and found it was very exciting but a little bit scary. 

My dad just bought me Harry Potter 5. I found it scary and very depressing. I found out that the first three books are adventurous and a little bit frightening. The last three books are all about death which I hate. However, the last three books also contain the best part when Lord Voldemort AKA "former student of Hogwarts" actually arived in person (Lord Voldemort is Harry Potter's enemy). 

So all in all these books are soso. 

-------- 
甜甜名言:Ladies and Gentlemen, enjoy meat, but stay away from the butchers. 

2006年09月04日

《立委随笔:沉默是铁,自嘲是金》 (1064 bytes)
Posted by: 立委
Date: April 22, 2007 09:33AM


人如果追着争论,而争论已经陷入死结,沉默不如自嘲。 

沉默是铁,自嘲是金。 

各人经历、背景不同,有不同见解是常道,能说服和被说服自然很好,不能说服最好求同存异。真理并不总是越辩越明,尤其是当辩论双方开始意气用事的时候。 

公开认错并不难,如果知道自己错了。 当然,对于名人,死不认错比较常见。 比如,老毛跟彭德怀之争,到了63年大跃进失败以后,65年搞三线的时候,从文献上看,老毛显然内心认识到自己错了,所以他召见彭德怀,重新启用他。可是,就是不明确认错。 

当然如果自己并不认为自己错了,那就谈不上认错了。我觉得即便自己觉得有理,辩论到一定时候,双方论点都基本清楚以后,就没必要争论下去了。可以以自嘲的方式退出争论。 

世界上很多事,并不是简单的对错。这时候,poking fun at oneself is a good way out. 

为了求同存异,学会自嘲以及自我解嘲是很重要的一个手段,于人于己均有益。在公司文化中,able to poke fun at oneself 成为考绩的一项指标,就如 team work 一样:team first, functional specialists second. 

提起这个话头,是因为上周末拿到考绩表,共44十六条,其中一条就是poking fun at oneself. 

-------- 
立委名言:自嘲不是虚伪,而是智慧。 

2006年09月04日

《立委随笔:人工“智能”》 (1448 bytes)
Posted by: 立委
Date: April 22, 2007 09:30AM


人类“智能”的定义水分太大,很多情况是一种混合物,比如 1%灵感+19%逻辑+80%的记忆。 

论记忆,人比机器差远了。论基本逻辑(剔除模糊逻辑),机器模拟也很成功。人工智能就那1%难以逾越。 

Functionally, task by task, 不需要什么理论和方法的突破,就照着专家系统的路子走,我相信在本世纪内,我们会发现,很多“人类智能”活动会被机器代替。比如,与其请一个一般水平的翻译,不如用翻译机。我搞机器翻译就发现,在现有的框架下,有很多提高余地,特别是那些可以记忆的idioms, idiosyncrasy, lexicalized rules。多数teams很浮躁,老觉得要搞什么技术突破,不愿意塌下心来做枯燥的 knowledge engineering (本质上是专家系统),其实谁要坚持做下去,谁就能占领市场。 

万物之灵其实就那么一点点可以自豪的。 

专家系统的瓶颈在知识获取。可如果把任务限定到领域里面,所需专业知识就很有限。就是 by brute force, 也可以弄出它来。比较头疼的不是专业知识,倒是常识。 

用人工手段,慢慢抠下去,常识也可以慢慢 encode 进一套系统去(AI 界有人在做,见[www.cyc.com]),目前可以做到小学生的知识及其推理水平,他们苦在用它解决实际问题时候,overhead 太大(可是overhead的情形随软硬件发展而改变)。 

近来,用weakly supervised machine leaning 直接从原始语料里面去做 knowledge acquisition 成为hot topic. 有一些很有意思的成果。如果结合这种学习方法,辅以人工干预和manual encoding, 有些问题的解决是很有希望的,比如信息提取和机器翻译。 

问曰:人工智能如何意识到自我的存在? 

那属于1%,严格说来,不属于“人工智能”的范畴。人工智能本身就是 misnomer, 除非你真相信造人不是“上帝”的工作。

 

http://blog.sciencenet.cn/blog-362400-293478.html

上一篇:《立委点评:听不够的童丽》

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据