xh
隐藏 ||
这是客观的语言现象(口语中常见),有其公认的语义(强调),符合约定俗成的最高原则,所以不应该规范,也不适合“规范”。拿逻辑来说事(说什么最已经最高级了,不能再“最最”了,云云),是没有语言学常识的表现,不值一驳。
1 先说语言现象的客观
狗狗出来的基本数据:
Results 1 - 10 of about 1,160,000 for “最最” with Safesearch on. (0.80 seconds)
Results 1 - 10 of about 231,000 for “最最最” with Safesearch on. (0.51 seconds)
Results 1 - 10 of about 155,000 for “最最最最” with Safesearch on. (0.63 seconds)
Results 1 - 10 of about 79,900 for “最最最最最” with Safesearch on. (0.41 seconds)
Results 1 - 10 of about 40,700 for “最最最最最最” with Safesearch on. (0.44 seconds)
Results 1 - 10 of about 24,500 for “最最最最最最最” with Safesearch on. (0.54 seconds)
Results 1 - 10 of about 16,400 for “最最最最最最最最” with Safesearch on. (0.52 seconds)
以上数据显示,这种用法不是个别人所为,其表现手段是副词的重叠,呈 A+ (AAA...)式,其语义是对副词加以强调,重复越多,强调越甚,这是懂汉语的人的共同解析。
2 规范派的软肋
有洁癖的人士,指出上述用法“错了”,要规范上述语言现象,说:
引用: "最最最不合规范,副修副不合规范"。
立委指出:
1 最最最没有问题,
2 最最最跟副修副没有关系,拿副修副批评最最最,是无的放矢
3 副修副不合规范本身是错误的
除了违背约定俗成的最高原则以外,立委进一步指出其“规范说”的软肋如下:
凡言“规范”,必有等价的“规”而范之,这是有洁癖的人士最起码的常识性必备条件,否则就是扯淡。规范针对不规范而言,指出不规范的语言表达方式,必须有规范的语言表达方式来替代,这是题中应有之义。(这只是对规范派的最低要求,提出了规范说法,还须进一步论证该说法的优越性。)请问“最最最”的规范表达形式何在?
在汉语语言学历史中,曾经出现过不少洁癖。这些试图“纯洁”语言的努力大多失败了,但是他们在批评的同时,大多给出了规范的表达法,有破有立。举两个例子:
1 他所到之处,受到热烈欢迎。
批评者说:“所到之处”怎么能充当“欢迎”的逻辑宾语呢?
“规范”说法:所到之处,他受到热烈欢迎。
2 他吃食堂
批评者说:“食堂”怎么能充当“吃”的逻辑宾语呢?(食堂怎么吃?)
“规范”说法:他在食堂吃。
如今一句不合规范,就以为天下一统,书同文,文同“法”了。当语言秦始皇哪能那么容易?
----------------------------------------------------------------
立委名言:由宽式语法来看,存在的就是合法的。
说有易,说无难。责不规范易,立新规范难。
”括号可以用几重?立委作为计算机的半拉专家,应该知道是有限的。问题是限在几重上。...... 比如{[最(伟光正的)党]领导的}是一个深度的例子。 没有抽象化,也就没有学问了。问题不在于可不可以。问题是出自一个什么样的考虑、取舍,定下的如此规矩。"
--------------------------------------------------------------------
由镜子所说引申去:自然语言是递归的么? (92201)
Posted by: liwei999
Date: June 17, 2007 05:17PM
很多句法学家认为,自然语言的结构具有递归性 (recursion)。递归的表现是结构的嵌套,这就好像我们数学表达式中使用括号一样,理论上是括号的嵌套使用是无限的(无法预先规定嵌套的层数)。可是,语言的制约不仅仅是句法,还有语用上的限制。
自然语言中,括号的有限使用是语用学(pragmatics)的常识和可以观察到的语言现实。因为中间嵌套太深,不利于交流,也会超出人的短期记忆的承受范围。
中间嵌套的例子有主句套从句:主句的主语(S)和做谓语的动词短语(VP)中间又插入一个定语从句,修饰主句的主语:
A guy who knows a girl also knows another girl.
其结构是:[S [S VP] VP]
然而,右嵌套可以很深,在英语,这种例子屡见不鲜。
[...[...[...[...[...[...]]]]]]
例如:
I know a guy, who knows a girl, who knows another guy, who knows ......
其结构是:[S VP [S VP [S VP [S VP [...]]]]]
再如:有一类英语动词(a verb subcategy),其动词短语要求嵌套另一个动词短语作为其宾语补足语,如果被嵌套的动词短语恰好也是同类动词,这种嵌套就可以循环下去。
这类动词有:expect, tell, ask, force, ...
VP 的句型是:VP --> [V + NP + VP] (V是这类动词,NP 是名词短语做宾语)
譬如:
I expected John to finish the homework.
I expected John to tell Mary to finish the homework.
I expected John to tell Mary to ask her students to finish the homework.
......
其结构是:[S VP[V NP VP[V NP VP[V NP VP[...]]]]]
由于语言结构的recursive nature, 受到”乔木司机“的形式语言理论的不良影响,很长一段时间,计算语言学界推崇能够反映recursion的上下文无关语法(CFG, Context Free Grammar),排斥有限状态语法(FSG, Finite State Grammar),认为后者不适合自然语言parsing。可是,研制实用系统的人对简单而高效的FSG情有独衷。
FSG 比起 CFG 不够 powerful,为什么也可以成功运用在自然语言的parsing上呢?
诀窍就在,可以把很多个FSG叠加起来用(cascaded finite state device),一层一层地由里往外退括号。由于语用学的制约,人类实际的语言现象,表达中间recursion的括号数量是很有限的(很少超过三层,形象地说,只要大中小三种括号就够用了),而边缘嵌套难不住FSG (其实实际语料中边缘嵌套也很少超过五层),所以线性叠加完全可行。
Edited 3 time(s). Last edit at 2007-06-19, 08:03AM by 立委.
现代汉语语法随笔
语法表达组词造句的规律。Native speakers 心中都有一套语法,尽管由于地域、出身、教育程度等等的差异,每个人心中的语法和其他 native speakers 并不完全重合,但是其核心部分是相同的,否则语言交流就不可思议。
为了帮助语言教学或者语言处理,语言学家试图把 native speakers 心中的语法描述出来。描述出来的语法可以分为宽式语法和严式语法两种。严式语法只描述 native speakers 的“最大公约“的核心部分,而宽式语法则描述其“最小公倍”的语言现象。很多有争议的现象处在两者之间。一般而言,宽式语法具有坚固性(robustness),适合做语言分析(parsing),譬如作为机器翻译的源语的语法;严式语法不能概括灰色地带的语言现象,比较适合语言生成(generation),譬如作为机器翻译的目标语的语法。
语法一般由词法(Morphology)和句法(Syntyax)两大部分组成,但现代汉语词法和句法的界限并不分明,存在很多中间状态。好在词法句法的内部规律大同小异,对于中间状态,是归为词法还是句法,很大程度上是语法系统内部(system-internal)选择,对语言规律的总结没有本质的影响。
现代汉语由古汉语演变而来。说到这里,简单介绍一下语言类型。世界上的语言,词法简单的句法往往复杂(譬如英语),反之亦然(譬如俄语)。两极的状态有所谓孤立语和多式综合语。多式综合语句法极其简陋,但词法繁复,一个句子的形式表现为一个内部结构复杂的词。孤立语的语法基本等于句法,没有或者缺乏词法。古汉语就是典型的孤立语类型,几乎没有词法,语言的音义结合的最小单位语素(morpheme)跟句法分析的最小单位“词”是重合的,表现在口语上是音节,在书面语上就是汉字。大体上说,每个汉字就是一个词。随着语言的发展,多字词特别是二字词越来越多,尽管还有很多词法句法之间的灰色地带,主流语言学界一致认为词法是现代汉语语法的一个不可或缺的组成部分。
汉语词法
词法管的是由字组词,输入的是字串,输出的是词(严格的说是语法词)。
由于大量存在的灰色语言现象,词的定义是最具争议的语言学论题之一。有关这个论题的两个主要概念是词汇词(vocabulary word)和语法词(grammar word),混淆二者的区别是很多业内/业外的争论乃至口水战的主要原因(熟悉汉语语法学史的人知道曾经有过多少学术口水仗)。
词汇词比较好定义,简单来说就是词典中的词条,它是可以枚举的(enumerable)。语法词的标准定义是句法分析的最小单位,可是怎样判别最小单位并不容易。词汇词和语法词有很大的重合面,但绝非一一对应,一个词汇词可能比语法词小,也可能是比语法词大的单位,举例如下。
(a) 性 名词性后缀(类似于 -ness),小于语法词
(b) 洗 动词,小于等于语法词
(c) 澡 名词(只用于搭配性结构,如“洗澡”),小于等于语法词
(d) 澡盆 合成词, 名词,等于语法词
(e) 洗澡 动词组(动宾结构),大于语法词
(f) 他们 名词组,大于语法词
(g) 城门失火 单句(成语),大于语法词
汉语词法的内部语法关系跟句法大体相同,主要有主谓关系,动宾关系,动补关系,偏正关系(壮语性修饰关系,定语性修饰关系),并列关系。汉字同样分为名、形、动、副等类别。举例如下:
主谓关系:心-得(名动式名词) / 头-疼(名动式动词) / 猫-叹气(名动式名词:一种盛食品的密封容器)
动宾关系:定-义(动名式动词) / 哭-鼻子 (动名式动词)/ 吃-食堂 (动名式动词)
动补关系:改-良(动形式动词)/ 提-高(动形式动词) / 看-穿(动动式动词) / 打-倒 (动动式动词)
壮语性修饰关系:
(1)形容词修饰动词(形动式动词):小-看/ 重-视
(2)副词修饰动词(副动式动词): 绝-无/ 仅-有
(3)副词修饰形容词(副形式形容词):不-良
(4)副词修饰副词(副副式副词):绝-非 / 并-不 / 尚-未 / 未-曾
定语性修饰关系:
(1)形容词修饰名词:副-词(形名式名词)/ 大-型(形名式形容词)/ 高-级(形名式形容词)
(2)名词修饰名词(名名式名词):语言-学 / 语言学-家 / 澡-盆 / 词-典 / 语-法 / 食-堂
并列关系:语-言(名名式名词) / 比-较(动动式动词) / 可-能(动动式动词) / 美-好(形形式形容词)
词法中最有意义的现象是所谓 Productive Morphology, 它能产生词典不能枚举的语法词。比如,下列词法规则就是产生性的:
[[可+Vt]+性] --> 抽象名词(Vt指及物动词)
例如:可-读-性,可-观赏-性
NP+化 --> 动词 (NP指名词短语)
例如:社会-化,黑社会-化,书斋-化,聊斋-化,小狐狸-化
”NP+化“规则是特别有意思的语言学现象,它反映了词法句法的灰色地带,以及词法和句法之间复杂的接口关系。在传统的语法框架里,词法句法的接口很简单:词法先于句法,词法的输出就是句法的输入。然而,这样的构架无法处理”NP+化“的现象,因为短语(NP)的构成属于句法的范畴,词(动词)的构成属于词法部分。这类现象构成了对传统语法构架的挑战,跟鸡和蛋谁先谁后的困境类似。
=====================================================================
参看立委博士论文第四章:Defining the Chinese Word
Edited 1 time(s). Last edit at 2007-06-19, 06:54AM by 立委.
Posted by: shijie
Date: June 18, 2007 06:31AM
对于Native speakers 来说,心中所存的与其说是“语法”,不如说是“语感”,那是在言语表达中的直觉判断和感受,而这种判断和感受则源于“约定俗成”。语法应该是语言学家们根据自然语言的综合分析,抽象提取出来的规则。理论是灰色的,生命之树常绿。“严式语法”拘泥于“规则”,描述科学的事物自然合用,但对付千变万化的自然口语则难免左右例外。“宽式语法”拘泥于“语言事实”,难免注重意义而忽视形式。真正的语法研究应该尽量做到形式和意义相结合。等待着立委的随笔成为论文。
Posted by: eng
Date: June 18, 2007 08:13AM
1、什么是“可枚举的”?
如果是countable或是finite,则这世界上任何出现过的词汇的集合都是“可枚举的”。从上下文来看,“可枚举的”似乎是和“可产生的”对立的一个概念。但是似乎这里的“可产生的”词汇本身是用“词典不能枚举”来定义的。
2、词汇词到底是什么词?
“词典中的词条”或许过于简单了。因为这只是把定义替换了一下。我们还可以问,什么词应该收入词典,什么词不应该收入呢?如果说是“可枚举的词”,由上可知这几个定义形成了循环定义。
之所以有以上两问,是因为有些词典中(特别是英文词典)也在主词条下收入“可产生的”词汇。更复杂的情况是,有些词经过通常的“产生”过程(如加了前后缀)之后产生了意义变化,不能用通常的“原词意加前后缀意义”的方式来理解。当然这种情况在英文里比较多,汉语里面我不知道有没有。
---------------------------------------------------------------------
问题很好,回答如下 (92430)
Posted by: liwei999
Date: June 18, 2007 10:08AM
》1、什么是“可枚举的”?
》如果是countable或是finite,则这世界上任何出现过的词汇的集合都是“可枚举的”。
是从 enumerable 翻译过来的。应该这样来看,尽管世界上出现过的词汇的最终是有限的,但是,一个特定系统的词典通常是不能囊括的,除非这个词典无时无刻地搜刮各种新出现的组合。就 native speakers 而言,每个人的 vocabulary 虽然大小不同,但总是不能存贮世界上所有的词汇。
关键是,无论人脑还是机器,存贮世界上所有的词汇,即便可能,也是不必要的。因为产生式的构词法可以概括”生词“(从分析角度看),也可以随机生成新的词汇,语言由此生动:比如本池常用的新词”小狐狸化“。
所以,产生式词法(productive morphology)常常被称为”小句法“。
我们研制语言分析器的人,在开发系统的时候,常常根据具体情况,在 ”大词典-小语法“ 和 ”小词典-大语法“ 的设计中做出选择。一般来说,前者的词法规律被冗余的词条所掩盖,可能会漏掉一些未及囊括的现象,适合严式系统的要求。后者的规律体系相对复杂,但概括性强,可能容忍了某些不合法的现象,适合宽式系统的要求。我自己设计开发系统,往往先搭起框架,从”小词典-大语法“开始,随着资源的投入,逐渐向”大词典-小语法“的系统过渡。这样的开发过程比较现实,在宽严之间也好平衡。
》从上下文来看,“可枚举的”似乎是和“可产生的”对立的一个概念。但是似乎这里的“可产生的”词汇本身是用“词典不能枚举”来定义的。
“可枚举的”是和“可产生的”相对照,但不对立的一个概念。看上去有循环定义的嫌疑,但是如果放到一个特定时间的特定系统中,二者都针对一个静态词典而言,并没有矛盾。
》2、词汇词到底是什么词?
》“词典中的词条”或许过于简单了。因为这只是把定义替换了一下。我们还可以问,什么词应该收入词典,什么词不应该收入呢?如果说是“可枚举的词”,由上可知这几个定义形成了循环定义。
好问题。没有一个标准答案,一切看系统及其开发的具体条件(比如资源的充裕程度)和应用场合(从宽还是从严,在资源充裕的情况下,也可以逐渐做到宽严恰到好处)。但是,有一个基本原则通常作为词典收录的最低标准:对于语义的组合性(semantic compositionality)低的词汇,必须词典收入,否则一个系统就无法通过语言分析而达到解析语义的最终目的。换句话说,如果词汇的意义不能从其构成成分的分析中得出,就必须送入词典死记。所以,词典实际上是个垃圾箱,存贮了自然语言中大量不规则不逻辑的表达法和成语。这就回答了你下面的问题。
》之所以有以上两问,是因为有些词典中(特别是英文词典)也在主词条下收入“可产生的”词汇。更复杂的情况是,有些词经过通常的“产生”过程(如加了前后缀)之后产生了意义变化,不能用通常的“原词意加前后缀意义”的方式来理解。当然这种情况在英文里比较多,汉语里面我不知道有没有。
然而,12点零五也是人生最值得品味的阶段。四十之前,跨过儿时的天真,进入中青年的竞争和奋斗,悬梁刺股,埋头推车,没时间看路,也没功夫叹息,更难得回首。风华正茂,心高气盛,放眼世界,豪情满怀。一路跌跌撞撞走过来,有过胜利的欣喜,但更多是摔得鼻青脸肿。坡坡坎坎,起起伏伏,一转眼就四十了,于是步子不由自主慢下来了,顺带也开始反思殆不殆的问题了。
四十而不惑。圣人毕竟是圣人,洞悉人性如彼,金口而玉言,不由人不叹服。
四十的确是人生一个大的台阶,一跨过台阶,仿佛立地得道,大彻大悟,对个人的渺小和微不足道,洞若观火。有意思的是,彻悟的结果不是悲观,而是放下了包袱,心平而气和,开始接受人生局限的现实,学会品尝琐屑与慵闲。挑剔让位于包容,自嘲取代了傲气,嫉妒心和上进心亦渐行渐去。这是一种出必然王国而入自由王国的奇妙感受:身处闹市,心远地偏。思绪情趣信马由缰,渐次达至天人合一,随心所欲不逾矩,无处不得其所。
引用:
立委随笔:从悬梁刺股到品尝慵闲从小深受无产阶级艰苦奋斗的教育,以解放全人类为崇高理想,认为慵闲是资产阶级的专利品,等同于腐朽的剥削阶级的空虚颓废。青少年时代自不必说,刻苦了再刻苦,只张不弛,以苦为乐,不知闲暇为何物。谨记在心的是鲁迅先生所言:什么天才,我是把别人喝咖啡的时间也用来读书的。悬梁刺股的古训,只争朝夕的最高指示,父辈发愤图强的言传身教,先哲鲁迅的榜样,使我们把人生等同于苦行。
还记得小时候曾听说过有人生来两个脑子,使我羡慕不已:只恨老天为什么不给我两个脑子,就永远不用睡觉浪费每天三分之一的宝贵时光了。还曾幻想发明营养针剂,一剂下去,旬月不思食香,也就省去了进食的麻烦。记得在大学时代,功课并不紧张,自己却给自己加压力,漫无边际地刻苦学习,发奋写作,连走路都带着小跑。至于这样的刻苦目标何在,并不清楚,总有天将降大任的紧迫感。物质生活简化到最小,把时间象水一样从海绵中挤压出来,埋头推车,从不劳神抬头看路。没功夫思考,更没功夫叹息。
这样的心态一直保持到中年之后,已经成为习惯。不知道何时开始,也就最近两三年的事儿吧,突然学会了品尝和享受无所事事的慵闲时光了。而立不惑之间,以前的理想抱负,已然烟消云散,生活变得琐屑而平实。比如现在,坐在Downtown步行街starbucks咖啡屋门前,棕榈树下,享受和风和阳光,等待大小领导逛店归来,心情是何等的闲散。
(06-08-06)
--------
立委名言:关起门来洗脚,打开门户小资。
这从下一代的行为可以看出来。没有人特别教给她,甜甜在上网过程中自然而然地依赖了互联网中不可或缺的下列三项工具:
1 gmail: 海量存贮汇集的个人通信的出发点,成为她每天跟其他小朋友联络的基点。
2 wiki: 每有 school projects, 首先想到的是去 wiki 查寻背景资料。随时可即 (accessible any time anywhere),其更新的速度,知识的广泛,与时代节奏的呼应,使得它比传统百科全书更受欢迎。
3 youTube: 甜甜以前总是去 iTunes Music Store 去搜寻购买自己喜欢的(少儿)流行音乐,从半年多前,她转向 youTube, 看自己喜欢的 MTV, 跟我说:Dad, who needs iTunes anyway. youTube is my ultimate entertainment center, an ultimate source for all the music TV I need. It never fails me.
上述三项互联网工具,确实运作得极为成功,加上在线聊天、博客和论坛,其动向及其对我们生活的影响难以估量。
Edited 2 time(s). Last edit at 2007-06-04, 12:48AM by 立委.
04.03.08, 【iDisk 每周一歌】ge9 祈祷 作词:翁炳荣 作曲:日本古曲 :
这是一首具有宗教情愫的流行歌曲,曲调源于日本,非常优美。有很多版本,一个流行的版本
由 王杰/王韵婵 对唱: [www.youtube.com],很不错。
王韵婵,以前是只听其声,不见其人。如今见了,wow, 惊为天人!
Edited 1 time(s). Last edit at 2007-06-04, 12:46AM by 立委.
没有信息爆炸,Google 的成功及其免费服务就不可思议。
做市场调查的咨询公司利用因特网查寻资讯,加上手工归纳总结,就能向用户 charge 成千上万块钱。乍看不可思议,信息都是公开的,只是被掩埋在信息海洋里面,有本事大海捞针一样挖掘出来,就可以变成金钱。
正因为此,干我们这行的,才有饭吃。我们就是要把那些手工信息搜索和归纳自动化或半自动化,使得 intelligence discovery 快速并相对便宜。信息搜索的自动化依靠的是语言处理(Natural Language Processing)和信息抽取(Information Extraction)的技术,情报归纳依赖信息整合(Information Fusion)技术。
引用:
悄悄的技术革命 (863 bytes) 立委 07-06-03, 09:18AM
我最近发现Google Book很强大 (20 bytes) 桂铭 07-06-04, 02:31PM
试过google scholar吗? 基本上跟sciFinder是一个思路. (0 bytes) new carmen 07-06-04, 06:39PM
感觉比google scholar强 (53 bytes) new 桂铭 07-06-04, 09:29PM
网络带来新的资源,也带来新的挑战 (158 bytes) 吴礼 07-06-04, 05:39AM
第三是网上资料太多,但要找到合适的却不容易 (0 bytes) 公正有私 07-06-04, 11:15AM
信息爆炸使得很多人养成视而不见的习惯,但同时 (578 bytes)
Edited 1 time(s). Last edit at 2007-06-05, 12:15PM by 立委
迪斯尼是一个把娱乐、艺术和商业的结合推向了极致的公司。一方面,迪斯尼卡通动画,电影电视电台,确实是超一流水平,影视美奂美仑,音乐别致有味,作为大众娱乐品,老少咸宜。特别是迪斯尼的几十部经典电影,如《白雪公主 Snow White and the Seven Dwarfs》,《木偶历险记 Pinocchio》,《灰姑娘 Cinderella》, 《小美人鱼 The Little Mermaid》, 《小鹿斑比 Bambi》,《狼孩 The Jungle Book》,《Pocahontas》, 《The Aristocats》, 《101 Dalmatians》, 《Lady and the Tramp》, 《花木兰 Mulan》,《狮子王 The Lion King》, 《猿孩 Tarzen》,《Finding Nemo》等等,确实是精益求精,比样榜戏还千锤百炼。
可气的是,迪斯尼的商业嗅觉太灵,恨不得把全世界都赚了去,无怪有人称他为邪恶王国。有些钱赚的让人心服,比如我们家买的全套迪斯尼经典录像和DVD. 有些地方,就太黑:一件普通衣服,印上迪斯尼卡通形象,摇身一变,价钱翻番。建了个迪斯尼乐园,一天就赚几百万(司机告诉我们的)。出了一部杰作,人物深入人心后,就接着没完没了地来各种续集,《Cinderella II》,《Lady and the Tramp II》,《The Lion King II》, 《102 Dalmatians》, 把经典当电视剧拍,骗取儿童和家长的钱。因为资金雄厚,人才(或艺术匠人)一流, 后续作品也拍得精美, 但是缺少创新, 欠缺神韵, 我看是自己糟践自己半个多世纪树立起来的品牌。单我们家,就不知给迪斯尼送去多少钱。有什么办法,孩子喜欢。
04.04.23, 【随感】关于迪斯尼动画片。
甜甜出生之前,我是不看动画片的,就象我现在不看任何武打小说一样。没想到孩子教育人,随着甜甜的成长,跟着她开始看动画片,尤其是迪斯尼经典。这一看,终于看出名堂,品出高下。让人不能忘怀的有《白雪公主 Snow White and the Seven Dwarfs》,《木偶历险记 Pinocchio》,《狼孩 The Jungle Book》,《Pocahontas》, 《The Aristocats》。
04.04.22, 【家庭录像】刚刚结束的2004春假佛罗尼达迪斯尼乐园之游的四节录象片断已经上网,并配以迪斯尼经典音乐。
iDisney1: 乘坐阿拉丁神奇毯车, (文件大小: 9 MG), Magic Carpet: 2004 Spring Vacation to Disney World: riding margic carpet, with the Disney theme song "A Whole New World",背景音乐:迪斯尼经典动画片《阿拉丁》主题插曲"全新的世界";
iDisney2: 穿行动物王国, (文件大小: 9 MG), 2004 Spring Vacation to Disney World in Florida: taking a ride through animal kingdom in forests, with Disney theme song "Hawaiian Roller Coaster Ride". 背景音乐:迪斯尼动画片《Lilo And Stitch》插曲"夏威夷舟行"
[立委评]这首歌曲调极为流畅,采风自夏威夷土著音乐。歌词也是夏威夷语。看过演唱该曲的儿童合唱团及其女老师指挥的录象,非常精彩。
iDisney3: 甜甜在迪斯尼乐园即兴舞蹈, (文件大小: 9 MG), 2004 Spring Disney Vacation: Tanya dancing with the "Toy Story" theme song "You got a friend in me". 背景音乐:迪斯尼电脑动画片《玩具的故事》(又译作《玩具总动员》)插曲"我是你的哥们".
iDisney4: 灰姑娘神奇宫殿, (文件大小: 12 MG), 2004 Spring Vacation to Disney World in Florida: Cinderella Castle in Magic Kingdom, with theme song "A dream is a wish your heart makes". 这是该系列最后一个节选。背景音乐:迪斯尼经典动画片《灰姑娘》插曲"梦想就是心愿"。
在 IT 业,这可是个惊天的消息。对于我们这些从 IBM-PC XT, AT, 286, 386, Pentium 一代代品牌一路走过来的老用户,对于蓝色巨人一直心存敬畏。做梦也不会想到 IBM PC 会落入中国企业之手。真是二十年河东,二十年河西。生活比小说更有戏剧性。这象征一个时代的开始,中国本土企业决心向跨国公司迈进。这两天,全世界IT业和商界,都在谈论这件事,谁也没听说过联想(Legend, 现名为 Lenovo。顺便提一句,Legend 听起来很响亮,是个不错的名字,比拗口的 Lenovo 强十万倍,但无奈这个品牌在很多国家已经被其他公司注册),但中国企业财大气粗,已经给全世界留下印象,广告效应非常。这是令人激动的一面。
可是,从生意角度看,不能不让人捏一把汗。几乎所有观察家都一致认为,这是一场名副其实的豪赌。多数人不看好。
首先,IBM 没有竞争性,生意很糟,PC 业务背了一屁股债(5个亿)。IBM 开创了PC时代和产业,但真正的收获者却是微软,和 IBM 兼容机的制造商康柏(现在并入惠普)和搞微机直销的戴尔。IBM PC 业务的辉煌也就头两三年。蓝色巨人的笨重、呆滞和官僚作风在性价比上从来敌不过灵活的对手。
再者,联想靠低档电脑和巨大且飞速增长的中国市场起家,倚仗的是关税保护。论运营效率和管理水平,跟竞争对手戴尔相差一个量级。随着关税壁垒的消解,指望吸收 IBM PC 业务的失败模式去对抗戴尔,无异于以卵击石。
所以,我个人不看好这一“壮举”。联想10多年辛苦的积累,很可能就此毁于一旦。还买下5亿美元的债务。(中国人气魄大,不服不行。)但愿我猜错了。毕竟,跨国公司都在争先恐后的outsourcing,来提高性价比和竞争力。合并以后,把IBM技术消化后,裁掉美国公司的一半,转为国内生产,兴许杀出一条生路,保持PC老三的地位并仍可盈利,也未可知。想升到老二和老一,有点痴人说梦。
论品牌,联想赚了什么?据合同,IBM 品牌只给5年的使用期。IBM PC 脱离了 IBM, 就剩一个普通名词PC,什么意思?还不是回到原先的“联想PC”,英语叫“Legend PC”或者国外从没有听说过的“Lenovo PC”,总之难以在国际消费者中树立品牌。就笔记本电脑 ThinkPad 的品牌还有价值,估计国内的潜在市场很大。(准备购买笔记本电脑的国内朋友不妨等半年一年。国内笔记本电脑目前定价太高,肯定会有一场大战,竞争结果价格会大幅下降。)
文化差异极大,两边的公司怎么整合和协调?CEO 是老美,可以稳定美方人心,但不会多久,跟董事会和老中的董事长的矛盾就会越来越大。他又不是神仙,能把多年亏损的业务扭转过来?跟中国投资人和管理层沟通,双方准备都不够。文化这种东西,看不见摸不着,可跨越它谈何容易。在外多年的人都有体会。何况这一次文化差异是双重的:广义的中西文化差异,窄义的企业文化差异。
另见网上评论:《IBM的鸡肋, 联想的美味》:[web.wenxuecity.com]
I am born nocturnal, Dad, just like you. It's all your fault, I am just carrying it from you.
这倒是实话。我干事全凭兴趣,兴趣来了,生物钟就完全乱了,年轻时候常常通宵达旦。这么多年,总结起来,熬夜的最大好处有二:
1 安静:万籁俱寂,有助于不受干扰地做自己爱做的事,比如年轻时写小说都是夜里完成的,连续四年,全学院我总是最后一个溜回寝室睡觉的。
2 从容:晚上坐下来办事,感觉后面有个无涯之夜,可以尽情挥霍,特别适合天马行空的哲学沉思,身心投入的音乐欣赏,或无所事事的上网闲逛。白天就不行,时间总是那么匆忙,有课要上,有班要坐,朋友来了要到机场迎送,每天赶命似的。即便不用上班上课,也无杂事,可你总要一日三餐吧,这个麻烦,海绵里面挤不出什么油水。熬夜饿了,啃点锅巴或点心,最奢侈也不过泡一袋方便面,边吃边干自己的事,两不耽误。
现在不行了,领导管束太严。睡不着,也常常不允许起床,跟个囚犯的感觉类似。
所以,我同情甜甜。要不是怕影响她健康,也不觉得熬夜是个坏习惯。早起早睡身体好,我总怀疑是个没有经过科学对照组研究的fallacy,比眼保操还值得置疑。。(By the way, 眼保操虽未经过严格的对照组检验,我个人体会是有用的。每次熬夜看书累了,就做眼保操小憩片刻,顿时心明眼亮,精神抖擞。甜甜也跟我学会这手新国粹了。)
作者:立委
BSO公司当时是荷兰第二大软件公司,总部在离阿姆斯特丹两个小时车程的 Utrecht 城。1982-1983年,由 Toon Witkam 先生牵头,在欧洲共同体资助下,完成了一项利用世界语作为媒介语(又称“中间语言”,interlingua)的多语言自动翻译的可行性研究报告。传统的机器翻译多采取转换式(transfer),需要针对每一对源语和目标语编制专门的规则系统。这种转换法用于多语自动翻译,随着语言对的增加,存在一个组合爆炸的问题:这种转换法用于多语自动翻译,随着语言对的增加,存在一个组合爆炸的问题:n 种语言有n(n-1)的有向语言对(译出和译入是有向的),需要编制 n(n-1) 套转换子系统,而采用媒介语则只需要 2*n 套子系统。以欧洲共同体常用的8种语言计算,传统的系统需要开发出56套转换式规则系统,而采用媒介语则只需要16套子系统(8套翻译成媒介语,8套从媒介语译出)。这是简单的算术,所以媒介语方案对于多语系统的经济性早已成为共识,学者们争论的主要是究竟采取什么样的媒介语合适。另外一项共识是,自然语言(比如英语、汉语或俄语)作为媒介语是不合适的,因为自然语言普遍存在歧义和不规则的惯用法。理想的媒介语应该是规则而没有歧义的,所以很多学者认为应该人造一套形式系统作为媒介语(比如当年由日本牵头的东亚各国合作的一项多语翻译开发系统使用的就是设计者自己定义的形式系统作为媒介语)。Witkam 不同意这种看法,主要论点是形式系统作为媒介语往往失之简陋,毕竟象语言这样复杂的系统,不是一蹴而就的形式系统能够涵括的。不仅如此,形式系统虽然适合机器处理,可是作为中间表达,不如人类语言那样易读,不利于语言工作者调试系统。这样看来,世界语这种有了100年发展历史的“人造语”比较合适,因为原则上它的语法是不允许有例外的。不过,跟所有实际使用的人类语言一样,世界语仍然存在歧义现象。因此,可行性研究中,他们还是对世界语做了“控制”,尽量排除其歧义,以适应机器处理的需要。其中有一项设计很巧妙,用来区分结构歧义。在自然语言处理领域,结构歧义的典型例子有所谓 PP attachment 的问题,即名词宾语后面的介词短语究竟修饰前面的名词还是谓语动词。比如:I saw the girl with telescope,如果是修饰名词,应该翻译成“我看见了带望远镜的姑娘”,如果是修饰动词,则应翻译成“我用望远镜看到了那个姑娘”。Witkam 小组提出的区别结构歧义的表达方法是,用介词跟前面的名词的空格数来决定:如果只有一个空格,那么机器就认为是修饰名词,如果是两个空格,则认为它修饰动词。这种表达方法的巧妙在于它用书面语的线性方式表达了需要三维的结构关系,方便了机器的还原处理。更绝的是这种表达不影响中间语言的自然性,毕竟人眼对于一个空格和两个空格是不做区分的,读起来跟普通世界语没有不同。
上述可行性研究在1984年赢得了荷兰政府经济部的资助,BSO 公司补足另一半,开始了六年的DLT (Distributed Language Translation) 分布式语言翻译的项目。所谓分布式,是设想该系统应用在电脑网络的环境下,源语到世界语的系统和世界语到目标语的系统分别在两端进行:在源语输入端遇到歧义,系统会直接提问作者以确定其含义,然后翻译成中间语言世界语,这是用所谓半自动交互式机器翻译来解决自然语言分析中最困难的歧义区分问题。(这个思路跟这几年流行的 semantic web 异曲同工,都是力求在源头上解决问题。)网络之间传输的是已经消除了歧义的世界语,各接收端根据需要,调用从世界语翻译生成目标语的程序,即用即调(on-the-fly),这个阶段是全自动的。这种分布式应用环境的设想似乎有点超前,如果推后五年,在网络热中寻找巨额投资是不困难的。可惜当年(1990)网络经济的概念还只是萌芽阶段。有人和,却没有天时地利。
DLT研究组在六年期间做出了原型系统(prototype),发表了详细介绍系统的理论和实践、印制精美的系列丛书,主持召开了一次机器翻译国际研讨会,与各国世界语者和语言学家合作,在统一的依存关系的框架下,编制了20多种主要语言的形式句法,应该说工作是卓有成效的。迄今,这一项目由于其描述之详尽,不少教授列为计算语言学课程的辅助材料。
BSO的这个DLT项目由于有 Victor Sadler 这样的世界语元老级人物的参与和宣传,在国际世界语界影响很大,引起了各国世界语者的关注,大家(包括笔者)对它的期许很高,希望借助世界语和世界语者的支持,为大规模解决语言问题提供一个切实可行的技术方案。世界语在系统的轴心地位也满足了很多世界语者的心愿,自愿为这个系统服务的各国世界语者很多,如果系统真到了大规模商业开发阶段,管理得当,这是一个不小的资源优势。记得当年听 BBC 中文广播电台,就有中国世界语者去信询问世界语的机器翻译问题,广播节目就特别介绍了荷兰科学家正在进行的 DLT 项目。可惜,1990年前后,他们在国际国内寻找后续资金的努力终于失败,研究组不得不解散,结束了这段世界语和机器翻译的蜜月期,令人扼腕。(不过,多年来,一直有人主张利用世界语机做器翻译做媒介语的方案。美国有一家公司 Unikom 做类似的尝试已经多年,不过也一直没有找到大笔资金做商业开发。其负责人跟我和Dan一直保持着联系。)
要想进一步了解媒介语和机器翻译的学术背景,可以参见我的机器翻译的介绍文章:
[www.starlakeporch.net]
Edited 2 time(s). Last edit at 2007-06-11, 12:32PM by 立委.
http://blog.sciencenet.cn/blog-362400-293486.html
上一篇:《立委点评:听不够的童丽》