Allison is my all time favorite, with her unique voice. The footage I shot is from a Costco tv demo plus the footage from the Apple Store in the new headquarters
这条路线的搜索空间 (universe)是句子长度 n 的这样的一个函数:可以 assume n 中每两个词都必须发生7种二元关系之一。三种是实关系但是有方向(父父子子),所以“原子化”后就是6种实关系,即,是二元排列不是组合。第7种是:无关系。无关系也算关系,就一网打尽了。任意两词只允许发生7种关系之一,不能多也不能少。在 n 不大的时候,搜索空间爆炸得不算厉害。
白:ordered pairs,A跟B和B跟A可以有不同的关系标签。
李:对,有这个二元循环的可能,忘了这茬了。不过那很罕见,对于搜索空间影响不大。能想到的只有 定语从句谓词与中心词有二元循环关系,一个 mod 一个 arg 方向相反。
what 似乎也不齐全,只是展示结构的 what,没有展示结构的功能性(角色)。所以,作为学习,这里有两个空白需填补,一个是 how,尤其是语义相谐机制,怎么招之即来挥之即去的。另一个是逻辑语义,逻辑语义怎么在句法或逻辑的链接基础上得出的。当然这二者是相关的,前者是条件,后者是结论。目前展示的结构树图就是个架子和桥梁。
“boys go to Jupiter to get more stupider, girls go to college to get more knowledge.”
这是取笑男孩的。饶舌的甜甜现场发挥,富于夸张和强调:“what do you want me to say now? boys go to Jupiter , do you know the planet Jupiter? they go to the planet Jupiter, once they get there, they get supider and supider every second. And girls they go to college to get more knowledge and knowledge into their brain on their head.”
"Eeny, meeny, miny, moe, Catch a tiger by the toe. If he hollers, let it go, Eeny, meeny, miny, moe.
My mother told me/says to pick the very best one, and you are not it."
这是非常流行的“选择”童谣。小孩子面对两个或多种选择的时候,不知道选哪一样好,就口中念念有词,一边用手在选择物之间轮流数着,道理上应该是童谣完了手落在哪个选择上,就选择哪个。可是,儿童的心理是微妙的,很多时候内心其实有了一个所指,为了最终得到自己想得到的,表面上还跟着童谣走,孩子们学会在童谣后面,打着家长的名号,用肯定或否定来保证自己不要落到自己不要选的东西上:如果最后落到中意的选项上,就说 “My mother told me/says to pick the very best one, and that is YOU”. 否则就改口说:“My mother told me/says to pick the very best one, and you are not it.”
"You know what Kick your butt All the way to Pizza Hut
While you're there, Comb your hair Don't forget your underwear!"
里面有个片段说学校的事儿。回家说的这个故事是小女孩玩家家的,也有微妙的儿童心理:
"I said that I am the Princess of Jewelry because one of my friends and buddy said that she looked at my jewelry I brought to school. What happened is she was so surprised and she loved it ... she said that I am Princess of Jewelry and she is the Queen of Makeup. Next time I am going to bring new jewelry, she said that I am the Queen of Jewelry...... No,Daddy, Jessica said I am the Queen of Jewelry if I bring some new jewelry tomorrow."
看目前 Siri 的水平,相当不错了,蛮impressed,毕竟是 Siri 第一次把自然语言对话推送到千千万万客户的手中,虽然有很多噱头,很多人拿它当玩具,毕竟有终端客户的大面积使用和反馈的积累。尽管如此,后出来的 Google Assistant 却感觉只在其上不在其下,由于搜索统治天下20年的雄厚积累,开放类知识问答更是强项。
所有话术都那么具有可爱的欺骗性,until 最后一句,莫名其妙回应说 this isn't supported.
(顺便一提,上面终于发现一个语音转写错误,我跟 Google Assistant 说的是,you are both funny and sometimes amusing. 她听成了 and sometimes I'm using. 从纯粹语音相似角度,也算是个 reasonable mistake,从句法角度,就完全不对劲了,both A and B 要求 A 和 B 是同类的词啊。大家知道,语音转写目前是没有什么语言学句法知识的,为了这点改错,加上语言学也不见得合算。关键是,其实也没人知道如何在语音深度神经里面融入语言学知识。这个让深度学习与知识系统耦合的话题且放下,以后有机会再论。)
2 短语:VP = Verb Phrase; AP = Adjective Phrase; NP = Noun Phrase; VG = Verb Group; NG = Noun Group; NE = Named Entity; DE = Data Entity; Pred = Predicate; CL = Clause;
3 句法:H = Head; O = Object; S = Subject;M = Modifier; R = Adverbial; (veryR = Intensifier-adverbial;possM = possessive-modifier); NX = Next; CN = Conjoin; sCL = Subject Clause;oCL = Object Clause; mCL = Modifier/Relative Clause; Z = Functional; X = Optional Function
2 短语:VP = Verb Phrase; AP = Adjective Phrase; NP = Noun Phrase; VG = Verb Group; NG = Noun Group; NE = Named Entity; DE = Data Entity; Pred = Predicate; CL = Clause;
3 句法:H = Head; O = Object; S = Subject;M = Modifier; R = Adverbial; (veryR = Intensifier-Adverbial); NX = Next; CN = Conjoin; sCL = Subject Clause;oCL = Object Clause; mCL = Modifier/Relative Clause; Z = Functional; X = Optional Function
89风波后不久,第二届机器翻译高峰会议在德国慕尼黑举行。我代表刘倬老师在会议上介绍了我们的翻译系统,董老师也到会。会后,我们应邀去荷兰BSO公司的多语机器翻译小组,参加他们的 Chinese week,讨论把中文加入到他们多语计划中的议题,以及探讨中文处理的挑战(见《朝华午拾:欧洲之行》)。
很多年后,董老师给我来信说,孩子们整理老照片,翻出来一张在荷兰的合影,感觉很珍贵。Witkam 就是照片上的BSO项目组长,当年是他从欧共体争取到机器翻译项目的基金,BSO公司 match 另一半,这才成就了他们以世界语为轴心语言的多语言机器翻译项目的五年计划。其中的中文部分就是我为他们做的依存关系文法(我的《朝华》系列有记述【一夜成为万元户】:全是纸上谈兵的一套,但也勾画了中文形式化的雏形(见:【美梦成真通俗版】)。当年董老师对我的这个工作赞许有加。
除了已经死去的语言,语言的地理分布不难确认。可世界语国(Esperantio)在哪里?世界语者(Esperantistoj)会很自豪地告诉你:nenie kaj chie (哪里都没有,可又无所不在). Esperantio estas tie kie estas Esperantistoj. (哪里有世界语者,哪里就成为世界语国。) 这使我想起我的基督徒朋友,他们对精神家园也有类似的表述。圣经说(大意),哪里有基督徒聚会,哪里就是我的国度。
圣马力诺世界语科学院院长、西德控制论专家 Frank 教授是致力于世界语和科技相结合的头面人物。Frank 一家都热衷于世界语活动,在71届世界语大会前,他携夫人和女儿全家来访。来之前,信息管理系主任、老世界语者欧阳文道跟我联系,安排我为 Frank 全家现场表演我编制的世界语软件:一是我的硕士项目,一个世界语到汉语和英语的自动翻译系统(叫 E-Ch/A),二是我编制的一个英语到世界语的术语自动转写系统(叫 TERMINO)。这是他接待 Frank 教授的一个重头戏。我于是认真准备,在机房等待欧阳先生陪 Frank 全家进来。我的印象是,Frank 教授西装革履,风度翩翩,他太太雍容华贵,和蔼可亲,两个金发女儿,也亮丽鲜艳。我用世界语招呼客人后,一边讲解,一边演示。果然,Frank 教授一家对我的两个系统兴趣浓厚,当场试验了几个句子和一批术语,连连称赞。Frank 当即问我,你能尽快把该系统的概述给我的杂志发表么?我说,已经提交世界语科技研讨会了。教授说,没有关系,我们不介意,只要你允许我发表即可。Frank 教授回国后,以最快时间在他的控制论杂志作为首篇刊发了我的系统概述,这成为我学术生涯上在科技刊物正式发表的第一篇论文。我也被吸收为圣马力诺世界语科学院成员。不仅如此,Frank 教授随后在他给陈原和欧阳文道诸先生的探讨中德合作计划的长信中,强调要资助立委硕士到他的实验室继续开发这套系统。可惜,由于种种原因,我未能成行。(见《朝华午拾:一夜成为万元户》)
说到伊朗世界语者,还遇到一位姑娘,身材高挑,皮肤白皙,极为漂亮,可惜世界语只是初级水平,不易沟通。她是由母亲(也很年轻,有人说她们是姐妹)带领来参加盛会的。漂亮姑娘谁不愿意多看一眼,所以在大会组织到长城游览时,我就有意无意跟在她一拨登长城。记得在长城半路,遇到外院一批小伙子下长城,这几个挺帅气的小伙子同时在少女前停下来,惊为天人。他们毫不掩饰地赞叹,天哪,你怎么这么漂亮。(我还是第一次听到中国小伙子当面夸姑娘漂亮,但是他们的率真很可爱)。姑娘微笑不语(大概也不会英语),小伙子于是转向她的妈妈:“Your sister is so beautiful”。妈妈说:“Thanks. But she is my daughter.” 言语里透出无限的自豪骄傲,看样子她当年肯定也是个大美人。后来我想,原来,人的爱美之心都是一样的。记得当时,北京电视台摄影记者大会采访,也随我们登上了长城,跟我们一样兴奋,制作了关于世界语的一个文艺片,还配上了很好听的歌曲。(真的是好制作,可惜只播放了一次,不知道有没有有心人存录下来)。
人都说世界语不是任何人的母语,只是部分无产阶级或者小资产阶级的业余爱好。其实,因为热衷世界语的人往往喜欢国际交往和各处旅游,结果成就了很多婚姻。这样的世界语家庭里面已经出现了一批母语(家庭用语)是世界语的后代。71届世界语大会时候遇到过一批来自欧洲的这样的少年,他们很自豪地告诉我:“Ni estas denaskaj Esperantistoj” (We are Esperantists by birth)。
刘:第二家加拿大公司因被发现害虫而被从向中国运输油菜籽的名单中除名。Google翻译:The second Canadian company was removed from the list of transporting rapeseed to China due to the discovery of pests.
白:张三因被发现考试作弊而被从向欧洲派遣的留学生名单中除名 John Doe was removed from the list of foreign students sent to Europe after he was found to have cheated on a test --来自 @彩云小译
下面说下感受,必须承认之前本人还停留在规则系统教训的层面,另外,就是顾虑要扯入的人工工作量大的问题。若是李老师通过这样的俯瞰语言,化繁为简,调整规则能达到信手拈来,那么在机器学习满天飞的当下,这存量稀少的规则派之花,自有它的春天。如今是个多元的世界,允许各路英雄竞技,只要有独到之处,更何况人工智能皇冠上明珠,尚无人触及,怎下定论都是早。也曾闻工业界很多可靠的规则系统在默默运行,而学术界则只为提高小小百分点而狂堆系统,专挑好的蛋糕数据大把喂上,哪管产业是否能现实中落地。当然对于人工规则系统 VS 机器学习系统,能有怎样的结局,我确实没有定论,要么一方好的东西自然会好的走下去,要么两方都走得不错而难分输赢,或者发现只有结伴相携更能走远,那谁还能拦着么!
想起来20年前开始做个人网页玩,学了点 HTML. 后来MS Word 等,所见即所得,做各种图文并茂的网页都很容易,满意了,save as HTML 一切搞定。出于好奇,有时候会看看那些自动生成的 HTML 编码是怎样的。与自己手工编码比较,那叫一个繁复,绝对不是人认为的到达最终显示效果的最佳路径。很多冗余,弯路,叠床架屋,看上去的无用功。但没关系,最终结果是确定的。