以前常常有“老外最常见的中文错误”,或者“中国人最常见的英文错误”。现在有了立等可取的免费解决方案了。就是在交作业之前,找一家信得过的网上机器翻译网站(我用的是有道和搜狗),在中英之间倒腾一遍就齐了(其实不会太久就不用这么来回倒腾,一定会有团队直接在本语言中做“翻译”,从A到A' 把不通顺的语句改写成通顺的说法,实际上就是“写作助手”类应用。)
A --》B --》A'
刚才到网上查老外的中文错误,见到这个:“盘点老外常错的中文语法点” 。根据里面列举的典型案例,我们试试这个技巧。
遇到的第一个错误是搭配不对:英文都是 strong,可在中文的搭配习惯上,“咖啡”论“浓”不论“强壮”:
“对不起老师,我昨天没睡好,因为喝的咖啡太强壮了”
搜狗MT: --》Sorry teacher, I didn't sleep well yesterday because the coffee I drank was too strong.
然后 翻译回去:--》对不起老师,昨天我睡不好,因为我喝的咖啡太浓了
搭配是语言学习的难点,因为每个语言搭配的习惯不同,不怎么讲道理。没个10年8年的功夫,是很难学会地道的语言搭配习惯的。我女儿从小在家听中文,周末上中文学校,现在开口闭口还是: “我不要穿这个帽子”、“我穿的眼镜 不好看”,纠正过无数次了,还是改不了。
“我不要穿这个帽子” --》I don't want to wear this hat.
--》我不想戴这顶帽子。
“我穿的眼镜 不好看” --》The glasses I wear don't look good.
--》我戴的眼镜不好看。
老师千叮咛万嘱咐:帽子是“戴”的不是“穿”的,帽子要论“顶”,不论“个”。哪里如用的时候随时上网请教一下MT呢,其实让机器把关最放心。
③ “了”这个大难点
“我和我的老师们一起去了旅游”,“我昨天吃了饭,然后洗了澡”“了”的难点在于本身有很多规则,而且这些规则还总有例外,用在句中还是句末,用在过去还是变化,就连中国人也很难说得清楚。
MT 里面来回一倒腾,这个不该用的“了” 就飞了 :
“我和我的老师们一起去了旅游” --》I went on a tour with my teachers
--》我和老师一起去旅游
问题是 去+V 中间不合适加“了”,可是老外(甚至老中)哪里知道啊,“went” 在他脑子里呢,出来的时候就成了 “去了”。
无论是老外学中文的难点,还是老中学英文的难点。说到底 大多是对于千千万万鸡零狗碎的与自己母语不同的搭配、语序等等语言习惯,搞不定。记不住啊,除非是没完没了的练习(drills),并且需要不间断地使用。可是大部分人做不到。可是机器没这个问题。
讲解说:“放假快来了”,“放假”是一个动词,学生经常和“假期”搞混了,说出来的句子自然不地道!
?“放假快来了” --》The holiday is coming soon. --》假期快到了。
?我打算了几个计划 --》I made several plans --》 我做了几个计划
“做-计划” 应该算顺了,至少比“打算-计划”的搭配好。不过没实验前,我头脑里想的是 “订-计划”。从有道MT转到搜狗MT,出来的还是“做-计划” 而不是“订-计划”,相信数据里面,前者比后者的搭配频率一定高得多吧。虽然后者显得更加地道,因为用的不是高频的”做“。对于搭配,其实低频率的语素(作为搭配的部件)更加地道。目前的模型显然贯彻不了这个启发式指导。
对于自然语言,生成从严,分析从宽。学外语搞不定的就是不知道如何“从严”。生成出来的外语句子就常常不顺畅,不地道。听上去就是老外。可是语言模型是在大数据上学出来的,虽然语言里面也有各种不顺畅不合法的东西,但是统计上看,飘在上面的,总是趋向于大众常说常见的顺畅的句式。因此利用MT帮助把句子“捋顺”,常常特别见效。
“盘点老外常错的中文语法点”中指出了语序方面的问题:
?“我回去台湾一年一次” 用有道MT就成了:
--》 I go back to Taiwan once a year
--》 再把它翻译回中文,句子语序就顺了:我每年回台湾一次。
好,下面自己造几句 Chinglish,按照中文习惯来几句洋泾浜:
she body tall, face beautiful, head smart --》 她身材高大,面容美丽,头脑聪明 --》He is tall, beautiful in face and intelligent in mind.
语句通顺方面,搜狗MT互译是做到了把国人的洋泾浜转化成了合法通顺流畅的英文。(可惜大事聪明小事糊涂,居然把“她”错译成了“He”)
其实,我们老中之所以会整出洋泾浜英语,就是因为头脑里面的意思是母语形式表现的(诸如 “她身材高挑、盘儿靓、脑子聪明”),然后就把词汇替换成英文蹦出来。把洋泾浜翻译回中文,然后再翻译到英文,等价于直接做汉英自动翻译。
随处可见的英文错误,有些还是比较正式的通知,本来都是可以自动提醒克服的,可惜软件不到位,今天又见一例,随手做了个MT倒腾改错:
We offer our apologies to you for the inconvenience has caused you. ==》 对于给您带来的不便,我们向您道歉。
==》We apologize for the inconvenience.
比起原文啰里八嗦还有文法错,机器倒腾过来的,多么精简规范!本来这一切都是可以自动的呀。
另外 由此突然冒出个产品经理梦寐以求的灵感。可以专门针对不同文体训练机器写应用文的套路。这个服务保不准比不同语言之间的翻译会更火,因为写文章、报告等是每个人的任务,特别是在时间和老板压力下。现在,改错字、零星的文法错误已经有非常好的软件了,譬如我每天使用的 Grammarly,但还没见谁有意识地整篇文章,用神经自我翻译的方式,帮助作文差的人,瞬时提高顺畅度。这个市场定位的主意可是NLP应用的一个金点子啊,先放在这里。不太远的未来,肯定会有人这么做,这么吆喝(市场化)的。没道理不火。
【相关】