告诉你一个写外语避免常见错误的实用技巧

以前常常有“老外最常见的中文错误”,或者“中国人最常见的英文错误”。现在有了立等可取的免费解决方案了。就是在交作业之前,找一家信得过的网上机器翻译网站(我用的是有道和搜狗),在中英之间倒腾一遍就齐了(其实不会太久就不用这么来回倒腾,一定会有团队直接在本语言中做“翻译”,从A到A’ 把不通顺的语句改写成通顺的说法,实际上就是“写作助手”类应用。)

A   –》B   –》A’

刚才到网上查老外的中文错误,见到这个:“盘点老外常错的中文语法点” 。根据里面列举的典型案例,我们试试这个技巧。

遇到的第一个错误是搭配不对:英文都是 strong,可在中文的搭配习惯上,“咖啡”论“浓”不论“强壮”:

“对不起老师,我昨天没睡好,因为喝的咖啡太强壮了”

搜狗MT: –》Sorry teacher, I didn’t sleep well yesterday because the coffee I drank was too strong.

然后 翻译回去:–》对不起老师,昨天我睡不好,因为我喝的咖啡太浓了

搭配是语言学习的难点,因为每个语言搭配的习惯不同,不怎么讲道理。没个10年8年的功夫,是很难学会地道的语言搭配习惯的。我女儿从小在家听中文,周末上中文学校,现在开口闭口还是: “我不要穿这个帽子”、“我穿的眼镜 不好看”,纠正过无数次了,还是改不了。

“我不要穿这个帽子” –》I don’t want to wear this hat.
–》我不想戴这顶帽子。

“我穿的眼镜 不好看” –》The glasses I wear don’t look good.
–》我戴的眼镜不好看。

老师千叮咛万嘱咐:帽子是“戴”的不是“穿”的,帽子要论“顶”,不论“个”。哪里如用的时候随时上网请教一下MT呢,其实让机器把关最放心。

③ “了”这个大难点 

“我和我的老师们一起去了旅游”,“我昨天吃了饭,然后洗了澡”“了”的难点在于本身有很多规则,而且这些规则还总有例外,用在句中还是句末,用在过去还是变化,就连中国人也很难说得清楚。

MT 里面来回一倒腾,这个不该用的“了” 就飞了 :

“我和我的老师们一起去了旅游” –》I went on a tour with my teachers  
–》我和老师一起去旅游

问题是 去+V 中间不合适加“了”,可是老外(甚至老中)哪里知道啊,“went” 在他脑子里呢,出来的时候就成了 “去了”。

无论是老外学中文的难点,还是老中学英文的难点。说到底 大多是对于千千万万鸡零狗碎的与自己母语不同的搭配、语序等等语言习惯,搞不定。记不住啊,除非是没完没了的练习(drills),并且需要不间断地使用。可是大部分人做不到。可是机器没这个问题。

讲解说:“放假快来了”,“放假”是一个动词,学生经常和“假期”搞混了,说出来的句子自然不地道!

?“放假快来了” –》The holiday is coming soon. –》假期快到了。

?我打算了几个计划  –》I made several plans –》 我做了几个计划

“做-计划” 应该算顺了,至少比“打算-计划”的搭配好。不过没实验前,我头脑里想的是 “订-计划”。从有道MT转到搜狗MT,出来的还是“做-计划” 而不是“订-计划”,相信数据里面,前者比后者的搭配频率一定高得多吧。虽然后者显得更加地道,因为用的不是高频的”做“。对于搭配,其实低频率的语素(作为搭配的部件)更加地道。目前的模型显然贯彻不了这个启发式指导。

对于自然语言,生成从严,分析从宽。学外语搞不定的就是不知道如何“从严”。生成出来的外语句子就常常不顺畅,不地道。听上去就是老外。可是语言模型是在大数据上学出来的,虽然语言里面也有各种不顺畅不合法的东西,但是统计上看,飘在上面的,总是趋向于大众常说常见的顺畅的句式。因此利用MT帮助把句子“捋顺”,常常特别见效。

盘点老外常错的中文语法点”中指出了语序方面的问题:

?“我回去台湾一年一次” 用有道MT就成了:
–》 I go back to Taiwan once a year
–》 再把它翻译回中文,句子语序就顺了:我每年回台湾一次。

好,下面自己造几句 Chinglish,按照中文习惯来几句洋泾浜:

she body tall, face beautiful, head smart –》 她身材高大,面容美丽,头脑聪明 –》He is tall, beautiful in face and intelligent in mind.

语句通顺方面,搜狗MT互译是做到了把国人的洋泾浜转化成了合法通顺流畅的英文。(可惜大事聪明小事糊涂,居然把“她”错译成了“He”)

其实,我们老中之所以会整出洋泾浜英语,就是因为头脑里面的意思是母语形式表现的(诸如 “她身材高挑、盘儿靓、脑子聪明”),然后就把词汇替换成英文蹦出来。把洋泾浜翻译回中文,然后再翻译到英文,等价于直接做汉英自动翻译。

随处可见的英文错误,有些还是比较正式的通知,本来都是可以自动提醒克服的,可惜软件不到位,今天又见一例,随手做了个MT倒腾改错:

We offer our apologies to you for the inconvenience has caused you. ==》 对于给您带来的不便,我们向您道歉。
==》We apologize for the inconvenience.

比起原文啰里八嗦还有文法错,机器倒腾过来的,多么精简规范!本来这一切都是可以自动的呀。

另外 由此突然冒出个产品经理梦寐以求的灵感。可以专门针对不同文体训练机器写应用文的套路。这个服务保不准比不同语言之间的翻译会更火,因为写文章、报告等是每个人的任务,特别是在时间和老板压力下。现在,改错字、零星的文法错误已经有非常好的软件了,譬如我每天使用的 Grammarly,但还没见谁有意识地整篇文章,用神经自我翻译的方式,帮助作文差的人,瞬时提高顺畅度。这个市场定位的主意可是NLP应用的一个金点子啊,先放在这里。不太远的未来,肯定会有人这么做,这么吆喝(市场化)的。没道理不火。

【相关】

https://fanyi.sogou.com/

http://fanyi.youdao.com/

盘点老外常错的中文语法点

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

发布者

liweinlp

立委博士,自然语言处理(NLP)资深架构师,Principle Scientist, jd-valley, Netbase前首席科学家,期间指挥团队研发了18种语言的理解和应用系统。特别是汉语和英语,具有世界一流的分析(parsing)精度,并且做到鲁棒、线速,scale up to 大数据,语义落地到数据挖掘和问答产品。Cymfony前研发副总,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个美国国防部的信息抽取项目(PI for 17 SBIRs)。立委NLP工作的应用方向包括大数据舆情挖掘、客户情报、信息抽取、知识图谱、问答系统、智能助理、语义搜索等等。

发表评论