【李白106: “应用文写作助手”的金点子再议】

立委按:嘿 将来普及了 别忘了咱们做的思考和可行性实验哟。微软 office 为啥成为摇钱树 因为人总要写字吧。写作助手类应用为啥会风行 因为人免不了写不好字呀。难得的AI市场切入角度呀 别一窝蜂都去做聊天 bots 啦 已经水泄不通啦 MT 也是如此 搜索巨头把市场基本做死了 如何跟免费竞争?

白:“如果技术达到了那一步,我想不出任何问题是技术解决不了的。”

单看后半句,有歧义,而且sentiment相反。

我想/不出任何问题/是/技术/解决不了的
我/想不出/任何问题/是/技术/解决不了的

联系前半句和常识,可以排除对技术低估的意思,只留下对技术高估的意思。

李:前面那个意思 要使劲想 才想得出来。

不出任何问题/是/技术/解决不了的 == 技术/解决不了/不出任何问题

显得勉强的原因大概是 “解决”的宾语坑要求的是NP,通常不带VP。

? 解决不了野火蔓延

解决不了野火蔓延的问题。

严格说,应该是:技术/解决不了/不出任何问题的问题。

白:不出任何问题的诉求

李:对,不出任何问题 是好事。

白:谓词性成分的上位概念是体词,这没什么不可以。

李:这就回到了所谓名物化(nominalization)。中文这边,零形式的名物化是一个“鬼”,说它不存在,似乎看得到影子。说它存在,却几乎总是摸不着。容易走火。

白:另一端挖的坑只要足够抽象,就容得下这个鬼。解决,挖的坑就属于“足够抽象”那种。

李:“足够抽象” 不好清晰界定。赶巧了,上面的句子听上去还不算别扭,但是感觉很难伸展到其他的谓词。

?技术解决不了不吃饭

?技术解决不了不认真读书

白:和“那个集合”中的元素构成强搭配:

我收到了他自杀未遂(的消息)

张三不愿意正视两地分居(的现状)

括号里的名词是之前谓词性成分的上位名词,和主干谓词构成强搭配。相当于分别以主干谓词节点和谓词性宾语成分节点为圆心,以适当半径画圆,有个不言自明的交点。本体的几何。

李:我的语感可以接受:张三不愿意正视两地分居。但很难接受: ? 我收到了他自杀未遂。

白:分析从宽。

接受不接受无关紧要,不错到别人家里就没关系。

把“收到”换成“听说”,自然?

李:“听说”自然没问题。“听说” 的句法子范畴挖的坑是 Clause/VP or NP,谓词性的为先。“听说他走了”。

白:那个NP的语义本质是VP的上位。在口语里把括号里的省略掉,不影响理解。

李:对,不影响理解,意思都在,就是不符合搭配习惯,萝卜与坑有违和感。这不正是可以借助机器的地方吗?让机器来帮助把句子写顺,前几天提出过这个利用MT倒腾的小窍门:告诉你一个写外语避免常见错误的实用技巧。

可以试试:

我收到了他自杀未遂 --》 I received his attempted suicide --》 我收到了他企图自杀的信。

哇塞,加了 “的信”二字,听上去顺溜多了。截个屏,留存个突破天花板的神(经)迹。(好玩的插曲:“自杀未遂” 来回一倒腾 成了 “企图自杀”,意思没变。)

不得不说,MT发展到今天的“神经”程度,在信达雅之外,多了一个“改良”的维度。以前谈“信达雅” 是以原文作为天花板,然后讲的是翻译过程中 如何尽可能达到原文的品质,从这几个角度来看。现在可以说,MT 可以让破烂的文字,翻译为通顺的文字。也就是说,目标语表述终于有了突破原文天花板的可能了。这可是违背了取法乎上仅得其中的经验法则哟。取法乎下,可得其中哪。

这个奇迹是怎么发生的?

白:这就好比,正确的理解是一些深坑(学术上叫“稳定吸引子”),错误的表达好比球放到了斜坡上,重力自会把它“吸”到深坑里去。只要放球的斜坡处在深坑的喇叭口处。

李:对。这个奇迹的发生 是一种 propagation 的结果。在大数据中,良性熏染强过 error propagation。MT 实际上取法的不是原文输入文句,那个原文只是一个种子,一个引子。真正取法的是目标语大数据。大数据的平均品质必然高于 broken Chinese (or broken English)。因此虽然 trigger 是 broken 的,结果却是好的。

白:大数据是表象。稳定吸引子才是精髓。大数据砸出坑,最后起作用是坑。

李:坑的吸引这些东西 还是需要有足够的数据才能奏效。

以前责怪过神经MT的无中生有(除了张冠李戴指鹿为马外),以为它只会产生弊端/副作用,典型的为通顺,牺牲忠实。现在看来,也有无中生有并不怎么牺牲忠实却带来了通顺好处的情形。前面例子无中生有出来的 “的信” 就是一个改良。因为大数据里面,“收到”后面几乎总是有个抽象名词,突然没有了,那就无中生有给加上一个“(收到......) 的信”。要是somehow 能改为:“我收到了他企图自杀的信息”,那就更好了。“信息” 比 “信” 更加抽象,更适合无中生有,而不产生副作用。其实相信大数据里面“收到 -- 信/信息”都是存在的 但是前者压倒了后者。因此 “无中生有最好采用抽象虚指的词填坑” 这个立足于本体子范畴知识的启发式(heuristic),在目前的模型里面不能贯彻。可以归纳出来的不同角度的启发式这种东西,还是符号系统容易带入,神经比较难。

白:这也可以通过好的本体来做。两弧相交,一样得出无中生有的东东,符号路线本身并不禁止这个。收到+“那个”也是可以的,而且更加抽象,管它是信还是信息。

李:其实 这次”MT倒腾改进表达“的实验,翻译过来的英文本身仍很破烂,如果足够好的话,第一步从破烂中文翻译成英文的时候,就应该已经克服了这个“receive … suicide“ 动宾搭配不当的问题,因为英文的 receive 也是子范畴规定宾语坑要用 NP 而不是 VP的。可惜这一步没到位。好在,翻回中文的时候,良性熏染出效果了。就是说 这么一倒腾 实际上给机器两次改正的机会,somehow 英文的大数据模型在这个数据点上 不够强。预期的改良没有实现,但是还有个中文大数据的第二次机会。

白:真想做改良这个事情,其实完全无需借道MT,作为一个独立的端到端任务,可以做得更好。

李:这就是我前几天说的,A--》A' 的主意 (见 告诉你一个写外语避免常见错误的实用技巧),不用 A --》B --》A'。直接来帮助改进文字,辅助写作,弄得好的话,这可是产品的金点子。

奇怪,写诗写词,都有人做了。写应用文这种惠济苍生的事儿,却还没人在做。这几天的实验实际上已经验证了可行性。剩下的就是产品定位和实际去做了。以后那些文秘可真地要面临失业危险了,据说多数中文系出来的文秘就是为老板写应用文 要写得比较溜 不同文书有不同规范。等到每一个应用文都训练出一个模型后,比一般秘书做得好,几乎是肯定的了。以后 秘书就是留下来 也省力多了,胡乱起草一个文书 只要意思大体在 交给机器生成规范的应用文,比自己在那儿费劲拽好多了。

白:规范就是稳定吸引子。

李:现在可以训练机器讲话,奥巴马可以用自己的调调发表中文演说,惟妙惟肖。很快,也应该可以训练机器写出不同风格的文字,越八股的类型 越好模仿。

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

发布者

立委

立委博士,问问副总裁,聚焦大模型及其应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据