《大数据人工智能时代的无中生有》

最近玩自称经过大数据训练的智能人脸上色的软件（colorize app），把收集到的黑白照片一股脑送进去试验。看黑白时代的亲朋旧友的留影，一个个突然鲜活起来，让人惊喜。分享给老友怀旧，大家都感觉很神奇。先看看当年的女神夏梦的彩色还原，还有小花陈冲。对了，还有光彩照人的绝代风华奥黛丽·赫本。

不要看胳臂和腿，还有手，彩色背景下跟乌爪子似的。这个软件专注人脸上色，还没顾上其他。人脸上色还是很到位的，不温不火，非常自然。我当年的黑白婚照也重放光彩了哈：

记得在黑白时代，照相馆里面有为照片上色的服务。一切全手工制作，描眉画眼，粉腮白肤，总是透着一种假，根本不如电脑上色的圆润自然。

这是什么黑科技？答曰，这是大数据时代人工智能的拿手好戏。“无中生有”的极致，乃是大数据AI的特长。

前两天看【新智元】的两篇报道，均配有样例图示。第一则是《杜克大学：AI工具精细还原模糊图像，可瞬间将分辨率提高64倍》。

第二则是《中科院DeepFaceDrawing：只需提供小学生水平的简单线条，便可生成逼真肖像》。

老友说：这个太牛了，警察可以根据画师的画大大缩小搜查范围。没摄像头的地方，只有有人看到嫌疑人，都可以用到这技术。

将来的应用可能是这样，根据目击者得来的简单素描，通过参数设置，生成一系列清晰图片，唤起目击者的记忆和印象，从中选择最近的那张。所谓脑补，或曰想象，大抵如此。

以前一直有个误解，以为“想象”、“脑补”（包括通过常识、场景知识和专业知识进行脑补）这种东西是人工智能不可企及的区域。这种东西是不大容易说清楚的，是知识的积淀，经验的积累。传统的符号派人工智能也做过尝试（譬如建立巨大无比的常识库如 cyc，试图施行常识推理），但是终归是太繁复，灰色地带大，缺乏确定性，效果和效益都遭遇挑战。没想到如今大数据与人工智能的结合，特别是深度神经网络技术的突破，为这些东西打开了一扇奇迹般的大门。无中生有不再是美梦一场。

做过常规音影处理的同学都知道，高清度的对象降低维度（譬如从彩色降到黑白）到低清度，没有任何问题，因为信息是处于减少的状态。但逆过程就是挑战，因为需要“无中生有”。这个挑战以前认为是不可克服的，巧妇也难为无米之炊呀。再大的魔术师也不能真正地无中生有吧？你看他台上从空盒子里面变出一只鸭出来，你心里明白那是假的。这只鸭子肯定是藏在哪里，魔术师用了障眼法，把观众唬住了而已。物质不灭，无中生有是绝对不可能的事情。魔术师自己也承认：魔术都是假的，各有巧妙不同。可人工智能的魔术却不是假的！

关于无中生有，AI老司机老毛说：其实也没那么神，数学上就有外推和插值，还有凭经验猜测，甚至可以随机插值。

这才叫知者不神，神者无知，hence 科普。人在无知的状态中，是很容易神化对象的，这是人的本性，否则人没法解释，也感觉不安。人工智能历史上有个现象，说的就是人对未知的神化，叫“伊莉莎效应”（拙文《反伊莉莎效应，人工智能的新概念》有介绍）。古往今来所谓奇迹，大多是常态的神化。反过来，也不能因为AI从业者时刻在创造或大或小的奇迹，就失去了庆祝的欣喜。每天面对屏幕中自己创造的奇迹，体验无中生有的上帝般的自由，也是人生一乐。我们走在无尽的大路上，由必然王国逼近自由王国，虽不能至，心向往之。

抒发完职业豪情，回头细看无中生有的背后。物质固然不灭，可观念世界似乎有所不同，更富弹性。然而最大熵定律仍然决定了，信息世界只会越来越趋向混沌，而不是反过来变成清晰。信息补漏是需要资源和能量的，从哪里来的呢？三个字，大数据。当然，光有数据，没有AI能力也不行。这是大数据AI的时代。

孤立地看一张照片，模糊转清晰，黑白转彩色，没有可能凭空而来。但是，有了大数据就不同了。而且这种大数据是天然的“带标数据”（labeled data）。以前说过，机器翻译大数据是天然带标，因为有人类翻译的历史积累。因此特别适合做端到端（end to end）的深度学习，所能达到的翻译质量，比很多学了好多年外语的人的翻译还要通顺得多。现在遇到的这个场景是另一类“自然”带标大数据的端到端场景。无论黑白转彩还是模糊转清晰，所有这些需要“无中生有”的应用场景，都有一个共同特点，就是可以对于大数据对象做“反操作”，从而把自身变成无穷无尽的带标大数据。一切都是全自动的，不需要人工标注，这是多么理想的大数据学习应用场景，不出奇迹也难。把收集到的彩色照片，一锤子全部砸成黑白，端到端的对应就建立起来。剩下的就是拟合了。

这种学习出来的无中生有，会有问题吗？当然有。第一是方向可能偏了，“还原”出来的东西与心目中的印象产生或大或小的距离。第二是趋同，大数据的统计本性，结果是中庸化了。如果原来的对象有独特的特征，大数据脑补是很难还原出独特性的。

对于第一个问题，解决办法前面说了，可以通过某种参数，或者通过某种随机因素，生成一系列候选，而不是唯一的结果，总会有一款比较接近你的想象、记忆或原物。对于第二个问题，其实可以通过大数据的定向化来逐步解决。譬如专门对亚裔建立大数据，专项处理亚裔图像还原的工作。同理，还可以把南方人北方人分开训练。

无中生有的工作，我们20年前就开始做。当年给罗马实验室做项目，遇到的一个难题是历史文献都是全大写。我们的自然语言引擎见到大写，常常当成专有名词了，质量是断崖式下跌。当时，很多 teams （包括 BBN）组织力量标注大写的文献，然后重新训练系统。而我的团队与 IBM 是第一个差不多同时决定不为信息抽取的目标做重新训练，而是先训练一个大小写还原的前处理器。结果整体质量大幅度提升，虽然当时还没有深度学习，用的是传统的机器学习。这是因为恢复大小写的工作可以做得很好，有几乎无穷的自然带标的训练数据（同样是利用大小写规范的文档一锤子砸成全大写）。

至于符号派经典机器翻译中无中生有的故事，上次的科普《语言形式的无中生有：从隐性到显性》已经介绍过了。那根本没用机器学习，但是也还是可以通过蛛丝马迹“无中生有”地生成欧洲语言的形态（形态生成）。那个无中生有的原理不同，依靠的是源语言（中文）文字中的信息冗余，外加语言习惯里的种种 heuristics （表达的习惯性总结），有时候还要加上一些类似“常识”的概念相谐的“脑补”。但老式符号机器翻译中的无中生有终归感觉很吃力，“功耗”很大。在无中生有这个课题上，不得不说，对于任何具有源源不断天然带标大数据的场景，还是大数据深度学习的路子最为强大。深度学习一统机器翻译天下，说明了大数据AI的压倒性优势。同理，图片还原也必然是大数据AI的领地，我们会看到越来越多的应用。可以预见，黑白电影时代的佳作，最终可以自动还原为彩色。

【相关】