个性化精调模型 AIGC 老爸（8）

半年前，我用过一个图形软件刚推出来的个性化 fine tune 模型 feature，给老爸老照片做了精调，效果不好（碰运气，有的用户反应说效果很好），出来的形象老爸说不像。这是半年前的图片生成：

虽然有点影子，家里人都觉得总体不像。

现在重新做 fine tune，用的是 SDXL 1.0-finetune，效果似乎明显改善了。

但是，AI 预测人的不同年龄，实际上也是瞎蒙。因为随着岁月增长，人的形象改变有不同的方向，包括疾病、锻炼、营养等因素吧。这是 AI 根据老照片预测的90岁的形象：

这是老爸现在（88岁）的照片：

不能说预测完全离谱，但确实不像。

人物肖像应该是所有图画中，用生成模型产生作品最难让人满意的了，这是因为人的眼光对人的细微差别特别敏感，尤其是要让本人和亲友感觉很像，这是很难的。现在的 fine tune 水平，大约可以做到每生成四张，能有一张让人觉得像的，或可以接受的。对于特别挑剔的眼光，或者近距离的亲人来说，大约每10张生成能出现一张即便最挑剔的眼光也难以拒绝的作品来，不时还会让人感觉惊喜或震撼。

AIGC 甜甜儿时的尝试中就有一些惊喜，例如下面博文的前面几张肖像：

个性化精调图片生成实验（3）- AIGC 甜

尤其是这一幅水粉画，非常像，也很艺术：

我们人类看世界，由近而远。譬如，大千世界的实体，根据不同品类，其实在我们眼中都差不多。例如野生动物，这只虎与另一只虎，我们通常感觉都差不多（动物园饲养员自然会有更细致的区别能力）。到了宠物就有所不同，因为宠物进入了家庭，我们会坚持自己的猫咪与别人家的同类型的猫咪有所不同，但也还是大同小异。

我们看外国人，一开始觉得都长得差不多，大体上根据肤色、种族、性别和年龄，有一些类别而已，实体个体的差异我们没有那么敏感。据了解，西人看东亚人其实也觉得长得都差不多。但同种族内，我们就会对人的形象有各种区分，甚至一眼能看出一个人是从哪个地区来的。

到了亲友和熟人，细微的差别也都能看出不同来。所以，画得像不像很难骗过身边的亲友。俗话说，画鬼容易画人难。这对模型是一个极大的考验，尤其是考虑到生成模型实际上具有以下容易走偏的特征：fine tune 的样本有限，通常在 10-30张之间，与预训练基础大模型完全不成比例。

天然具有随机性的生成模型，其原理是根据预训练的基本模型所学到的人类形象的普遍特征，然后通过少量的 finetune 来逼近一个特定的实体形象。显然共性与个性的样本不成比例。这种情况下，能够迅速从人类的一般形象具像化到一个特定的实体，仅仅是少数几张样本的 trigger，这是一件一年前还难以想象的事情。把一个人的特征抓住，重现出不同场景的形象，做到真假莫辨，要让自己和亲友惊喜、服气，现在基本做到了。如今基础模型的发展及其 fine tune 技术，做到了对结果的可靠性有一定的保障了。

这其实开辟了很大的个人用图的想象空间，因为人的本性都是自我中心（“自我”的延伸也包括自己的亲友）。自拍为什么流行全世界，正是因为符合了人的本性。半年前就见到有修图软件配备了类似的能力，推出了“情侣照”系列，可以让任何 couple 惊喜。

当然，四分之一的良品率，10分之一的惊艳率，听上去还不够好，因为次品还是太多了。但考虑到生成模型可以没完没了快速生成，而人的判断拣选则是非常简单、直觉的，这个比例已经不会成为实际使用的障碍了。当然这里有个生成（属于“推理”）过程的成本问题，毕竟推理需要在线的算力。不过，成本会随着时间和技术进步而下降。

从商业模式来看，订阅式（例如缴纳年费）目前是给你一定量的 credits，每生成一次要用n个credits，以此来控制成本，限制滥用。但随着AIGC产品和服务的内卷和白菜化，不久就会出现类似手机流量公司推出过的 unlimited plan。这样来看 1/4 或 1/10，成本最终也不是问题。何况，随着模型技术的爬升，良品率有望进一步提高。

由于职业关系和技术控的思维定势，我对于业界领先的订阅付费式的AI工具和服务（chat，mj，nightcafe ......) 一律做 early adopters，好与我们的复现或创新工作有所比对。你会发现，AIGC 目前的确让人眼花缭乱，不断在演进。这是一个令人兴奋的技术爆发时代。

个性化精调图片生成实验（1）

个性化精调图片生成实验（2）

个性化精调图片生成实验（3）- AIGC 甜

个性化精调图片生成实验（4）

个性化精调图片生成实验（5）

个性化精调图片生成实验（6）: AIGC立委先生

个性化精调模型 AIGC 老哥（7）

个性化精调模型 AIGC 老爸（8）

个性化精调模型 AIGC 小妹（9）

发布者

立委

立委博士，多模态大模型应用咨询师。出门问问大模型团队前工程副总裁，聚焦大模型及其AIGC应用。Netbase前首席科学家10年，期间指挥研发了18种语言的理解和应用系统，鲁棒、线速，scale up to 社会媒体大数据，语义落地到舆情挖掘产品，成为美国NLP工业落地的领跑者。Cymfony前研发副总八年，曾荣获第一届问答系统第一名（TREC-8 QA Track），并赢得17个小企业创新研究的信息抽取项目（PI for 17 SBIRs）。查看立委的所有文章

发布者

立委

发表回复