GPT-4o的多模态生图让整个设计界陷入了情绪低落。
GPT4o的多模态生图功能在前天上线后,经过两天的广泛使用和反馈,其应用价值和效果不断提升。在我的社交群组中,可以看到越来越多的实例显示,这一技术已被应用于实际生产过程。例如,银海公司直接利用这项技术进行商品图的翻译和合成,这是之前算法难以实现的效果,但现在似乎变得轻而易举
非常复杂的电商流程,一张原始图,换产品换脸换衣服。
例如,@歸藏直接将UI图放入样机中的案例。如果有做过UI或产品设计的朋友一定会明白,以前在制作展示或汇报时,创建样机的过程常常令人感到相当痛苦。
比如给他头像,画的两套表情包,是可以直接上架到微信表情商店的那种。

比如我一个很喜欢的小红书AI博主@Rico有三猫,用GPT-4o给她做小红书封面。
群友@默月佥也利用GPT-4o直接制作了商品图的翻译,帮助产品出海。同时,她还在使用GPT-4o制作蜜蜂解剖的科普图。
一位非常专业的公众号AI博主@阿真lrene,不仅利用GPT-4o生成复杂的漫画作品,还能轻松抠图,直接输出透明通道的PNG图像。
击败各种抠图软件的不是更先进的抠图工具,而是人工智能大模型。此外,还有朋友@不知名网友虎子哥 使用GPT-4来帮助他装修自己的房子。
还有一些我确实不知道源头的但被广泛传播的例子(如有作者,欢迎在评论区认领)。为几个家具制作一个展示图,在电商领域这是一个非常强大的展示手法。
之前我写可灵的AI模特的时候,很多人问,能不能让模特带首饰?现在,可以了。
还用它,直接P图,消除人物。
老照片一键修复+上色。
甚至,还可以模仿字体做自体设计。
在GPT-4o的影响下,许多设计师和创业者都感到有些沮丧。例如,有位大佬在X平台上感慨道:
朋友圈里还看到了一张图,是glif的老板,在X上发的。
在科技迅速发展的今天,我们见证了无数创新的诞生与消亡。OpenAI的最新更新如同一次精准的打击,让许多公司感受到了生存的危机。这不禁让人想起了《三体》中的那句经典台词:“我消灭你,与你无关。”在GPT-4o带来的冲击波中,我们不禁要问:它的上限在哪里?它能够达到什么样的成就?它真的能够完全替代ComfyUI这样的AI图像工作流工具吗?为了找到答案,我们首先需要了解ComfyUI是什么。ComfyUI是一个高度专业的综合型工作流工具,不仅限于AI绘图,还可以处理AI视频等任务。它的界面设计类似于电路板,复杂而精密。
这就是在Liblib上搭建的ComfyUI工作流。
它采用节点方式,将各个工具和模型串联起来,形成完整的工作流。 例如,输入一张图像后,经过多个节点和插件处理,可以输出一段风格迥异的AI视频,这一切都是可行的。
坦率地说,我并不是ComfyUI的专家,之前做过的工作流也不多。 因此,我觉得在这个领域我不具备很强的发言权,于是我去请教了我的好朋友,AI绘图大神@炼丹师忠忠。
我想了解他的看法。
首先,GPT-4o对电商设计的影响究竟有多大?
我和忠忠聊了很久。
最后得出的结论与我在设计行业里的感受相似。
对于普通水平的电商设计师来说,确实会受到冲击,因为他们的技能水平往往只能产出与GPT-4o相当的图像,显得意义不大。
上游的运营专员可以轻松使用工具,自己生成同样质量的图像。 与被冲击的插画师类似,他们的角色可能转变为帮助修正GPT-4o生成图像中的错误,或者在原图上添加细节以增强效果(类似于高低频修复的流程)。
随着生产成本的降低,需求量会随之增加。 以前无法负担华丽背景图的商家,现在也能够使用了。
目前,许多工具如美图设计室等,都能通过极简操作生成图像,而GPT-4o在某些效果上更进一步。 但从专业的商业生产角度来看,影响可能并没有那么显著。
而从视觉设计的角度来看,这对现有的开源生态反而是一个利好。
忠忠举了他为公司设计IP的例子。
现在,只需一句话就可以将IP的3D模型直接输出到品牌海报上,而不需要再经过以前的3D建模和渲染过程,这样大大节省了时间。
同时,更有趣的一点是,GPT-4o可以根据一张IP草图,来生成这个IP的各角度视图。
这些图像将进一步推动像flux这样开源模型微调版本的效果。
你可能会问,既然有了GPT-4o,为什么还要去微调flux,甚至在ComfyUI中搭建工作流呢? 这不是多此一举吗?
其实,原因有两个。
数据隐私性和精准性。
数据隐私这一点很好理解,GPT-4o是一个闭源模型,最好的情况可能是开放一个API,让大家可以将其接入ComfyUI使用。 但就OpenAI的习惯而言,我们给过去的数据,很可能会成为其后续训练的素材。
举个例子,如果《流浪地球3》计划在2027年上映,现在美术组把核心概念图或者设定图直接提供给GPT-4o进行处理,等到电影上映时,你可能可以在GPT-5o中看到相同的设定图,这样的泄露就有点可怕了……
因此,数据隐私性至关重要。 在实际的生产环境中,尤其是一些大公司,必须使用本地部署的ComfyUI,确保输出来自本地环境,并且使用开源模型。
在这种情况下,我们可以将一些不太敏感的数据交给GPT-4o,利用它来辅助生成数据集,再反向微调自己的flux模型。 这一步,确实非常有用。
精准性方面其实也很简单。回过头来看忠忠利用GPT-4o输出的公司IP海报,我们可以看到,它在处理精准性方面是有优势的。
暂时不谈其他细节,光从这几处就能发现一些明显的BUG。
在生产环境中,这类BUG是品牌方无法接受的。 比如你为一款手机产品做广告,如果把手机的外观弄得变形了,你再怎么解释说“AI生成的就是这样”,对方肯定不会轻易接受,甚至可能直接把你挂在电风扇上转着打。
而在这种情况下,使用Flux专门微调过的Lora,就能够完美解决精准性和一致性的问题。
这其实是普通设计场景与专业设计场景之间的区别。
GPT-4o无疑能够替代大部分普通工作流,这会让ComfyUI中的很多工作流失去价值,但这并不意味着ComfyUI就失去了它的价值。
一个很简单的原因是,在专业设计工作中,单纯依赖对话式的简单界面无法满足复杂和专业的需求。
就像你问一个专业设计师,为什么他们选择用PS来做设计,而不是美图秀秀,设计师可能会觉得你很傻。
在真正的专业AI设计工作中,可控性是非常重要的。
你需要精确地规定哪些区域需要重绘,精确调整风格效果、输出尺寸、比例等。 因此,在专业的生产中,很多需要精细调整的细节,不能依赖OpenAI去完成所有功能。
还涉及到前后处理流程,比如前置的裁剪、抠图、语义识别,以及后置的一些操作,如图片放大、修复原图细节(高低频修复),然后再接入其他工作流继续处理等。
相比于多轮对话,自动化的一键式处理效率要高得多。
尤其是在一些对精准度要求极高的产品和场景中,GPT-4o目前还无法达到专业级的水准。
举个例子。
假设我们要将问界M9这款车放到另一个场景中进行展示。车类产品的精细度要求与笔、戒指、香水等物品完全不同。
这是GPT-4o出的图。
而如果我们用大佬的牛逼工作流呢?
生成出来的效果在整体比例和质感上,是更好的。
对比应该非常明显。
在这里,我要先为自己做个小总结,我并不是在说GPT-4o不行,或者ComfyUI的效果能够碾压GPT-4o。
如果真是这样,我也不会连着发布两篇文章,给大家展示GPT-4o到底有多酷、多强。
我想表达的是,GPT-4o,跟当年的SD、Midjourney、Runway、可灵等AI工具是一样的。
它会毫无差别地替代掉这个行业中的初级执行职位。
它会“屠杀”所有曾经在大模型工程层面进行的一些优化。
然后,一步一步地侵蚀更高层次的工作。
它更像是一个汹涌而来的潮水,一波波将整个AI图像领域原有的边界打得支离破碎。
大家常说做AI产品要抓住大模型的边界,在边界之外寻找安全地带。 但现在,你根本无法确定这些边界在哪里。
那些看起来很高的技术壁垒和复杂的工作流程,如果仅仅是基于简单的组装或初级执行逻辑,都正在被GPT-4o以几乎暴力的方式消解。
绝大多数机械化的工作,一旦被强大的多模态理解与生成所取代,就会像那些轰然倒塌的围墙一样,轻松被历史的尘埃覆盖。
这不禁让人想起第一次工业革命时,机器代替手工劳动的情景,难道这不就是那种即视感吗?
历史总是不断地在重复。
但正如前文所述,这并不意味着像ComfyUI这样的工具会完全被淘汰。
在工业级、专业级的深度工作流中,人们对数据安全、设计精度、可控性的需求不会凭空消失。
图像和视频的多次处理、分层输出、版本管理、批量运行的脚本化、自动化节点衔接等,都是大型企业或核心团队非常重视的内容。
GPT-4o会在C端以及中小型B端市场中迅猛发展,取代大量低端或重复性的工作。
而像ComfyUI、Flux、ControlNet等开源生态,则会在更专业的领域不断进化,凭借它们精细、可控、可离线部署的特点,为高端客户或机密项目提供服务。
这就像云端办公与本地办公的关系一样,前者无比便捷,后者则安全可控。
也像家用轿车与顶级跑车的差别,各自的目标用户群体并不冲突。
GPT-4o也一定会不断进化,扩展它的边界,蚕食更多的场景。
开源生态也会推出各种能够复刻效果的模型和产品,从而实现私有化。
没有什么能够阻挡浪潮的前进。
要么成为浪潮的追随者,要么成为浪潮的推动者。
这两者,无论哪个,肯定比做一块沉在海底的礁石更加精彩。
你说对吧?
以上,既然看到了这里,如果觉得不错,就随手点个赞吧,我们,下次再见。
1. 本站资源来源于公开互联网和网友投稿提供,若侵犯您的权益,请发送邮件至:yuankusc@qq.com,我们将第一时间处理!
2. 本站分享的资源版权均属于原作者所有,仅供大家学习和交流,严禁用于商业用途。若由于商用引起版权纠纷,一切责任均由使用者承担。
3. 如有链接无法下载、失效或广告,请联系管理员处理!
>>请点击此处联系客服<<