找回密码
 立即注册
查看: 648|回复: 20

游戏要结束了:ControlNet正在补完AIGC工业化的最后一块拼图

[复制链接]
发表于 2023-3-1 12:51 | 显示全部楼层 |阅读模式
就在情人节前一天一款叫ControlNet的SD插件发布了,这款插件在短短的两天内成为了AI绘画领域最新的热点。而它的出现代表着AI生成开始进入真正可控的时期,而AIGC的可控性是它进入实际生产最关键的一环。
在此之前,大家用了很多方法想让AI生成的结果尽可能的符合要求,但是都不尽如人意,ControlNet 比之前的 img2img 要更加的精准和有效,可以直接提取画面的构图,人物的姿势和画面的深度信息等等。有了它的帮助,就不用频繁的用提示词来碰运气,抽卡式的创作了。
ControlNet的作者:张吕敏




ControlNet 的作者是一个2021年才本科毕业,目前正在斯坦福读博的中国人。
之前很火的 Style2Paints 也是他制作的,除此之外他还做了一款名为 YGOPro2 的Unity 纸牌游戏,这款游戏在国内外都有不少粉丝。


AI线稿上色这个领域一直都是他在做,感觉几乎没有其他人了,不知道是大厂嫌这块蛋糕太小还是其他原因。Style2Paints 今年1月已经迭代到了第5版。下图是Style2Paints 线稿到插画的示例图。


Style2Paints的项目地址:https://github.com/lllyasviel/style2paints/tree/master/V5_preview
在读博,写论文,做这些AI工具之余还能玩票做了一款热度还挺高的游戏,现在的00后都这么强的么?

ControlNet是什么?


ControlNet 直译就是控制网,ControlNet 是作者提出的一个新的神经网络概念,就是通过额外的输入来控制预训练的大模型,比如 stable diffusion。这个本质其实就是端对端的训练,早在2017年就有类似的AI模型出现,只不过这一次因为加入了 stable diffusion 这样优质的大模型,让这种端对端的训练有了更好的应用空间。
它很好的解决了文生图大模型的关键问题:单纯的关键词的控制方式无法满足对细节控制的需要。
ControlNet 把每一种不同类别的输入分别训练了模型,目前公开的有下面8个。分别是:canny,depth,hed,mlsd,normal,openpose,scribble,seg。



ControlNet 相关资源


ControlNet项目地址:https://github.com/lllyasviel/ControlNet
ControlNet 的 WebUI 扩展:https://github.com/Mikubill/sd-webui-controlnet#examples
模型下载(5G)https://huggingface.co/lllyasviel/ControlNet/tree/main/models
模型下载(700mb)https://huggingface.co/webui/ControlNet-modules-safetensors/tree/main

中文教程:
英文教程:https://www.youtube.com/watch?v=vFZgPyCJflE
https://www.youtube.com/watch?v=OxFcIv8Gq8o
https://www.youtube.com/watch?v=YJebdQ30UZQ
controlNet导入方法(日语)https://miro.com/app/board/uXjVPnNbqTA=/

ControlNet可以做什么?


1 canny 边缘检测,提取线稿
通过从原始图片中提取线稿,来生成同样构图的画面。这个案例是输入鸟的图片和提示词。



通过给线稿上色来制作的小动画,稳定性很好。


https://www.zhihu.com/video/1609677566062575616
图片来源:https://twitter.com/izumisatoshi05/status/1625835599017148416

2 depth 深度检测,提取深度图

通过提取原始图片中的深度信息,可以生成具有同样深度结构的图。


用Blender创建空间→创建深度图→用ControlNet Depth创建插图→粘贴为Blender空间中的纹理,就可以创建无限弹出的立体书


https://www.zhihu.com/video/1609677363276673024
来源:https://twitter.com/TDS_95514874/status/1625849823957233664

3 hed  HED边缘提取,跟canny类似



相对于使用普通的 img2img ,边缘线提取的方式可以生成更加清晰完整的图,黑色描边也得到了很好的重绘。



图片来源:https://twitter.com/hesui_channel/status/1625462909878034433

4 mlsd 线段识别,适用于建筑场景




5 normal 模型识别,适用于建模

跟深度图有点类似,通过读取原图片中的深度信息和法线背景阈值。它比深度模型对于细节的保留更加的精确。



6 openpose 姿势识别,用于人物动作

这个功能对于人物设计和动画十分有利,应该会很快用在影视行业。


除了生成单人的姿势,它甚至可以生成多人的姿势,这点非常关键,在此之前AI生成的画面里多个人物的特定动作是几乎无法靠提示词来实现的。



图片来源:https://twitter.com/toyxyz3/status/1626138471256715265

通过控制人物姿势,在人物角色设计上的尝试。



图片来源:https://twitter.com/DiffusionPics/status/1626012676554952707

7 scribble 黑白稿提取




图片来源:https://www.bilibili.com/read/cv21848861/

8 seg 语义分割识别

这个之前英伟达做过类似的产品。



总结

AI工具以及细分领域应用的公司们,可以做的事情越来越多了。而今年才过了不到两个月,我们无法想象在年底的时候,AIGC的发展会到达什么样的程度。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
发表于 2023-3-1 12:55 | 显示全部楼层
太快了吧[惊讶]
发表于 2023-3-1 12:56 | 显示全部楼层
可以照片转照片了……[惊喜]
发表于 2023-3-1 13:00 | 显示全部楼层
为什么成果都不产自国内[调皮][调皮][调皮]
发表于 2023-3-1 13:06 | 显示全部楼层
这在影视和动漫领域将会有相当大的作用,只要实际应用中能达到工业级标准,投入生产领域,应该没有问题[调皮][调皮][调皮]
发表于 2023-3-1 13:08 | 显示全部楼层
标题党
发表于 2023-3-1 13:15 | 显示全部楼层
太强了,佩服
发表于 2023-3-1 13:25 | 显示全部楼层
试试背面
发表于 2023-3-1 13:32 | 显示全部楼层
那个动画稳定性不能叫很好吧,每一帧眼睛都不一样,不修是没办法用的
发表于 2023-3-1 13:33 | 显示全部楼层
他之前的成果都是苏大时期产出的  好几篇顶会呢不然怎么斯坦福
懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Unity开发者联盟 ( 粤ICP备20003399号 )

GMT+8, 2024-11-16 14:40 , Processed in 0.069442 second(s), 23 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表