相关阅读
视频讲解
你见过抖音视频中所出现的AI真人视频吗?为什么他们可以做到如此的逼真?本期视频,我们将详细介绍AI生成式的视频中可以使用到的相关技术,如Temporalkit、ControNet等技术,并且我们会将相关的指南放到评论区中,供大家参考、实践。
相关资料
- 《国家地理》如何判断一张照片是否是人工智能生成的?这里有一些提示
- Reddit论坛:实验性人工智能动画 w/ C-Net 1.1 + GroundingDINO + SAM + MFR (工作流程见评论)
- TemporalKit Github项目:通过Automatic1111扩展,为Stable Diffusionm添加时间稳定性的一体化解决方案
- Image Sequence Toolkit Github项目:通过Automatic1111扩展,支持批量处理和更好的修复图像功能
- Mov2mov 插件 Github项目
图文讲解
鉴于最近有人在reddit上买了一些调皮的照片,认为他们是真正的女性,却发现他们是人工智能生成的角色,我向他们表示最深切的慰问,因为他们是第一个上当的人,被整个互联网所嘲笑。虚假图片这几天一直是一个非常热门的话题,甚至《国家地理》都发表了关于哪些动物是专业拍摄的,哪些是人工生成的。
![图片[1]-抖音视频中的神秘力量:SD多帧渲染技术-FancyPig's blog](https://static.iculture.cc/wp-content/uploads/2023/05/20230507021502558-1024x570.png?x-oss-process=image/auto-orient,1/format,webp/watermark,image_cHVibGljL2xvZ28ucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLFBfMTA,x_10,y_10)
这些逼真的人工智能图片,像教皇最近的照片一样,这些逼真的AI图像可能已经因为它们的逼真度而在世界各地广泛传播。
![图片[2]-抖音视频中的神秘力量:SD多帧渲染技术-FancyPig's blog](https://static.iculture.cc/wp-content/uploads/2023/05/20230507021521837-1024x569.png?x-oss-process=image/auto-orient,1/format,webp/watermark,image_cHVibGljL2xvZ28ucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLFBfMTA,x_10,y_10)
而现在,视频也在遵循类似的轨迹。以前,我们已经讨论过一些有趣的文本视频AI,其中一些产生了非常愚蠢的东西,另一些则进入了不可思议的谷底。
但今天,我想与大家分享一些人们通过大量GPU努力创作出的令人瞠目结舌的作品。像今天的赞助商,OperaGX,为游戏玩家优化设计的浏览器。你知道游戏玩家和人工智能爱好者有什么共同点吗?是我们并不热衷于将我们的计算资源分享给其他软件。有了OperaGX,你不仅可以轻松地管理计算使用,还可以体验他们的最新功能,生成性AI集成,让你在侧边栏访问ChatGPT或Chatsonic。有了这个,如果你遇到一个新发表的中文模型,比如Modelscope的文字转视频而且不是英文的,你可以直接选中文字,让ChatGPT为你翻译。或者如果你像我一样,是一个普通的玩具XYZ粉丝,想看他转发的日本文章你可以直接选中文本,用OperaGX的嵌入式ChatGPT功能进行翻译,它就能轻松为你翻译。而翻译只是你选择的众多选项中的一个,比如你还可以为这条推特生成炒作反应,与你的朋友分享。此外,OperaGX也有一个可定制的侧边栏,所以你可以在那里添加Twitter,以满足你的日常需求的技术更新只需简单的点击就可以评论。其他应用程序,如Discord,Spotify,甚至TikTok都可以嵌入到OperaGX中,实际上是一个多功能的浏览器。你甚至不需要担心转换到OperaGX因为OperaGX也配备了的导入工具,让你快速导入所有的设置从你以前的浏览器到OperaGX。浏览历史,书签,和cookies,100%保留之前的资料,它也是兼容每一个谷歌浏览器的扩展,简直是厨师之吻所以,现在就开始使用我下面的链接,今天下载OperaGX,感谢OperaGX赞助这个视频。
但无论如何,你见过看起来这么长的工作流程吗?文字转视频,或更具体地说,视频风格的转移,是在阶段,人们采取任何工具,他们可以找到,以产生高品质的AI生成的视频,看起来这么好。
![图片[3]-抖音视频中的神秘力量:SD多帧渲染技术-FancyPig's blog](https://static.iculture.cc/wp-content/uploads/2023/05/20230507021621973-1024x571.png?x-oss-process=image/auto-orient,1/format,webp/watermark,image_cHVibGljL2xvZ28ucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLFBfMTA,x_10,y_10)
![图片[4]-抖音视频中的神秘力量:SD多帧渲染技术-FancyPig's blog](https://static.iculture.cc/wp-content/uploads/2023/05/20230507021650539-1024x572.png?x-oss-process=image/auto-orient,1/format,webp/watermark,image_cHVibGljL2xvZ28ucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLFBfMTA,x_10,y_10)
当稳定扩散可以生成如此逼真的图像时,一些人开始探索用图像生成视频的可能性,或者至少将生成的图像风格转移到视频上。
![图片[5]-抖音视频中的神秘力量:SD多帧渲染技术-FancyPig's blog](https://static.iculture.cc/wp-content/uploads/2023/05/20230507021703132-1024x571.png?x-oss-process=image/auto-orient,1/format,webp/watermark,image_cHVibGljL2xvZ28ucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLFBfMTA,x_10,y_10)
但难度增加了,因为人工智能参考和重新生成的每一个视频帧都不会是连贯的,所以很多替代方式被世界各地的人使用或实验着。这就是开源的魅力,顺便说一下。有一些简单的解决方案,比如我在几个视频中提到的时空网和网格法,可以解决不连贯的问题,如果你没有的话,可以去看看。然而,还有更多的方法可以创造出效果更好的视频,有些是外部的变通方法,比如插值和去伪存真,有些则是更加细化输入,保证更好的效果,比如用其他人工智能研究把人物从视频中分割出来,来约束输入,或者用标签器来创造更好的标签,在模型中被训练。而这个技术讲座实际上困扰了我很久。
![图片[6]-抖音视频中的神秘力量:SD多帧渲染技术-FancyPig's blog](https://static.iculture.cc/wp-content/uploads/2023/05/20230507021758675-1024x576.png?x-oss-process=image/auto-orient,1/format,webp/watermark,image_cHVibGljL2xvZ28ucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLFBfMTA,x_10,y_10)
![图片[7]-抖音视频中的神秘力量:SD多帧渲染技术-FancyPig's blog](https://static.iculture.cc/wp-content/uploads/2023/05/20230507021808558-1024x571.png?x-oss-process=image/auto-orient,1/format,webp/watermark,image_cHVibGljL2xvZ28ucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLFBfMTA,x_10,y_10)
![图片[8]-抖音视频中的神秘力量:SD多帧渲染技术-FancyPig's blog](https://static.iculture.cc/wp-content/uploads/2023/05/20230507021825798-1024x574.png?x-oss-process=image/auto-orient,1/format,webp/watermark,image_cHVibGljL2xvZ28ucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLFBfMTA,x_10,y_10)
这个片段是几天前自己发布的,虽然因为背景的闪烁,看起来100%是人工智能生成的,但它提出了一个问题:为什么人脸会如此连贯,以及对未来内容创作业务的暗示。
![图片[9]-抖音视频中的神秘力量:SD多帧渲染技术-FancyPig's blog](https://static.iculture.cc/wp-content/uploads/2023/05/20230507021905821-1024x570.png?x-oss-process=image/auto-orient,1/format,webp/watermark,image_cHVibGljL2xvZ28ucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLFBfMTA,x_10,y_10)
其实我找不到资料来证实他们是如何做到的,但可能是用ControlNet图像对图像的多帧处理来实现的。
![图片[10]-抖音视频中的神秘力量:SD多帧渲染技术-FancyPig's blog](https://static.iculture.cc/wp-content/uploads/2023/05/20230507021959478-1024x573.png?x-oss-process=image/auto-orient,1/format,webp/watermark,image_cHVibGljL2xvZ28ucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLFBfMTA,x_10,y_10)
但几天后,找到了原始的视频,你可以看到低比特率帮助隐藏了很多不一致的地方比如项链、抬腕,甚至是手。脸部的图像对图像是非常明显的,但脸部几乎无法辨别,看不出的不一致之处。用人工智能的脸,看起来非常真实,坦率地说对大多数人来说非常有吸引力,它有改变甚至使网红或模特业务过度饱和的力量如果美丽或长相是主要卖点。
![图片[11]-抖音视频中的神秘力量:SD多帧渲染技术-FancyPig's blog](https://static.iculture.cc/wp-content/uploads/2023/05/20230507022035702-1024x570.png?x-oss-process=image/auto-orient,1/format,webp/watermark,image_cHVibGljL2xvZ28ucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLFBfMTA,x_10,y_10)
![图片[12]-抖音视频中的神秘力量:SD多帧渲染技术-FancyPig's blog](https://static.iculture.cc/wp-content/uploads/2023/05/20230507022053780-1024x577.png?x-oss-process=image/auto-orient,1/format,webp/watermark,image_cHVibGljL2xvZ28ucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLFBfMTA,x_10,y_10)
![图片[13]-抖音视频中的神秘力量:SD多帧渲染技术-FancyPig's blog](https://static.iculture.cc/wp-content/uploads/2023/05/20230507022127430-1024x569.png?x-oss-process=image/auto-orient,1/format,webp/watermark,image_cHVibGljL2xvZ28ucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLFBfMTA,x_10,y_10)
![图片[14]-抖音视频中的神秘力量:SD多帧渲染技术-FancyPig's blog](https://static.iculture.cc/wp-content/uploads/2023/05/20230507022456998-1024x573.png?x-oss-process=image/auto-orient,1/format,webp/watermark,image_cHVibGljL2xvZ28ucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLFBfMTA,x_10,y_10)
当然。但有些人可能会说,这些假的人工智能面孔只是带有额外步骤的过滤器。
![图片[15]-抖音视频中的神秘力量:SD多帧渲染技术-FancyPig's blog](https://static.iculture.cc/wp-content/uploads/2023/05/20230507022604477-1024x571.png?x-oss-process=image/auto-orient,1/format,webp/watermark,image_cHVibGljL2xvZ28ucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLFBfMTA,x_10,y_10)
已经有很多影响者使用重度过滤器,使自己看起来有吸引力。嗯,这是一个公平的说法。但这些人工智能面孔可以生成很多多样性、定制化的东西,而那些预制的过滤器是预先编程的,将非常难以定制。而且我们只是刚刚触及这些类型的人工智能能够做什么的表面,因为让某人看起来更有吸引力并不是它的唯一功能。它的通用性要强得多。你可以在风景上做,你可以在动物上做,人们现在只是把它放在人类身上因为这是最难实现的事情之一。在过去的几周里,这个初音未来的生成工作流程改变了人们为人形动物生成AI视频的方式。这可能是迄今为止最好的和最清晰的指南之一,可以使用Stable Diffusion生成视频,并且有实际看起来结果非常好使三维动画看起来像用二维绘制的潜力将引发一场动画行业的革命。
![图片[16]-抖音视频中的神秘力量:SD多帧渲染技术-FancyPig's blog](https://static.iculture.cc/wp-content/uploads/2023/05/20230507023149749-1024x573.png?x-oss-process=image/auto-orient,1/format,webp/watermark,image_cHVibGljL2xvZ28ucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLFBfMTA,x_10,y_10)
而且它可以走得更远,因为定制的Stable Diffusion模型有不同的艺术风格和现实主义。它使视频风格的转换非常容易,很快就能转换为不同的艺术风格,甚至是逼真度。就像这个人更新了一个老游戏中的3D图形,通过使用Temporalkit和其他一些ControlNet模型在上面转移风格,使角色看起来非常逼真。
![图片[17]-抖音视频中的神秘力量:SD多帧渲染技术-FancyPig's blog](https://static.iculture.cc/wp-content/uploads/2023/05/20230507023222381-1024x572.png?x-oss-process=image/auto-orient,1/format,webp/watermark,image_cHVibGljL2xvZ28ucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLFBfMTA,x_10,y_10)
![图片[18]-抖音视频中的神秘力量:SD多帧渲染技术-FancyPig's blog](https://static.iculture.cc/wp-content/uploads/2023/05/20230507023437119-1024x572.png?x-oss-process=image/auto-orient,1/format,webp/watermark,image_cHVibGljL2xvZ28ucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLFBfMTA,x_10,y_10)
也许存在一个未来,人们可以重制老游戏,使它更有可玩性和视觉上的愉悦,谁知道呢,我们可能很快就能用RTX玩Pepsiman了。或者这个现实生活中制作动画的TikTok使用了非常类似的工作流程,用于制作初音未来风格的转场,使用了MOV2MOV,这是Automatic1111的中文扩展,能够克制手,使其不消失或多长出肢体。
![图片[19]-抖音视频中的神秘力量:SD多帧渲染技术-FancyPig's blog](https://static.iculture.cc/wp-content/uploads/2023/05/20230507023504577-1024x570.png?x-oss-process=image/auto-orient,1/format,webp/watermark,image_cHVibGljL2xvZ28ucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLFBfMTA,x_10,y_10)
MOV2MOV减少了你在做批量图像到图像生成制作视频时需要的所有手工处理,通过从视频中导出帧,分割人类,为绿屏生成背景并将所有东西重新组合到一个视频。
![图片[20]-抖音视频中的神秘力量:SD多帧渲染技术-FancyPig's blog](https://static.iculture.cc/wp-content/uploads/2023/05/20230507023746354-1024x573.png?x-oss-process=image/auto-orient,1/format,webp/watermark,image_cHVibGljL2xvZ28ucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLFBfMTA,x_10,y_10)
![图片[21]-抖音视频中的神秘力量:SD多帧渲染技术-FancyPig's blog](https://static.iculture.cc/wp-content/uploads/2023/05/20230507023825448-1024x572.png?x-oss-process=image/auto-orient,1/format,webp/watermark,image_cHVibGljL2xvZ28ucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLFBfMTA,x_10,y_10)
这是非常整洁的。这位作者还做了另一个测试,他测试了另一个不同舞蹈动作的片段,说实话,我不知道我是否还能让这个视频盈利。虽然结果视频看起来非常好,但它的插曲太多。它显示了非常好的连贯性,这是我们之前没有能力做到的。技术很酷,但没有什么新意。
![图片[22]-抖音视频中的神秘力量:SD多帧渲染技术-FancyPig's blog](https://static.iculture.cc/wp-content/uploads/2023/05/20230507023853773-1024x570.png?x-oss-process=image/auto-orient,1/format,webp/watermark,image_cHVibGljL2xvZ28ucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLFBfMTA,x_10,y_10)
说实话,有点让人崩溃。而作者回答说,花了很多时间尝试其他东西,但只有舞蹈视频能够吸引人们的注意力。有时我觉得这很让人困惑,因为技术内容的流量要少得多。好吧,有时候做出来的东西是环境所需要的结果。人们喜欢在有吸引力的女性身上做实验,同时演示一些真正先进的技术内容。这不仅仅是因为他们喜欢,还因为只有这样才能让他们的作品被看到,以普及和推动其改进。另一方面,有人居然反其道而行之,将动漫转换回现实生活。虽然技术上是半真半假。但是,是的,真人版的《星际牛仔》是我没有想到的。
![图片[23]-抖音视频中的神秘力量:SD多帧渲染技术-FancyPig's blog](https://static.iculture.cc/wp-content/uploads/2023/05/20230507023937181-1024x573.png?x-oss-process=image/auto-orient,1/format,webp/watermark,image_cHVibGljL2xvZ28ucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLFBfMTA,x_10,y_10)
![图片[24]-抖音视频中的神秘力量:SD多帧渲染技术-FancyPig's blog](https://static.iculture.cc/wp-content/uploads/2023/05/20230507023959458-1024x575.png?x-oss-process=image/auto-orient,1/format,webp/watermark,image_cHVibGljL2xvZ28ucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLFBfMTA,x_10,y_10)
尽管脸部看起来还是有点僵硬,而且异常的附和,但这绝对是做这件事的第一人,而且实际上看起来很体面。最有趣的细节是脸和手。这两个可能是最真实的部分,我很惊讶,手很少长出5个或更多的手指。等等,我的天,你看到了吗?等等,让我再回头看看。那是什么?那是有人告诉你要订阅Bycloud吗?但是,是的,这些Reddit和Twitter的人工智能传奇人物每两天才做一次这样的视频因为所有这些过程都需要极度的耐心来创造,长时间的渲染,和昂贵的GPU如4090来运行。所以,如果你想在严肃的制作中使用它,这仍然不是一个实用的解决方案如动漫。甭管他们已经做了。他们只是在现实生活的镜头上打了一个动漫滤镜,然后在这个家伙的上面画了一张脸。我无语了。总之,再过一段时间,我们可能会看到这些人工智能模型在TikTok或Reels上困扰着常人,而我们只会坐下来,享受在他们之前几天已经经历过的恐慌。谢谢你的观看。向Andrew Lescelius和其他许多通过Patreon或YouTube支持我的人表示敬意。关注我的Twitter,了解我最新的推送,我们下次再见。
- 最新
- 最热
只看作者