2023-11-26
以下文章来自 GT 游戏圈 ,作者游戏枪栓
2023 年初,油管博主 Corridor 上传了一个叫石头剪刀布的上传 7 小短片分分钟,AI 转画给这个由真人拍摄的视频增添了冲击力的视觉效果,让本平无奇的猜拳游戏变成了运势对战,赢得了超级 400 万播放率,被搬运到 B 站后还获得了200多万次收看。
在商业领域,可口可乐 AI 广告感动了名画,也不乏 AI 整个流程漂泊地球宣传片,游戏 PV 在《石头剪刀布》公布半年后的今天,我们邀请了实验导演海辛、腾讯光子工作室动态设计师林海峰进行讨论 AI 图像能动得更好吗?
海辛:
试验导演,AI 原创者,第 25 上海电影节评委、门镜签约动画制作人、多部艺术院校电影及 AI 聘请教师,为多家行业龙头游戏公司和博物馆提供设计与技术咨询;
林海峰:
腾讯光子工作室动态设计师,LitGate 大咖进驻社区。
成志 &ROSA:
主持人,AI 游戏行业的观察者,GameTrigger 投资副总裁
他们讨论的话题包括但不限于:
AI 探索视频生成的工作流;
如何应用于游戏开发管道? AI 视频生成?
最新 AI 视频生成技术趋势;
怎样看待 AI 视频生成可控性低的问题?
01
海辛共享:AI 视频生成的工作流
01 本人制作短片的步骤
往往想到用 AI 因为我认为做转换本质上是因为我认为 Video2Video 做动画的逻辑是一样的,也是从(动态)分镜考虑,中间根据渲染、做材料等步骤,最后到整片,这也是未来 AI 发展是一个非常可行的方向。当时还没有做到 AnimateDiff,主要是用 SD 加上流程 EbSynth 保持关键帧稳定的效果。当时还没有做到 AnimateDiff,主要是用 SD 加上流程 EbSynth 保持关键帧稳定的效果。
这段视频的整个过程是真人拍摄后使用的 SD 渲染关键帧,然后放在后面 EbySynth 持续镜头中的其他关键帧,使其风格大致相同,并减少图片的振动。在第一个镜头中,我们可以看到它的整体颜色发生了很大的变化。这是用来的 SD 渲染几个关键帧,使其颜色变化非常明显,并在后期剪辑中将其连接在一起。这种色调的转变与较大的人物动作斜线相匹配,可以起到很好的效果。
在第二个镜头中,我只做了一个关键帧,因为他的姿势不大,只是提供了一个节奏点,所以这张照片的逻辑不需要移动,更有吸引力。所以在 EbySynth 算了之后,它也会有一个非常稳定的绘画风格,没有 AI 感觉很抖动。
第三个镜头是一个非常快速的运动镜头,我的处理方法是分层,前后进行各自的操作。前景角色或只使用一个关键帧来实现相对稳定的效果,我直接使用后景环境 AI 每一帧,因为 AI 由于自身的抖动,加上前景角色非常固定,反而增强了它对角色的运动模糊感和对焦感。
最后做了一个换脸效果,先用 SD 做 in-painting,然后挖出来解决一个关键帧,然后使用关键帧 EbySynth 计算每个镜头,最后在这组镜头中编辑成素材,可以做出更丝滑的变脸效果。
其实想讲讲共享所有小片子的制作:AI 没有一个动画很固定 approach,它有很多完成方向,但每个镜头的方法完全取决于你的需求和创造力。
02 AnimateDiff 共享
近期出的 AnimateDiff 它的一个特点是,它可以确保帧与帧之间的相对平滑,而且还在几个月前,如果你想的话 AI 镜头达到丝滑效果,具体方法仍在使用 EbySynth 算关键帧,或者像石头剪刀布这样的达芬奇 Deflerk 它保持稳定的形式。
而 AnimateDiff 可以保证算法 Vedio2Vedio 当重绘力度很大时,每帧之间都比较稳定。
这是我用线稿动画转换成带材料动画的测试。虽然效果一般,但可以看出,如果搭配足够好 SD 模型,设置节点区域,这种风景动画可以取得更好的效果。
这是我前几天做的另一个测试,这个角色 Lora 是周启洛,我想知道这些卡通片是否可以让一个角色扮演另一个角色,我做了这个姿势,我用它 AI 可以变成这个人在做其他姿势,虽然现在看起来还是有点抖,但是脸已经比较光滑了。
我们觉得 AnimateDiff 这是一个很好的解决方案,可能会对该领域产生很大的影响,在过去 AI 动画的局限性是太颤抖,基本上可以解决,所以我们可以期待今年 Animation 会有大的进步。
我认为目前的 AI 已经成为工具了 AE 其中一个子部分,给出不同的效果,每种效果都可以基于原创者本身必须调用的情况。
我认为目前的 AI 已经成为工具了 AE 其中一个子部分给出了不同的效果,每个效果都可以基于原创者本身必须调用的情况。我非常鼓励我周围的人了解更多 AI,它仍然很有潜力,即使它不能迅速取代现有的工作流,它仍然可以作为一个特效滤镜来玩。
03 工作流共享1. 第一步通常是拍照参考电影,制作动态分镜。
2. 第二步在 AI 我现在用节点式的部分 SD 会更多,因为他给的空间会更大,对吗? SD 也会有很多应用,加上不同的类型 ControlNet 模型和 AnimateDiff 模型,可能比以前更好 SD 单纯用 workby 那套要复杂得多,它希望你针对它 SD 对自己的模块有更清晰的认识 ComfyUI 更熟悉(ComfyUI 会比 WebUI 跑动漫要快很多),然后对 ControlNet 和 AnimateDiff 我们都应该知道,虽然独立并不复杂,但如果把这一切加在一起,可能会有一定的门槛,也使其无法快速进行大规模推广。
3. 最终再从 Post production 在一些常见的后期软件中进行阶段。
3. 最终再从 Post production 在一些常见的后期软件中进行阶段。我认为全套 Vedio2Vedio 门槛逐渐上升,必须掌握的东西比 AI 有很多绘画,但它有一个很好的区域,那就是它有一个新的节点工作流。我们经常根据交换节点在一些社区重现一些效果;在项目中,对于类似的镜头,您可以使用节点工作流进行重用,而不需要每次都进行准确的调整。
04 Claude2 共享最后和大家分享一下我用的。 GPT 线写作。我会收拾好我写的一些短篇小说,发给我 Claude2,它基本上可以学习我的风格,写各种各样的故事。我有一种很强烈的感觉,那就是 AI 它会扩大原创者自身的特点,我自己在写小说的时候可能会设定得很有意思,但是结局总是不尽如人意,在 Claude2 在重现我的风格时,我也会遇到同样的经历。因此,我认为原创者必须对自己有非常深刻的了解,才能跟上他们 AI 开展良好的合作。

我特别喜欢第三个故事,因为它有明显的功能和有趣的设置,但它的结果可能有点弱
我在 DallE3 我想把故事做成绘本,让它设计分镜和 Key frame,它可以和我讨论风格,最喜欢的部分,关键节奏点在哪里,我可以和 AI 继续交流互动。从第一章开始,它就会逐渐和我一起写作,画的过程中出现的错误也可以通过会话来修改。我觉得在与 AI 在互动环节中,它将帮助你在一些非常核心的工作流节点中提出许多建议,这比我以前自己创作要容易得多。
05 Q&A
Rosa:例如,现在我希望有一个脚本创意来购买数量材料,现在 AI 视频可以帮助我提炼所有的游戏卖点,思考一些购买视频的想法吗?
海辛:在创意方面,很多人会推荐使用 GPT 或是 Claude2 辅助什么?我个人的经验是,如果你直接问,效果往往不好。你需要给他足够的参考,告诉他什么是好的,什么是好的 Prompt。
Rosa:如今 AI 视频能和我需要的风格保持高度一致吗?
海辛:如果你在调整关键帧的时候已经很符合风格,基本上可以用其他工具根据自己想要的风格进行转绘。例如,我调整了金克斯和蜘蛛侠的视频,都清楚需要什么样的图片,然后补充其他帧。对于一些比较有名的人来说, IP 像蜘蛛侠和金克斯一样容易得多,因为模型本身已经练习了很多材料,加上 Lora 练习会容易很多,然后如果是自己创作的话。 IP 很难练习一个更好的角色 Lora 或者风格 Lora 来协助。
Rosa:在我的尝试中,我发现一个美丽的女孩可能有三只脚。这种情况已经解决了吗?
海辛:你应该是一个文本生成视频。目前,工作流的实际使用相对较少,因为它直接形成材料的质量太不可控了。即使质量很好,你也不知道他会在工作流中形成什么样的文本。因为文字和图片不是一一对应的关系,如果没有 ControlNet 支持基本上是一场灾难。因此,如果你想让它非常切题地完成你的想法,你就无法逃脱它 ControlNet 您应该直接告诉它界面是什么。
Rosa:在 AI 在视频中,我们必须选择合适的重绘范围。如果界面太低,界面肯定会稳定。如果太高,与原画面没有太大区别。如何提高产生的稳定性?
海辛:现在有 AnimateDiff 这个问题已经基本解决了,可以保证界面帧和帧之间在重画强度很大的情况下仍然有很强的稳定性。AnimateDiff add value 即使在重画强度高的前提下,每个帧的中间仍然是连续的,所以我们会说它可以让它 ai 动画更快地进入工作流。
Rosa:DallE3 出门后有没有帮助解决当时困惑你的一些问题,用什么场景比较多?
海辛:它是基于 GPT 大型绘画模型可以进行多模式交互。生成图片后,您可以与它对话并更改。它将会话与绘画模型相结合,促进交流 AI 同事们一起工作。这是其他绘画工具现在做不到的,比如 SD、MJ 都是单模态的,而且 DALLE3 可以用文字告诉它你想怎么改变。事实上,仍然有很大的局限性。首先,由于它自己的数据库,整个模型风格不完美。此外,它不能形成除一比一像素以外的图像,但我们相信它可以很快解决问题。我觉得前者可能比较麻烦,前者不能用不同的风格喂,现在大模型还没有喂。Rosa:
甲方通常会提出什么样的需求?DallE3 出门后有没有帮助解决当时困惑你的一些问题,用什么场景比较多?
海辛:一方面,我会收到一些甲方的渴望 AI 动画能达到什么程度,看看你以前的工作流能被取代多少;另一方面,在短视频跑道上,虽然电影和长视频不是很现代,但小视频对图像质量的规定不是那么高,AI 能在短时间内以极低的成本,给界面带来一定的视觉,宣传推广效果很好,现在 ins 和 X 有很多短视频创作者在研究怎么做。
02
海峰共享:AI 视频
如何在游戏中使用管道?
01 实践探索我是游戏宅,平时喜欢做游戏秘籍,研究心理学。目前是 Knowyourself 茶话会的经理。
02如何在游戏中使用管道?
01 实践探索我是游戏宅,平时喜欢做游戏秘籍,研究心理学。目前是 Knowyourself 茶话会的经理。这是今年的茶话会。 3 月份和两小伙伴们一起做的一切 AI 步骤视频,包括界面,Logo、配音,故事:
故事和 MJ 使用提示词 ChatGPT 产生的,MJ 长出好图后,就会到了 SD 做一些重画和放大的效果,最重要的是 SD 提供深层软件;配音是微软的 AI 语音。当时 AI 出来后,作为一名视频设计师,我可以在没有原画帮助的情况下自己制作,所以我有了这个想法。
除了一些小效果 AE 内部完成,其他都围绕着 AI 所有的镜头只用了一天就形成了。
视觉品牌设计师目前在游戏行业使用 AI 做材料已经很成熟了,效率比以前提高了很多,只需要画线稿,形成后再修复图片即可。项目中的人物可以自己练习 Lora,做基本姿势设计的时候不用找艺术,甚至有些镜子可以自己渲染。
像我这样的动态设计师,我可以手绘一些简单的简笔画镜子,然后告诉我 AI 你想要的可以形成一个你能理解的效果图。在特效的形成上,其实也是在线稿之后,AI 可以达到效果的形成,画成序列帧也可以给出不同的效果,而不是像以前的每一帧火焰一样画。
02 工具探寻我们也很关心 Vedio2Vedio 应用领域,这是一个应用领域 Gen2 制作的漂泊地球宣传片正在制作中 700 在多张图片中选出 60 多张。
你会看到它的动态性能实际上很好,但在内容上,它有时与流浪的地球无关。这是因为它的图片不是很可控,无法调整图片产生的动态,这也是 Gen2 缺陷较大。而且目前 Gen2 没有二次元风格模型,大部分形成还是抽卡的感觉,镜头一定要千挑万选。接着是 AnimateDiff,近一两个月来,它迎来了大的升级,VR 动画可以在模式中根据图片生成,这是基于 SD 一个软件,可以使用 Control Net 调整导出,可玩性很高。现在真人模型还是很僵硬的,但是二维模型的效果要好得多,SD 有很多模型可供选择,这里也是如此。我们最近正在分析墨化技术 " 极影 " 软件,这将 SD 集成到 UE 它可以直接生成图像。此外,还有一个更强大的功能叫做 " 贴图投影 “,可以根据模型的外观结构形成迎合的高精度地图 UE 实时渲染,甚至可以立即改变光影、风格等后期工作。
隐私功能本身没有技术要求,我知道 Blender 事实上,它也有隐私功能,但它连接起来 AI 之后会有无尽的补图扩展功能,在贴图投影一些视角不方便的情况下,AI 它可以帮助弥补这些地方,并且具有很强的可控性。
及其另一个 HDR 如果你画出相对结构的训练软件,它会给你一个全景地图。地图的类型本质上是相同的 SD 图生图的功能相似,但它们更多地集成到软件中。关于未来,我认为动补是一个非常值得期待的行业。现在 AI 技术不是很完善,还需要把人转化成骨头,然后用模型绑定骨头,效率很低,需要用多部手机和长期计算。
如果计算率或其他地方发展起来,可能会取代动补设备,进一步优化动画师的工作。我只看到一些 Demo 它可以把人物拔出来,并行转化为其他角色,它可以捕捉骨骼、表情和灯光。我认为,如果未来能够发展和普遍化,AI 能对所有工作流产生很好的效果。
03 Q&A观众
:Control Net 和 AnimateDiff 哪里可以学习工作流?
海峰:我试过看比利比利智障君的视频,但目前还没有拿这个工作流做工程。
观众:极影可以进行 3D 模型贴图吗?
海峰:是的,它实际上使用了它 3D 投影,只要你投上一幅原画,它就能促进效果。如果你的相机不移动太多的视角,没有问题,你也可以看到 3D 的透视感。
成志:在视频制作的工作流中,是先有歌再有视频吗?在 AI 在可控性低的情况下,根据歌曲调整视频内容是否可行?
海辛:我觉得 AI 更多的是做包装特效的工作,所以节奏很重要,需要先设定整个节奏。GQ 这部电影首先有歌曲。我们大致知道编辑节奏和视频节奏是什么,然后根据歌曲决定我们需要什么样的图片内容,镜头需要更频繁、更快地切割。《蜘蛛侠》、《安德玛》和《英雄联盟》的视频首先有歌曲,AI 它是特效加持,而不是主要部分,只有在主要内容编辑后才能添加
海峰:我可以看视频的要求,比如我用 Gen2 做,可能是定歌。我做那个视频的时候,把市场上的 AI 所有的音乐软件都试过了,会需要更多的乐理知识,然后我会根据形成的材料进行切割,比如 Gen2 形成一个两秒的视频,也许只是在中间 1.2s 剪下。如果我们玩游戏,会有特殊的声音学生,我们根据自己的节奏为他们配音,所以看看你需要什么类型或步骤。如果我们玩游戏,会有特殊的声音学生,我们根据自己的节奏为他们配音,所以看看你需要什么类型或步骤。
Rosa:我发现两个人在做视频的时候都是三个人一起做的。期间的分工是什么?
海辛:我们在做 GQ 另外两个人和我在视频中掌握的技能点完全一样,所以我们基本上可以 cover 对方各种工作,效率会更高。比如这次我做了甲方的反馈建议,比如初版,我可以再做别的事情,另一个人,然后我的项目又可以了。
海峰:其实我也差不多,在了解市场上 AI 工具结束后,我认为任务量很大。我们分镜头进行。例如,我刚才有视频 12 个镜头一人 4 在此期间,我可以承担形成故事、视频和音频的生成。成志
:在分镜生成中,AI 目前能达到什么水平?
海峰:其实整个过程就是抽卡开盲盒,GPT 事实上,每个人都有很多故事。你有办法和它交流。你不能只说我想要什么,而是限制很多条件,需要不断的磨合和尝试。你的条件越细腻,结果可能就越细腻。成志
:作为甲方,游戏公司在合作中会有所不同吗?
海辛:合作模式还是一样的,就是你给我参考电影,想要什么风格;和以前不一样的地区,大家其实并不完全清楚 AI 有什么特效,能做什么效果,我们目前都会有一个库,大概可以告诉你能做什么效果,给甲方一些参考。
成志:大家会觉得 AI 未来或现在动画或视频行业研究的主要行业是什么,比如刚才提到的稳定性?
海辛:我认为 AnimateDiff 接下来,这条线将发展得非常快,并且相关 SD、Comfy UI 节点工作流可以定义以下内容 AI 动画到底该怎么走?它是一种可以重现的东西。面对不同类型的镜头,如果确定以某种方式工作,镜头可以在具体项目中批量进行 AI 转绘,这很有想象力。在 SD 以后可能会进入节点工作流,AnimateDiff 这是我目前看到的最好的解决方案。
Rosa:AI 你在制作视频时是如何面对版权异议的?
