一文读懂昆仑万维skyreels v2视频生成大模型第2页_大白话聊透人工智能最新章节

中文114 > 大白话聊透人工智能 手机版 加入书架章节目录小说详情

手机浏览器扫描二维码访问

本站广告仅展示一次,尽可能不去影响用户体验,为了生存请广大读者理解

一文读懂昆仑万维skyreels v2视频生成大模型（第2页）

以前的视频生成模型在运动质量方面表现都不太好，生成的视频里人物或者物体的运动总是怪怪的，看起来很不真实。Skyreels V2为了解决这个问题，采用了一种运动质量偏好优化技术。

它通过强化学习训练框架，就像是给模型请了一个严格的体育教练，让它不断地学习和改进。同时，为了让模型学习到更真实、更合理的运动数据，团队还使用了人工标注和合成失真数据。比如说，他们会把一些运动不合理、动态扭曲的视频找出来，然后人工标注出问题所在，再用这些数据来训练模型，让它知道什么样的运动是好的，什么样的是不好的。

为了降低数据标注的成本，团队还设计了一个很巧妙的半自动数据收集管道。这个管道就像是一个高效的数据收集工厂，能够快速地生成偏好对比数据对。它主要通过三种方式来生成数据：I2V Distortion，就是基于图像到视频生成的失真数据；T2V Distortion，基于文本到视频生成的失真数据；还有人工标注修正，就是让专业人员对一些关键的运动序列进行标注。通过这些数据训练奖励模型并进行直接偏好优化，Skyreels V2在运动动态性、流畅性和物理合理性方面都表现得非常出色，生成的运动内容就像我们在现实生活中看到的一样自然流畅。在一些生成的动作视频中，人物的奔跑、跳跃等动作非常自然，和真实拍摄的几乎没有区别。

3. 扩散强迫（Diffusion-forcing）框架

Skyreels V2能实现长视频生成，最关键的技术就是它的扩散强迫框架。这个框架就像是一个神奇的魔法棒，让视频生成变得又快又好。

和传统的视频生成方法不同，Skyreels V2不是从零开始训练扩散强迫模型，而是通过微调预训练的扩散模型，把它转化为扩散强迫模型。这就好比你已经有了一个半成品的房子，你只需要在这个基础上进行一些装修和改造，就能让它变成你想要的样子，这样不仅节省了大量的时间和精力，还能提高生成效率。

为了实现长视频的高效生成，团队还采用了一种非递减噪声时间表。这个时间表就像是一个精密的时钟，它把连续帧的去噪时间表搜索空间从非常大的O(1e48)大幅降低到O(1e32)。这样一来，模型就能更快速、更准确地生成长视频内容，而且还能保证视频在时间上的连贯性和稳定性。它的工作原理是为每个帧分配独立的噪声水平，然后通过精心设计的噪声调度策略，确保视频序列在生成过程中不会出现错误累积的问题。比如说，它会在前一帧添加轻微的噪声，让生成过程更加稳定，就像在跑步的时候，每一步都迈得很稳，这样就能跑得更远、更久。在实际生成视频时，即使是生成几分钟的长视频，也不会出现画面卡顿、情节不连贯的情况。

（二）创新的训练策略

1. 丰富的数据来源

Skyreels V2之所以这么厉害，离不开它丰富的数据来源。就像一个人要想变得聪明，就得读很多书、学习很多知识一样，模型要想表现出色，也得有大量的数据来训练。

Skyreels V2的训练数据主要来自三个方面：通用数据集，这里面整合了很多高质量的开源资源，像Koala-36M、HumanVid，还有从互联网上爬取的其他视频资源，这些数据就像是一本本百科全书，涵盖了各种各样的场景和动作，为模型提供了广泛的基础视频素材；自收集媒体，这可是一个超级大的影视资源库，里面有280,000多部电影和800,000多集电视剧，覆盖了120多个国家，总时长超过620万小时，这些丰富的影视内容让模型学习到了各种电影风格和叙事结构；艺术资源库，这里面的视频都是从互联网上精选出来的高质量视频资产，它们的视觉质量都达到了专业标准，就像一个个艺术珍品，让模型能够生成高质量的视频内容。通过这些丰富的数据训练，Skyreels V2对各种场景和风格都有了深刻的理解，能够生成出更加多样化和高质量的视频。

2. 渐进式分辨率预训练与多阶段后训练优化

本小章还未完，请点击下一页继续阅读后面精彩内容！

Skyreels V2的训练过程就像是一场精心策划的马拉松比赛，分为好几个阶段，每个阶段都有不同的目标和任务。

首先是渐进式分辨率预训练，这就像是马拉松比赛的热身阶段。模型会从低分辨率的视频数据开始训练，逐渐提高分辨率，这样可以让模型更好地学习视频的基本特征和规律，就像运动员在热身的时候，先慢慢地活动身体，适应运动的节奏。从低分辨率开始训练，模型可以先掌握视频的大致结构和基本元素，随着分辨率的提高，再逐渐学习到更精细的细节。

然后是四阶段的后训练增强：

- 初始概念平衡的监督微调（SFT）：这个阶段就像是给模型打基础，通过概念平衡的数据集进行微调，让模型对各种概念有更准确的理解，为后续的优化提供一个良好的初始化。比如让模型对各种物体、场景、动作等概念有清晰的认知，这样在生成视频时才能更准确地表现出来。

- 运动特定的强化学习（RL）训练：这时候就像是给模型进行专项训练，针对运动质量进行优化，通过偏好优化提升运动动态质量，让模型生成的运动画面更加自然流畅。通过大量的运动数据训练，让模型学会不同动作的正确表现方式，避免出现运动不自然的情况。

- 扩散强迫框架（DF）训练：这是训练的关键阶段，通过这个阶段的训练，模型掌握了长视频生成的核心技术，能够实现高效的长视频生成。模型学会了如何利用扩散强迫框架，合理地安排每一帧的生成，保证长视频的连贯性和稳定性。

热门小说推荐

我的女警妈妈

妈妈的名字很好听，叫黎绮雯，是个警察。她经常对我说，她随时都有可能在追捕罪犯的过程中丧命，到那时候，我需要学会如何保护我自己。现在的我看起来太懦弱了，妈妈有时候看我的眼神总是有些恨铁不成钢，我知道妈妈心中一定是觉得，作为一个警察的儿子，懦弱成这样，如果是被别人外人知道了，一定会笑掉自己的大牙。...

大泼猴

苍穹动摇时，我放声狂笑，挥动如意金箍棒，砸它个天翻地覆！此后一万年，你们还会记住我——齐天大圣孙悟空！ ※※※ 这个世界上总有那么一些人，他们英勇无畏，固执，乃至偏执，不羁，骄傲，而又狂妄。即使到了绝境，他们也绝不妥协。宁愿死，也不愿输。...

晏捕头

左手锅，炒人间美味；右手刀，辨世间冤屈从现代法医到古城仵作，到天下第一女捕头晏骄亲身书写着传奇。而这个成功女人背后的男人，定国公，也终于过上了相妻教子看家带娃的退隐生活。【不是，划掉！！】现代女法医与半退隐将军吃喝查案的故事，夫妻搭档，干活不累！故事发生在上部结束后两年1个月...

神级修炼系统

一次意外，让宅男秦少风穿越重生到了异世，成为了连泱国蓝江城秦家大少。什么修为被废？丹田也无法修复了？不怕，咱有一个神级修炼系统，破坏的再严重的丹田也能修复！系统在手，功法无尽任我有！达摩老祖的易筋经……齐天大圣的火眼金睛……李寻欢的小李飞刀……美好的世界，我秦少风来了！......

晓风书院的八卦事

盛世太平，朝中无事，能引起些许波澜的，无外乎一些八卦。某日，号称天下第一才子、第一美男子、第一风流子的白晓风，办了家晓风书院。一时间，什么公主、郡主、才女、千金……蜂拥而至，各个醉翁之意不在酒。史官程子谦蹲点晓风书院，各种“子谦手稿”流出，流到街头巷尾又流到皇宫内院，白晓风最终情归何处，成了都城百姓茶余饭后津津乐道的话题。慢住，说到这里，大家是否认为本书的主角就是白晓风？非也！皇朝有个将军，叫索罗定，这位名字拗口又玩世不恭、“臭名远播”还不受欢迎的皇朝第一高手，才是本书的男主。皇帝给了索罗定一个任务，让他进书院做卧底，汇报第一手资料，偶尔推波助澜偶尔破坏好事，好让皇帝在跟嫔妃们打赌时稳赢不输。另外，皇帝还让索罗定顺便去学学礼仪，改改他那一身的痞气。而负责“管束”索罗定的，是白晓风那位毒嘴又八卦的漂亮妹子白晓月。索罗定就这么跟白晓月杠上了，这丫头不是一般的难对付！...

娇花系统教我做O

舒天，Omega，仗着自己天生拥有3s级精神力在学校里耀武扬威，牛逼冲天。可他做梦都没想到，有朝一日他竟然被所谓的娇花系统成功绑定。【任务一：您的学习成绩下降，请去找未婚夫要个安慰的抱抱。】【任务二：您的衬衫脏了，请向未婚夫借件儿他的衬衫来穿。】【任务三：您的未婚夫身负重伤，行动不便，请您用毛巾帮他仔细擦拭身体。】舒天握着手里的毛巾，看了看躺在床上“行动不便”却还释放着Alpha信息素的男人。顿时黑脸掀桌：什么狗屁系统！老子不干了！系统：叮，请维持好娇花人设哦，系统惩罚中…… 舒天立马身子一软，泪眼婆娑，面色微红的在心里爆了句粗口：系统你大爷！文案二：秦景恒和他暗恋多年的Omega有了婚约，原本以为他会厌恶拒绝，却没想到那人突然变了性子，娇娇软软的老想往他怀里钻。面对心上人的撒娇关怀，他抑制了七年的感情终于一发不可收拾…… *abo星际文/只想谈个恋爱的甜饼/日常流水账/不生子 *（大写加粗）系统会有强制任务的元素*...