图生视频模子练习数据集

[复制链接]
发表于 3 天前 | 显示全部楼层 |阅读模式
主流图生视频模子练习数据集调研陈诉

目次


  • 模子总览与练习数据对比
  • Stable Video Diffusion (SVD)
  • Wan (万象)
  • CogVideoX
  • HunyuanVideo (Tencent)
  • Runway Gen-3 Alpha
  • Kling (快手)
  • Open-Sora / Open-Sora-Plan
  • 练习数据构建方法论总结
1. 模子总览与练习数据对比

1.1 焦点对比表

模子开发者发布时间参数规模练习数据规模数据泉源数据筛选方法字幕天生方法开源水平SVDStability AI2023.11~1.5BLVD: ~577M clips; LVD-F: ~144M clips网络视频多级场景分割 + 四维评分筛选(CLIP/美学/OCR/光流)CoCa + V-BLIP + LLM融合开源Wan 2.1阿里巴巴2025.021.3B / 14B~50亿图像 + ~12亿视频片断(估计)大规模网络数据八维根本属性 + 视觉质量聚类 + 六级运动质量内部VLM麋集字幕开源CogVideoX清华/智谱AI2024.082B / 5B~3500万视频片断 + 20亿图片LAION-5B + COYO-700M六类负面标签过滤器 + 光流/美学评分CogVLM逐帧 → GPT-4/LLaMA2总结开源HunyuanVideo腾讯2024.12~13B数十亿图像-文本对 + 大规模视频未公开分层阈值筛选(256p→720p) + 人工表明SFT布局化JSON字幕(7维度) + 14类摄像机运动开源Gen-3 AlphaRunway2024.06未公开未公开YouTube + 14个影视资源网站未公开未公开闭源Kling快手2024.06未公开未公开快手平台 + AudioSetSNR/MOS/VAD + CLAP同等性过滤音频分类 → 大模子融合字幕闭源Open-SoraHPC-AI Tech2024未公开Panda70M(~2100万) + Pixart-Alpha(1100万)公开数据集五维评分过滤(美学/运动/暗昧/OCR/抖动)LLaVA-Video(256p) + Qwen2.5Max(768p) + 运动分数开源2. Stable Video Diffusion (SVD)


  • 发布时间: 2023年11月
  • 开发者: Stability AI
  • 架构: Latent Video Diffusion Model
  • 论文: "Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets" (arXiv:2311.15127)
数据集

之前广泛用的是方法是:2D 图像上去练习文生图模子,然后插入时间序列层,在小的高质量的视频数据集上举行微调。但是存在的标题:
1)使用小视频数据集是不符合如今大数据的趋势的。
2)如今的视频数据集缺少一个同一的有用的计谋去管理。
作者本文针对这个标题提出一套比力流程化的有用的视频数据管理的本领。
作者提出了一个三步走的步调:
1)text-to-image pretraining 文生图预练习:现实上就是指我们如今已有的文生图的 stable diffusion base model。
2)video pretraining 文生视频预练习:在大规模视频数据上去做预练习。视频预练习完成后,可以或许得到在视频范畴的一个很好的 base model,这个 base model 会对视频的一些特性具有很好的表征,而且对视频文本特性之间的对应关系会有一些认识,具有了一些根本的本领。
3)high-qualtity video finetuning 高质量视频微调:base model 有根本本领之后,就要把 base model 去应用到各种详细的鄙俚任务中。假如想要做文生视频,那么就整理一个文本和视频对的数据集去继续 finetuning 之前视频预练习得到的 base model,从而得到一个文生视频的模子。假如想要做图生视频,那么就把图像作为控制条件,继续 finetuning base model,从而得到一个图生视频的模子。假如想控制视频天生的运镜,那么就通过 camera motion-specific Lora 的方式在 base model 上 finetuning 出 Lora 来控制视频天生的视角。假如想做多视图的天生,就用多视图的数据finetuning base model,从而得到一个多视图天生的模子。
以是第二步算是一个关键,通过大量的数据做视频的预练习,如许能让模子具有一个根本的本领。有了这个根本本领之后,对于详细的鄙俚任务,再去做特异化的 finetuning,如许就能得到各种各样的产出,而且这些产出的模子在各自的范畴都到达了 SOTA 的一个效果,着实这也是大数据所带来的一个的上风体现。
LVD

起首作者是讲了他们的初始数据集的网络,称为LVD (large video dataset),包罗将近 600M 个视频片断。

这个数据集怎么来的?最初始去各处去搜集一些没有任那里置处罚的原始数据,然后要颠末一些过程来得随处置处罚后的 LVD 数据集。起首是 cut detection。
什么叫 cut detection?这里的 cut 是指天生的视频一样平常都是连续的,大概中心不存在转换,比如说突然换一个场景,大概说有非常大的变动,这种着实是要分割成两段视频去做练习的,如许才有利于天生比力同等的视频。以是第一步就是检测这些视频中的cut,把它切成更细的clips。
关于 cut detection,作者对一个根本的 pipeline  还做了一些改进。根本的 pipeline 就是一个视频,每连续两帧之间它厘革的一个幅度,假如厘革幅度很大,它就以为这里是一个分界限,要把它切成两段。但是作者以为这种情况只能去检测出那种瞬间厘革的那种场景切换,假如是那种渐变效果是检测不出来的。
因此作者将这个检测方法做了一下改进,改进之后就是一个多级的界限检测(apply a cut detection pipeline in a cascaded manner at three different FPS levels)。之前大概是连续两帧之间看它厘革多大,如今每隔几帧去看一下它之间的厘革大不大。有差别的隔断模式,有大概每隔 5 帧去看一下,然后再隔个 10 帧去看一下它之间的厘革大不大。雷同于如许的一个多级的方式去检测是否存在一些界限。
作者把视频分成更细的片断之后,用三种差别的方法给这些视频打上文本标注(three different synthetic captioning methods)。

  • image captioner CoCa,基于图像的,取视频中的一个中心帧,用图像打标的方式去给这个视频添加形貌。
  • V-BLIP,一种基于整个视频的打标算法,思量视频全局。
  • 基于大语言模子 LLM-based,把前两种打标的效果去举行一个综合。
    如许每个视频就会有三个标注,颠末这两步之后,作者就网络了他们的 large video datasets,包罗了 577 百万的 clips,一共是 212 年的视频时间长度。
LVD-F

在形成 LVD 之后,作者颠末一些实验发现这个数据集大概还并不是最佳的,须要对这个数据集做进一步的洗濯,让这个数据集更质量更高,如许练习出来的这个视频天生模子才会更好。作者接下来就举行了第二个大的步调,得到一个更小的叫做 LVD-F。LVD-F 的数据量差不多是 LVD 的 1/4 左右。
这里接纳了什么步调?作者去通过四个角度去盘算了每个视频文本对之间的四个评分,分别是:

  • CLIP score:是盘算视频和它的标注之间的一个匹配水平。
  • aesthetic score:评判视频自己的雅观水平。
  • OCR detection score:OCR(optical character recognition) 检测每个视频中笔墨所占地区的面积巨细,剔除包罗大量书面笔墨的clips。
  • optic flow score:检测光流,假如两帧之间的厘革越大,这个光流得分也会越高,用于检测视频的运动厘革巨细。

得到每个视频的四个指标之后,通过这四个指标去筛选 LVD 数据集,让它更小一点,更风雅一点。那怎么去筛呢?很难人为去界说一个阈值,说 CLIP score 高于多少分?我以为是 OK 的,就把它拿进来,这个阈值是多少是须要通过实验去验证的,那怎么去做实验呢?在附录 E2.2 详细分析怎么去定这个threshold。

举例来说,起首看这个 aesthetic threshold 的阈值怎么选取?为了实验的便捷,起首作者先做一个 random simple,将原来 600 百万的 LVD 数据集缩小到十百万,如许验证的速率会更快,由于作者只是为了得到一个阈值,并不是为了练习一个非常好的模子,那为了得到阈值,它就在一个小一点的数据集上去做实验。然后怎么去做实验?就是在这个小的数据集的根本上去创建 4 个差别巨细的数据。
怎么去创建 4 个巨细差别数据?蓝色表现保持 LVD-10M 这个数据集稳定,橙色表现将 aesthetic score 低于 0.125 的那部门数据丢掉,只使用剩下的一些部门。依此类推,如许就构成了四个差别巨细的子集,然后在这四个差别巨细子集上去 finetuning 模子,然后去天生视频,让人去给这四个模子天生的视频打分。这里有三个指标,一个是 prompt alignment,指看四个模子之间文本和视频的匹配水平。第二个 Quality,指视频自己的质量。第三个 Aggregated,指综合前两项的综合得分。分数越高分析取这个阈值越好。这里绿色柱子综合得分最高,绿色对应的是0.25,以是作者选择的 threshold 就是0.25,即把 aesthetic score 低于 0.25 的那些视频都从 LVD 数据集里去删掉,这就是作者所说的数据管理,那其他的指标也是以此类推。比如 clip score 最好的指标是0.5,也就是 clip score 低于 0.5 的那些视频都丢掉,末了把这些全部视频取一个交集,就是说每一个指标都会丢掉一部门数据,然后末了取一个全部指标的一个交集,如许就得到终极的 LVD-F 数据集,就是作者管理之后的数据集。第2幅图的 Motion 指之前说的谁人光流,根据光流做筛选。第1幅图中的 caption strategy 不是筛选指标,而是对比差别的打标方式所带来的模子效果的影响,但是作者以为如今一个通常的练习方式都是用尽大概不一样的 caption 去练习模子,也就是说一个视频大概会对应多个caption,这个是公道的,即蓝色的 Coca 这种打标方式效果是最好的。作者去调配了这三种差别的打标在练习过程中所大概出现的概率,50% 的情况下是 Coca 打的标签去作为数据的输入,25% 的和别的 25% 的情况是别的两种打标方式作为模子标签的输入。
3. Wan

3.1 模子概述


  • 发布时间: 2025年2月
  • 开发者: 阿里巴巴Wan团队
  • 架构: Diffusion Transformer (DiT)
  • 参数规模: 1.3B(轻量版)和14B(完备版)
  • 论文: "Wan: Open and Advanced Large-Scale Video Generative Models" (arXiv:2503.20314)
3.2 练习数据

Wan2.1的团体数据是如许构建的。

预练习数据重要从三个维度举行洗濯和挑选,包罗根本维度、视觉质量、动作质量。

  • 根本属性(光根本维度包罗了大概八个方向,确实很细节):
(1)文本覆盖率:轻量OCR检测视频和图像的文本覆盖率,扫除含有过多笔墨的视频和图像
(2)美学得分:LAION-5B分类器过滤掉低分数据
(3)安全分数:通过练习一个安全评估模子来盘算NSFW分数去过滤掉不妥内容
(4)水印、黑边:裁剪
(5)过曝:使用过曝和不外曝的数据过滤掉过曝的视频和图像
(6)合成图像/视频过滤:通过练习一个合成内容检测器去过滤合成的视频和图像
(7)暗昧检测:练习一个模子对样本举行量化暗昧评分去除视觉暗昧内容
(8)时长:过滤时长低于4s的内容

  • 视觉质量:
通过聚类分别100个子集,每个子集随机采样数据而且举行人工的打分,根据视觉质量打分1-5分,然后用这些采样数据对整个数据举行打分。

  • 运动质量:
一共六个运动质量品级:5-6的数据是完全扫除,4优先级低,3需低落采样率,1-2保存
(1)最佳运动:极佳的运动布局、视角和振幅,以及干净、流畅的运动或动作
(2)中等运动:显着的运动,但大概存在一些小标题,如多主体或部门遮挡
(3)谈天和访谈类视频,运动信息少少,但质量很高。 须要单独辨认这些视频并低落其采样率
(4)镜头驱动的运动: 以摄像机运动为主(如航拍),主体运动少少,与静态图像相似,这些图像的采样优先级要低得多
(5)低质量运动:主体过多、严峻遮挡或主体不清楚的视频(如拥挤的街景)
(6)摇晃的摄像机镜头: 拍照机显着晃动的业余录像、通常会造成运动暗昧和暗昧的远景-配景区分。
额外处置处罚步调:在纯白配景上渲染汉字,合成了数以百万计的含笔墨图像;网络了大量包罗文本的图像。 接纳多种 OCR 模子来正确辨认图像和视频中的中英文文本。然后将这些提取的文本内容输入Qwen2-VL,天生图像的自然形貌,确保尽大概包罗正确的文本内容。预练习阶段整合合成数据和真实数据,可以有用地天生视频中的有数词汇。
Post-training的数据在Pre-training的数据上进一步举行了细化。整个过程包罗了人工和模子的共同的处置处罚。
图像数据:起首根据专家模子猜测的分数,选出前20%的图像,除此之外还思量了风格和种别等因素,以确保数据分布的多样性。然后是人工从差别种别和数据源中网络高质量数据(陈诉写的数百万,工作量照旧很巨大的)。
视频数据:接纳与图像处置处罚雷同的计谋来网络,起首使用视觉质量分类器从候选数据会合筛选出一些排名靠前的视频,然后还会根据运动质量分类器选择数百万个以简朴动作为特性的视频和以复杂动作为特性的视频,全部视频的选择都依照夸大种别平衡和高度多样性的计谋。 同时,从 12 个重要种别中选择数据(科技、动物、艺术、人类、车辆)以增强模子对常用种别的天生本领。
麋集video-caption网络过程: 这个过程重要是根据原始的caption对这个caption举行扩充大概重写。wan2.1用了一个内部模子,为数据会合的每张图片和视频天生麋集的字幕。这个模子的练习用了各种开源视觉语言数据集和额外网络的数据。(这一步非常紧张,很大水平决定了模子的指令依照的本领)
开源dataset处置处罚过程:这部门数据集不但包罗标题数据集,还包罗侧重于视觉内容的视觉问答数据集,如动作、计数和 OCR,而且还会用内部模子根据用户指令天生特定样式或内容的字幕,还网络了纯文本指令数据,以增强模子依照指令的本领。
内部dataset处置处罚过程:这部门还挺复杂的,重要是为了让模子的各种场景下的本领可以或许有所提升。
4. CogVideoX


  • 发布时间: 2024年8月
  • 开发者: 清华大学/智谱AI (THUDM)
  • 架构: Expert Transformer (3D full attention)
  • 参数规模: 2B和5B
  • 论文: "CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer" (arXiv:2408.06072)
练习数据集

我们构建了一个包罗相对高质量视频片断和文本形貌的聚集,这些片断通过视频过滤器和重字幕模子处置处罚。颠末筛选后,约莫剩下3500万个单镜头片断,每个片断均匀长约6秒。别的,我们使用了来自LAION-5B(Schuhmann等人,2022)和COYO-700M(Byeon等人,2022)数据会合的20亿张图片(根据美学评分举行筛选),以辅助练习。
视频过滤: 视频天生模子应该捕获天下的动态本质。然而,原始视频数据由于两个内涵缘故因由通常包罗显着噪声:起首,在视频创建过程中的人工编辑大概会扭曲真实的动态信息;其次,由于拍摄标题如相机抖动或使用次等装备,视频质量大概受到影响。除了视频自己的内涵质量外,我们也思量视频数据对模子练习的支持水平。那些动态信息少少或在动态方面缺乏连贯性的视频被以为是倒霉的。因此,我们订定了一套负面标签,包罗:
  1. 编辑:经历了明显人工处理的视频,例如重新编辑和特效应用,这会损害视觉完整性。
  2. 动态连贯性缺乏:过渡缺乏连贯运动的视频段,常见于人工拼接视频或由静态图像编辑而成的视频。
  3. 低质量:拍摄不佳的视频,具有不清晰的视觉效果或过度的相机抖动。
  4. 讲座类型:主要关注一个人连续讲话且有效动作最小的视频,如教育内容、讲座和直播讨论。
  5. 文本主导:含有大量可见文本或主要专注于文本内容的视频。
  6. 噪声截图:直接从手机或电脑屏幕捕获的视频,通常质量较差。
复制代码
我们起首抽取20,000个视频,并根据其质量为每个视频标志为正面或负面。使用这些标注,我们基于Video-LLaMA(Zhang等人,2023)练习了6个过滤器来筛除低质量的视频数据。负面标签的例子及分类器在测试集上的性能可以在附录J中找到。别的,我们盘算全部练习视频的光流得分和图像美学得分,并在练习期间动态调解它们的阈值,以确保天生视频的动态和美学质量。
视频字幕天生: 视频-文本对对于文本到视频天生模子的练习至关紧张。然而,大多数视频数据并不附带相应的形貌性文本。因此,有须要为视频数据标志全面的文本形貌。如今,已经有一些视频字幕数据集可用,如Panda70M(Chen等人,2024)、COCO Caption(Lin等人,2014)和WebVid(Bain等人,2021b)。然而,这些数据会合的字幕通常非常简短,无法全面形貌视频的内容。

为了天生高质量的视频字幕数据,我们创建了一个麋集型视频字幕数据天生流水线,详细情况如图7所示。重要思绪是借助图像字幕的资助来天生视频字幕。
起首,我们使用Chen等人(2024)提出的视频字幕模子为视频天生简短的字幕。然后,我们接纳CogView3(Zheng等人,2024)中使用的图像重字幕模子CogVLM(Wang等人,2023),为每个帧创建麋集的图像字幕。随后,我们使用GPT-4总结全部图像字幕以天生终极的视频字幕。为了加速从图像字幕到视频字幕的天生过程,我们通过GPT-4(Achiam等人,2023)天生的择要数据对LLaMA2(Touvron等人,2023)举行了微调,从而实现了大规模视频字幕数据的天生。有关视频字幕数据天生过程的更多细节,请拜见附录F。
为进一步加速视频重字幕化,我们还基于CogVLM2-Video(Hong等人,2024)和Llama3(AI@Meta,2024)对一个端到端的视频明确模子CogVLM2-Caption1举行了微调,使用上述流水线天生的麋集字幕数据。这种端到端的CogVLM2-Caption模子天生的视频字幕示例见图15和附录G。CogVLM2-Caption可以提供详细的视频内容和对象厘革形貌。风趣的是,我们发现可以通过毗连CogVideoX和CogVLM2-Caption实现视频到视频的天生,详情见附录H。
5. HunyuanVideo (Tencent)

5.1 模子概述


  • 发布时间: 2024年12月
  • 开发者: 腾讯混元团队
  • 架构: Dual-stream to Single-stream Transformer
  • 参数规模: 约130亿(13B)
  • 论文: "HunyuanVideo: A Systematic Framework For Large Video Generative Models"
5.2 练习数据

我们接纳图像-视频团结练习计谋。 视频被过细地分为五个差别组,而图片又分为两组,每组根据各自练习流程的详细需求量身定制。本节重要探究视频数据策展的复杂性。
我们的数据收罗流程严酷依照《通用数据掩护条例》(GDPR)中的原则[39]框架。别的,我们还接纳数据综合和隐私盘算等先辈技能,确保符合这些严酷尺度。
我们的原始数据库最初包罗涵盖广泛范畴的视频,包罗人物、动物、植物、景观、车辆、物体、构筑和动画。每个视频都接纳了一套根本门槛,包罗最短时长要求。别的,部门数据基于更严酷的尺度网络,如空间质量、特定宽高比的服从以及构图、色彩和曝光的专业尺度。这些严酷的标正确保我们的视频具备技能质量和美学吸引力。我们通过实验验证,纳入高质量数据对于显着提升模子性能至关紧张。

图4:我们的分层数据过滤流程。我们接纳多种筛选器举行数据过滤,并渐渐进步阈值,构建4个练习数据集,即256p、360p、540p和720p,终极SFT数据集则通过人工表明构建。本图重点先容了每个阶段使用的一些最紧张的过滤器。每个阶段都会删除大量数据,从前一阶段数据的一半到五分之一不等。 这里,灰色条表现每个滤波器过滤掉的数据量,彩色条表现各阶段剩余数据量。
数据过滤

我们来自差别泉源的原始数据连续时间和质量水平各不雷同。为此,我们接纳一系列技能对原始数据举行预处置处罚。起首,我们使用 PySceneDetect[19]将原始视频拆分为单次视频片断。接下来,我们使用OpenCV中的拉普拉斯算子[18]以辨认清楚的帧,作为每个视频片断的起始帧。使用内部的VideoCLIP模子,我们盘算这些视频片断的嵌入。这些嵌入有两个目的:(i)基于嵌入的余弦间隔对相似剪辑举行去重;(ii) 我们应用k-均值[59]以得到1万个概念重心用于概念重采样和平衡。
为了连续提升视频美感、动态和概念范围,我们实行了分层数据过滤流水线来构建练习数据集,如图4所示。该流程包罗多种过滤器,资助我们从差别角度筛选数据,接下来将先容这些内容。
我们雇佣多佛[85]从美学和技能角度评估视频剪辑的视觉美学。别的,我们还练习模子以确定清楚度并消除带有视觉暗昧的视频片断。通过使用估计的光流猜测视频的运动速率[18]我们过滤掉静态或慢动作视频。我们联合了PySceneDetect的效果[19]以及Transnet v2[76]获取现场界限信息。我们使用内部OCR模子往复除带有过多笔墨的视频片断,并定位和裁剪字幕。我们还开发YOLOX[24]——雷同于用于检测和去除某些遮挡或敏感信息(如水印、边框和标志)的视觉模子。为了评估这些滤波器的有用性,我们使用较小的HunyuanVideo模子举行简朴素验并观察性能厘革。这些实验效果在引导我们构建数据过滤流程方面起侧紧张作用,接下来将先容该流程。
我们针对视频数据的分层数据过滤流程产生五个练习数据集,对应五个练习阶段(第4.5节)。这些数据集(除末了一个微调数据集外)是通过渐渐提升上述过滤器的阈值来经心整理的。视频空间分辨率从256渐渐提升到1280
在阈值调解过程中,我们会在差别阶段对滤波器施加差别水平的严酷度(见图4)。接下来将形貌用于微调的末了一个数据集。
为了提升模子在终极阶段(第4.7节)的性能,我们构建了一个微调数据集,内容包罗100万个样本。该数据集通过人工表明经心整理。表明员的任务是辨认具有高度视觉美感和引人入胜内容动态的视频片断。每个视频片断的评估基于两个视角:(i)分解后的美学视角,包罗色彩调和、光照、物体夸大和空间布局;(ii) 分解后的运动视图,涵盖运动速率、动作完备性和运动暗昧。末了,我们的微调数据集包罗具有复杂动态细节的视觉雅观视频片断。
我们还通过重复使用大部门滤镜(扫除与运动干系的滤镜)创建了图像的层级数据过滤流程。同样,我们通过渐渐进步对数十亿图像-文本对的图像池施加的过滤阈值,构建了两个图像练习数据集。 第一个数据集包罗数十亿个样本,用于文本到图像的初始预练习阶段。第二个数据集包罗数亿个样本,用于文本转图像的第二阶段预练习。
数据表明

布局化字幕。研究表现[7,4]字幕的正确性和全面性在提升天生模子的提示跟随本领和输出质量方面起着关键作用。大多数早期工作重要会合在提供简短的分析[14,50]或是麋集的分析笔墨[93,9,10].然而,这些方法也存在不敷,存在信息不完备、冗余的讨论和不正确。为了实现更全面、更丰富的信息密度和正确性,我们开发并实行了内部视觉语言模子(VLM),用于天生图像和视频的布局化字幕。这些布局化字幕以JSON格式化,提供多维的形貌性信息,包罗:

  • 简短形貌:捕获场景的重要内容。
  • 麋集形貌:详细形貌场景内容,尤其是场景转换和与视觉内容整合的镜头运动,比方镜头跟随某个主题。
  • 配景:形貌主题地点的情况。
  • 风格:形貌视频的风格,如记载片、影戏、现实主义或科幻。
  • 镜头范例:辨认突出或突出特定视觉内容的视频范例,如航拍、特写、中景或远景。
  • 光线:形貌视频的光线条件。
  • 气围:转达视频的氛围,如温馨、告急或秘密。
别的,我们还扩展了JSON布局,纳入了更多元数据衍生元素,包罗源标签、质量标签以及来自图片和视频元信息的其他干系标签。通过实行经心计划的脱落机制,联合置换和组合计谋,我们通过为每张图片和视频搜集这些多维形貌,合发展度和模式多样的字幕,旨在提升天生模子的泛化本领并防止过拟合。我们使用该分析工具为练习数据会合的全部图片和视频提供布局化的分析。
摄像机运动范例。我们还练习了一个摄像机运动分类器,可以或许猜测14种差别的摄像机运动范例,包罗放大、缩小、向上、向下、左移、右移、向上倾斜、向下倾斜、左倾斜、右倾斜、绕左转、绕右转、静态拍摄和手持拍摄。高置信度的相机运动猜测被集成到JSON格式的布局化字幕中,以实现天生模子的相机运动控制本领。
6. Runway Gen-3 Alpha

6.1 模子概述


  • 发布时间: 2024年6月
  • 开发者: Runway
  • 本领: 文本到视频、图像到视频天生
  • 特点: 显着提升的视频天生质量、时间连贯性和提示词依照度
6.2 练习数据

数据泉源

Runway 在 2024 年 6 月发布了 Gen-3 视频天生模子, 效果震撼整个视频天生范畴 。
这家毫无疑问的视频天生赛道头部创业公司,刚刚被曝出一份内部文件。
一个简朴的 Excel 表格,巨详细地摆列着 Runway 动员全公司上下在互联网上网络的高质量视频资源,累积条目数万条。
此中 YouTube 上的视频占据了一大部门,光是「保举油管频道」就有 3968 个。另有 14 个在线影视资源网站。
7. Kling (快手)

7.1 模子概述


  • 发布时间: 2024年6月(1.0版本
  • 开发者: 快手科技
  • 本领: 文本到视频、图像到视频天生
  • 特点: 最长2分钟,1080p分辨率
7.2 练习数据


图4:音频和视频数据颠末预处置处罚和质量筛选,以得到高质量的单一变乱音频和视频片断。随后,通过期间增强天生合成的多变乱音频样本,并使用大型模子天生并提取音频和视频的关键词和分类标题。末了,将各种标题信息联合起来天生终极的练习标题。
数据网络

基于AudioSet[16]本体条理布局选择前三层种别构建标签集,形成体系化关键词库引导视频平台检索。通过元数据筛选确保语义干系性,并增补人工精选资源和开源数据集样本以增强长尾覆盖。
数据洗濯


保存分辨率>720P且字幕占比低的视频,音频同一转换为44kHz/16bit立体声WAV格式。基于信噪比(SNR)、MOS评分、削波率和音频带宽举行质量过滤,使用语音运动检测(VAD)选择静音比

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

登录后关闭弹窗

登录参与点评抽奖  加入IT实名职场社区
去登录
快速回复 返回顶部 返回列表