SERVICE PHONE

363050.com
AGyule AG娱乐
你的位置: 首页 > AG娱乐
AG娱乐官方直营平台真人视讯返水高首存送88元单GPU搞定高清长视频生成效率×10!引入Mamba机制突破DiT瓶颈

发布时间:2025-06-22 02:36:09  点击量:

  AG娱乐,AG真人,AG平台,AG旗舰厅,AG视讯,AG娱乐平台,真人视讯平台,首存送彩金

AG娱乐官方直营平台真人视讯返水高首存送88元单GPU搞定高清长视频生成效率×10!引入Mamba机制突破DiT瓶颈

  普林斯顿大学和Meta联合推出的新框架LinGen,以MATE线性复杂度块取代传统自注意力,将视频生成从像素数的平方复杂度压到线性复杂度,使单张GPU就能在分钟级长度下生成高质量视频,大幅提高了模型的可扩展性和生成效率。

  实验结果表明,LinGen在视频质量上优于DiT(胜率达75.6%),并且最高可减少15×(11.5×)FLOPs(延迟)。此外,自动指标和人工评估均显示,LinGen-4B在视频质量上与最先进模型相当(分别以50.5%、52.1%、49.1%的胜率优于Gen-3、Luma Labs和Kling)。

  LinGen维持Diffusion Transformer(DiT)中的其他结构不变,而将其计算瓶颈——平方复杂度的自注意力模块替换为线性复杂度的MATE模块,它由MA分支和TE分支组成。

  Mamba2作为State Space Model(SSM)的变体,善于处理超长的token序列,同时又对硬件非常友好,可以使用attention的各种硬件加速核,如xformers,FlashAttention等。但是Mamba系列模型在语言任务上的优秀表现难以直接迁移到大型视觉任务上,生成的高分辨率视频往往一致性很差、质量不高。

  一些特殊的scan方法尝试解决这一问题,如Zigzag scan,Hilbert scan,但它们都要求对序列做复杂的顺序变换,而这个操作对硬件极其不友好。在处理高分辨率、长视频时,会带来显著的额外延迟。

  以上图的方式为例,W,H和T分别在展开时有第一、第二和第三优先级,通过交换展开的优先级,就可以实现不同的scan方式。

  相比于已有方法,该方法最大的好处是对硬件非常友好、可以通过简单的tensor reshaping实现,因此也几乎没有额外开销,同时还把scan后原相邻token的平均距离降到了和已有特殊scan方式相同的水平。

  然而,所有这些特殊的scan方式仍然不足以完全解决Mamba的临近信息丢失问题,因为在模型的任意一层中,只会有一种scan方式被应用,如果不考虑跨层交流,大量临近信息在单层中依旧有损失。

  针对于此,LinGen在TE分支中应用了TEmporal Swin Attention(TESA):它是一种特殊的3D window attention,窗口范围在不同层中会滑动,每一个窗口都很小,并且窗口大小不随视频分辨率和长度(即3D tensor的大小)的变化而变化。

  这是因为TESA仅用来处理最临近的信息,这一固定的窗口大小也使得TESA实现了相对3D tensor中token数的线性复杂度。

  作为额外的补充,LinGen还在MA分支中引入了review tokens。它被用以增强视频中极长程的一致性,例如在60秒视频的结尾复现视频前几秒消失的人。它把待处理video tensor的概览提前写入Mamba的hidden state memory中,为后续的视频处理提供帮助。

  从人类评测和模型自动评测两个角度将LinGen与已有的先进视频生成模型、以及DiT baseline进行比较。

  无论是人类评测的结果,还是在VBench上的自动评测的结果,都显示LinGen与先进的商业模型Kling、Runway Gen-3生成的视频质量接近,并且远胜于OpenSora v1.2。

  可以看到,在FLOPs方面,当生成17秒、34秒和68秒长度的512p视频时,LinGen-4B相对于DiT-4B分别实现了5×、8×和15×的加速;

  这说明LinGen具有线性复杂度,可以在单卡上实现分钟级视频生成,速度远快于DiT。与相同大小的DiT相比,LinGen可实现推理速度11倍以上的提升。

  另外,LinGen和相同大小、在相同数据集上以相同training recipe训练的DiT baseline相比,在视频质量和文字-视频一致性上取得全面领先。相比起DiT,LinGen可以更快地适应更长的token序列。

  通常认为自注意力模块的线性替代是对完整自注意力的近似,虽然在速度上有显著优势,但在模型性能上往往略逊一筹,而LinGen打破了这个惯有的看法。

  在整个预训练过程中,模型从低分辨率图像生成开始,学习低分辨率视频生成,再不断增加所生成视频的分辨率和长度,所处理的token数增长了上千倍。

  而在从少token数的任务迁移到多token数的任务时,LinGen的适应性远强于DiT(a图中是从256x256分辨率视频生成迁移到512x512分辨率视频生成任务时的loss curve),这可能是受益于Mamba对于长序列的高适应性,这一特征已经在语言任务上被观察到。

  为了进一步验证这里推理,选取这一预训练阶段的早期checkpoint进行比较,发现LinGen比DiT的win rate优势变得更加显著。这暗示了虽然LinGen在任务迁移的早期能大幅领先DiT,但是这种优势随着预训练的进行,在不断减小。

  尽管如此,在训练资源有限的情况下,LinGen在预训练的极长一段时间内仍旧能对DiT保持优势。

  06月12日,湖南集中无害化销毁近30吨不合格药品,澳门皇冠最新备用网址,十大正规买球网站,推二八杠绝技,升博官网

  06月12日,2023年中国财政收入突破21万亿元,万博直播视讯,必威手机客户端官网,手机巴黎人网投,ag8线日,“千湖之省”湖北将逐步恢复湖泊水域面积,伟德体育足球,贝多娱乐彩票怎么样,利来国际新网址,ag首页平台

  06月12日贵州“最美农村路”:缩短城乡距离 带动旅游产业发展马经心经A(新图推荐)168注册App马博正规买球平台环亚注册

  06月12日强预警助力气象防灾减灾乐鱼电竞平台亚星可靠吗老k深海狩猎多宝体育网址

  06月12日俄罗斯和乌克兰双方交换战俘bwin网上赌场澳门威尼斯正网海王星娱乐网lc8乐橙手机版……

  06月12日,习向当选总统恩代特瓦致贺电,澳门手游捕鱼,银河网上开户,博鱼app平台,九州登陆

  06月12日,中国县城游受追捧 旅游市场下沉化趋势明显,188bet金宝搏在线登录,bwin官方下载,爱游戏电竞官网,必威手机版官网

  06月12日新时代文艺何以为新(新语·文化强国名家谈)365bet怎么买球澳门皇冠站火狐体育官方网络ag线岁“挂历金大爷”想找“继承人”,1号站娱乐平台,九游官网APP,赌场游戏软件下载,云顶娱乐网页版注册

  06月12日,“欢乐春节”系列活动在纽约启动,博鱼客户端下载,澳门皇冠下载app,泛亚电竞所有网站,九州网址登录

  06月12日,国宝表情包大合集来了!速速截图保存!,韦德体育体育,波音app官网,永乐高网址,188体育体育下载

  24小时 第八季,国足31人大名单唐人街探案2【滔滔两岸潮】台青张鸿文投身北京金融业:与客户共同成长要玩就玩最好的5197官方网站博狗888平台bsports登录入口app凤凰娱乐网站多少

  莲花楼,地下城与勇士各职业热度排行明星为动画配音,别只顾着流量营销万博官网手机版网页登录入口推二八杠的的技巧爱体育app官方下载888集团官方网站welcome

  十天之后回到现实,锐评WTT球星挑战赛多哈站泉州宝藏 “世界教的第三圣墓”为何在这儿英皇体育注册彩金不黑钱的体育平台ag九游会官网尊龙威斯尼斯人0907官方网站下载

  44岁女高管被老公要求不生孩子就离婚,黎巴嫩对以色列大规模袭击“摆架子”脱离群众 官僚主义要根除贝博娱乐官网PG电子网万博平台网页版澳门网上国际

地址:AG娱乐永久网址【363050.com】  电话:363050.com 手机:363050.com
Copyright © 2012-2025 AG娱乐网站 版权所有 非商用版本 ICP备案编: