Hello,大家好,最近给大家分享了很多AI开源项目,而图生视频领域的AI开源项目一贯是AI前沿比较火热且备受关注的!

近期

接下来的文章就给大家盘点盘点!
以为对你有帮助记得点赞和收藏哦!
感谢大家!

16.7Kstar!
Open-Sora:国产开源的视频天生模型!

国产技能团队Colossal-Al开源了视频天生模型Open-Sora1.0,该模型继续并超越了OpenAl Sora的精良视频天生效果,通过供应一个低本钱且高效的演习及推理复现流程,极大降落了技能门槛。

Open-Sora的架构采取了Diffusion Transformer (DiT)模型,结合韶光把稳力层,优化了对视频数据的处理。
通过预演习的VAE和文本编码器,以及空间-韶光把稳力机制的运用,实现了高效的空间布局和韶光序列关联的学习。
此外,模型还引入了多阶段演习策略,包括大规模图像预演习、视频预演习及高质量视频数据的微调,有效提升了视频天生的细节和质量。

建议收藏16个文生视频/图生视频AI开源大年夜模型项目专题汇总

GitHub:https://github.com/hpcaitech/Open-Sora

SVD开源!
SD母公司StabilityAI推出的图生视频开源!

Stable Video Diffusion是Stability Al发布的视频天生大模型。

技能特点:

一、多阶段演习策略

Stable Video Diffusion采取了多阶段的演习策略,包括文本到图像的预演习、视频预演习以及高质量视频微调。
这种分阶段的演习方法使得模型能够逐步学习到从文本到图像,再到视频的繁芜映射关系,提高了天生视频的质量和准确性。

二、灵巧的运用处景

由于Stable Video Difusion供应了强大的多视图3D先验和运动表征能力,它可以广泛运用于各种场景,包括文本到视频的天生、图像到视频的天生以及对摄像机运动特定的适应性等。
此外,该模型还可以以前馈办法天生工具的多个视图,具有较小的算力需求和优于基于图像方法的性能。

三、高质量的天生效果

通过多阶段的演习策略和精心准备的数据集,Stable Video Difusion能够天生高质量、动作连贯且韶光同等的视频内容。

背景不动,只让两只鸟动也可以:

开源地址:https://github.com/Stability-AI/generative-models

官方供应文生视频地址:https://www.stablevideo.com/

demo体验地址:https://stable-video-diffusion.com/

huggingface地址:https://huggingface.co/stabilityai/stable-video-diffusion-img2vid

MoneyPrinterTurbo:1.2K星!
这个AI工具可以一键天生短视频和文案语音!

这个MoneyPrinterTurbo 开源AI项目 已经1.2k的star量了!
只需供应一个视频 主题 或 关键词 ,就可以全自动天生视频文案、视频素材、视频字幕、视频背景音乐,然后合成一个高清的短视频。

最终生成视频效果展示:

github地址:https://github.com/harry0703/MoneyPrinterTurbo

sora平替! StreamingT2V:根据笔墨提示天生2分钟的视频!

StreamingT2V采取自回归方法来逐帧天生视频内容,也便是会根据前一段视频的内容来天生下一段内容,就像连环画中,每一幅画都是基于前一幅来绘制的。

它能够天生长达1200帧(约2分钟)的视频,同时担保全体视频与文本描述紧密干系且动态连续。

项目及演示:https://streamingt2v.github.io

论文:https://arxiv.org/abs/2403.14773

github:https://t.co/h8nsZR8IHv

开源!
AnimateDiff:成熟的图生视频sd插件!

AnimateDiff是由上海人工智能实验室、喷鼻香港中文大学和斯坦福大学的研究职员推出的一款将个性化的文本到图像模型扩展为动画天生器的框架,其核心在于它能够利用从大规模视频数据集中学习到的运动先验知识,可以作为Stable Diffusion文生图模型的插件,许可用户将静态图像转换为动态动画。
该框架的目的是简化动画天生的过程,使得用户能够通过文本描述来掌握动画的内容和风格,而无需进行特定的模型调优。

原图:

天生视频效果:

开源地址:https://github.com/guoyww/animatediff

StoryDiffusion:开源的AI故事创作项目,支持天生剧情漫画和故事视频!

StoryDiffusion可以通过天生同等的图像和视频来创建一个神奇的故事,基于同等性自把稳力(Consistent Self-Attention)和语义运动预测(SemanticMotion Predictor)技能的创新天生模型。
它紧张用于天生一系列风格和内容同等的图像和视频,适用于须要连续视觉内容来讲述故事的场景。

天生动漫视频效果展示:

天生人物视频效果展示:

官方地址:https://storydiffusion.github.io/

github地址:https://github.com/HVision-NKU/StoryDiffusion

huggingface:https://huggingface.co/spaces/YupengZhou/StoryDiffusion#/

高效方法!
Video-LAVIT:开源图文视频天生大模型!

Video-LaVIT模型的核心在于将视频分解为关键帧和韶光运动。
视频常日被分为多个镜头,每个镜头内的视频帧每每存在大量的信息冗余。
因此,将视频分解为交替的关键帧和运动向量,关键帧捕捉紧张的视觉语义,而运动向量描述其对应关键帧随韶光的动态演化。
这种分解表示的好处在于,与利用3D编码器处理连续视频帧比较,单个关键帧和运动向量的组合须要更少的标记来表示视频的时空动态,这对付大规模预演习更为高效。

为了将连续的视频数据转换为紧凑的离散标记序列,Video-LaVIT设计了视频标记器。
关键帧通过利用已建立的图像标记器进行处理,而韶光运动的转换则通过设计一个时空运动编码器来实现。
该编码器能够捕捉提取的运动向量中包含的随韶光变革的高下文信息,从而显著提高LLMs理解视频中繁芜动作的能力。

项目地址:https://video-lavit.github.io

MagicTime:是一个专注于天生变形韶光延迟视频的模型!

MagicTime是一个创新的模型,专注于创建变形韶光延迟视频。
它采取了基于DiT(Detection and Tracking)的架构,有效办理了现有文本到视频(Text-to-Video,T2V)天生模型在编码现实天下物理知识方面的不敷。
在传统的T2V天生过程中,视频每每动作范围有限,变革表现不敷,无法充分展现繁芜的变形效果。

MagicTime的核心贡献在于:

1.物理知识编码的改进:MagicTime通过更精确地反响现实天下的物理规律,办理了现有模型在物理知识编码上的不敷。

2.动作和变革的丰富性:与以往天生的视频比较,MagicTime能够产生动作更丰富、变革更繁芜的视频,更好地仿照了物体的变形过程。

项目及演示:https://pku-yuangroup.github.io/MagicTime/

论文:https://arxiv.org/abs/2404.05014

GitHub:https://github.com/PKU-YuanGroup/MagicTime/tree/main

想动哪里点哪里!创新图生视频模型"Follow Your Click"开源!

腾讯、混元、清华大学以及喷鼻香港科技大学共同互助推出了一项全新的图像天生视频模型,名为Follow-Your-Click。

这项创新的技能具有非常大略的操作方法。
用户只需将任意一张照片输入该模型,然后点击相应区域并添加少量大略的提示词,即可使原来静态的图像区域焕发生机,轻松地转换为一段动态视频。

论文链接:https://arxiv.org/pdf/2403.08268

GitHub: https://github.com/mayuelala/FollowYourClick

已获13.6k星! Animate Anyone:自动天生动画元素,让照片起舞!

Animate Anyone是阿里巴巴旗下研究院发布的动画制作Al软件。
能够自动天生角色、场景、动作等动画元素,并将其组合成完美动画作品,用户只需供应一些大略的参数即可。
这大大降落了动画制作的难度,让动画制作变得更加大略。

体验地址:https://humanaigc.github.io/animate-anyone/

github地址:https://github.com/HumanAIGC/AnimateAnyone

腾讯开源!
MuseV:天生表情自然的虚拟人视频新工具!

MuseV是一个由腾讯音乐娱乐的天琴实验室开源的虚拟人视频天生框架,专注于天生高质量的虚拟人视频和口型同步。
它利用前辈的算法,能够制作出具有高度同等性和自然表情的长视频内容。
MuseV支持自定义动作和风格,视频时长理论上无限,且天生速率快。
这一技能在AI创作领域中表现出色,为虚拟人视频制作供应了新的可能性。

试玩页面:https://huggingface.co/spaces/AnchorFake/MuseVDemo

项目地址:https://github.com/TMElyralab/MuseV

让照片开口唱歌说话!
腾讯AniPortrait比阿里EMO先开源!

之前阿里展示EMO项目让照片唱歌说话时,惊艳了所有人,然而到现在为止一贯还没开源被饱受诟病,本日腾讯的AniPortrait来啦!
也是一个让照片开口项目说话的项目!

根据音频和图像输入 天生会说话、唱歌的动态视频它可以根据音频(比如说话声)和一张静态的人脸图片,自动天生逼真的人脸动画,并保持口型同等。
支持多种措辞,同时支持进行面部重绘和头部姿势掌握。

github地址:https://github.com/Zejun-Yang/AniPortrait

跳个科目三不在话下!
Champ :国外开源的让照片舞蹈的AI项目!

Champ 利用潜在扩散框架内的 3D 人体参数模型,实现了无与伦比的形状对齐和运动勾引。

捕捉繁芜的人体几何形状和运动从未如此大略!

github地址:https://github.com/fudan-generative-vision/champ

DreamTalk :单张图像一键天生说话视频!

DreamTalk是一个基于扩散的音频驱动表达性头部天生框架,能够天生具有多种说话风格的高质量头部视频。
DreamTalk在各种输入中表现出强大的性能,包括歌曲、多种措辞的语音、含噪声音频和领域外的肖像画。

github:https://github.com/ali-vilab/dreamtalk

开源!AniTalker:一张照片和输入音频天生生动的能说话的面部视频

AniTalker通过一个静态的肖像画和输入音频,天生生动多样的说话面部动画视频。
该框架不仅仅着重于嘴唇同步这样的言语线索,而且能够捕捉到面部表情和非言语线索的繁芜动态。

AniTalker能实现的效果包括:

1.面部动画天生:通过输入静态的人像和音频旗子暗记,AniTalker可以天生说话的面部动画。
这种动画不仅包括口型同步,还包括与说话内容匹配的面部表情和头部动作。

2.多样化和可控性:集成的扩散模型和方差适配器许可天生具有高度多样性和可控性的动画。
这意味着可以根据不同的输入和参数设置,天生各种不同表情和动作的面部动画。

3.真实感和动态表现: AniTalker的动画不仅外不雅观真实,动作流畅,还能很好地捕捉细微的面部动态和繁芜的非言语信息,如眨眼、微笑等。

4.长视频天生: AniTalker 可以天生较长的面部动画视频,演示视频显示,最长可以超过3分钟,适用于多种运用处景,如虚拟助理、数字人物演出等。

项目及演示:https://x-lance.github.io/AniTalker/

论文:https://arxiv.org/abs/2405.03121

GitHub: https://github.com/X-LANCE/AniTalker

VASA-1:实现从静态图像和一段语音天生逼真的对话面部动画

VASA-1,由微软亚洲研究员开拓的项目,可以实现从单一静态图像和一段语音音频天生逼真的对话面部动画。
VASA-1不仅能够精确同步音频和唇部动作,还能捕捉到丰富的面部细微表情和自然的头部动作,增强了真实感和生动感。

项目及演示:https://www.microsoft.com/en-us/research/project/vasa-1/

论文:https://arxiv.org/abs/2404.10667

以上便是图生视频的开源项目汇总,如果对你有帮助感谢大家的收藏点赞支持!

#AI开源项目推举##github##图生/文生视频AI模型