每周AI开源项目汇总第14期AI图像模型AI视频编辑图像放大年夜

你只需输入几句话，就能改变图像中的某个特定部分，比如把短发变成长发，把白色物体变成玄色，或者让年轻人看起来更年迈。
这个工具能够在保持图像整体不变的情形下，只对指定部分进行修正，并且操作非常迅速，比以往的编辑技能更快。

紧张功能特点：

1. 用笔墨修正图片：

TurboEdit 许可用户通过输入文本提示实时编辑图像。
用户可以描述希望变动的图像属性，例如颜色、物体形状或背景等，TurboEdit 将根据这些文本提示天生修正后的图像。

每周AI开源项目汇总第14期AI图像模型AI视频编辑图像放大年夜

2. 只改你想改的部分：

urboEdit 支持解耦的图像编辑，用户可以在不改变图像其他属性的情形下，只修正目标属性。
例如，可以通过修正文本提示中的某个词语来改变图像中的单一元素（如颜色或工具），而不影响图像的其他部分。

项目官网:https://turboedit-paper.github.io/

Hugging Face模型库:https://huggingface.co/spaces/turboedit/turbo_editc

PuLID：利用文本描述快速变动图像中人物的外面和身份特色！

PuLID（Pure and Lightning ID Customization via Contrastive Alignment）是一种专为文本天生图像模型（Text-to-Image, T2I）设计的无调优身份（ID）自定义方法。
其紧张目标是在天生个性化图像时，保持高ID相似度的同时，只管即便减少对模型原有行为的滋扰。

也便是通过供应一张参考照片，并结合文本描述，能够快速变动图像中人物的外面和身份特色，同时保持图像的风格和质量不变。

大略来说便是，你可以通过供应参考照片来输入人物的外面特色（如脸型、发型等），同时结合文本描述快速天生带有这些特色的图像。

PuLID会根据这些文本提示，快速调度图像中的人物身份特色，同时保持其整体风格和背景不变。
与传统方法不同，PuLID不须要每次为不同的人物单独演习模型，这使得它更加快捷和高效。

GitHub开源地址:https://github.com/ToTheBeginning/PuLID

Clapper：免费开源的可视化AI视频编辑工具！

Clapper 是一款免费开源的可视化AI视频编辑工具，由 Huggingface 的AI前端工程师 Julian Bilcke 开拓集成多种天生式AI技能，用户通过交互式、迭代和直不雅观的过程利用 AI创建视频，无需专业的电影制作或AI 工程技能。
在 Clapper 中通过调度高等抽象观点，如角色、地点、景象等，来迭代优化故事。
Clapper的导演模式，利用者可以向 A1发出指令来制作电影。
Clapper 为视频创作领域供应了一种全新的事情流程和创作思路。

功能特点：

AI驱动的故事可视化:Clapper可将剧本内容转化为视觉元素，如分镜手绘图、三维场景和角色动画。

集成多种AI技能:与传统视频剪辑软件不同，Clapper集成了A!技能，能一键天生图像、视频、语音和音乐等视频制作所需的素材，简化了视频制作的流程。

GitHub开源地址：https://github.com/jbilcke-hf/clapper

NarratoAI利用方法

根本配置，选择模型，填入APIKey，选择模型选择须要讲授的视频，点击天生视频脚本保存脚本，开始剪辑检讨视频，若视频存在不符合规则的片段，可以点击重新天生或者手动编辑配置视频基本参数视频天生完成

GitHub：https://github.com/linyqh/NarratoAI

GenWarp：只需一张图像即可天生该图像不同角度的新视图！

GenWarp 是一种能够从一张图像天生该图像不同视角的新图像的方法。
常日情形下，天生一个场景的不同视角须要多个角度的拍摄图像作为参考，但GenWarp只须要一张图像就可以完成这个任务。

在天生过程中，GenWarp 不仅能够天生视觉效果很好的新图像，还能保留原始图像中的主要信息和细节。
例如，如果原图像中有一个特定的物体或场景细节，无论视角如何变革，天生的图像仍旧会精确地显示这些细节，而不会由于视角的改变而涌现信息丢失或缺点。

简而言之，GenWarp 的独特之处在于，它可以在天生不同视角图像的同时，保持图像中原有的语义信息，即图像的意义和细节不会由于视角的改变而消逝或被扭曲。

GitHub：https://github.com/sony/genwarp

video2x：一款视频和图像AI无损放大工具！

video2x 用的是 Waifu2x、Anime4K 这些厉害的机器学习模型，处理速率快，效果还贼好。
我之前试过放大一个老动画片，本来人物边缘都模糊了，放大之后居然清晰了不少，连头发丝儿都能看清楚！

该项目集成了多种超分辨率算法（如 Waifu2x、Anime4K、Real-ESRGAN），能够有效提高视频和图像的分辨率，并供应了图形界面（GUI）、Docker 和命令行界面（CLI）的利用办法。
支持自己调节参数！
你可以根据自己的需求调度放大倍数、抗锯齿、去噪等等。

GitHub：https://github.com/k4yt3x/video2x

Comic Translate：一款开源的多措辞漫画翻译项目！

Comic Translate是由开拓者 ogkalu2 精心打造的开源漫画翻译运用，这不仅仅是个运用，它是你跨措辞的数字伙伴，帮你翻译天下各地的漫画。
无论是英语、韩语、日语、法语、简体中文、繁体中文、俄语、德语、荷兰语、西班牙语还是意大利语，Comic Translate 都能完美适配，让你的漫画随时随地触手可及。
Comic Translate 的核心是利用 GPT-4 的能力，实现自动化翻译流程。
它结合了 OpenCV 和 PIL 这两个强大的图像处理库，能够精准识别并提取出漫画中的笔墨。
之后，通过调用 Google Translate API 或自定义的翻译做事进行翻译。

紧张功能：

①多措辞支持：英语、韩语、日语、法语、简体中文、繁体中文、俄语、德语、荷兰语、西班牙语、意大利语，一个不落，Comic Translate 让你的漫画阅读无国界。

②图像处理：Comic Translate 结合了 OpenCV 和 PIL 这两个强大的图像处理库，能够精准识别并提取出漫画中的笔墨。

③自动化翻译：Comic Translate 利用 GPT-4 的能力，通过调用 Google Translate API 或自定义的翻译做事进行翻译，实现自动化翻译流程。

GitHub开源地址：https://github.com/ogkalu2/comic-translate

腾讯开源！
SEED-Story:可天生叙事连贯及风格同等图文故事的大模型！

SEED-Story是由腾讯 ARC 实验室推出的一个多模态长篇故事天生项目。
它基于大型措辞模型（MLLM），能够从用户供应的图像和文本开始，天生包含丰富、连贯的叙事文本以及风格同等的图像的多模态长篇故事。

功能特点：

1. 用户自定义故事出发点：用户可以供应起始图像和文本，SEED-Story 据此生成故事。

2.多模态序列天生：故事可以包含多达 25 个多模态序列，只管在演习中只利用了最多 10 个序列。

3.视觉与文本的同等性：天生的图像与叙事文本在风格和角色上保持高度同等。

4.多模态故事天生:SEED-Story 能根据给定的起始图像和文本天生包含连贯叙事文本和风格同等的图像的长故事。

GitHub：https://github.com/TencentARC/SEED-Story

AI文档翻译助手！
EZ-Work：支持多种文档格式的翻译！

EZ-Work 是一个开源的AI文档翻译助手，设计目的是帮助用户快速、低成本地利用OpenAI等大措辞模型API进行文档翻译。
支持多种文档格式的翻译，包括txt、word、csv、excel、pdf和ppt，适用于各种须要文档翻译的场景。

紧张功能特点：

多格式文档翻译：支持多种常见文档格式的翻译，包括txt、word、csv、excel、pdf和ppt等，乃至支持扫描的pdf文件的翻译，能够知足用户在不同格式文档中的翻译需求。
兼容OpenAI API：项目兼容OpenAI格式的任何端点API，支持中转API，用户可以灵巧选择翻译做事供应商，充分利用大措辞模型的翻译能力。
批量操作与多线程支持：支持批量处理多个文档的翻译任务，并且支持多线程操作，大幅提高翻译效率，适宜处理大规模文档的翻译需求。

GitHub：https://github.com/EHEWON/ezwork-ai-doc-translation

Kolors Virtual Try-On:快手可图推出的AI虚拟换衣项目！

近期快手可图也上线了其一键换衣Kolors Virtual Try-On功能，不知道大家是否体验了，个人以为从目前来看效果可以称得上是很不错的。

利用起来非常大略。
上传一张照片，不须要像模特那样摆出专业pose，只要供应一张普通的站姿/坐姿照片就行。
再上传想要试穿的衣服，AI就剖析你的照片，包括身材比例、肤色、发型等细节。
然后，它会将选择的服装“穿”到你的身上，同时考虑光芒、阴影等成分，让天生的图片看起来逼真自然。
和之前的那些虚拟试衣流程差不多。
速率也还可以，半分钟旁边就能跑出来，肯定比你实际去试衣间换衣服要快的多。

比如，让坤坤穿上鸡你太美的周边服装。

让马斯克穿上周老板的红衣。

GitHub开源地址：https://huggingface.co/spaces/Kwai-Kolors/Kolors-Virtual-Try-On

通义千问Qwen2.5登环球开源王座！
性能超越羊驼Llama3.1！

2024年AI时期来临，各个AI大模型百花争鸣，争相斗艳！

在AI开源领域，国外meta羊驼Llama3举起国外AI大模型开源的大旗，正当海内没有一个能与之对标的开源大模型时，阿里通义千问扛起了海内开源的大旗，Qwen2.5大模型的问世，让全天下瞥见了中国AI开源大模型发展的迅速性和前辈性！
从此海内也有我们自己可用的高性能开源大模型！

Qwen2.5 的所有模型都在最新的大规模数据集上进行了预演习，包含多达 18 万亿个令牌。
与 Qwen2 比较，Qwen2.5版本得到了更多的知识（MMLU：85+），并且大大提高了编码（HumanEval 85+）和数学（MATH 80+）的能力。
此外，新模型在指令跟踪、天生长文本（超过 8K 令牌）、理解构造化数据（例如表格）以及天生构造化输出（尤其是 JSON）方面取得了显著改进。

Qwen2.5在理解能力、逻辑推理、指令遵照、代码能力上相较于2.1版本，分别提升9%、16%、19%、10%。
在上海AI实验室推出的威信基准OpenCompass上，通义千问2.5得分超越Claude 3 Opus，追平GPT-4 Turbo，成为国产大模型首位。

GitHub开源地址：https://github.com/QwenLM/Qwen2.5

#AI开源项目推举##github##AI技能##AI图像编辑#ai写真##虚拟换衣#

每期AI知识网

每周AI开源项目汇总第14期AI图像模型AI视频编辑图像放大年夜

绘画｜萌漫人物基本比例与细节画法有了这些还怕画不出萌妹子

看镜头就忘词快收藏好这个主播都在用的提词器