2024 年,随着 Sora 技能的残酷登场,人们见证了智能创作的惊人打破,它不仅颠覆了传统影视制作,更在人工智能领域掀起了一场深刻的变革。
01 潞晨科技携自研 Colossal-AI 技能重磅来袭
当伊隆·马斯克对 Sora 技能赞不绝口,夸奖其为「人类愿赌服输」的创新时,我们就知道,这不仅仅是技能上的飞跃,更是对未来智能天下的一次大胆预言。从美国到中国,从一级市场到三级市场,天生式模型的热潮像荡漾一样扩散至环球每一个角落,激起了无数创业者和科技爱好者的无限遐想。
然而 Sora 模型并未开源,高昂的算力演习本钱也让浩瀚科研学者和开拓者望而生畏。
尤洋教授在人工智能技能刚兴起时即敏锐关注到人工智能的算力瓶颈问题,并在 2021 年领导潞晨科技团队发布面向大模型的Colossal-AI 深度学习加速系统,使得 AI 演习能够扩展到数千个处理器而不丢失准确性,为大模型的演习、微调和推理任务供应了高效低本钱的办理方案。
工具一经开源便引爆环球关注热点,成为可扩展人工智能领域发展最快的开源项目之一。潞晨科技进一步推出了以 Colossal-AI 系统为核心的潞晨云平台,预置丰富的大模型镜像,以极致性价比和简捷的操作,为科研职员和大模型开拓者供应了快速接入高端算力的路子。潞晨云平台实现了大模型打算本钱的大幅度压缩,工具一经开放便引爆环球关注热点。在算力极度稀缺的背景下,这项打破对人工智能领域带来了深刻改造。
02 潞晨云平台:大模型智能创作的新引擎
潞晨科技推出的潞晨云平台,以其算力选择的广泛性、界面的简洁易用性、以及预设的 ColossalAI 干系镜像,为科研职员和大模型开拓者供应了一个快速接入高端算力的新路子。它让每一位创作者都能够轻松地在智能创作的海洋中遨游。
无论是视频天生、图像制作还是文本天生创作,都变得触手可及。
用户利用 Open-Sora 天生的视频 Demo
想跑起来 Open-Sora 等 AI 任务,还须要有 GPU 等算力支持。目前主流的 AI 云主机有 AWS、AutoDL、阿里云等。但 GPU 资源不仅昂贵稀缺,供应商普遍还哀求利用者必须预前辈行高额投入,按年或提前数个月预支定金。潞晨云不仅供应了便捷易用的 AI 办理方案,还为力求为广大 AI 开拓者和其他供应了随开随用的廉价算力:
H800:最适宜处理大规模模型(数十亿到上百亿参数),具有强大的分布式打算和数据处理能力。
H800 配置:NVLink: GPU:8 x H800-80G SXM NVLink CPU:2 x 8470-52c 内存:32 x 64G 集群网络:8 x 400G RoCE 系统盘:2x960G NVME 本地存储:47.68T NVME
A800:适宜大规模深度学习模型的演习和高性能打算任务,特殊是在须要高内存和高带宽的情形下。
A800 配置:CPU:2Intel Xeon Platinum 8358P @2.60GHz 32 核 内存:1024GB 硬盘:2SSD 960G+ 17.68T NVME SSD 网络:4200Gbps IB 打算+2200Gbps IB 存储预留+210Gbps Eth NIC GPU:8Nvidia A800 80G SXM + Nvlink
4090:适宜中型到大型模型的演习和推理,适宜作为高性能AI开拓事情站。
4090 配置:CPU:Intel 8352V2 内存:DDR4 3200 64G16 系统盘:480G SATA SSD2 raid1 数据盘:3.84T NVME U.21 GPU:4090 涡轮版8 网卡:25G 光口网卡 (不含模块) 2 raid 卡:raid 卡1,支持 RAID 0,1,5,6,10,50 和 60,带缓存 电源:冗余后电源 4000W 以上,支持 热插拔 管理卡:远程 BMC 管理
03 创作者说
利用 FaceFusion 等工具创作
AI 换脸的数字人短视频绘
@Jack-Cui 博主
现在 AI 数字人很火,各种数字人带货通过提前录制含有特定动作的视频,然后利用 AI 换脸算法,驱动人脸的面部表情和动作完成创作。UP 主分享了自己利用 FaceFusion 开源工具在潞晨云平台的 4090 显卡完成的视频项目。并将其制作成打包成一键启动
UP 主说:「选择创建一个新的云主机,选择 4090 显卡一样平常就够用了。4090 性价比很高,目前每小时只须要 1.59 元。当然这里也有性能更强 80GB 显存的 H800 和 A800。镜像这里填写 UP 主为大家准备好的镜像,点击创建即可。祝大家玩得愉快。」
利用 Stable Diffusion 和 Open-Sora
等工具创作绘本故事
@Crossin 的编程教室
Crossin 同学也利用潞晨云创作和投稿了一个绘本故事短视频。
脚本:首先是创作故事脚本。UP 主的想法是用 Meta 前阵子刚刚发布的开源大措辞模型 Llama 3 帮忙完成。作者创作了一个四格卡通连环画的剧本,主角是一只想学做饭的猫,并让模型供应配图的中文解释和英文提示词。1 curl -fsSL https://ollama.com/install.sh | sh
2 ollama serve
3 ollama run llama3
绘图:有了剧本和提示词,作者接下来开始绘制插画。潞晨云默认供应了 Stable Diffusion WebUI 的镜像,选择此镜像创建主机后(建议选择 1 卡 H800 机器),直接启动网页版的 StableDiffusion。把 llama3 天生的提示词贴进去稍作修正,设定下出图的数量,就能得到与剧情配套的插图。然后 UP 主考试测验利用了潞晨云供应的供应了 OpenSora 的镜像进一步将插图变为动态内容。1 cd /root/stable-diffusion-webuibash webui.sh -f
2 sh -CNg -L 本地端口:127.0.0.1:7860 root@云主机地址 -p 端口号
配音:末了,UP 主通过语音合成开源工具包 Coqui-TTS 给故事只做了一个朗读旁白。通过 pip 命令安装,支持包括中文在内的多种措辞。用 tts 命令把 llama3 天生的配图解释转针言音,再同前面天生的视频整合到一起。
1 pip install TTS
2 tts --text \"大众须要转换为语音的笔墨内容\"大众 --model_name \"大众tts_models/zh-CN/baker/tacotron2-DDC-GST\公众 --out_path speech.wav
终极的效果图UP 主说:「这个演示中,我用的都是根本模型和默认配置,大家可以在此根本上进一步微调和优化。虽然这几样功能,市情上都有现成产品可以实现。但对付学习 AI 的人来说,是要成为 AI 的产生者而不是消费者,以是还是得靠自己动手支配和开拓。这种情形下,尤其对学生党来说,云做事的性价比就很高了。假设只有 3000 块的预算,买台带 4090 显卡的电脑就别想了,但在潞晨云上,4090 的云主机按 2 块钱一小时,均匀每天利用 4 小时来算,就能用上 375 天了。而且还能根据你的需求快速升级和扩容,这点上比自己的电脑还要方便。」
04 结语
随着潞晨科技的这一创新步伐,我们正站在一个新时期的门槛上。这是一个由人工智能驱动的创作时期,一个充满无限可能的智能未来。潞晨科技不仅为我们打开了这扇门,更为我们展示了一个全新的创作天下。
头图来源:视觉中国
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO