量子位 | "大众年夜众号 QbitAI
扩散模型,迎来了一项重大新运用——
像Sora天生视频一样,给神经网络天生参数,直接打入了AI的底层!
这便是新加坡国立大学尤洋教授团队联合UCB、Meta AI实验室等机构最新开源的研究成果。
详细来说,研究团队提出了一种用于天生神经网络参数的扩散模型p(arameter)-diff。
用它来天生网络参数,速率比直接演习最多提高44倍,而且表现绝不逊色。
这一模型一经发布,就迅速在AI社区引发强烈谈论,圈内人士对此的惊叹,绝不亚于普通人看到Sora时的反应。
乃至有人直接惊呼,这基本上相称于AI在创造新的AI了。
就连AI巨子LeCun看了之后,也点赞了这一成果,表示这真的是个cute idea。
而本色上,p-diff也确实具有和Sora一样重大的意义,对此同实验室的Fuzhao Xue(薛复昭)博士进行了详细阐明:
Sora天生高维数据,即视频,这使得Sora成为天下仿照器(从一个维度靠近AGI)。
而这项事情,神经网络扩散,可以天生模型中的参数,具有成为元天下级学习器/优化器的潜力,从另一个新的主要维度向AGI迈进。
言归正传,p-diff到底是如何天生神经网络参数的呢?
将自编码器与扩散模型结合要弄清这个问题,首先要理解一下扩散模型和神经网络各自的事情特点。
扩散天生过程,是从随机分布到高度特定分布的转变,通过复合噪声添加,将视觉信息降级为大略噪声分布。
而神经网络演习,同样遵照这样的转变过程,也同样可以通过添加噪声的办法来降级,研究职员正是在这一特点的启示之下提出p-diff方法的。
从构造上看,p-diff是研究团队在标准潜扩散模型的根本之上,结合自编码器设计的。
研究者首先从演习完成、表现较好的网络参数中选取一部分,并展开为一维向量形式。
然后用自编码器从一维向量中提取潜在表示,作为扩散模型的演习数据,这样做可以捕捉到原有参数的关键特色。
演习过程中,研究职员让p-diff通过正向和反向过程来学习参数的分布,完成后,扩散模型像天生视觉信息的过程一样,从随机噪声中合成这些潜在表示。
末了,新天生的潜在表示再被与编码器对应的解码器还原成网络参数,并用于构建新模型。
下图是通过p-diff、利用3个随机种子从头开始演习的ResNet-18模型的参数分布,展示了不同层之间以及同一层不同参数之间的分布模式。
为了评估p-diff所天生参数的质量,研究职员利用3种类型、每种两个规模的神经网络,在8个数据集上对其进行了测试。
下表中,每组的三个数字依次表示原始模型、集成模型和用p-diff天生的模型的测评成绩。
结果可以看到,用p-diff天生的模型表现基本都靠近乃至超过了人工演习的原始模型。
效率上,在不丢失准确度的情形下,p-diff天生ResNet-18网络的速率是传统演习的15倍,天生Vit-Base的速率更是达到了44倍。
额外的测试结果证明,p-diff天生的模型与演习数据有显著差异。
从下图(a)可以看到,p-diff天生的模型之间的相似度低于各原始模型之间的相似度,以及p-diff与原始模型的相似度。
而从(b)和(c)中可知,与微调、噪声添加办法比较,p-diff的相似度同样更低。
这些结果解释,p-diff是真正天生了新的模型,而非仅仅影象演习样本,同时也表明其具有良好的泛化能力,能够天生与演习数据不同的新模型。
目前,p-diff的代码已经开源,感兴趣的话可以到GitHub中查看。
论文地址:https://arxiv.org/abs/2402.13144GitHub:https://github.com/NUS-HPC-AI-Lab/Neural-Network-Diffusion
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一韶光获知前沿科技动态