「 本期内容速览 」

01 MedVTAB:大规模医学视觉任务适应基准

02 对齐视觉模型与人类美学:算法与评估

03 GLC:基于天生式特色编码的极低码率图像编解码器

科研上新|AI论文一次性看个够

04 MH-MoE:多头稠浊专家网络

1️⃣ MedVTAB:大规模医学视觉任务适应基准

论文链接:https://arxiv.org/abs/2404.12876

近年来,深度学习的显著进步极大地推动了打算机视觉领域的发展,尤其是视觉 Transformer(ViT) 的引入。
经由大规模数据集预演习后,这些模型在各种视觉任务上表现出了卓越的性能。
通过引入专门的可学习层或标记,ViT 在特定下贱任务中的适应性(称为视觉任务适应性)为任务特定模型的优化开辟了新的路子。
这种适应性许可对预演习模型进行微调,以适应特界说务的细微差别,从而提升模型的性能和适用性。

只管这些进步显著,但视觉任务适应性在医学领域的运用仍未得到充分探索,特殊是在多种医学影像模态(如彩色图像、X 光片和 CT 扫描)中的运用。
医学影像领域面临着独特的寻衅,包括数据的异质性、对高精度的急迫需求以及模型在不同器官和疾病之间的泛化能力。
此外,视觉任务适应性在系统和大规模办法下利用医学和非医学领域的现有知识的潜力尚未得到充分研究。

为补充这一空缺,研究员们引入了一个综合性的医学视觉任务适应性基准数据集 Med-VTAB,希望促进视觉任务适应性技能在医学影像领域的探索和评估。
Med-VTAB 涵盖了168万张医学图像,包括10个主要器官和5种在真实天下医学场景中具有寻衅性的模态,使其成为最广泛的同类基准之一。
该基准旨在磋商视觉任务适应性策略的有效性,并研究医学影像适应中的扩展规律。

图1:Med-VTAB 数据集概览作为大规模的医学影像适应性基准数据集概览

随后,研究员们稽核了医学提示调优中可调参数数量与模型性能之间的关系,以及来自医学和非医学预演习权重的适应性的泛化能力。
并且,研究员们还对患者 ID 分布变革影响适应模型性能进行了研究,这是医学运用中模型对新患者数据鲁棒性至关主要的一个方面。

除了这些探索之外,研究员们还提出了一种新的适应技能,即门控专家稠浊适配器(GMoE-Adapter)。
它利用了来自医学和通用视觉预演习的见地,在医学视觉任务适应中实现了最前辈的性能。
GMoE-Adapter 展示了却合领域特定知识与来自多种来源的广泛、通用学习的稠浊适应策略的潜力。

图2:门控专家稠浊适配器(GMoE-Adapter)框架与标准适配器和 MoE-Adapter 方法的比拟

通过 Med-VTAB 基准和对适应策略与扩展规律的研究,这项事情将为医学视觉任务适应研究设立新的标准。
而通过强调定制适应技能的主要性和对新颖适应方法的探索,研究员们希望可以提高诊断准确性以及提升患者的治疗效果。

2️⃣ 对齐视觉模型与人类美学:算法与评估

论文链接:https://arxiv.org/abs/2406.09397

现有的大规模视觉-措辞模型须要在网络级大规模的数据上进行预演习。
但数据参差不齐,得到的模型每每面临代价对齐的问题。
在文本-图像检索任务中,可能表现为美学质量过低,细粒度哀求不符,带有有害偏见等问题。
由于这类问题主不雅观性较高,目前缺少有效的办法进行评估和改进。

因此,研究员们选择了最为主不雅观的任务之一——美学作为代表,来研究代价对齐的问题。
根据美学的定义和研究,美学可以划分为主不雅观的美学理解(象征性、文化性等)和客不雅观的视觉吸引力(色彩、分辨率、饱和度等),其它对齐任务也类似。
研究员们创造,人类对美学的理解由于存在于大量的文献和著作中,以是能够被大措辞模型学习,进一步地,通过利用大措辞模型为用户查询、扩展美学期望,从而能极大地提高美学效果。

研究员们公正地评估了各种提示词下的大措辞模型和美学模型,证明了大措辞模型带来美学理解的有效性和美学模型所包含图像先验的有效性和互补性。
为了实现端到真个高效检索系统,研究员们提出一个基于排序的强化学习算法来微调视觉模型,并从大措辞模型和美学模型中蒸馏知识。

在评估时,研究员们首先构建了一个美学偏好数据集 HPIR,由于美学的主不雅观性,每条样本都要经由30次标注的投票,并给出置信度。
利用 HPIR,研究员们还验证了 GPT-4V 作为美学评判器的可行性。
终极的实验在 HPIR、GPT-4V 评判和人类评判三个机制下共同验证,经由美学对齐微调后的端到端检索模型可以和集成了大措辞模型和美学模型的多阶段系统取得相似的成绩,这极大地简化了高质量检索系统的繁芜度,减轻了掩护代价和检索时延。

图3:从大措辞模型和美学模型中用强化学习蒸馏美学理解和视觉先验

3️⃣ GLC:基于天生式特色编码的极低码率图像编解码器

论文链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Jia_Generative_Latent_Coding_for_Ultra-Low_Bitrate_Image_Compression_CVPR_2024_paper.pdf

目前主流的图像编解码器常日在像素空间直接对图像编码。
然而,图像像素的失落真度量指标并非总是与人类的视觉同等,尤其在图像编码失落真较为严重的极低码率压缩场景中。
因此,实现更符合人类视觉的图像编码是一项关键寻衅。

微软亚洲研究院的研究员们创造,比较于原始像素,天生式 VQ-VAE 的特色具有更高的主不雅观视觉同等性、更低的熵和更高的鲁棒性,以是更适宜高主不雅观质量的极低码率编码。
基于这一不雅观察,研究员们提出了可以在天生式 VQ-VAE 的特色空间进行编码的模型 GLC。

图4:GLC 与之前 SOTA 图像编码器的视觉质量比拟

详细来说,GLC 首先利用 VQ-VAE 的编码器将图像编码为天生性特色,然后通过变换编码网络对这些特色进行编码,末了将解码的特色通过 VQ-VAE 的解码看重建为图像。
在编码图像时,GLC 不须要利用 VQ 编码,而是设计了一个变换编码网络用于特色压缩。
这种设计不仅提高了 GLC 的压缩率,还使其可以支持可变码率编码。

为了提高压缩性能,GLC 在变换编码的边信息编码中设计了一种基于矢量码本的先验模型。
与传统的可分离先验比较,这种先验能够以更低的码率编码更强的语义信息。
GLC 还在演习中利用了一个赞助网络,根据解码特色预测原图所对应的 VQ 索引,从而提高解码特色与原图的语义同等性。

实验结果表明,GLC 在多个测试基准中实现了最高的压缩性能。
GLC 可以以均匀每像素0.03比特的极低压缩率实现高质量的图像压缩。
与基于像素空间压缩的 SOTA 编码器 MS-ILLM 比较,GLC 在相同的 FID 指标下节省了超过45%的比特。
其余,通过利用其特色空间,GLC 可以在压缩图像的同时实现图像规复、风格迁移等功能。

4️⃣ MH-MoE:多头稠浊专家网络

论文链接:https://arxiv.org/abs/2404.15045

进一步提升如大型措辞模型(LLMs)和大型多模态模型(LMMs)等大型容量模型(large capacity models)的性能,有一个可靠的方法便是通过增加参数数量来扩展它们。
然而,这些模型的弘大尺寸显著降落了推理速率,进一步限定了它们的实用性。
在此背景下,稀疏稠浊专家(SMoE)的方法被提出,它在减轻打算本钱的同时促进了模型的可扩展性,但仍旧面临专家激活率低、缺少细粒度的剖析能力等缺陷。

因此,微软亚洲研究院的研究员们提出了一个名为多头稠浊专家网络(Multi-Head Mixture of Experts, MH-MoE)的高效变体构造来缓解上述问题。
多头稠浊专家网络采取多头机制将每个输入的令牌分割成多个子令牌,这些子令牌随后会被分配给不同的专家网络并行处理,终极无缝地重新整合回原始令牌形式。

图5:MH-MoE 在视觉和措辞数据上的事情流

MH-MoE 有如下优点:

更高的专家激活效率。
如图6所示,SMoE 有许多未被激活的专家(暗色),而 MH-MoE 则显著提高了这些专家的利用率,达90.71%。

图6:稀疏稠浊专家网络层(左)和多头稠浊专家网络层(右)

更风雅的理解能力。
如图7所示,子符号被 MH-MoE 分配给了更多不同的专家(亮区),使不同专家能够共同关注来自不同表征空间的信息,终极实现更好的细粒度理解能力。

图7:MH-MoE 对子符号的分配,亮区-分配给了不同专家,暗区-分配给了相同专家。

除此之外,MH-MoE 实现大略,可与其他稀疏稠浊专家网络优化方法解耦,易于集成到其他稀疏稠浊专家网络模型中以提高性能。

研究员们还在三个预演习任务及其下贱任务上进行了广泛的实验,结果表明,该方法不仅显著提升了专家稠浊网络在上游预演习任务和下贱任务中的表现,还在很大程度上缓解了专家激活率低的问题,使模型更加高效。

微软亚洲研究院,专注科研25年,盛产黑科技

欢迎点赞、转发、关注哦