2023 年十篇值得关注的人工智能研究论文

原文链接：https://magazine.sebastianraschka.com/p/10-ai-research-papers-2023 我看了一下，觉得他选的这些文章，我大部分都看过，而且都是我以为很不错的文章。
他的点评也都很故意思。
故此将这篇文章翻译了一下，以飨读者。
以下为译文：

今年的觉得明显不同。
我在机器学习和人工智能领域事情了十多年，但我不记得这些领域像今年这样盛行和快速发展。
为了却束机器学习和人工智能研究领域多事的 2023 年，我很高兴与大家分享我今年读过的 10 篇值得把稳的论文。
我个人更关注大型措辞模型，因此您会创造今年对大型措辞模型 (LLM) 论文的重视程度高于打算机视觉论文。
我谢绝将这篇文章标记为“2023 年顶级人工智能研究论文”，由于确定“最佳”论文是主不雅观的。
选择标准基于我特殊喜好或认为有影响力且值得把稳的论文组合。
（排序顺序是推举的阅读顺序，而不是按感知质量或影响进行排序。
）

1) Pythia — Insights from Large-Scale Training Runs

通过《Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling》，研究职员最初发布了 8 个 LLM，参数范围从 70M 到 12B 参数（权重和数据都公开拓布，这很罕见）。
但在我看来，这篇论文的突出特点是他们还发布了演习细节、剖析和见地（个中一些如下图所示）。

来自 Pythia 论文的注释图表，https://arxiv.org/abs/2304.01373

2023 年十篇值得关注的人工智能研究论文

以下是 Pythia 论文办理的一些问题：

对重复数据进行预演习（即演习 >1 epoch）会产生影响吗？事实证明，重复数据删除不会有利于或危害性能。
演习顺序会影响影象吗？不幸的是，事实证明并非如此。
“不幸的是”，由于如果这是真的，我们可以通过重新排序演习数据来减轻不良的逐字影象问题。
预演习的术语频率会影响任务绩效吗？是的，对付涌现频率更高的术语，几次射击的准确率每每会更高。
增加批量大小是否会影响演习效率和模型收敛？将批量大小更加可以使演习韶光减半，但不会危害收敛性。

仅仅六个月后的本日，LLM绝非首创性的。
然而，我加入这篇论文是由于它不仅试图回答有关演习设置的有趣问题，而且还是关于细节和透明度的积极例子。
此外，<1B 范围内的小型 LLM 是小型研究和修补的不错模板，或者是预演习实验的入门者（这里是其GitHub 存储库的链接）。
我对 2024 年的欲望是，我们在来年看到更多这样的研究和写得好的论文！

2) Llama 2: Open Foundation and Fine-Tuned Chat Models

Llama 2：开放根本和微调谈天模型是 Meta 广受欢迎的第一篇 Llama 论文的后续论文。
Llama 2 模型的参数范围为 7B 到 70B，这是本文进入此列表的缘故原由之一：这些模型仍旧是功能最强大且利用最广泛的开放模型之一。
值得把稳的是，Llama 2 容许证还许可在商业运用程序中利用（有关详细信息，请参阅访问要求页面）。

来自 Llama 2 论文 ( https://arxiv.org/abs/2307.09288 )的注释图比较了 Llama 2 模型和 ChatGPT

在模型方面，Llama 2 套件与许多其他 LLM 的差异在于，这些模型是标准的预演习模型和谈天模型，这些模型通过人类反馈的强化学习（RLHF，用于创建 ChatGPT 的方法）进行了微调，以遵照人类的行为类似于 ChatGPT 的指令 — RLHF 微调模型仍旧很少见。

来自 Llama 2 论文 ( https://arxiv.org/abs/2307.09288 ) 的注释图总结了指令微调的 RLHF 过程。

有关 RLHF 以及如何在 Llama 2 中利用它的更多详细信息，请参阅下面我的更全面的独立文章。

添加图片注释，不超过 140 字（可选）

除了 Llama 2 模型被广泛利用并带有 RLHF 指令微调变体这一事实之外，我决定将这篇论文列入此列表的另一个缘故原由是随附的 77 页深入研究报告。
在这里，作者还很好地解释了 Llama 2 70B Chat 模型的演化，追踪了从最初的监督微调 (SFT-v1) 到终极利用 PPO 的 RLHF 微调阶段 (RLHF-v5) 的进程。
该图表反响了无害性和有益性轴的持续改进，如下面带注释的图所示。

Llama 2 论文 ( https://arxiv.org/abs/2307.09288 )中的注释图显示了从监督微调模型 (SFT-1) 的第一次迭代到终极 RLHF 微调谈天模型 (RLHF-v5) 的性能进展。

仅仅六个月后的本日，绝非首创性的。
然而，我加入这篇论文是由于它不仅试图回答有关演习设置的有趣问题，而且还是关于细节和透明度的积极例子。
-2-70B 模型，但在公开可用的 LLM 方面，Llama 2 仍旧是常见且受欢迎的选择并在此根本上开拓方法。
此外，只管一些基准表明可能存在更好的模型，但今年更大的寻衅之一是基准的可信度。
例如，我们如何知道模型尚未根据上述基准进行演习并且分数没有被浮夸？在经典的机器学习中，当有人提出一种新的梯度提升模型时，重现结果和检讨相对随意马虎。
如今，考虑到培训LLM的本钱和繁芜性（而且大多数研究职员要么不表露架构，要么不表露演习数据细节），我们无法判断。
总而言之，只管其他所有大公司现在都在推出自己专有的大型措辞模型（Google 的 Bard 和 Gemini、Amazon 的 Q、Twitter/X 的 Grok 以及 OpenAI 的 ChatGPT），但看到 Meta 在开源领域更加努力还是令人线人一新。

3) QLoRA: Efficient Finetuning of Quantized LLMs

QLoRA：量化 LLM 的高效微调一贯是今年 LLM 研究和微调社区中最受欢迎的技能之一，由于它使已经盛行的 LoRA（低秩适应）技能更加内存高效。
简而言之，这意味着您可以将更大的模型安装到更小的 GPU 上。

常规 LoRA 的简短视觉总结

QLoRA 代表量化 LoRA（低秩自适应）。
标准 LoRA 方法通过将低秩矩阵添加到模型层的权重来修正预演习的 LLM。
这些矩阵较小，因此在微调期间更新须要的资源较少。
在 QLoRA 中，这些低秩矩阵被量化，这意味着它们的数值精度会降落。
这是通过将这些矩阵中的连续值范围映射到一组有限的离散级别来完成的。
此过程减少了模型的内存占用和打算需求，由于对低精度数字的操作占用的内存较少

在LLM浩瀚高效的微调方法中，LoRA 是最盛行和最广泛利用的方法之一。
注释图来自出色的《按比例缩小到按比例放大：参数高效微调指南》调查。

根据QLoRA 论文，QLoRA 降落了 65B Llama 模型的内存需求，以适应单个 48 GB GPU（如 A100）。
由 65B Llama 量化 4 位演习得到的 65Bguanaco 模型保持了完全的 16 位微调任务性能，仅经由 24 小时的微调就达到了 ChatGPT 性能的 99.3%。
今年我还进行了许多 QLoRA 实验，创造 QLoRA 是一个方便的工具，可以在微调过程中减少 GPU 内存需求。
不过，这须要权衡：额外的量化步骤会导致额外的打算开销，这意味着演习会比常规 LoRA 慢一些。

摘自我之前在这里写过的 LoRA 和 QLoRA 实验

由于研究职员和从业者的目标是创建定制的LLM，LLM微调仍旧与以往一样主要。
我很欣赏 QLoRA 等技能，它们通过降落 GPU 内存需求障碍来帮助使此过程更随意马虎实现。

4) BloombergGPT: A Large Language Model for Finance （BloombergGPT：金融大型措辞模型）

纵不雅观今年揭橥的所有论文，《BloombergGPT：金融大型措辞模型》对付前 10 名列表来说可能看起来是一个奇怪的选择，由于它没有产生打破性的新见地、方法论或开源模型。
我之以是将其纳入个中，是由于这是一个有趣的案例研究，个中有人在特定领域的数据集上对相对较大的LLM进行了预演习。
而且，描述得相称详尽，这种情形越来越少见。
当涉及到作者受雇于公司的论文时尤其如此——今年的趋势之一是，大公司对架构或数据集细节变得越来越保密，以在这个竞争格局中保护商业秘密（PS：我不知道）为此责备他们）。
此外，BloombergGPT 让我想到了我们可以在特定领域数据上预演习和微调模型的所有不同方法，如下图所示（请把稳，BloombergGPT 论文中并未对此进行磋商，但看到未来的研究将会很有趣）在那）。

预演习和微调LLM的不同方法。

简而言之，BloombergGPT 是一个包含 500 亿个参数的金融措辞模型，利用来自金融数据的 3630 亿个代币和来自通用公开数据集的 3450 亿个代币进行演习。
比较之下，GPT-3 的大小是原来的 3.5 倍（1750 亿个参数），但演习的令牌却少了 1.4 倍（4990 亿个）。
既然 GPT-3 比 GPT-3 大 3.5 倍，为什么作者利用“仅”500 亿个参数的架构？这样更随意马虎回答。
他们采取了 Chinchilla 缩放法则，并创造考虑到可用的财务数据规模，这是一个很好的规模。
是否值得从头开始在组合数据集上（预）演习LLM？根据这篇论文，该模型在目标领域表现得非常好。
但是，我们不知道它是否比 a）在特定领域数据上进一步预演习预演习模型或 b）在特定领域数据上微调预演习模型更好。
只管上面有一些批评，但总体而言，这是一篇有趣的论文，可以作为特定领域LLM的有趣案例研究和示例；此外，它还为进一步研究预演习与微调以向LLM贯注灌注知识留下了空间。
（PS：对付那些对微调比较感到好奇的人，正如Rohan Paul与我分享的那样，“小型” AdaptLLM-7B模型在一个数据集上的表现优于 BloombergGPT，并且险些与它在其他三个金融数据集上的表现相匹配。
只管 BloombergGPT 彷佛稍好一些总体而言，值得把稳的是，培训 AdaptLLM-7B 的本钱约为 100 美元，而 BloombergGPT 的投资则高达数百万美元。
）

5）Direct Preference Optimization: Your Language Model is Secretly a Reward Model（直接偏好优化：你的措辞模型实际上是一个褒奖模型）

在谈论“直接偏好优化：您的措辞模型是秘密褒奖模型”论文之前，让我们先退后一步，谈论一下它旨在取代的方法：人类反馈强化学习 (RLHF)。
RLHF 是 ChatGPT 和 Llama 2 Chat 模型背后的紧张技能。
在 RLHF 中，我在另一篇文章中更详细地描述了它，我们利用多步骤过程：

监督微调：模型最初在包含指令和所需相应的数据集上进行演习。
褒奖建模：人类评估者供应有关模型输出的反馈。
该反馈用于创建褒奖模型，该模型学习预测哪种类型的输出是首选的。
近端策略优化（PPO）：模型天生输出，褒奖模型对每个输出进行评分。
PPO 算法利用这些分数来调度模型的策略

产生更高质量的产出。
（这是一种强化学习算法，用于微调模型的策略。

来自数据集的两个演习示例，用于监督指令微调步骤。
请把稳，“输入”是可选的。

虽然 RLHF 很盛行且有效，正如我们在 ChatGPT 和 Llama 2 中看到的那样，但它的实现也相称繁芜且挑剔。
直接偏好优化（DPO）论文先容了一种算法，可以优化措辞模型以符合人类偏好，而无需显式褒奖建模或强化学习。
相反，DPO 利用大略的分类目标。

DPO 论文中的带注释的数字，https://arxiv.org/abs/2305.18290

在 DPO 中，我们仍旧保留有监督的微调步骤（上面的步骤 1），但我们用单个步骤更换步骤 2 和 3，以进一步根据偏好数据微调模型。
换句话说，DPO 完备跳过了 RLHF 所需的褒奖模型创建，这显著简化了微调过程。
效果如何？直到最近，才涌现很多利用 DPO 进行演习的模型。
（这是有道理的，由于 DPO 也是一种相对较新的方法。
）但是，最近的一个例子是Zephyr：LM 对齐的直接蒸馏中描述的 Zephyr 7B 模型。
Zephyr-7B 基于 Mistral-7B 根本 LLM，并利用 DPO 进行了微调。
（稍后会有更多关于米斯特拉尔的内容。
）正如下面的性能表所示，7B 参数 Zephyr 型号在发布时优于同尺寸级别的所有其他型号。
更令人印象深刻的是，Zephyr-7B 在会话式MT-Bench基准测试中乃至超越了大 10 倍的 70B 参数 Llama 2 谈天模型。

Zephyr 模型（经由 DPO 微调的 LLM）的带注释基准，来自https://arxiv.org/abs/2310.16944

综上所述，DPO论文的吸引力在于其方法的大略性。
利用 RLHF 演习的谈天模型的稀缺（Llama 2 是一个明显的例外）可能归因于 RLHF 方法的繁芜性。
鉴于此，我认为估量来年 DPO 模型的采取将会增加是合理的。

6) Mistral 7B

我必须承认Mistral 7B 论文由于其简短而不是我的最爱。
然而，它提出的模型相称有影响力。
我决定将这篇论文列入此列表，由于 Mistral 7B 模型不仅在发布时非常受欢迎，而且还作为根本模型，导致了其他两个著名模型的开拓：Zephyr 7B 和最新的 Mistral Mixture of Experts（MoE）方法。
这些模型很好地表示了我估量（至少）2024 年上半年小型LLM的趋势。
在谈论 Zephyr 7B 和 Mistral MoE 型号之前，我们先大略谈谈 Mistral 7B 本身。
简而言之，Mistral 7B 论文引入了一种紧凑而强大的措辞模型，只管其规模相对较小，只有 70 亿个代币，但在各种基准测试中，其性能优于其较大的对应模型，例如 13B Llama 2 模型。
（除了两倍大的Qwen 14B之外，Mistral 7B 也是今年NeurIPS LLM 微调和效率寻衅赛得胜办理方案中利用的基本模型。
）

来自https://arxiv.org/abs/2310.06825的注释图比较了 Mistral 7B 和 Llama 13B 的性能

究竟为什么它如此出色尚不清楚，但这可能是由于它的演习数据。
Llama 2 和 Mistral 都没有公开演习数据，以是我们只能推测。
在架构方面，该模型与 Llama 2 共享组查询把稳力。
虽然与 Llama 2 非常相似，但 Mistral 架构的一个有趣的补充是滑动窗口把稳力，以节省内存并提高打算吞吐量以加快演习速率。
（滑动窗口把稳力先前在Child et al. 2019和Beltagy et al. 2020中提出。
） Mistral 中利用的滑动窗口把稳力机制实质上是一个固定大小的把稳力块，它许可当前令牌仅关注特天命量的先前令牌（而不是所有先前令牌），如下图所示。

来自https://arxiv.org/abs/2310.06825的注释图阐明了滑动窗口把稳力。

在 7B Mistral 的详细情形下，把稳力块大小为 4096 个标记，研究职员正在利用多达 100k 个标记高下文大小来演习模型。
举一个详细的例子，在常规的自把稳力中，第 50,000 个 token 的模型可以关注所有之前的 49,999 个 token。
在滑动窗口自把稳力中，Mistral 模型只能关注 45,904 到 50,000 的令牌（由于 50,000 - 4,096 = 45,904）。
然而，滑动窗口把稳力紧张用于提高打算性能。
Mistral 优于更大的 Llama 2 模型的事实可能不是由于滑动窗口把稳力，而是只管有滑动窗口把稳力。
Zephyr 和 Mixtral Mistral 7B 是一个有影响力的模型的缘故原由之一是它是 Zephyr 7B 的根本模型，正如前面 DPO 部分提到的。
Zephyr 7B 是第一个经由 DPO 演习的盛行模型，其性能优于其他替代方案，它有可能为 DPO 在未来几个月成为微调谈天模型的首选方法奠定根本。
另一个值得把稳的源自 Mistral 7B 的模型是最近发布的Mistral Mixture of Experts (MoE) 模型，也称为 Mixtral-8x7B。
该模型在多个公共基准测试中的性能与较大的 Llama-2-70B 相称或超过。

OpenCompass 基准测试通过https://github.com/open-compass/MixtralKit 。
蓝色框突出显示每行中的最佳结果。

有关更多基准测试，另请参阅 Mixtral 官方博客文章公告。
该团队还发布了一个 Mixtral-8x7B-Instruct 模型，该模型已利用 DPO 进行了微调（但截至撰写本文时，还没有将其与 RLHF 微调模型 Llama-2-70-Chat 进行比较的基准）。

Mixtral 架构概述基于 Mistral 团队最初通过社交媒体上的磁力链接共享的 param.json 文件

据传 GPT-4 是一个由 16 个子模块组成的 MoE。
据传这 16 个子模块中的每一个都有 1110 亿个参数（作为参考，GPT-3 有 1750 亿个参数）。
如果您大约两个月前阅读我的2023 年人工智能和开源文章，我提到“看看 MoE 的方法是否可以在 2024 年将开源模型提升到新的高度将会很有趣”。
看起来 Mixtral 很早就开始了这种趋势，而且我确信这只是一个开始。
专家组合 101 如果您不熟习 MoE 模型，这里有一个简短的阐明。

来自 Switch Transformers 论文 ( https://arxiv.org/abs/2101.03961 ) 的注释图阐明了专家稠浊架构

上图显示了 Switch Transformer 背后的架构，每个代币利用 1 个专家，统共 4 个专家。
另一方面，Mixtral-8x-7B 由 8 位专家组成，每个代币利用 2 位专家。
为什么是MoEs？综合起来，像 Mixtral 这样的 7B 模型中的 8 位专家仍旧是 ~56B 参数。
实际上，它小于 56B，由于 MoE 方法仅运用于 FFN（前馈网络，别号全连接）层，而不是自把稳力权重矩阵。
因此，它可能更靠近 40-50B 参数。
请把稳，路由器会重新路由令牌，以便一次仅利用 <14B 参数（2x <7B，而不是全部 <56B）进行前向通报，因此与传统的非MoE方法比较，演习（尤其是推理）速率更快。
如果你想理解更多关于phi模型的信息，这里有Sophia Yang推举的阅读清单：

The Sparsely-Gated Mixture-of-Experts Layer (2017)GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding (2020)MegaBlocks: Efficient Sparse Training with Mixture-of-Experts (2022)Mixture-of-Experts Meets Instruction Tuning (2023)

此外，如果您有兴趣考试测验 MoE LLM，还可以查看OpenMoE存储库，该存储库于今年早些时候实现并共享了 MoE LLM。
其他规模较小但具有竞争力的LLM Mistral 7B、Zephyr 7B 和 Mixtral-8x7B 是 2023 年取得进展的绝佳例子，它们的型号虽小但功能强大，具有公开可用的重量。
另一个值得把稳的模型是 Microsoft 的 phi 系列，它是我最喜好的论文列表中的亚军。
phi 的秘密武器是对通过过滤网络数据得到的高质量数据（称为“教科书质量数据”）进行演习。
phi 模型于 2023 年分阶段发布，包括 phi-1（1.3B 参数）、phi-1.5（1.3B 参数）和 phi-2（2.7B 参数）。
后者于两周前发布，据称其性能可与 Mistral 7B 相媲美或优于 Mistral 7B，只管其尺寸只有 Mistral 7B 的一半。

1.3B参数phi-1.5模型与各种7B参数模型的比较（来自phi-1.5论文，https://arxiv.org/abs/2309.05463 ）

有关 phi 模型的更多信息，我推举以下资源：

Textbooks Are All You Need -- the phi-1 paperTextbooks Are All You Need II: phi-1.5 Technical ReportThe Phi-2: The Surprising Power of Small Language Models announcement

7) Orca 2: Teaching Small Language Models How to Reason （Orca 2：教授小措辞模型如何推理）

Orca 2：教授小措辞模型如何推理是一篇相对较新的论文，韶光会证明它是否对我们在未来几个月或几年内培训LLM的办法产生持久影响。
我决定将其包括在内，由于它结合了几个观点和想法。
第一个想法是从 GPT-4 等大型、有能力的模型中提取数据，创建一个合成数据集来演习小型但有能力的LLM。
去年揭橥的《自我辅导》论文中描述了这个想法。
今年早些时候，Alpaca（一种在 ChatGPT 输出上进行微调的 Llama 模型）真正遍及了这种方法。
这是如何运作的？简而言之，这是一个 4 步过程：

种子任务池，包含一组人工编写的指令（本例中为 175 条）和示例指令；利用预演习的LLM（如GPT-3）来确定任务种别；给定新指令，让预演习的 LLM 天生相应；在将相应添加到任务池之前网络、修剪和过滤相应。

基于 Self-Instruct 论文的注释图，https://arxiv.org/abs/2212.10560

另一个想法可能并不令人惊异，但值得强调：高质量的数据对付微调非常主要。
例如，LIMA 论文提出了一个人类天生的高质量数据集，仅包含 1k 个演习示例，可用于微调以超越在 50k ChatGPT 天生的相应上微调的相同模型。

LIMA 论文的注释图，https://arxiv.org/abs/2305.11206

与之前严重依赖模拟学习来复制较大模型输出的研究不同，Orca 2 旨在向“小型”（即 7B 和 13B）LLM 教授各种推理技能（例如逐步推理、回顾然后天生、等）并帮助他们确定每项任务的最有效策略。
这种方法使 Orca 2 的性能明显优于类似尺寸的模型，乃至达到了与 5-10 倍大的模型相称的结果。

Orca 2 论文中评估的许多基准任务的子集，https://arxiv.org/abs/2311.11045

虽然我们还没有看到对此进行任何广泛的研究，但 Orca 2 方法也可能能够办理利用合成数据的问题，这一问题在《模拟专有LLM的虚假承诺》论文中强调。
在这里，研究职员利用 Alpaca 和 Self-Instruct 等示例，研究了微调较弱的措辞模型以模拟 ChatGPT 等更强的专有模型。
最初，模拟模型显示出可喜的结果，与 ChatGPT 比较，在遵照指令方面表现良好，并得到了人群事情者的有竞争力的评级。
然而，更多的后续评估表明，这些模拟模型彷佛只对人类不雅观察者表现良好，但每每会产生实际上禁绝确的反应。

8) ConvNets Match Vision Transformers at Scale （卷积网络大规模匹配视觉Transformer）

近年来，我险些只利用LLM或视觉Transformer（ViT），由于它们具有良好的性能。
在末了三篇文章中，我从措辞论文转向打算机视觉论文，我创造打算机视觉 Transformer 特殊吸引人的是，预演习的 ViT 比卷积神经网络更随意马虎微调。
（我在这里总结了今年早些时候 CVPR 上的简短实践演讲：https://magazine.sebastianraschka.com/p/acceleating-pytorch-model-training）。
令我惊异的是，我有时创造了ConvNets Match Vision Transformers at Scale论文，该论文表明，当能够访问足够大的数据集时，卷积神经网络 (CNN) 实际上可以与 ViT 竞争。

带注释的图来自 ConvNets Match Vision Transformers at Scale ( https://arxiv.org/abs/2310.16764 ) 论文

在这里，研究职员投入了高达 11 万个 TPU 小时的打算预算，以对 ViT 和 CNN 进行公正的比较。
结果是，当 CNN 利用类似于 ViT 常日利用的打算预算进行预演习时，它们可以匹配 ViT 的性能。
为此，他们对 JFT 的 40 亿张标记图像进行了预演习，随后在 ImageNet 上对模型进行了微调。

9）Segment Anything （分割统统）

图像和视频中的工具识别和分割以及分类和天生建模是打算机视觉的紧张研究领域。
简要强调这两个任务之间的差异：关于预测边界框和干系标签的工具检测；分割对每个像素进行分类以区分前景和背景工具。

工具检测（上）和分割（下）。
数据来自 YOLO 论文 ( https://arxiv.org/abs/1506.02640 ) 和 Mask R-CNN 论文 ( https://arxiv.org/abs/1703.06870v3 )

Meta 的Segment Anything论文是开源和图像分割研究的一个主要里程碑。
本文先容了图像分割的新任务、模型和数据集。
随附的图像数据集是迄今为止最大的分割数据集，在 1100 万张图像上包含超过 10 亿个掩模。

Segment Anything Model (SAM) 专为高效、基于提示的图像分割而设计。
带注释的屏幕截图来自 Segment Anything 论文，https://arxiv.org/abs/2304.02643

然而，罕见且特殊值得夸奖的是，研究职员利用了经由容许且尊重隐私的图像，因此该模型可以开源，而不会涌现重大版权问题。
分段任意模型 (SAM) 由三个紧张组件组成，如上图所示。

Segment Anything Model 的三个紧张组成部分来自https://arxiv.org/abs/2304.02643

更详细地说，这三个组成部分可以概括如下：

图像编码器利用基于预演习视觉变换器 (ViT) 的屏蔽自动编码器，可以处理高分辨率输入。
该编码器每个图像运行一次，并且可以在提示模型之前运用。
处理两种类型提示的提示编码器：稀疏（点、框、文本）和密集（掩模）。
点和框由位置编码与每种提示类型的学习嵌入相结合来表示。
自由格式文本利用 CLIP 的现成文本编码器。
密集提示（即掩码）利用卷积进行嵌入，并与图像嵌入按元素求和。
掩码解码器将图像嵌入、提示嵌入和输出标记映射到掩码。
这是一种解码器式Transformer架构，用于打算每个图像位置的掩模前景概率。

图像分割对付自动驾驶汽车、医学成像等许多其他运用非常主要。
在短短的6个月内，该论文已被引用超过1500次，并且已经有许多项目基于该论文构建。

10) Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models（调度你的Latents：高分辨率视频合成与潜伏扩散模型）

Emu Video：通过显式图像调节分解文本到视频的天生是 Meta 研究部门的另一个著名打算机视觉项目。
Emu 是一种文本转视频模型，可以根据文本提示天生全体视频。
虽然它不是第一个令人印象深刻的文本到视频天生模型，但它与之前的作品比较非常有利。

Emu 与其他文本转视频模型的性能比较：https://arxiv.org/abs/2311.10709

正如作者所指出的，与以前的方法比较，Emu 架构设置相对大略。
这里的紧张思想之一是 Emu 将天生过程分解为两个步骤：首先，基于文本天生图像（利用扩散模型），然后根据文本和天生的图像创建视频（利用另一个扩散模型））。
对付 DALL-E 2、Stable Diffusion 和 Midjourney 等文本到图像模型来说，2022 年是主要的一年。
虽然文本到图像模型在 2023 年仍旧非常盛行（只管LLM在这一年中受到了大部分关注），但我认为文本到视频模型即将在来年在在线社区中变得更加盛行。
由于我不是图像或视频设计师，因此目前没有这些工具的用例；然而，文本到图像和文本到视频模型作为打算机视觉进展的一样平常衡量标准仍旧值得关注。

每期AI知识网

2023 年十篇值得关注的人工智能研究论文

十步轻松掌握AI文章改写技巧

夏日生活打卡季AI公司的员工确实有很多人在编写代码