本文我们就大略概述一下,最近一个月来AI研究方面的论文(论文均来自于arxiv),对其模型和结论给大家总结申报请示一下,以便大家都能及时获取最新AI研究前沿动态。
大型措辞模型(LLm)StarCoder:源开源与你同在!
StarCoder: may the source be with you!
韶光:5月9日
Arxiv地址:/abs/2305.06161
很故意思的一篇论文,论文名字居然可以这样起!
研究职员在从GitHub(通过The Stack数据集)抓取的1万亿个开源代码标记,以此为根本演习了一个15.5B参数、高下文宽度为8k的LLM。在创建了StarCoderBase根本模型后,研究职员在350亿个Python token上对其进行了微调。
由此产生的StarCoder模型优于当今所有其他Code LLM。
在最少的人工监督下从头开始进行措辞模型的原则驱动自对齐
Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervisio
韶光:5月4日
Arxiv地址:/abs/2305.03047
论文中引入了一个新的模型Dromedary AI助手,它超越了Alpaca模型和Text-Davinci-003,一个经由微调的LLaMA模型。与ChatGPT不同,Dromedary不该用带有人类反馈的强化学习;它也不须要像Alpaca那样提取ChatGPT提示对。相反,他们提出了一种新颖的自对齐方法,包括在指令提示中附加指南。
逐步蒸馏!
用更少的演习数据和更小的模型尺寸力克较大大措辞模型
Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes
韶光:5月3日
Arxiv地址:/abs/2305.02301
研究职员提出了一种蒸馏(Distilling)机制来管理特定于任务的较小模型,这些模型在演习数据较少的情形下超过了标准微调的性能。 首先,他们通过大型LLM提取基本事理(一种改写的提示)。然后利用这些基本事理和种别标签以监督办法演习较小的特定于任务的模型。
在基准测试论文提出的770M T5仅利用80%的可用数据就超过540B PaLM模型。
Unlimiformer:具有无限长度输入的远程Transformer
Unlimiformer: Long-Range Transformers with Unlimited Length Input
韶光:5月2日
Arxiv地址:/abs/2305.01625
论文提出对现有LLM预演习编码器-解码器转换器进行包装,不须要任何额外的权重调度,只需将自我监督机制利用到k最近邻 (k-NN) 算法替代。该个想法是将较长的输入编码为存储在数据库中的较小块,检索块, 然后在解码层,增加k-NN监督头。
Unlimiformer改进了预演习模型,例如BART和Longformer通过将它们扩展到无限输入而不须要额外的在不修正代码的情形下学习了权重
ResiDual:具有双剩余连接的Transformer
ResiDual: Transformer with Dual Residual Connections
韶光:4月28日
Arxiv地址:/abs/2304.14802
在最初的Transformer架构论文中,对层规范化的方法值得商榷和磋商,Pre-LN之前的残差连接会导致表征崩溃,而Post-LN之后的残差连接会导致梯度消逝问题。
在本论文中,研究职员提出领悟Post-LN和Pre-LN中的连接ResiDual,以继续Pre-LN和Post-LN的优点,同时避免它们的局限性。
scGPT:利用天生式 AI 构建单细胞多组学根本模型
scGPT: Towards Building a Foundation Model for Single-Cell Multi-omics Using Generative AI
韶光:5月1日
地址:biorxiv/content/10.1101/2023.04.30.538439v1
在本论文中研究职员利用LLM的天生式预演习来预演习单细胞测序数据(例如基因)的根本模型。 由此产生的预演习模型展示了基因网络的零样本和聚类能力。
大型措辞模型的呈现能力是海市蜃楼吗?
Are Emergent Abilities of Large Language Models a Mirage?
韶光:4月28日
Arxiv地址:/abs/2304.15004
在LLM高下文中,常利用术语紧急能力来指代在演习期间没有明确教授的能力(例如,总结、翻译等),但作为模型理解和天生文本的能力的副产品涌现它打仗到的信息量。在最近的这项剖析中,研究职员创造了强有力的证据,表明这些新兴能力不仅仅是将这些LLM扩展到更大规模的结果。研究职员认为,呈现能力是一种错觉,是由于选择了特定的绩效指标而产生的,因此呈现能力“可能是研究职员选择的产物”。
PMC-LLaMA:通过医学论文进一步微调LLaMA
PMC-LLaMA: Further Finetuning LLaMA on Medical Papers
韶光:4月27日
Arxiv地址:/ abs/2304.14454
LLM对特定领域数据的另一种运用,但这里是微调,并非预演习。研究职员创造,经由微调的LLaMA模型(在医疗数据上进行了微调)在医疗任务和ChatGPT上的表现优于预演习根本模型。这是猜想之中的,但这是另一个例子,随着公司希望优化LLM任务性能,微调LLM在未来将变得越来越主要。
利用RMT将Transformer扩展到100万个token乃至更多
Scaling Transformer to 1M tokens and beyond with RMT
韶光:4月19日
Arxiv地址: /abs/2304.11062
本文中研究职员提出了利用循环影象将大模型的输入高下文大小扩展到200万个token以战胜大模型对话的输入限定。而OpenAI最前辈ChatGPT中的GPT-4模型目前最多支持8192个token。
论文紧张思想因此递归办法将输出作为内存与下一段的输入序列嵌入一起通报。
大型措辞模型对齐的基本限定
Fundamental Limitations of Alignment in Large Language Models
韶光:4月19日
Arxiv地址:/abs/2304.11082
自2022年11月ChatGPT发布以来,许多LLM研究都集中在指令微调和对齐LLM上,以对用户更有帮助,减少危害。本论文提出了一种称为行为期望界线 (BEB) 的理论方法,该方法表明对齐只能减少但不能防止不良和有害行为。
结论是对齐LLM的方法不能抵御对抗性提示攻击,须要设计可靠的机制来确保人工智能的安全。
评估天生搜索引擎的可验证性
Evaluating Verifiability in Generative Search Engines
韶光:4月19日
Arxiv地址:abs/2304.09848
LLM驱动的天生搜索引擎正在兴起。研究职员对Bing Chat、NeevaAI、Perplexity AI和YouChat进行了审计,创造虽然回答内容丰富且流畅,但只有51.5%的天生句子完备由引用支持。只有74.5%的引用实际上为相应的句子供应了支持。
学习利用Gist标记压缩提示
Learning to Compress Prompts with Gist Tokens
韶光:4月17日
Arxiv地址:/abs/2304.14802
Prompt工程备受关注但是通过LLM反复重新运行类似的提示不是很摧残浪费蹂躏,而且很费钱。
在本论文中研究职员开拓了“要点”token,将任务压缩成分外token以节省打算。通过测试LLaMA-7B和FLAN-T5-XX LM,利用gisting方法可实现高达26x压缩提示,让FLOPs减少40%,挂起韶光减少4.2%,可以得到运行加速、存储节省和输出质量的最小丢失。
大型措辞模型的新兴自主科学研究能力
Emergent autonomous scientific research capabilities of large language models
韶光:4月11日
Arxiv地址:/abs/2304.05332
论文中,研究者将多个LLM链接在一起,形成一个基于多LLM的智能代理,能够设计和方案化学实验,包括利用工具和浏览互联网实验。从技能的角度来看,有趣的是他们如何以一种实际运作良好的办法连接多个LLM。 但是,只管标题引人瞩目,但该系统并没有天生新颖假设和实际故意义的实验设计。
关于AI天生文本检测的可能性
On the Possibilities of AI-Generated Text Detection
韶光:4月10日
Arxiv地址:/abs/2304.04736
鉴于LLM和及其天生的文本数量的增加,研究职员重新核阅了是否可以可靠地检测到AI天生的常常辩论的话题。在该论文中,研究职员表明答案是肯定的。基于信息论界线,在大多数情形下,只要有足够的样本量,就该当可以检测到AI天生的文本。
打算机视觉(CV)一次分割所有地方的统统
Segment Everything Everywhere All at Once
韶光:5月13日
Arxiv地址:/abs/2304.06718
类似于Segment Anything方法,本论文提出了一种可提示的交互式图像分割模型SEEM。除了Segment Anything之外,该研究还供应了更多交互类型并支持更高等别的语义任务。
研究职员表示,虽然Segment Anything提示仅限于点、框和文本,但他们的模型还支持其他提示,包括点、框、涂鸦、遮罩、文本、 和另一幅图像的参考区域,并且还可以实行全景和实例分割
大规模视觉措辞模型的稳定和低精度演习
Stable and low-precision training for large-scale vision-language models
韶光:4月25日
Arxiv地址:/abs/2304.13013
利用bfloat16(和稠浊精度)演习各种模型是很常见的,虽然英伟达最新的H100 GPU可支持8位浮点数。对付量化演习,本文研究职员提出了Switch-Back,这是一个用于int8量化演习的线性层它优于现有的LLM.int8()基线,并且在精度上与 bfloat16匹配,同时可提高约20%的演习性能。论文提出了基于AdamW-Adafactor 稠浊体的方法StableAdamW,它在演习 CLIP ViT-Huge 模型时可以避免峰值丢失并且表现优于渐变剪裁。
Patch Diffusion:更快、更高效的Diffusion模型演习
Patch Diffusion: Faster and More Data-Efficient Training of Diffusion Models
韶光:4月25日
Arxiv地址:/abs/2304.12526
本论文中,提出了一个优化模型Patch Diffusion,一种通用的patch-wise演习框架,可以降落演习韶光本钱,提高数据效率,有助于将Diffusion模型更广泛地推广和运用。
Patch Diffusion通过提高数据效率同时保持相同的图像质量,将扩散模型的演习韶光加快了2倍。在特定案例中,研究职员只须要5000个演习示例来演习一个竞争模型。
Patch Diffusion方法包括来自随机裁剪的图像块的块级信息。
对齐Latent:高分辨率视频合成与Latent Diffusion模型
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
韶光:4月18日
Arxiv地址:/abs/2304.08818
本论文的研究扩展Diffusion模型图像天生器的想法以天生视频。有趣的是,研究职员能够为这个文本到视频项目利用现成的预演习图像Diffusion模型。
Generative Disco:用于Text-to-Video实现音乐可视化
Generative Disco: Text-to-Video Generation for Music Visualization
韶光:4月17日
Arxiv地址:/abs/2304.06718
本论文构建了Generative Disco模型,一种天生式AI系统,可以帮助利用LLM和文本到图像天生音乐可视化模范。 用户选择音乐的间隔进行可视化,然后对其进行参数化 通过定义开始和结束提示来实现可视化。
文本到图像模型可以创建各种各样的视频。示例输出包括抽象动画和彷佛在唱歌的动画角色。
Diffusion模型的掩码自动编码器
Diffusion Models as Masked Autoencoders
韶光:4月6日
Arxiv地址:/abs/2304.03283
与大型措辞模型比较,预演习扩散模型不会产生可用于其他下贱任务的强大表征。 然而,研究职员将Diffusion模型制订为掩码自动编码器(DiffMAE)来办理这个问题。这可会在图像任务的Diffusion根本模型上产生新的、有趣的事情。
任意分割
Segment Anything
韶光:4月5日
Arxiv地址:/abs/2304.02643
有脸书母公司Meta AI实验室的开源Segment Anything项目引入了用于图像分割的新任务、模型和数据集。附带的图像数据集是迄今为止最大的分割数据集,在 1100万张图像上有超过10亿个掩码。特殊值得夸奖的是,研究职员利用了经由容许且尊重隐私的图像,因此该模型完备开源,而无重大版权问题。