最近,在人工智能领域,一家名为Fireworks AI的公司迅速崭露锋芒。在今年7月的B轮融资中,该公司在红杉成本的领投下筹集了5200万美元,估值达到了5.22亿美元。
作为一个SaaS平台,Fireworks AI专注于供应天生式人工智能推理和高质量的调优做事。公司致力于为客户打造速率快、本钱合理且高度可定制的天生式人工智能(GenAI)办理方案,知足不同客户的独特需求。
在得到融资一个月后,Fireworks AI首席实行官乔琳做客红杉成本的Training Data Podcast,从自己之前领导 Meta 的 PyTorch 团队重修了全体堆栈、知足商业客户的繁芜需求开始,讲述了Fireworks对大模型时期如何帮助客户进行优化、创造代价的思考。AI科技评论节选了部分内容并进行理解读,Podcast全文见:https://www.sequoiacap.com/podcast/training-data-lin-qiao/
大略、可以扩展:PyTorch和Fireworks的通用逻辑
乔琳创立Fireworks的初衷源自于一个特殊的想法:缩短AI模型演习和推理韶光,以此推动各种AI运用的繁荣发展。在training data podcast的对谈中,她分享了一个主要信息:Fireworks能够加速全体行业的产品上市周期,将其从五年压缩到五周乃至五天。而这统统,都离不开Fireworks最核心的AI框架,PyTorch。
乔琳在Meta的PyTorch团队的事情经历让她把稳到,无论是通用AI模型还是其他类型,越来越多的模型都在PyTorch中构建和运行。她认为这是由于PyTorch的漏斗效应,使其从研究职员的工具逐渐转变为模型创建和生产运用的主流框架。
大略、可以扩展,这是PyTorch的设计逻辑,也是研究职员喜好PyTorch的缘故原由。PyTorch的设计哲学是简化用户体验,隐蔽后端繁芜性。类似地,Fireworks保留其都雅大略的前端并重修后端,为用户供应更快的开箱即用体验。
例如,当Fireworks聚焦于以高性能供应推理时,他们手写了 CUDA 内核,实现了跨节点的分布式推理,以及跨 GPU 的聚合推理,将模型分成几部分,并以不同的办法进行缩放。此外Fireworks还实现了语义缓存,在给定内容的情形下不必重新打算。此外还专门捕获运用程序事情负载模式,然后将其构建到其推理堆栈中。
这统统组合成一个完全的系统,而不仅仅是一个库,能够自动调度以适应开拓者或企业事情负载。从客户角度看,Fireworks供应了一个平台,让客户能够访问100多个模型,并帮助他们微调和定制模型以知足特定需求。
那PyTorch在里面又起了什么浸染呢?
Fireworks用PyTorch更换其他的现有框架,让研究职员和开拓者能够轻松地将他们现有的事情迁移到PyTorch上,就像更换一个普通的代码库一样。这样一来,就能够让研究和生产环境都能统一在PyTorch上,简化开拓流程并提高效率。
这个看似大略的的更换过程实际上比预期的要繁芜得多,由于它涉及到了全体推理和演习堆栈的重修,以及对数据加载、分布式推理和演习扩展等方面的优化。这个过程终极花费了五年韶光,并且支持每天超过五万亿次推理;而现在,用户可以通过Fireworks的这套系统,将五年的履历压缩到五天中。
Fireworks与开源
越来越多的开源项目让商业活动利用AI模型的本钱越来越低,但乔琳认为,和其他开源项目比拟,Fireworks的上风不仅仅在于针对客户需求定制模型。
与开源项目比较,利用Fireworks的本钱更低,这不仅仅表示在经济本钱上,还包括了开拓本钱。Fireworks供应的是一套现成的办理方案,它减少了在考试测验和优化不同模型上所花费的韶光和精力。
此外,Fireworks还能供应更低延迟的推理速率,以更低的本钱实现更多功能。根据Fireworks官方数据,Fireworks的RAG速率比Groq要高9倍;Fireworks SDXL的图像天生速率比其他供应商的均匀水平高6倍;Fireworks的推测解码速率更是能够达到惊人的1000个令牌/秒。
与开源原始模型比较,Fireworks能将本钱降落五倍,乃至在进一步微调的情形低落低三十倍。以vLLM为例,FireAttention吞吐量比vLLM高15倍,Mixtral 8x7b的每枚代币价格要比vLLM低4倍。
Fireworks还供应了极致简化的自动化做事。Fireworks在后端进行了大量的自动化事情,包括自动调度繁芜性和性能优化。这一点是许多仅供应根本库和工具的开源项目所不具备的。Fireworks构建了一个完全的系统,能够自动根据开拓者或企业的事情负载进行调度,实现更高的性能和更优的质量。这种自动化做事不仅简化了开拓过程,也提高了整体的效率和产出。
市场趋势与竞争
许多初创公司在探索创意产品与市场契合度时,方向于从OpenAI起步。然而,随着业务规模的扩展,他们急迫须要选择性能更优、延迟更低的AI模型来适应产品市场的需求。在这一关键时候,Fireworks AI能够供应既经济又性能出色的AI办理方案。
乔琳不雅观察到,在与客户的互动中,与CTO的打仗日益频繁,这反响出全体行业正朝着创新驱动型业务转型的方向迅速发展。这一转变的背后有两个紧张缘故原由:
首先,行业领导层都把稳到了天生式人工智能(Generative Artificial Intelligence,GenAI)浪潮正在重塑行业格局。新兴的初创公司正在以惊人的速率呈现。如果现有企业创新速率不足快,不能高效利用天生式人工智能,就会很快被市场淘汰。
其次,天生式人工智能降落了AI模型演习门槛。传统人工智能演习中,一样平常只有大规模公司才能供应演习模型须要的海量数据和资源。但天生式人工智能的涌现让人们可以在已有的根本模型上进行构建,通过微调得到得当的模型。
在这一行业变革中,通用小模型因其灵巧性越来越受到商业用户的青睐。Fireworks供应了大量规模在7B-13B之间的开源模型,在降落本钱的同时,使开拓职员能够专注于更小、更集中的数据集,更高效地处理部分特定的业务。
只管OpenAI等公司研发出了可随意利用的通用款人工智能,但在某些领域,通用模型缺少业务逻辑,无法知足特定业务需求。
Fireworks AI的模型微调做事正是为理解决这一市场痛点。Fireworks哀求客户或开拓职员首先网络并标记业务数据,然后根据详细情形选择得当的微调算法,调度参数和模型权重等。Fireworks在后端处理繁芜的技能问题,而在前端为客户供应一个大略易用的界面,并留给客户足够的设计空间。通过这种办法,Fireworks使客户能够轻松地定制和优化AI模型,以知足其特定的业务需求。
未来愿景
Fireworks AI的愿景是构建一个能够供应全面知识访问的大略API。
目前,公司已经开拓了一百多个模型,包括大型措辞模型、图像天生模型、音频天生模型、视频天生模型、嵌入式模型和多模态模型,实现了广泛的根本模型覆盖,并针对延迟、吞吐量和每个Token的本钱进行了优化。
只管这些根本模型凑集了丰富的知识和演习数据,但它们所涵盖的信息仍旧有限。许多实时数据无法被捕获,而且大量信息隐蔽在不公开的API之后,无法直接访问。
为了战胜这些限定,Fireworks致力于创建一个功能强大的API,它能够精确地调用不同的模型和API,实现对全部知识的访问。在此根本上,Fireworks想建立一个可以访问数百名专家的专家稠浊网络,每个专家都很小但很灵巧,能够针对特定问题供应高质量的办理方案。
乔琳相信,随着AI模型规模收益的放缓,行业将转向更看重模型适用性的优化。Fireworks AI凭借其创新的技能和定制化做事,完备有能力引领这一行业转变,为用户带来更高效、更精准的AI运用体验。
谁是乔琳?
Fireworks AI于2022年底在加州创立,乔琳是 Fireworks AI 的首席实行官兼联合创始人,她本科和研究生毕业于复旦大学完成了打算机科学专业,并拥有加州大学圣塔芭芭拉分校打算机科学博士学位。
2015年,乔琳加入了Meta(原Facebook)。当时正值公司AI技能从CPU向GPU转型的关键期间,须要从头开始设计AI根本举动步伐。她带领团队研发了Caffe2等创新模型;并在后来的几年韶光里带领由300 多名天下级精良工程师组成的Meta PyTorch团队,领导开拓了PyTorch及其周围的全体系统,乔琳也被誉为“PyTorch之母”。Meta PyTorch团队的研发成果给Facebook 数据中央供应了有力支持,并广泛运用于数十亿移动设备和数百万 AR/VR 设备。
乔琳从PyTorch上理解到了开拓职员在AI开拓竞赛中时面临的巨大障碍,找到稳定可靠的模型和架构和较低的模型总拥有本钱。面对这处市场空缺,乔琳选择离开Meta开启新的奇迹。她和Dmytro Dzhulgakov、Dmytro Ivchenko、James Reed、赵晨宇、Pawel Garbacki还有Benny Chen一起创立了Fireworks。这一批来自Meta PyTorch团队和GCP团队的精英在AI框架和AI根本举动步伐方面有着深厚的背景,也正是这些专业知识能够让他们把繁芜的AI构建不断简化,在担保灵巧稳定的根本上降落AI的利用本钱。
曾和乔琳在Meta同组研究AI Infra的贾扬清,也在去年创立了自己的人工智能公司,Lepton AI。Lepton AI和Fireworks属于同一赛道上的竞争对手。AI开拓简化这个赛道磨练的是团队的技能履历,只有技能大牛才有底气创立团队加入竞争。雷峰网雷峰网
乔琳的Fireworks也是打出了很有底气的口号,“用于构建可用于生产的复合 AI 系统的最快、最高效的推理引擎”。