比GPU性价比高百倍Cerebras推出AI推理做事号称全球最快

编译 | Vendii编辑 | 漠影

智东西8月28日，AI芯片独角兽Cerebras Systems于8月27日宣告推出AI推理做事Cerebras Inference，号称“环球最快”。
该做事已经在云端上线。

据官网先容，该推理做事在担保精度的同时，速率比英伟达的做事快20倍；其处理器内存带宽是英伟达的7000倍，而价格仅为GPU的1/5，性价比提高了100倍。
Cerebras Inference还供应多个做事层次，包括免费、开拓者和企业级，知足从小规模开拓到大规模企业支配的不同需求。

用户可直接在官网上的交互界面进行体验，也可调用API。

比GPU性价比高百倍Cerebras推出AI推理做事号称全球最快

体验地址：https://inference.cerebras.ai/

Cerebras Systems成立于2016年，团队由打算机架构师、打算机科学家、深度学习研究职员和各种工程师组成。
该公司以其创新的晶圆级芯片（Wafer Scale Engine, WSE）而有名，这些芯片专为AI打算而设计，具有巨大的尺寸和性能。

这家芯片独角兽曾经得到多个有名投资者的支持，个中包括OpenAI联合创始人Sam Altman、AMD前CTO Fred Weber等。
截至2021年11月，该公司完成了2.5亿美元的F轮融资，估值达到40亿美元。

一、性价比远超英伟达：速率快20倍，价格仅为1/5

AI推理指的是在演习好一个AI模型之后，利用这个模型对新的数据进行预测或决策的过程。
AI推理的性能和效率对付实时运用至关主要，例如自动驾驶汽车、实时翻译或在线客服谈天机器人等。
Cerebras Inference（以下称作“Cerebras推理做事”）便是一个专注于AI推理的做事，以支持这些对实时性哀求极高的运用处景。

Cerebras推理做事由Cerebras CS-3系统及其第三代晶圆级芯片（WSE-3）供应支持。
WSE-3于3月发布，基于2021年推出的WSE-2芯片进行了改进。
WSE-3内存带宽高达21PB/s，是英伟达H100 GPU的7000倍。
这种超高的内存带宽可以大幅减少数据传输韶光，提高模型推理的速率和效率。

据官网先容，Cerebras推理做事针对Llama 3.1 8B模型每秒供应1800个tokens，每百万tokens的价格为10美分；针对Llama 3.1 70B模型每秒供应450个tokens，每百万tokens的价格为60美分。
速率比基于英伟达GPU的超大规模云办理方案快20倍。

▲Cerebras推理做事与其他做事在Llama 3.1 8B上的速率比较。
单位：tokens/秒/用户。
（图源：Cerebras官网）

▲Cerebras推理做事与其他做事在Llama 3.1 70B上的速率比较。
单位：tokens/秒/用户。
（图源：Cerebras官网）

此外，Cerebras推理做事在全体推理过程中始终保持在16位精度域内，确保在提升速率的同时不会捐躯模型的精度。
大措辞模型质量评估公司Artificial Analysis的联合创始人兼CEO Micah Hill-Smith谈道，他的团队已履历证了Llama 3.1 8B和Llama 3.1 70B模型在Cerebras推理做事上运行的质量评估结果：与Meta官方版本的原生16位精度同等。

跟据官网，该做事运行Llama3.1的速率比基于英伟达GPU的办理方案快20倍，而供应做事的芯片WSE-3价格仅为GPU的1/5，相称于AI推理事情负载的性价比提高了100倍。

“在Artificial Analysis的AI推理基准测试中，Cerebras推理做事已经领先。
Cerebras推理做事的速率比基于GPU的办理方案快一个数量级，冲破了测试的记录。
”Micah Hill-Smith说，“凭借推动超高的性能速率和具有竞争力的定价，Cerebras推理做事对具有实时或高容量需求的AI运用开拓者特殊具有吸引力。
”

二、清晰的分级访问制度，用户可免费体验

Cerebras推理做事根据用户需求和利用情形，供应了分级制度，分为三个层级：

1、免费层级：这一层级为所有登任命户供应免费的API访问权限以及相对宽松的利用限定。
用户可以在这个层级中体验，无需支付用度。

2、开拓者层级：这一层级专为灵巧的无做事器支配设计，为用户供应一个API端点。
比较于市场上的大多数方案，其本钱要低得多。
对付Llama 3.1 8B和Llama 3.1 70B模型，每百万tokens的价格分别是10美分和60美分。
未来，Cerebras操持持续推出对更多模型的支持。

3、企业层级：这一层级供应经由微调的模型、定制的做事级别协议和专门的支持。
它适宜须要持续的事情负载。
企业可以通过Cerebras管理的私有云或在企业确当地支配访问Cerebras推理做事。
可按需求定价。

Cerebras推理做事的这种分级制度旨在知足从小规模开拓到大规模企业支配的不同需求。

三、推动多方计策互助，构建AI开拓一条龙做事

在推动AI开拓的计策互助伙伴关系中，Cerebras Systems正与一系列行业领导者互助，共同构建AI运用的未来生态。
这些公司在各自的领域内供应关键技能和做事，比如，Docker旨在利用容器化技能使AI运用支配更加便捷和同等，LangChain为措辞模型运用供应快速开拓框架，Weights&Biases打造了供AI开拓者演习和微调模型的MLOps平台……

“LiveKit很高兴能与Cerebras互助，帮助开拓者构建下一代多模态AI运用。
结合Cerebras的打算能力和模型以及LiveKit的环球边缘网络，所开拓的语音和视频AI运用将实现超低延迟并更靠近人类特色。
”LiveKit公司的CEO兼联合创始人Russell D’sa说道，该公司专注于构建和扩展语音和视频运用程序。

AI搜索引擎创企Perplexity的CTO兼联合创始人Denis Yarats认为，Cerebras推理做事可以帮助AI搜索引擎在用户交互方面实现打破，从而提高用户参与度。

结语：AI打算战事升温，高效推理成焦点

根据国际数据公司（IDC）的研究，AI推理芯片在2020年已经霸占了中国数据中央市场的50%以上份额，并估量到2025年，这一比例将增长至60.8%。
据英伟达2024财年数据中央的古迹会纪要，其公司该年度有超过40%的收入来自AI推理业务。
可见，AI推理不仅在当前市场中霸占相称比例，而且估量在未来几年将连续保持增长势头。

Cerebras凭借其超快的推理速率、精良的性价比和独特的硬件设计，将授予开拓者构建下一代AI运用的能力，这些运用将涉及繁芜、多步骤的实时处理任务。

然而，在生态系统的成熟度、模型支持的广泛性以及市场认知度方面，英伟达仍旧霸占上风。
比较于Cerebra，英伟达拥有更大的用户群体和更丰富的开拓者工具和支持。
此外，虽然Cerebras支持主流模型（如Llama 3.1），但英伟达的GPU支持的深度学习框架和模型范围更广。
对付已经深度集成在英伟达生态系统中的用户，Cerebras可能在模型支持的广度和灵巧性方面略显不敷。

来源：Cerebras Systems官网

每期AI知识网

比GPU性价比高百倍Cerebras推出AI推理做事号称全球最快

AI绘画创意与技能的融合

广东政不雅观｜投资额约30亿一份清单看广东人工智能成久远景