【新智元导读】有的天生式AI运用,已经吸金15亿美元了。
风头无限的背后,构建运用的关键,竟然在于这家企业的技能。

天生式AI运用,现在已经风头无两,动辄狂吸数亿美元的投资!

可以说,全天下的大科技公司和独角兽们,已经为天生式AI打造了丰富的生态系统,版图还在不断扩展。

在10月24日刚刚结束的天生式AI构建者大会上,亚马逊云科技就提出了为用户构建完全端到端天生式AI的技能堆栈。

一个应用狂赚15亿打造差异化生成式AI秘密武器数据是关键

详细来说,亚马逊云科技从5个方面来助力企业和开拓者开释天生式AI潜力:

- 选择得当的运用处景,从范例场景入手创新业务模式 - 借助专门构建的天生式AI工具和根本举动步伐,快速构建高性价比的天生式AI运用 - 夯实数据基座,利用私有化数据,打造差异化竞争上风 - 借助云原生做事,加速AI原生运用构建,助力业务敏捷创新 - 借助开箱即用的天生式AI做事,肃清重复性事情并专注创新本身

根据IDC在2023年2月发布的环球CIO快速调研,金融、能源、医疗、法律行业的头部机构,在1年内都会考试测验引进大模型以及天生式AI能力。

如今我们可以看到,这项预测已经成真。

为天生式AI定制数据

天生式AI,可以用一个公式呈现,即提示词+高下文+大模型=输出结果。

举个栗子,当一位客户想要改换球鞋的颜色,他会提出「我买的鞋子可以换成棕色的吗?」,提出问题便是提示词。

那么高下文是指,之前购买的历史对话信息,以及客户订单记录等数据。

然后须要寻求大模型,检索退换货干系策略,然后根据以往的售后处理案例,再给出结果。

这样,一个天生式AI运用真正的代价就表示了。

但我们要清楚的是,这个中的根本模型,并不是天生式AI的全部。

若说,在这些华美的运用背后,有着一个非常关键要素——数据。

比较于传统的运用,天生式AI在数据的利用上,有一套特有的流程。

其所需的能力涉及到从数据/语料加工、根本模型演习/调优,到数据管理、知识召回、提示工程等一系列模块。

玩转数据,可是个技能活

目前,已经有72%的头部科技公司指出,「管理数据」已经是阻挡他们扩展AI用例的最大寻衅之一。

就拿现在最为火热的向量数据库来说,它可以可加速AI运用程序的开拓,并简化由AI驱动的运用程序事情负载的运作。

然而,作为一项相对较新的技能,目前能够做出高质量向量数据库的企业,并不多。

与此同时,用户的隐私等问题,也让企业对付私有数据的采取望而生畏。

对付垂直领域模型的演习微调,都须要一定的数据累积。

但有些数据是无法共享,拿来公开演习的,比如医疗领域大模型,涉及患者个人、病历等私人主要信息。

其余,数据质量管控不到位、数据源分散或者涌现数据孤岛、缺少数据素养等问题,在很多企业中不知不觉积累了很多「数据负债」。

环球领先的办理方案

显然,面对如此繁芜多变的寻衅,企业须要一套全面且一站式的办理方案,才能真正让让天生式AI技能实现赋能。

简而言之,便是一个强大的「数据底座」。

个中包括,能够存储各种类型的数据库,然后能够供应将多个数据源打通的做事,末了,还须要确保数据安全并对其进行管理。

数据是每个企业的核心资产,构建差异化上风的根本

数据作为企业最为核心的资产之一,是在天生式AI浪潮中构建差异化上风的根本。

为此,亚马逊云科技针对天生式AI的各项需求场景,特殊定制了专有的数据库。

场景一:用户个人信息

对付一个天生式AI运用来说,要想让给出的结果更加贴合用户的需求,就须要结合每个用户自身的特点。

在把这些信息结合到Prompt里一起发送给LLM之后,就可以得到更加个性化的输出了。

针对这一需求,亚马逊云科技打造了Amazon RDS和Amazon Aurora这两个关系数据库办理方案。

个中,Amazon RDS是一项托管式关系数据库做事,统共供应了7种热门数据库引擎。

Amazon Aurora则是亚马逊云科技专为云平台打造的关系型数据库,具有着高性能、高可用、可扩展性强等特点,而且本钱仅有同级数据库的1/10。

场景二:会话历史信息

除了个人信息外,用户对话的高下文信息,对付天生式AI运用的准确性来说也至关主要。

通过将历史对话记录和用户最新提出的问题相结合,并一起发送给大模型,便可以实现更好的用户体验。

对此,亚马逊云科技打造了Amazon DynamoDB和Amazon DocumentDB。

前者是快速且灵巧的NoSQL数据库,对规模没有限定。
非常适宜无做事器的事宜驱动型架构、遍及环球的弹性做事,以及高吞吐量事情负载。

后者是基于云原生架构,全面兼容MongoDB的托管NoSQL数据库。

场景三:私域知识库信息

众所周知,通用大模型存在着幻觉、信息时效性差,以及包括token长度限定等各种问题。

尤其是对付企业内部的信息来说,如果让LLM自由发挥,很随意马虎就给出了缺点答案。

但如果能有私有知识的加持,LLM就可以给出更为精准有效的回答。

为了利用这些私域知识,我们可以通过Embedding模型把它们变成向量,并存放在向量数据库里。

当有查询到来时,通过同样的Embedding模型天生新的向量,和向量数据库里的数据做相似度打算,返回最附近的结果。

可以说,如果把LLM比作是随意马虎失落忆的大脑,那么向量数据库便是这个大脑的海马体。

对此,亚马逊云科技有AmazonOpenSearch、Amazon PostgreSQL和Amazon RDS for PostgreSQL等方案。

Amazon Aurora/Amazon RDS PostgreSQL,能够兼容开源PostgreSQL,易于学习。

Amanzon OpenSearch具备向量和倒排召回能力,可利用现有集群,同时能供应日志检索能力。

Amazon Kendra是基于机器学习的端到端智能检索做事,能够帮助用户利用自然措辞搜索非构造化文本。

场景四:输出结果缓存

缓存,是一种存储数据的组件,浸染就在于能够让数据的要求更快地返回。

直白讲,我们每次用网页查询后的信息,都会被缓存,当下次再访问的时候,加载就更快了。

对付天生式AI运用来说,用户发出要求时,须要调用模型,输出结果。

但是,就像ChatGPT这样的爆火运用,每天收到大量要求,就会涌现高并发阶段,存储数据量暴增,数据库的磁盘IO就成为了瓶颈。

由于,数据库的速率和吞吐量,是影响天生式AI运用程序整体性能的主要成分。

这时,就须要一种访问更快的组件——缓存,来提升系统的整体性能。

便是将之前调用LLM输入输出结果进行缓存,当后续要求与之前输入「相似」时,直接就返回内存数据库调用结果,完成输出。

这样一来,就做到了就无需调用模型就能得到结果,不仅提高了运用的反应率,还降落了模型的调用本钱。

亚马逊云科技对此供应了三种办理方案。

通过针对Redis或Memcached引擎的亚毫秒级的相应韶光,Amazon ElastiCache可用作高可用性内存缓存,以减少访问延迟、提高吞吐量并减轻关系数据库或NoSQL数据库的负载。

Amazon ElastiCache for Redis可以供应查询结果缓存、持久会话缓存和整页缓存。

其余,Amazon MemoryDB for Redis专为带有微做事架构的当代化运用程序而构建,与Redis兼容、持久的内存数据库做事,可供应超快的性能。

通过办理这四大场景的需求,亚马逊云科技也就保障了每个企业都可以充分利用核心的数据,来构建自己独占的上风。

数据质量决定了模型质量,是构建运用的关键

数据质量,不仅决定了模型质量,同时也是构建天生式AI运用的关键。

而数据管理,便是这些运用落地的保障。

Gartner数据显示,到2025年,寻求扩大数字业务规模的组织中有80%将因不采取当代的数据和剖析管理方法而失落败。

只有履行精确的管理策略,团队才能随时访问高质量的数据。

但是在实践中,创建精确的管理掌握,每每既繁芜又耗时。

ETL是指数据的提取、转换和加载过程。
以往,业务数据每每须要通过ETL,才能进行剖析从而供应洞察。

然而,这一过程非常耗时且繁芜,须要管理繁芜的转换代码和数据管道,以及投入一批具备专业ETL技能的工程师,曾被亚马逊云科技CEO Adam描述为「不谄媚、不可持续的黑洞」。

数据集成不应是一项人工事情的无底洞,我们须要快速、轻松地连接到所有数据,并加以利用。

而「Zero ETL」,便是亚马逊云科技迈出的关键一步。

Amazon Zero ETL能够大大帮助客户简化数据ETL,减少数据质量问题。

详细来说,它没有ETL流水线,可以实现交易数据的实时剖析和机器学习,还能综合来自多个Aurora数据库的数据见地。

此外,亚马逊云科技数据做事可以与外部数据库实现Zero的集成。

让数据实现一体化领悟,将其数据库、数据做事底层打通,由此,数据就实现了「无感知」流动。

其余,亚马逊云科技提出了敏感数据保护方案——Amazon DataZone。

它利用内置管理的统一平台,能够跨组织边界解锁数据代价。

它支持全体集团的数据创造、管理跨部门的访问和利用生命周期,对数据的共享办法和授权人进行全面的掌握和知晓审计的能力。

在以往,数据协作过程中,每每存在着重重困难。

比如指标定义不一致、可用数据难创造、数据权限难管理等。

通过Amazon DataZone,开拓者和业务职员可以通过清晰指标的定义进行数据剖析,开拓者可以放心利用目录管理中的数据,还能在同一个平台上对数据进行可视化的订阅和授权。

这样,以上困难就都逐一办理了。

而授予Amazon DataZone关键能力的,便是可信赖数据集,和简化数据访问。

有了可信赖数据集,就可以对数据进行目录化,找到和创造数据。

而有了简化数据访问,终端用户就可以导航到Amazon DataZone的数据门户,并选择一个项目,来浏览他们的数据资产。

拉美最大的私营金融机构伊塔乌联合银行,就在利用Amazon DataZone进行简化数据管理。

数据安全与合规是重中之重

数据安全与合规,贯穿了从模型演习、到微调,再到支配的全体过程,是重中之重。

LLM的火爆,虽然促进了浩瀚天生式AI的繁荣,却也同时带来许多新的安全寻衅。

提示注入、数据泄露、过度依赖LLM天生的内容、演习数据污染等问题,各类各样防不胜防。

尤其是,通用模型利用少量的私有数据集自定义,就可以实行面向特定领域的任务。
这个过程中,私有数据集的安全性和保密性,显然极为主要。

那么,我们该如何保护数据隐私,让数据更安全呢?

首先,Amazon Bedrock做事,就供应了数据隐私保护,严格做到了「您的数据由您自己掌握」。

Amazon Bedrock做事后端实现的架构

它担保了客户的数据不会被用于演习Amazon Titan模型,也不会被共享给其他根本模型供应商。

客户的数据(提示词、相应、微调模型)是按用户隔离的,会被保留在相应的地理区域。

而且,客户在Amazon Bedrock中的数据是被加密传输和存储的,可以利用自带的密钥。

其次,Amazon DataZone可以保护数据在不同账号之间安全共享。

它可以担保跨组织的数据管理,确保授权的用户以授权的目的,访问被授权的数据。

在事情流的发布与订阅模式、数据的授权、通过数据项目和域来访问数据、基于实际利用量的计费、组织构造的复制、与API的集成商,它都担保了数据的安全。

全新天生式BI出身

对付许多企业来说,都希望通过数据驱动业务,形成数据飞轮。

只有数据被充分利用和挖掘,才能发挥出巨大的商业代价。

举个例子,如果发卖团队能更好地理解从免费账户到付费账户的转化率,他们就能优化营销和发卖操持,从而增加收入。

但是,理解数据须要花费大量的韶光、精力和知识。
如何在海量数据中完成剖析,并实现可视化,对付一个企业来说至关主要。

尤其是,对付那些不懂底层数据逻辑,以及没有任何代码根本的企业用户。

当前,业界常见地决方案是——BI工具,办理了大数据「末了一公里」的问题。

但是,在天生式AI爆发确当下,如何利用最新技能帮助企业开释数据代价,做出商业决策?

亚马逊云科技在自家的BI工具——Amazon QuickSight,推出了天生式BI功能。

通过将Amazon Quicksight的功能与Amazon Bedrock供应的大措辞模型功能相结合,将其称之为天生式BI。

现在,企业用户中任何一个人都可以通过自然措辞的提问,理解数据。

乃至,业务剖析师还可以利用自然措辞在几秒钟内快速编写和微调视觉效果,并将其添加到仪表板中。

无需学习语法,便可直策应用自然措辞创建新的打算。

现在,创建一个新的仪表板或打算只需问几个问题即可,非常大略。

其余,业务用户还可以利用自然措辞提示来天生剖析报告,或在Amazon Quicksight中对其数据进行可视化演示。

只需用笔墨键入故事描述,就可以利用干系仪表板中的数据,创建你想要的效果。

比如可以让其天生对亚马逊云科技免费试用账号最感兴趣的客户分类报告,在报告天生后,他们可以根据须要对其进行修正,并与业务团队共享。

加速天生式AI技能革命

构建天生式AI运用,充满了寻衅性。

这个过程中,涉及到接入和管理多家根本模型,还要连接不同的数据源,数据隐私和安全性须要担保。

金山办公的WPS AI,成功将大措辞模型的能力全面引入了产品。

而背后的元勋之一,便是亚马逊云科技。

客户的数据隐私和安全,一贯是WPS的第一优先级。

构建各种AI的过程中,亚马逊云科技不会利用客户数据来改进模型,也不会将客户数据与他人共享。
客户数据均保留在该客户所在的区域中。

因此,Amazon Bedrock成功地助力WPS,加速了各种天生式AI的构建。
它支持的领先大措辞模型,在多个笔墨处理场景都符合金山办公的需求。

通过亚马逊云科技的技能,西门子也办理了诸多业务难题。

此前,西门子中国IT面对的难题有,企业内部信息分散、数据资料增长迅速、数据信息你通报能力不敷等等。

对此,亚马逊云科技基于西门子数据(如西门子的产品和解决方案),开拓了一款智能回答助手——小禹。

它是西门子中国业务知识一体化的办理方案,支配在西门子安全环境中。

除了GPT本身拥有的弘大知识库外,小禹还集成了西门子独特的知识系统,如西门子的各种产品和做事、平台和工具、内部流程等。

它能够及时相应,自动提取知识,快速定位内容(比如产品描述、用户手册、技能规格、营销材料、常见问题解答、法规等)。

它既省时,又减少了人工掩护本钱,还增加了信息透明度和知识共享。

从2023年初项目立项,到9月手机版发布,小禹持续在各个领域利用天生式AI能力,加速了西门子中国业务的发展。

在亚马逊云科技的助力之下,各大企业的天生式AI技能一定会连续发达发展,发生更多革命性变革。

天生式AI带来的生产力提高和新用例,会给环球经济带来巨大影响。

肉眼可见的是,这个韶光点正在加速到来。

参考资料:

https://news.crunchbase.com/venture/biggest-rounds-of-june-ai-inflection-cleancapital/