作者 | ZeR0编辑 | 漠影
智东西5月31日宣布,今日,在2024向星力·未来数据技能峰会上,大数据根本软件龙头星环科技面向企业构建大模型和运用天生式AI的需求,发布最新AI根本举动步伐产品Transwarp Knowledge Hub星环知识平台(以下简称TKH), 供应企业级多模态知识存储及做事,并推出一款一站式多场景语料开拓工具TCS(Transwarp Corpus Studio)、大模型运营平台Transwarp Sophon LLMOps。
基于无涯大模型,星环知识平台TKH打造了无涯·问知、无涯·问数、无涯·金融、无涯·工程等AI原生运用,可广泛运用于金融、能源、制造、工程等多个领域,通过精准的数据剖析和知识管理,知足企业不同类型的知识运用需求,提升企业业务效率和竞争力。
星环科技发布了企业版、AI PC版企业级垂直领域问答产品无涯·问知Infinity Intelligence。无涯·问知公有云做事也正式发布,首批约请用户已经可以在线测试。
同时,星环科技推出企业智能业务剖析洞察平台无涯·问数,让用户用自然措辞轻松进行数据剖析,办理传统BI(商业智能)利用门槛高、效率低的寻衅。
星环科技创始人、CEO孙元浩宣告,星环科技的定位从Data Infra进一步延伸到AI Infra,为企业客户打造AI根本举动步伐,打造覆盖语料处理、模型演习、知识库培植等的一整套工具链,帮助企业快速建立行业大模型,快速利用AIGC。
孙元浩见告智东西,在支持天生式AI的数据管理方面,企业可能会用到向量数据库、关系数据库、图数据库、实时数据库平分歧类型,这些都是为AI供应数据的紧张办法,现在很难说哪类比重会更高。
对付用户而言,已构建数据仓库的根本较大,结合大模型直接问数据库比较吹糠见米,需求相对多。向量数据库估量会加速增长,语音、图片、视频必须要用向量数据库,文档建议也变成向量数据库以拓展检索范围。知识图谱构建哀求较大,但同样是必要的补充。当关系图谱不敷时,星环供应了实时数据库,还有传感器剖析。
面向AI PC布局,孙元浩认为AI PC是提高生产力的必需品,他透露说星环希望在本地做到千亿参数模型,可能今年年底就可以做到。
一、今年环球将天生159.2ZB数据,企业落地AI面临4类寻衅AI大模型正在催生新一轮技能创新与家当变革,将为金融、制造、交通、政务等浩瀚行业企业数字化转型和高质量发展带来新动能。
天生式AI涌现后,深度学习从以前的可能几千万、上亿的样本数量的大样本机器学习,演化成现在小样本机器学习,让行业大模型运用范围变得更广,让模型能够思考、学习,理解自然措辞,完成更多的事情。
当前市场以通用根本大模型为主,通识能力强,但短缺行业专业知识。让企业的AI运用从早期直接调用通用大模型发展到建立自己的AI根本举动步伐,打造行业或特定领域、任务的专用大模型,助力生产力改造和家当升级,已经成为企业关注的核心。
在峰会上,IDC中国副总裁钟振山分享了一些IDC调研结果。
IDC预测,环球2024年将天生159.2ZB数据,2028年将增加1倍以上,达到384.6ZB,复合增长率为24.4%,分布在不同的数据库中。DataSphere 2024最新预测还呈现了3D特色:分布式、多样化、动态。未来两年里,估量组织中的数据量、数据速率、数据多样性均会提升。
为了实现天生式AI,企业须要管理多方数据源,被调查企业中50%利用数据仓库支持天生式AI,35%利用向量数据库,33%利用数据湖,33%利用支持向量搜索能力的NoSQL数据库。
从落地形式来看,企业更多选择私有化办法来演习、推理和支配大模型。在履行AI技能时,企业或机构经历过/估量会经历本钱、缺少具备学习和利用AI所需技能的员工、短缺专项技能人才、短缺AI管理&风险管理、短缺AI监管规则等方面的寻衅。
总体来看,企业落地AI面临4个紧张寻衅:1)高投入本钱与专业人才匮乏,是企业落地AI最大的阻碍;2)数据根本举动步伐培植不敷,须要商业落地、安全性、可持续发展和数据管理;3)缺少统一数据管理底座,海量、多元、非构造化数据高频流动;4)短缺知识库的支撑,知识的存储、共享和流动。
二、定位延伸至AI Infra,为企业供应全流程开拓工具链从需求上看,目前通用大模型数量快速增加,并不断升级迭代、提质增效,但却不能适应企业AI运用的需求。
企业对行业大模型需求增加,急迫须要降落利用门槛,更加普惠地利用大模型、天生式AI技能,以办理企业内部人才、算力、数据等不敷的寻衅。发展面向特定领域或任务的领域大模型,不断提升模型准确度,成为一条切实可行的发展路子。
每个国家都须要主权AI,企业同样须要自身的AI Infra来打造行业大模型,从而更快速便捷地用大模型开释数据代价。
针对企业的AI Infra培植,星环科技通过自主研发,可向用户供应一站式企业级大模型生产及运用全流程开拓工具链,让大模型快速落地。
星环科技拥有从语料到模型再到运用的完全的AI Infra工具集,覆盖语料开拓和管理、大模型演习与持续提升、多模态知识工程、多模知识存储与做事、原生AI运用构建编排和运用做事等主要阶段,供应提示词工程、检索增强、智能体构建等大模型运用快速构建和提升、模型推理优化、模型安全和持续提升技能。
星环科技AI Infra工具支持异构算力、语料、知识、大模型运用的统一管理,为数据和语料资产的集约化供应了一站式平台,且具备企业级的组织空间管理能力。
通过该工具,企业能够准确、高效地将拥有的多种来源的多模语料转换为高质量的专业领域知识,源源不断支撑专业知识库问答、业财数据剖析、智能投研、设备预测性掩护等丰富的利用场景和运用,让企业构筑知识壁垒,实现“人工智能+”业务的落地和创新。
后续星环科技将通过自主研发,不断完善AI从根本举动步伐到运用的家当链条,为客户供应端到真个全套AI办理方案。
三、企业界垂直领域问答产品无涯·问知:四大运用处景,将数据和资料转换为知识星环科技发布了企业级垂直领域问答产品无涯·问知Infinity Intelligence,有企业版、AI PC版、云端版,包括四大运用处景:
1)企业可以基于星环知识库TKH,建立企业自己的知识库运用;
2)企业算力不敷时,可采取安装了天涯·问知的AI PC,在本地直接访问天涯·问知;
3)中小企业用户不用自己构建知识库,可直策应用星环科技无涯·问知公有云做事;
4)个人可利用AI PC或者公有云做事,访问天涯·问知做事。
无涯·问知是一款基于星环自研预演习模型无涯Infinity和向量数据库Hippo、图数据库StellarDB构建的企业级垂直领域问答知识库运用。
该产品基于星环科技大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源,充分利用了星环科技自研大模型底座的自动化知识工程特性,使其在处理和剖析数据方面具有显著的上风,许可用户上传文档、表格、图片等多源数据,并支持与外部数据源的对接,利用户能够构建属于自己的专属领域大模型。
借助这一工具,用户可基于自身私域知识库进行更为个性化和深入的数据剖析。
该产品支持不限长度的音视频图文等多模态数据快速入库,且支持自动化文档切片及向量化处理,合营自研的RAG框架,可实现知识的精准召回,可用于市场研究剖析、企业供应链剖析、法律风险预警、智能写作等业务场景中。
面向个人用户,星环科技推出无涯·问知AI PC版本,可在搭载英特尔新一代CPU的主流个人电脑(AI PC)上基于集成显卡和NPU流畅运行。
无涯·问知AI PC版本供应本地化的向量库,支持多种格式、不限长度的文件资料入库,并支持影、音、图、文等多模态数据和资料的“知识化”处理,以及相应的“语义化”查询和运用能力,能够对可量化的数据进行精准的剖析和研判。
该工具打通了个人文件资料与企业知识库,形成本地和云真个知识联动推理,而且能保障个人的数据安全。
据先容,无涯·问知AI PC版本具备出色的内容理解能力,包括对感知和认知层的深度理解,以及对事实、流程、图谱等高等语意的把握,因此能够更准确地理解用户需求。
四、无涯·问数:用自然措辞搞天命据剖析,兼顾安全性与准确性今日星环还发布了一款智能业务剖析洞察平台无涯·问数,基于星环数据剖析大模型打造,旨在办理传统BI在数据获取、利用门槛和效率方面的寻衅,为决策者和业务职员带来更好的数据剖析体验。
该平台凑集了大措辞模型、AI和BI的能力,并结合数据剖析主体、指标、标签设计、数据开拓和管理,形成了从自然措辞转数据查询措辞并返回数据表或数据图表的完全流程。
非专业用户可在无涯·问数平台上利用自然措辞轻松查询数据,无需节制数据库编程措辞,有效办理取数需求开拓链路长、指标二义性、缺少数据挖掘能力、数据剖析高度依赖人工履历等传统数据剖析痛点,简化了用户与数据交互的办法,让数据剖析变得更加便捷和直不雅观。
在安全性上,无涯问数结合NL2SQL和可视化能力,将模型输出结果解析为易于理解的界面化配置,并从多个维度供应全面的数据安全管控,在更快、更高效获取数据的同时,担保查询过程的安全性和结果数据的可阐明性。
在传统BI场景中,缺少履历的剖析师难以给出高质量的剖析报告,且靠人力履历积累的业务逻辑、业务洞察无法沉淀为企业知识库。
无涯问数针对数据安全保障有一系列风雅的数据安全和权限掌握方法,可以结合企业自由数据进行模型演习,理解行业黑化和业务逻辑,在智能剖析场景下供应更高的模型准确率和剖析方法论等知识输入。
针对数据同等性,无涯问数通过前辈的指标和标签模块办理取数渠道和打算口径不一致的情形,供应包括针对数据、指标和标签的智能业务洞察范围,并知足客户数据来源准确和剖析口径统一的需求;确保数据剖析结果的可靠性,支持数据驱动的决策制订。
在运用处景上,无涯·问数供应剖析仪表盘和智能问数能力,让决策者/管理者以自然措辞提问快速自助获取目标数据;预定义指标打算口径,依托数据剖析大模型理解用户的剖析意图,让数据剖析职员实现对话即剖析;通过页面配置的办法快速完成数据准备,让数据开拓职员,快速整合多种数据。
五、星环知识平台TKH:帮企业高效构建AI Infra星环科技整合大数据、AI等技能,推出一款知识平台Transwarp Knowledge Hub(TKH),为企业供应一个全面、高效、智能的数据处理和知识管理办理方案。
TKH旨在为企业打通从AI根本举动步伐到大数据、AI等研发运用的完全链条,实现企业内部所有资料知识化,能统管企业Al Infra算力、语料、模型、运用,助力企业打造安全可控的AI Infra、快速利用AIGC。
星环知识平台TKH包括知识存储与做事、语料开拓与知识构建、大模型根本做事等几个主要部分。
第一,TDH for AI,打造新一代一站式多模型数字底座。
TKH供应企业级多模态知识存储与做事,助力企业打造新一代一站式多模型数字底座。基于Transwarp Data Hub for LLM知识管理平台的多模型统一技能架构,支持关系型数据、向量数据、全文检索、图数据、时序数据等的统一存储管理,知足各种场景下多模态数据的统一存储管理与做事,大幅简化知识库的知识存储与做事层架构,降落开拓与运维本钱。
星环科技新推出的产品可以让企业的数据底座实现四个一体化:湖仓集一体化、多模型处理一体化、历史数据与实时数据处理一体化、本地集群和云平台一体化。
个中,大数据根本平台TDH 9.4的多模基座加速AI剖析;仓集资源隔离架构,在稠浊业务场景下依然保持极致性能;湖仓一体架构,大幅降落TCO;同份数据跑批查询与稠浊负载,实时备份强在线业务容灾;同时支持多模型存诸架构、大模型海量演习数据存储、多模型稠浊检索召回增强、Python生态等。
分布式向量数据库Hippo支持文本、图片、音视频等转化后的百亿级向量数据的存储、索引和管理,支持多种索引,具有全文检索+向量检索以及稀疏向量+稠密向量的稠浊检索等能力。Hippo 2.0可实现百亿级向量存储,供应灵巧索引支持、20倍内存本钱低落和向量全文稠浊检索等特性。
分布式图数据库StellarDB供应万亿级图数据存储、毫秒级点边查询和10+层深度链路剖析等能力,支持丰富的图算法和图机器学习,创新的动态时序图能力更便捷地挖掘数据变革规律和预测剖析。新推出的StellarDB 5.1实现了向量/全文模糊检索、秒级子图匹配、跨集群数据灾备、RAG增强大模型、GPU算法加速等功能,更稳定、安全、易用。
星环分布式剖析型数据库ArgoDB支持标准SQL语法,供应多模剖析、实时数据处理、联邦打算、隐私打算、数据脱敏等能力,一站式知足OLAP剖析,实时数仓、数据集市、湖仓集一体等场景。
新推出的ArgoDB 6.1 版本以“增量数据实时处理”技能为根本,定义并发布“实时数据加工”的智能高效新范式;结合集群级实时同步与数据海量版本能力,帮忙用户够构建高可靠的实时可信大集群,以数据透明加密、SQL审核/阻断等安全技能手段为辅,共建“快好省”湖仓集一体的领悟数据处理架构。
星环分布式时序数据库Timelyre支持海量时序数据库的存储与处理,具备每秒千万级数据吞吐、5~20倍无损压缩和毫秒级检索能力,支持Python、C++等API,易用的时序剖析框架知足金融智能投研需求。TimeLyre 9.2新增了多模型时序剖析、极速分布式回测平台、投研数据中台、时序数据湖引擎等,助力用户解锁数据深层代价。
星环分布式文件系统TDFS支持10亿级以上的大小文件的存储,并同时支持工具存储,基于Raft保障强同等,支持HDFS平滑迁移,标准POSIX协议支持上层知识等AI场景运用无感对接。
第二,语料加工工具与图谱构建工具,助力企业建立高质量模型及运用。
语料是决定行业大模型质量的关键成分,语料的质量决定了模型的质量,同时高质量语料也是办理行业大模型“幻觉”、“可信可控”等核心落地难点的主要手段。
高质量行业专用语料是企业、机构独特的竞争上风和天然壁垒。星环科技发布了一站式多场景语料平台Transwarp Corpous Sudio(TCS),旨在通过全面的语料生命周期管理,极大提升语料开拓效率,助力企业或机构高质量地构建大模型及其运用。
TCS覆盖了语料获取、洗濯、加工、管理、运用和管理的全生命周期,具有多种灵巧的采集和构建办法,能分布式的高效处理海量语料。
这是一个功能全面、易用高效、安全可靠的语料开拓利器,支持20+主流文档格式、数据化学公式、繁芜语料处理、语料自动标注及筛选、多视角体系化资产编目和数据管理等。它具有三大核心上风:
1)强大的语料知识化能力,能够自动标注知识元素、识别知识类型、推举知识运用,并构建有针对性的场景知识库,简化了知识管理和知识运用的过程。
2)易用的语料运用化能力,支持将语料快速转化为多种运用形态,如自然措辞处理、机器学习等,大大降落了运用语料的门槛,加速了从数据到知识的转化过程。
3)完善的数据安全机制,TCS供应了完善的认证权限管理和加密机制,确保语料数据、模型和运用的安全可信,知足企业对数据保护的严格哀求。
企业知识库的培植,让数据可以用自然措辞办法进行对话和检索。企业可以集中式地管理和利用知识资源,提高运营效率和创新能力。只要企业保有自己的知识库,就可以通过微调得到企业专属大模型,实现大模型随时选、随时换,且企业核心竞争力得到保护。
企业用户利用TKH供应的星环图谱构建工具Transwarp Knowledge Studio for LLM,可将企业内部数据、个人履历数据和公开信息数据转化为知识,让数据平台更加智能化,同时能将AI PC端和云端资源联动,确保数据安全性。个人履历数据的知识转化和不断的模型微调让知识库培植更具个性化。
TKS是一套全流程、端到真个知识图谱构建工具集,涵盖了知识模型定义、多源异构数据接入、观点与物理数据映射、多元化知识的抽取领悟、全自动知识构建、图谱综合查询等功能,能够帮助政务、工业、能源等多领域客户高效构建领域知识体系,并供应智能运用的场景定制化和一站式办理方案。
第三,大模型根本做事Infinity和LLMOps,让大模型快速落地。
在行业大模型发展中,企业面临技能繁芜、数据和算力稀缺、管理本钱高档寻衅,已经意识到必须建立自己的AI根本举动步伐,从而能够自己对模型进行预演习、微调等。
星环科技推出大模型运营平台Transwarp Sophon LLMOps,供应一站式企业级大模型生产及运用全流程开拓工具链,助力企业完成从预演习到微调,到强化学习,到持续模型评估的全生命周期,让每个企业都能构建自己的专属大模型。
一个Sophon LLMOps平台可办理企业在大模型时期语料、模型、运用三类资产的持续积累和加速迭代。
星环科技自主研发的无涯大模型Infinity紧张功能包括智能问答、文档问答、智能写作等,具备自主可控特性,在确保数据安全的同时,通过0-1预演习,可为各行业量身定制自有大模型,供应强大的意图理解、语义召回、数据处理和剖析能力。
基于无涯大模型底座,星环科技微调了三款垂类大模型,包括问答大模型、数据剖析(代码天生)大模型、多模态大模型,以应对内容天生、数据剖析图片及音视频理解及检索等多样的利用场景。
星环无涯大模型Infinity供应了灵巧的支配模式,包括私有化支配(AIPC版、企业版)、公有云做事等,提升了大模型数据剖析能力,在语法精确性、数据库方言、语义精确性等方面有主冲要破,能够精准问答,减少大模型幻觉,并通过多模数据来源来提升回答丰富度,通过构建自有知识库来确保企业数据安全。
六、Data Infra产品与做事持续完善星环科技在推出全新的AI Infra的同时,也在不断完善Data Infra产品与做事。
星环大数据云平台推出TDC 5.0,将原来的多个TDH集群统一纳管,统管多个TDH集群,形成物理上分散、逻辑上统一的企业级一体化大数据平台。
TDC 5.0的上风包括多集群及其根本举动步伐、多数据运用实例统一管理;跨多集群统一调度资源,均衡多个集群资源利用;跨集群共享存储组件,实现NoCopy的跨集群数据共享;隔离和掌握资源配额,快速、灵巧地为不同业务部门供应多租户的PaaS做事。
星环科技推出了分布式交易型数据库KunDB 4.0,提升了高可用能力与Oracle兼容性,支持跨系统多租户支配。
星环大数据开拓工具TDS 4.0,增加了数据实时同步、数据入湖引导、智能化数据资产盘点、数据资产门户、数据做事编排等功能。
星环大数据安全与隐私保护工具软件Transwarp Defensor致力于帮助企业培植以数据为中央的数据安全防护体系,包括理解内部敏感数据分布情形,能够帮助管理者创造潜在风险、监管主要数据的合规合理利用等。Transwarp Defensor 4.5,增加了大模型核心资产识别、数据资产流转链路监控、安全策略智能推举,安全风险预警与应急相应。
星环数据要素流利平台Transwarp Navier通过供应隐私打算环境,使得数据供需双方可以进行安全的数据交易。Transwarp Navier 3.1新增了全链路智能合约确保安全合规、数据流利全链路行为监控与剖析、实时告警与阻断等。
结语:大模型成为企业核心能力,新型AI Infra生态走向繁荣孙元浩谈道,大模型技能已快速融入企业生产经营的方方面面,在企业生产效率提升、业务职能提效和行业运用处景创新中无处不在,不但重构家当,打造企业的核心竞争力,而且成为企业的根本举动步伐和核心能力,助力企业打造新质生产力。
如今顶尖根本模型参数量达到千亿级,基于MoE架构的稀疏大模型更是达到万亿参数,再加上大模型及天生式AI进入广泛落地阶段,急迫须要发展新型AI根本举动步伐来知足对算力资源、高性能打算及存储、数据管理、安全可靠、可阐明性等方面的严苛哀求。
高质量的语料资源、高效率AI根本举动步伐已成为演习和支配大模型的关键。星环科技一系列AI Infra工具及Data Infra产品与做事的推出,为企业和机构供应了更加全面、易用、安全的开拓利器,有助于帮企业高效构建和管理知识库、加速实现大模型落地支配,提升数据处理、代价挖掘和业务决策的效率。