GenSQL,这一数据库天生式 AI 系统,能够帮助用户只需按几下键即可完成预测、非常检测、缺失落值推测、缺点改动或天生合成数据。

例如,若该系统用于剖析一向高血压患者的医疗数据,它能捕捉到对付该特定患者而言偏低但常日处于正惯例模内的血压读数。

(来源:MIT News)

GenSQL 自动集成表格数据集与天生式概率 AI 模型,该模型能够考虑不愿定性,并基于新数据调度其决策过程。

动着手指就能完成复杂的数据分析MIT团队为数据库引入生成式AI

此外,GenSQL 可用于天生并剖析仿照数据库中真实数据的合成数据,这对付不能共享敏感数据(如患者康健记录)或真实数据稀疏的情形特殊有用。

这一新工具建立在 SQL 根本之上,SQL 是一种自 20 世纪 70 年代末推出的数据库创建与操作编程措辞,环球数百万开拓者利用。

“从历史上看,SQL 教会了商业天下打算机可以做什么。
他们不必编写定制程序,只需用高等措辞向数据库提问即可。
我们认为,当我们从纯挚查询数据转向向模型和数据提问时,我们将须要一种类似的措辞来教会人们如何向具有数据概率模型的打算机提出连贯的问题。
”MIT 大脑与认知科学系概率打算项目卖力人、资深作者 Vikash Mansinghka 如是说。

当研究者将 GenSQL 与盛行的人工智能数据剖析方法比较时,创造它不仅速率更快,而且结果更为准确。
尤为主要的是,GenSQL 利用的概率模型是可阐明的,用户可以阅读和编辑这些模型。

论文的紧张作者、来自大脑与认知科学系及概率打算项目的研究员 Mathieu Huot 补充道:“仅利用一些大略的统计规则不雅观察数据并试图探求故意义的模式,可能会遗漏主要的交互浸染。
你真正想要做的是在一个模型中捕获变量之间的干系性和依赖性,这可能相称繁芜。
通过 GenSQL,我们想让大量用户能够在不必理解所有细节的情形下查询他们的数据和模型。

参与该论文的还有 MIT 研究生 Matin Ghavami 和 Alexander Lew、研究员Cameron Freer、Digital Garage 的 Ulrich Schaechtel 和 Zane Shelby、电气工程与打算机科学系教授及打算机科学与人工智能实验室(CSAIL)成员 Martin Rinard,以及卡内基梅隆大学助理教授 Feras Saad。
这项研究最近在 ACM 编程措辞设计与实现会议上公开。

(来源:Proceedings of the ACM on Programming Languages)

结合模型与数据库

SQL(构造化查询措辞)是一种用于存储和操作数据库中信息的编程措辞。
通过SQL,人们可以利用关键词(如汇总、过滤或分组数据库记录)对数据提问。

但查询模型能供应更深入的洞察力,由于模型能捕捉数据对个体的含义。
例如,一位女开拓者若想知道自己的薪酬是否过低,她可能更关心对她个人而言薪酬数据意味着什么,而不是数据库记录中的趋势。

研究者把稳到 SQL 没有供应有效办法来整合概率 AI 模型,而同时,利用概率模型进行推断的方法又不支持繁芜的数据库查询。

他们构建了 GenSQL 来补充这一空缺,使得用户能利用直接而强大的正式编程措辞查询数据集和概率模型。

GenSQL 用户上传他们的数据和概率模型,系统自动集成这些信息。
随后,用户可以运行查询,这些查询同时受到后台运行的概率模型输入。
这不仅许可更繁芜的查询,还能供应更准确的答案。

例如,在 GenSQL 中的一个查询可能是:“西雅图的开拓者熟习 Rust 编程措辞的可能性有多大?”如果仅查看数据库中列之间的干系性,就可能会忽略奇妙的依赖关系。
而整合概率模型能捕捉更繁芜的交互。

此外,GenSQL 采取的概率模型是可审核的,人们可以看到模型用于决策的数据。
此外,这些模型为每个答案供应了校准不愿定性的度量。

例如,借助这种校准不愿定性,如果用户就少数群体(在数据集中代表性不敷)患者的癌症治疗预测结果讯问模型,GenSQL 会奉告用户其不愿定程度,而非过分自傲地推举缺点的治疗方法。

更快且更准确的结果

为了评估 GenSQL,研究者将其系统与盛行的神经网络基线方法进行了比较。
GenSQL 的速率是这些方法的 1.7 至 6.8 倍,在几毫秒内实行了大多数查询,同时供应了更准确的结果。

他们还通过两个案例研究运用了 GenSQL:一个别系识别出临床试验数据的缺点标签,另一个则天生了准确的合成数据,捕获了基因组学中的繁芜关系。

接下来,研究者希望更广泛地运用 GenSQL 来进行大规模的人口建模。
通过 GenSQL,他们可以天生合成数据,以掌握剖析中所用信息的同时,对康健和薪资等事变进行推断。

他们还想通过增加新优化和自动化功能使 GenSQL 更易用、更强大。
长远来看,研究者希望让用户能以自然措辞在 GenSQL 中提问,目标是终极开拓出类似 ChatGPT 的 AI 专家,用户可以就任何数据库与其交谈,其答案依据 GenSQL 查询得出。

该研究部分由美国国防高等研究操持局(DARPA)、谷歌和 Siegel 家族基金会帮助。

原文链接:https://news.mit.edu/2024/mit-researchers-introduce-generative-ai-databases-0708