5月13-17日,国际数据库顶级学术会议 ICDE 2024 于荷兰乌得勒支举行。
华为GaussDB 和GeminiDB 17篇论文入选,成为环球论文入选数量最多的数据库厂商。
华为爱丁堡研究所数据库实验室主任Nikolaos Ntarmos揭橥了题为”Huawei Cloud GaussDB, a Better Way to Database“的演讲,向环球的学术机构和代表先容了华为GaussDB的技能和商业成果。

ICDE全称为”IEEE International Conference on Data Engineering”(IEEE国际数据工程大会),与SIGMOD、VLDB 并称数据库领域三大顶会,是数据库领域最威信的国际顶级学术会议之一,在国际上享有盛誉并具有广泛的学术影响力。

ICDE收录了各大研究机构以及科技企业在数据库领域最前沿、最顶级的研究成果。
ICDE 2024是第40届IEEE国际数据工程大会,华为17篇论文的入选,是华为科研团队与外部团队或组织友好互助共同努力的结果。
下面将摘选华为在本次大会入选的部分论文,后续将对所有入选的论文进行专题解读。

GaussML: An End-to-End In-database Machine Learning System

《GaussML: An End-to-End In-database Machine Learning System》论文是由清华大学、华为和苏黎世理工大学联合共同完成,通过提升数据库内机器学习算法演习和推理的性能,深度知足用户实时性剖析的诉求。
该论文得到大会评审组的高度评价,认为其提出了一个全新的机器学习引擎。

全球厂商之最华为17篇论文入选国际数据库顶会ICDE

原生库内机器学习框架,简称GaussML,将机器学习演习作为实行算子,利用数据库并行和分布式能力,展示出超越业界同类产品10倍以上机器学习推理和演习的性能上风,紧张能力包括:

第一,论文首次提出数据库内原生AI机器学习引擎的架构,机器学习算法演习和推理领悟在SQL实行流程中,借助数据库的优化器、负载管理、并发处理、分布式并行能力,实现机器学习演习和推理的极致高效;

第二,GaussML同时构建库内AutoML能力,可以自适应进行参数调度,根据负载变革进行模型更正,设计一种端到端模型自动调优的能力,简化用户调度模型参数代价,提升数据库内模型的利用便利;

第三,GaussML通过在数据库内置原活气器学习演习和推理流程,实现端到端自动调优能力,构建完全的库内机器学习引擎,支撑客户业务的智能实时剖析。
该框架通过供应SQL-like接口,简化数据科学家利用机器学习演习和推理代价,支持常用的机器学习算法,知足绝大多数客户利用。

综上,论文中提出一种全新的机器学习引擎,在多个公开数据集上该引擎表现出卓越的高性能上风,向数据库智能化发展上迈出了更远一步。

GaussDB-Global: A Geographically Distributed Database System

《GaussDB-Global: A Geographically Distributed Database System》论文是华为高斯数据库技能团队的研究成果。
论文中提出了一种基于高精度时钟同步方法的分布式事务处理方法,并构建了跨地域分布式的环球数据库系统GaussDB-Global。
该论文的紧张实现:

第一,采取同步时钟的去中央化方法,地理分布式数据库系统办理了中央化事务管理器的性能瓶颈问题,实现了中央化的事务管理到去中央化分布式事务管理之间无缝过渡,供应了更加灵巧、便捷的支配办法,实现一套集群环球化支配。

第二,在分片数据的远程读取和长间隔日志传送问题上,地理分布式数据库系统支持在异步副本上读取,强同等性,可调度的新鲜度担保,以及动态负载均衡。
在跨地域集群上的实验结果表明,与中央化基线比较,该方法供应了高达14倍的只读性能,标准数据集TPC-C吞吐量赶过50%以上。

QCFE: An Efficient Feature Engineering for Query Cost Estimation

《QCFE: An Efficient Feature Engineering for Query Cost Estimation》论文是由哈尔滨工业大学和华为团队共同完成,通过提出了一个高效的特色工程方法(QCFE),办理了现有查询语句评估时的特色工程问题,该方法在韶光-准确性效率方面取得显著改进。
论文的紧张贡献包括:

第一,提出了特色快照(Feature Snapshot)的观点,用于整合被忽略变量的影响,如数据库旋钮、硬件等,以提高查询本钱模型的准确性。

第二,设计了差异传播特色减少方法,通过剪枝无效特色,进一步提高模型演习和推断效率。

第三,引入了简化的SQL模板设计,以提高打算特色快照的韶光效率。

第四,在广泛的基准测试中,展示了QCFE相对付现有方法在韶光-准确性效率方面的上风,包括TPC-H、job-light和Sysbench等。

综上,该研究的创新点在于提出了一种有效的特色工程方法,能够显著改进查询本钱估算的韶光和准确性。

TRAP: Tailored Robustness Assessment for Index Advisors via Adversarial Perturbation

《TRAP: Tailored Robustness Assessment for Index Advisors via Adversarial Perturbation》论文是由厦门大学、清华大学和华为共同研究,通过提出一个基于对抗性扰动的事情负载天生框架TRAP,办理了现有的index advisor的鲁棒性评估问题。

TRAP框架能够天生有效的对抗性事情负载,用于评估index advisor的鲁棒性。
在index advisor的评估方面,TRAP具有明显上风。
研究创造:

第一,通过对抗性事情负载的有效天生,可以准确评估index advisor的鲁棒性,由于这些事情负载不会偏离原始事情负载,但可以识别由于事情负载漂移而导致的性能漏洞。

第二,为设计更具鲁棒性的基于学习的index advisor,采取细粒度的状态表示和候选剪枝策略可以提高性能。

第三,对付设计更具鲁棒性的基于启示式的index advisor,考虑索引选择过程中的索引交互浸染和多列索引的利用是至关主要的。

综上,以上创造为index advisor的设计和评估供应了深刻见地,并强调了在实际运用中评估index advisor的主要性。

Temporal-Frequency Masked Autoencoders for Time Series Anomaly Detection

《Temporal-Frequency Masked Autoencoders for Time Series Anomaly Detection》论文的问世,是为了帮助时序数据库通过提前感知非常来降落丢失。
通过设计了一个轻量的基于深度学习的时频掩码自编码器非常检测算法(TFMAE),展示了其在多个公开数据集上的良好性能。
该论文被大会评审组高度评价,认为其提出了时序非常检测的新范式,终极无需修正被 ICDE 2024 直接任命。

作为首篇采取时频掩码比拟的时序非常检测论文,论文研究环绕以下三点进行:

第一,提出了基于韶光域和频率域掩码的韶光序列非常检测比拟准则,其代替传统重修偏差确定非常检测阈值,这是一个不受分布偏移影响的判断准则。

第二,提出了基于窗口的韶光域掩码策略和基于幅度的频率域掩码策略以肃清序列中潜在的非常不雅观察和模式。
因此,TFMAE 是一个抗非常偏置模型。

第三,五个真实天下数据集与两个合成数据集上实验表明,TFMAE 在检测性能与速率方面均取得提升。

综上,《Temporal-Frequency Masked Autoencoders for Time Series Anomaly Detection》是首篇采取时频掩码比拟的时序非常检测论文,对医疗、制造、金融等行业的广泛运用,具有现实推动浸染。

本次大会华为入选论文研究方向涉及AI4DB、时序数据库、查询优化、数据库内机器学习算法演习和推理……如此多的科技成果得益于华为长期在数据库前沿技能领域的探索和实践,以及与环球顶尖学术机构共同办理数据库领域天下难题,通过产、学、研、用深度领悟,将前沿创新研究融入产品技能,构建康健的数据库家当生态,为客户供应创新的、有竞争力的数据库产品和做事。

未来,华为将在数据库领域持续创新,持续深耕,引领行业发展走出新高度。

关注#华为云开拓者同盟# 点击下方,第一韶光理解华为云新鲜技能~

华为云博客_大数据博客_AI博客_云打算博客_开拓者中央-华为云