AI OceanBase 的含金量还在上升 注入新活力 (aiocean是什么)

AI OceanBase 的含金量还在上升 注入新活力 (aiocean是什么)

AI 应用的崛起,推动了数据处理方式的变革

2023 年被广泛认为是大语言模型的元年,这一年我们见证了人工智能技术前所未有的飞跃。而步入 2024 年,围绕大语言模型诞生出来的 AI 原生应用如雨后春笋般涌现。越来越多的 AI 应用已经不再局限于纯文本生成和回答,而是逐渐向多模态应用程序演进。

以典型的多模混合查询为例,消费者在 AI 应用中搜索“推荐距离 500 米以内,人均消费 24 元以下,评价 4.5 分以上,不用排队的奶茶店”时,数据库要同时处理 GIS 数据(距离)、关系型数据(价格、评分)、向量数据(不排队)等不同类型的数据。这就意味着,传统的数据处理方式已经很难满足新 AI 应用带来的复杂需求。

意大利 PXR 研究机构数据统计,全球范围内创建、捕获、复制和消费的数据 / 信息量从 2010 年的 2ZB 增长到 2020 年的 64.2ZB。预计到 2025 年,全球数据总量将超过 181ZB。

这些数据中,既包含动态、实时的数据流,也涵盖静态、历史的数据存储;既有结构化的数据库记录,也有非结构化的语音、图像和视频。如此海量、复杂的数据给数据库提出了新要求:

在 AI 技术的推动下,单一、结构化、静态数据架构的时代已经一去不复返,数据库架构的变革正在呼之欲出。那么落实到技术上,到底什么样的数据库才能应对以上种种挑战,能承接住 AI 应用井喷后带来的海量数据处理需求?

AI 时代,我们需要什么样的数据库?

刚刚,OceanBase 提出了自己的解法。

在 10 月 23 日举办的 2024 OceanBase 年度发布会上,OceanBase 推出了 OceanBase 4.3.3 版本, 增加了全新的向量检索与索引功能,实现了 SQL+AI 一体化 。该版本深度融合 AI 与数据库处理能力,支持多模态数据融合查询,帮助企业简化 AI 技术栈,提升 AI 应用构建效率。

也就是说,OceanBase 希望用一个数据库满足客户 80% 的数据库场景需求,将所有的复杂性工作交给数据库,将简单留给客户。

作为首个面向实时分析的 GA 版本,OceanBase 4.3.3 在多个关键能力上取得了显著突破,其重要创新与对 AI 场景的支持主要体现在以下几个方面:

全新的列存副本形态:为了更好地支持 HTAP 混合负载场景,OceanBase 4.3.3 引入了列存副本的新形态,满足 TP 和 AP 负载资源物理强隔离的需求。在混合场景中,事务处理和分析处理通常会对系统资源产生不同的需求,而这种物理隔离的副本机制确保了系统在处理事务型负载的同时,不会受到分析型负载的干扰。尤其对于实时数据分析和决策,这种隔离机制能够确保系统的高性能和稳定性。

总的来说,OceanBase 4.3.3 通过对向量支持、实时 AP 及混合负载、复杂查询优化、外部数据集成及系统可靠性的全面提升,为 AI 时代的企业数据处理提供了更高效、灵活和稳定的技术支撑。

发布会上,OceanBase 与蚂蚁集团联合开发的向量库在业内标准的 ANN Benchmarks 基准测试中,针对 GIST-960 数据集表现出色。测试结果显示,该向量库在 ANN Benmarks 测试中性能远超其他算法,排名第一。特别是在 90% 以上的召回率区间,查询性能(QPS)相比此前最优算法 glass 提升 100%,相比基线算法 hnswlib 提升 300%。

CEO 杨冰表示,伴随着互联网 / 移动互联网时代向 AI 时代演进,数据库也正从分向合统一,一体化数据库将成为 AI 时代的数据底座。

那么,该如何理解所谓的一体化数据库?OceanBase 又为何会在这样的时间点上提出一体化数据库的概念?

据杨冰介绍,一体化数据库是一种能够处理多种工作负载、数据类型及场景的数据库系统,旨在通过一个数据库满足企业各种复杂的数据需求,简化技术栈,提升效率并应对日益复杂的数据需求。这种数据库通常具备事务处理(TP)和分析处理(AP)能力,支持多模数据处理(如 JSON、XML、GIS、文档等),并兼容多种主流数据库协议(如 MySQL 和 Oracle),让用户能够在一个数据库上满足多样化的数据处理需求。

OceanBase 的一体化数据库的概念并非一蹴而就,而是伴随着 OceanBase 的整个生命周期,逐步演化、成熟。这种一体化能力并非凭空设计,而是深深植根于客户场景和需求之中,是市场实践的结晶。在这一过程中,OceanBase 经历了两次大的技术迭代。

第一次是 OceanBase 1.0,真正实现了原生分布式架构的可读可写。第二次是 OceanBase 4.0,提出并实现了单机分布式一体化架构,用一个系统满足一个用户从小到大、全生命周期的数据存储与管理需求。

基于分布式和单机分布式的一体化架构,OceanBase 不断丰富数据库功能。包括打造一体化 SQL 引擎,全面兼容 MySQL 和 Oracle;增强对实时 AP 的支持,实现 TP+AP 一体化;打造 SQL+NoSQL 能力,增强对多数据类型的支持。

而随着 AI 技术不断深入应用,OceanBase 进一步实现 SQL+AI 的能力,支持向量检索,并能处理向量与其他数据类型的混合查询,如 GIS、关系型数据、向量数据、文档等。通过向量融合查询能力,帮助企业更轻松地将 AI 能力与数据库系统集成,简化 AI 应用技术栈,为复杂的 AI 应用提供强有力的支持。

想象一下,如果某家公司需要处理各种各样的数据任务,既要管理日常的财务记录,又要进行大数据分析来预测市场趋势,还要存储和查询各种格式的信息,如地图数据、文档报告等。以往,他们可能需要用到几种不同的数据库系统来完成这些任务,每个系统都有自己的一套规矩和工具,这不仅麻烦,而且效率不高。

而类似于一体化数据库这样的产品出现后,它就像一个超级智能助手,它能一口气搞定所有事情。这个助手不仅精通处理日常交易(TP),比如快速准确地记录每一笔收支;还擅长做数据分析(AP),比如帮公司算出哪个产品最畅销,未来市场可能会怎么变化。更重要的是,它在处理结构和非结构化数据上也游刃有余,无论是简单的文字记录、复杂的地图信息,还是各种文档报告,它都能轻松应对。

这样一来,无论是财务部门想要精确记录每一笔账目,还是市场部门想要分析大数据预测未来,或者是研发团队需要存储和查询各种格式的研发文档,都可以在同一个数据库系统上完成,大大简化了工作流程,提高了效率。这就是一体化数据库的魔力所在。

面向未来,一体化数据库大有可为

一体化数据库的出现,弥补了传统独立式数据库在处理结构化、半结构化和非结构化数据时存在的诸多局限,比如技术栈的复杂性、数据库系统运维的困难性、数据处理效率和准确性低等问题。

AI 时代,一体化数据库在多工作负载处理、多模数据处理以及向量(SQL+AI)融合等方面展现出了显著的优势。

事实上,不只是 OceanBase 在加快向一体化数据库演进的速度,放眼国际,不少全球头部数据库厂商也在积极推进向一体化数据库的演进。

Snowflake 是作为新生代的云原生数仓的主动者之一,目前已经实现了基于多个公有云架构的云上数仓服务。作为一家从数仓起家的公司,Snowflake 近年来却一直忙于拥抱数据湖,实现数据湖、数据仓库一体化,并且通过并购和与行业巨头合作的方式加速向 AI 靠拢。自 2022 年以来,Snowflake 开始布局“数据 +AI”模式,共先后并购六家相关公司并且已经与微软和英伟达等公司展开合作。

作为 NoSQL 数据库的佼佼者,MongoDB 也一直推进其一体化数据库的进程,而 MongoDB 走的路线是为开发者提供多模数据库平台。MongoDB 的 Atlas 平台不仅支持文档、键值、图和搜索等多种数据模型,还通过自动化的扩展能力和多云部署,极大地简化了企业复杂的数据架构管理。这种灵活性使得 MongoDB 在应对多样化数据需求时游刃有余。同时,MongoDB 在 SQL 与非关系型数据(如 JSON)的融合上持续优化,进一步拓宽了其应用场景。然而,MongoDB 也面临着提升混合负载处理能力的挑战,特别是在事务处理(TP)与分析处理(AP)之间的平衡上,这对其底层架构的创新提出了更高要求。

全球单机数据库领导者 Oracle 也越来越注重 AI、ML 和多模处理能力的融合。Oracle 的 Autonomous>

此外,Amazon Redshift、Google BigQuery 等云数据仓库也在不断优化其一体化数据库的功能和性能,以满足用户对高效、灵活数据处理的需求。

由此可见,SQL+AI 正被越来越多数据库厂商视为重要技术演进方向,但在此过程中他们也面临着共同的挑战和难题。

具体而言,HTAP 性能优化、多模数据处理的深度融合以及 AI 与数据库的深度集成是当前一体化数据库发展面临的主要挑战。如何在混合负载下实现更加高效的资源隔离和优化 AP 与 TP 之间的调度,是提升 HTAP 性能的关键。

同时,随着数据类型的多样化和复杂化,如何进一步优化多模数据的处理性能,特别是在高并发场景下的查询性能,也是当前需要解决的问题之一。而且随着 AI 技术的快速发展,如何在一体化数据库中高效地支持 AI 模型的训练和推理,特别是在 AI 数据预处理和向量检索方面,需要进一步的架构调整与创新。

基于以上,我们有理由相信,一个由“SQL+AI”引领的一体化数据库新时代正在走来。在这个时代里,数据库将不再是简单的数据存储工具,而是成为推动业务创新与发展的重要引擎。

声明:本文来自用户分享和网络收集,仅供学习与参考,测试请备份。