OceanBase十四年:艰难起步、根自研和一体化思路 oceanbase技术闲谈 ocean base入门教程
admin
2024-03-23 22:59:53
0

作者|金旺

2024年对于OceanBase来说是尤为关键的一年。

一方面,这一年,蚂蚁集团官宣OceanBase正式独立运营;

更重要的是,不少头部企业核心业务开始正式转向OceanBase分布式数据库,一些企业甚至明确提出了要“All in OceanBase”。

OceanBase CEO杨冰称,“分布式数据库如今已经开始成为现代数据库的标准架构,与此同时,一体化数据库也逐渐成熟、走向商用。”

2024年,在这两大主流趋势推动下,OceanBase有了更大的作战空间。

当然,他们也有了新的思考和目标。

数据库的艰难十年

2014年11月,在AWS re:Invent大会上,亚马逊官宣发布了Amazon Aurora,Aurora的发布,拉开了自研数据库的帷幕。

当时中国数据库商用市场仍处于初期阶段,虽然Oracle在1989年就已经进入中国市场,并带动了铁路、金融、运营商等大型国央企的信息化升级,但由于高昂的售价和运维费用,每年这些企业都需要巨额费用支出,自研数据库在这时的中国呼之欲出。

2010年,44岁的阳振坤加入阿里,带队开启了阿里的数据库自研之路,更准确的说法是,阳振坤这一年在阿里内部开启了分布式数据库OceanBase的自研之路。


这一年,关系型数据库仍是主流,但行业中已经有了NoSQL有可能取代关系型数据库的热议,而分布式数据库还只是一个不被看好的小众路线。

杨冰回忆称,“十几年前,由于分布式数据库的技术还很不成熟,就连如何用中间件做分库、分表都还是一件很复杂的事,因而算是一条很小众的技术路线。”

不过,这还不是阿里自研数据库之初遇到最大的难题,他们当时遇到最大的难题其实是人才短缺。

当时虽然一些IT技术人员已经开始使用数据库,但由于这项技术复杂度高,在国内起步较晚,真要做数据库自研,很难招到优秀的数据库人才。

这也是OceanBase后来每年召开开发者大会,在开发者社群上不断投入,甚至直接与高校合作,联合高校培养人才的原因之一。


当然,这些都是后话,在阿里决定自研数据库时,摆在他们面前的第一个问题是——选择开源路线,还是纯自研路线?

选择开源路线的话,相当于站在了巨人的肩膀上,不用经历从0到1的冷板凳和痛苦闭关,但问题在于,当时国内企业在实际应用场景中,遇到的很多问题通过开源数据库已经无法从根本上得到解决。

例如,随着企业对于海量数据、高速写入的需求越来越大,LSM-Tree数据结构刚好适合这样的需求。

然而,在传统的数据库架构中,基于LSM-Tree构建索引、进行数据查询这样最基本的需求并不友好。


选择纯自研路线,可以从底层架构上打破传统规则,可以设计一个全新的、更适合应用需求的架构,这样自然也更容易解决数据库行业当时看似冲突的业务需求。

但这样从无到有根技术的突破,是一个痛苦而又煎熬的过程。

当时的OceanBase团队在二者之间,最终还是选择了纯自研这条“不归路”。

就是这样一条纯自研、当时看起来又很小众的技术路线,OceanBase坚持了10年。

杨冰说,“目前,OceanBase已经做到了100%根自研。”


“从第一行代码写起,我们知道每一行代码是如何实现的,网络存储CPU是如何调度的,所以我们结合各个专有云、公有云场景做了大量的技术尝试和自研创新。”

2014年,原生分布式数据库OceanBase取代了原本的集中式数据库,支撑起了支付宝核心交易系统,并开始承担“双十一”10%的交易流量;

2016年,OceanBase 1.0版本正式发布,这一年“双十一”期间支付宝所有支付数据链和交易数据链全部运行在了OceanBase上,在阿里内部率先实现了核心业务替代;

2021年,OceanBase发布HTAP混合引擎,并正式对外开源,客户数量超过400家,开始真正成为通用型企业级分布式数据库。

“All in OceanBase”

当杨冰在2024年站到OceanBase数据库城市行|粤港澳的讲台上时,分布式数据库已经不再是十年前那个小众的技术路线,真正成了数据库领域一条主流技术路线。

来自IDC的统计数据显示,到2022年,中国分布式事务数据库在关系型数据库中的占比已经提升到了16.2%。

此外,据IDC预测,到2027年,中国分布式事务数据库总体市场年复合增长率将达到28.5%,其中在公有云上增长率将达到32.8%。

这样的增长速度,已经超过了公有云本身的增速。


而杨冰在和一些机构分析师交流中也获悉,以现有的增速来看,到2025年,国内使用分布式数据库的企业和场景占比预计将会突破50%。

今天,用不用分布式数据库已经不再是一个问题,作为国内最具代表性的分布式数据库,OceanBase如今也已经有了超千家客户,诸如中国移动、交通银行、理想汽车等一些头部企业经过测试和准备,核心业务正在转向OceanBase分布式数据库。

交通银行贷记卡系统的分布式改造,是其向全面分布式转型的关键一步,其中就包括在底层使用OceanBase。

通过使用OceanBase,大大提升交通银行数据处理效率和系统可用性,金融TPS(每秒处理事务数)提升6倍、跑批效率提升超过7倍。

据杨冰在大会上公布的数据显示,如今的OceanBase已经服务了中国70%头部银行、75%头部证券、45%头部基金,以及20%省移动运营商和25%省人社部门。

在这个过程中,分布式数据库逐渐成为现代数据库的标准配置,越来越多企业开始选择分布式数据库,开始“All in OceanBase”。

“一体化”新趋势

2023年11月16日,在OceanBase2023年度发布会上,OceanBase 4.2.1 LTS正式发布。

OceanBase 4.2.1 LTS独特之处在于,这是OceanBase首个长期支持的一体化数据库版本。


什么是分布式一体化数据库?

在传统概念中,与分布式架构相对应的是集中式架构,然而,企业往往是线性发展路线,在不同阶段,对两类数据库可能存在着不同的需求,这就意味着,对于数据库供应商而言,难以从工程和产品设计上将两类产品完全切分开来。

“分布式和集中式本身不是对立的,”这是杨冰和OceanBase团队这几年做数据库产品研发和工程实践的切身体会。

这也就有了OceanBase将分布式和单机数据库融合在一起的设计思路来源。

vivo是受益于这类数据库产品的企业之一,vivo体系与流程部IT部DBA组总监鄢楠指出,“vivo现在内部业务系统已经从十几个数据库实例发展到了数千个,其中既有使用商业数据库的业务系统,也有使用开源数据库的业务系统,基于降本增效考虑,在2023年开始基于OceanBase自建数据库。”


在这一过程中,vivo使用的正是OceanBase 4.2.1版本,也就是OceanBase的单机分布式一体化产品。

基于这一版本,在半年时间里,OceanBase已经在vivo内部15个生产业务系统上线应用,在vivo原有的MySQL分库分表架构替换为OceanBase后,总资源占用节省了80%,极大地降低了vivo团队的运维成本。

一体化是杨冰笃定的数据库技术趋势,也是贯穿OceanBase过往十四年研发历路中始终如一的方向。

在过往十四年里,OceanBase团队已经基于自家数据库实现了工程一体化、TP/AP一体化、云上云下一体化、单机分布式一体化,这四个“一体化”打造出的数据库,也是杨冰认为接下来新一代数据库该有的样子。

就在前不久,蚂蚁集团官宣,旗下蚂蚁国际、OceanBase和蚂蚁数科已成立董事会,开始独立面向市场。

与此同时,OceanBase在3月20日的大会上官宣升级2022年发布的珊瑚计划,提高专有云伙伴签约占比至70%,伙伴独立交付占比提高到30%。

OceanBase分布式数据库规模化商用落地节奏由此也得以再次加快。

作为自2020年开始独立商业化的技术团队,2024年,当OceanBase正式独立运营、加快进入市场时,一个数据库行业新周期也悄然拉开帷幕。

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...