阿里李飞飞:云原生分布式数据库解决企业用户核心诉求

田宁
2020-09-18 14:53

9月18日消息,阿里巴巴集团副总裁、高级研究员、ACM杰出科学家李飞飞(花名飞刀)在云栖大会发表演讲表示,如今数字经济迎来了新的快速发展,企业面临着呈指数级递增的海量存储需求和挑战,业务有更多的热点和突发流量带来的挑战,传统的商业数据库已经难以满足和响应快速变化持续增长的业务诉求。

云原生分布式数据库带来了从资源池化到弹性扩展,再到智能运维,再到离在线一体化的四大特性,很好的解决了企业用户的核心诉求。

《》了解到,李飞飞还在云栖大会上发布阿里云自研的云原生分布式数据库PolarDB-X,以及PolarDB-X两大全新企业级功能:混合负载 HTAP 和 全局二级索引透明分布式。

分布式数据库PolarDB-X专注解决超高并发存储,海量数据存储下的在线事务型数据库的瓶颈问题。

利用PolarDB-X的HTAP智能混合负载技术、数据查询强一致技术、资源链路强隔离技术和在线分析加速技术,PolarDB-X可以使在线交易和在线复杂查询的性能大大提升,效率提升5到10倍以上。

而全局二级索引功能,可以支持多维字段拆分,提供透明分布式拆分能力,满足业务对不同维度查询拆分的诉求。

以下是发言全文:

李飞飞(飞刀):大家好,我是李飞飞,花名飞刀。如今数字经济迎来了新的快速发展。从在线教育到远程办公,直播购物,到传统的政企,各个行业,都成为了数字经济的新亮点。

企业业务全面向数字化、在线化、智能化演进,企业面临着呈指数级递增的海量存储需求和挑战,业务有更多的热点和突发流量带来的挑战,我们的企业又需要降本增效,进行更好的智能的数据决策,传统的商业数据库已经难以满足和响应快速变化持续增长的业务诉求。

云原生分布式数据库带来了四大特性,很好的解决了我们企业用户的核心诉求。从资源池化到弹性扩展,再到智能运维,再到离在线一体化。利用这些核心的特性,我们将数据库全面的进入云原生加分布式的时代。

那究竟什么是云原生分布式数据库呢?下面我们来一探究竟。

云原生数据库基于Shared Everything+shared storage 的存储计算分离架构实现资源池化高效管理,同时兼具弹性高可用水平拓展的特性。什么是分布式呢?就是用Shared Nothing的架构,实现数据水平分片、水平扩展。如果我们将两者完美的结合在一起,那就带来了我们的云原生分布式数据库,将Shared Nothing 和Shared Everything、shared storage 的特性完美的结合在一起,

今天我非常荣幸在这里正式发布我们阿里云自研的云原生分布式数据库PolarDB-X。

PolarDB-X是我们自主研发的基于Shared Nothing + Shared Everything、share storage 架构的云原生分布式数据库,专注解决超高并发存储,海量数据存储下的在线事务型数据库的瓶颈问题。

为了更高效的支持在线业务、高并发交易以及在线复杂查询的诉求,我们今天发布PolarDB-X两大全新企业级功能:混合负载 HTAP 和 全局二级索引透明分布式。

在线数据库既要承载高并发、海量实施交易,又需要支持在线业务部分复杂查询分析需求,传统的分布式数据库需要通过ETL方式将数据异步传输至数据分析平台,在线复杂查询的数据一致性和实时性无法得到严格的保证,数据传输链路运维复杂度高,业务使用成本上升。

我们利用PolarDB-X的HTAP混合负载特性,同时覆盖高并发实时交易和部分在线数据分析处理的场景。实现高并发交易在线复杂查询加速一体化。

利用我们的智能混合负载技术、数据查询强一致技术、资源链路强隔离技术和在线分析加速技术,使得我们的在线交易和在线复杂查询的性能大大提升,效率提升5到10倍以上。

同时为了更高效的支持我们在线业务PolarDB-X今天全新发布了全局二级索引功能,可以支持多维字段拆分,提供透明分布式拆分能力,满足业务对不同维度查询拆分的诉求。

基于分布式事物确保索引数据与主表数据强一致,数据可靠不丢失。

从一个具体的场景出发,我们来看一个实例,全局二级索引能帮我们的客户来做什么呢?我们通过一个典型的电商买卖家场景来展示全局二级索引的能力。

我们知道订单表通常由我们的买家ID进行拆分,也就是Buyer ID,但是当卖家要进行订单查询的时候,数据库就必须要进行扫描全部物理表,导致我们数据库资源负载飙高,整体吞吐能力下降。

通过使用PolarDB-X为卖家ID创建全局二级索引,上面的查询,卖家订单查询,仅仅通过查询我们的全局二级索引来回表进行二次查询,就可以完成整体的SQL操作,实现了透明的分布式数据库,整体处理效率提升百倍。

PolarDB-X连续多年稳定支撑天猫双11活动。在去年2019年的双11,阿里巴巴集团电商核心业务全面采用PolarDB-X,支撑了高达每秒8700万次的TPS 峰值,每秒55万笔的交易订单,完美抵御了全球最猛最高的交易活动。

此外,在很多事关国际民生的社会基础服务背后,也有PolarDB-X的身影。中国邮政在我们国家的物流行业中起着中流砥柱的作用,保障其物流平稳生产的核心信息系统——新一代寄递平台便采用了我们的PolarDB-X,以及我们下面将要介绍的云原生数据仓库AnalyticDB。

中国邮政VCR

PolarDB-X的这些新增特性,很好的解决了分布式云原生条件下在线事务型业务的痛点,在分析领域我们其实也面临着类似的问题和挑战。

传统的自建分析系统不得不面对计算存储扩展、建设成本、计算分析实质化以及多种架构等一系列的挑战和问题。这些问题也困扰我们的企业无法更好的使用数据分析,发挥数据的价值,促进业务的发展。基于我们前面提到的云原生的理念,从弹性功能、成本、性能等角度,我们去解决上述用户的这些痛点。包括存储计算独立、按需付费,按量使用,ETL在线分析一体化、实时的增删改查,实时计算。通过我们的云原生/按需付费,离在线一体化、实时性、实时增删改查。我们的OLAP数据库将全面的进入云原生时代,实现会数据库就会大数据(金句)。

让我们整体看一下我们阿里云数据分析产品的大图。我们的核心产品包括我们的云原生数据仓库,AnalyticDB(ADB)、云原生数据湖分析Data Lake Analytics(DLA)等。通过这些产品的组合,我们很好的满足用户对复杂数据分析场景的各类需求,从下层的多元异构的数据源,比如像RDBMS、对象存储OSS、日志服务、大数据生态等,我们的数据仓库ADB和数据湖DLA都可以提供,多元异构的数据接入能力。

为了让分析计算更简单,更好的满足企业面对突发流量需求,我今天很高兴的在这里和大家一起见证云原生数据仓库AnalyticDB 的重磅升级发布。

我们的ADB MySQL 版本高度兼容MySQL,利用云原生的弹性模式能力,让用户在购买基础资源的基础上,按时间段或资源需要扩展其计算资源或存储资源能力,满足我们用户对差异化工作负载或业务峰值的资源需求。这种云原生的特性推出可以大大降低用户的实际使用和购买成本,避免了用户需要预留大量资源满足业务峰值的这种挑战。

此外,在我们的ADB PG 版本上,我们发布了自研的Laser引擎,新增向量计算引擎,列式内存模型、JIT加速、列式存储优化等手段,较原生引擎大幅提升性能。例如较Greeplum原生引擎我们有一倍以上的性能提升,ADB PG全面兼容Greenplum,同时高度兼容Oracle、Teradata等这种传统数仓。功能丰富,成熟度高,具备离在线一体化的能力,非常适合金融、政企运营商等使用传统Oracle、Teradata这种数仓低门槛升级至云原生数仓,我们这种多款重磅发布的新功能和特性,极大提升了我们云原生数仓的能力。

在2020年上半年,我们参加了国际标准化组织TPC的评测,取得了非常不错的成绩。我们来看一下TPC-H的评测结果,也就是混合负载的基准测试。

我们ADB刷新了TPC-H的30TB性能榜单世界纪录,相比第二名,微软的SQL server 2019性能提升290%以上,性价比低至1.46,成为首个登上榜单的榜首的国内厂商。

下一个我们来看针对复杂分析场景的TPC-DS 10TB的权威基本测试,我们ADB在性能指标上刷新了世界纪录,荣登榜单第一名。在我们的测试过程中,我们充分利用了我们云原生的弹性快速扩容和计算加速的能力,在有限资源下实现了性能性价比双料第一,领先第二名3倍以上。

本次我还非常高兴的带来了重磅升级的云原生数据库分析DLA,利用我们云原生的Serverless技术,我们DLA可以提供例如Serverless这样的能力支持ETL、流、机器学习用户可编程等一系列丰富的企业级功能。

云原生Serverless的架构,有效的降低了企业数据分析和计算的成本,性能较自建的分析系统。例如spark 提升300%以上,可实现一分钟弹出300个节点参与计算中,通过Serverless方式大大降低使用成本。同时辅助UI和诊断工具提供多种异构数据的访问方式,提供多元易购数据湖的易用性。

我们的云原生数据仓库,AnalyticDB和我们的数据湖分析DLA已经在国内多个用户落地,覆盖金融到制造、到零售、再到航空、物流、政务等多个头部企业,包括像中国南方航空,前面提到的中国邮政,海尔、美的,还有像大众点评这样的泛互联网客户。有效的实现了企业降本增效,数据分析离在线一体化的目标。

为了助力企业上云,我们特意设计和推出了两个计划。我们的万仓计划和我们的升舱计划。结合我们的数据中台和我们的合作伙伴一起助力传统企业实现从到云原生数仓的升级。

一切业务在线化是数字化创新,数字化转型的本质,数据库又是数字化创新和数字化转型的重要一环。我们自研的云原生分布式数据库已经深入各行各业,现在已经在全球领先的运营商核心业务系统中试点,具有里程碑式的标杆意义。

下面有请大家和我一起观看一段短片。

中国移动VCR

感谢广东移动对我们数据库产品的高度肯定和信任。

该领域此前一直是传统商业数据库的优势领域的这次的业务落地和试点,充分体现了我们阿里云云原生分布式数据库的产品能力,已经得到了传统行业客户以及泛互联网企业客户的高度认可。我们非常高兴的说,我们已经进入了传统的OLTP在线数库和OLAP在线分析库,全面升级至云原生分布式数据库、云原生分布式数据仓库的时代。

感谢大家的聆听。

1、该内容为作者独立观点,不代表观点或立场,文章为作者本人上传,版权归原作者所有,未经允许不得转载。
2、平台仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。
3、如对本稿件有异议或投诉,请联系:info@dsb.cn
相关阅读
3月24日消息,在阿里瑶池数据库峰会上,阿里巴巴集团副总裁、阿里数据库产品事业部负责人指出,数据库正在快速向“四化”方向演进,在接下来的5-10年,这种演进将进入一个波澜壮阔的新阶段。在看来,四化分别指的是原生化、平台化、一体化以及智能化。“未来只有一种原生数据库,集中式、分布式数据库形式都将过时。”
在2022栖大会上,阿里巴巴集团副总裁、阿里数据库产品事业部负责人发表《一站式、全场景数据管理与服务》主题演讲。
3月24日消息,在今日举办的阿里瑶池数据库峰会上,阿里巴巴集团副总裁、阿里数据库产品事业部负责人在谈及ChatGPT时指,ChatGPT的出现让我们看到了AIGC的可能,未来智能与数据库的结合将变化出无穷潜力。据介绍,阿里已经在Lindorm多模数据库里面提供了多模数据处理能力,这为阿里参与AIGC时代机遇提供了坚实的支撑。“Lindorm将成为新时代的数据基础设施,结合Lindorm的AIGC能力,我们相信阿里已经做好了通往数据智能时代的一切准备。”
6月18日消息,阿里文娱今日宣布组织再升级:任命捷 为阿里影业总裁,负责阿里影业国内业务;任命戴玮为文娱COO,负责文娱平台业务部;阿里巴巴集团副总裁范驰调入阿里文娱,负责OTT和体育业务,不再担任猪酒旅及国内生态业务负责人。三人均向阿里巴巴合伙人、阿里文娱总裁樊路远汇报。据悉,昨日猪也进行了一轮组织架构调整,其中,阿里巴巴集团副总裁、阿里文娱CTO兼优酷COO庄卓然(南天)接任猪总裁。
6月24日消息,阿里巴巴影业集团有限公司今日发布公告,其董事会宣布,自2020年6月24日起,常扬因内部调职已辞任执行董事。同日起,捷委任执行董事及公司执行委员会成员。
阿里巴巴正式成立原生技术委员会(以下简称委员会),阿里巴巴高级研究员蒋江伟担任委员会负责人,达摩院数据库首席科学家、阿里计算平台高级研究员贾扬清、阿里原生应用平台研究员丁宇等多位阿里技术负责人参与其中。
7月16日消息,今日,文旅产业指数实验室联合淘宝发布《物质文化遗产消费趋势报告》。报告显示,遗老字号成交规模连续3年上涨。在过去一年,淘宝遗消费持续快速增长,截至今年6月底,有14个遗产业带年成交过亿,近5000家遗相关店铺加入了阿里巴巴原创保护计划。目前,淘宝上遗类活跃手工艺店铺数量已超过25000家,淘宝遗商品消费者规模达到亿级,85后和90后已成为这类商品的消费主力。
7月27日消息,据一手Video消息,近日有网友爆料称有人在蚂蚁森林林场放牧导致梭梭树被啃食。对此,林场工作人员经确认后透露:视频拍摄地距离蚂蚁森林7公里开外,视频的植物不是梭梭树且相关内容与事实完全不符。据阿里巴巴2020财年公益 “财报”显示,支付宝蚂蚁森林带动公众手机种树超2亿棵。
斑马智选亲橙空间位于阿里巴巴西溪园区亲橙商场,这是智己汽车在杭州的第五家体验中心、也是首家“斑马智选”门店。斑马智选亲橙空间不仅是阿里园区及周边人群进行试乘试驾的新汽车展售中心,同时也可作为新技术体验空间,用户可在此提前体验到量产技术与产品。
1月19日消息,LEED铂金级授牌仪式近日在阿里巴巴西溪园区举行。阿里巴巴西溪园区A区、阿里巴巴数字生态创新园、亲橙住布渴酒店共同获得了LEED城市与社区既有社区最高级铂金级认证。LEED是一个国际公认的绿色建筑认证系统, LEED城市与社区认证主要考察社区的可持续运营、绿色发展理念、应对气候变化危机等多方面的综合能力。
    Baidu
    map