曹操读书--知行合一,化于无形

将数据库性能提升100倍?大数据时代中一个数据库老兵的创新之路

作者 :猎云网 2021-07-12 17:52:37 审稿人 : admin 围观 : 评论

WechatIMG72_meitu_1DcO曹操读书网

【猎云网北京】7月12日报道DcO曹操读书网

当前构建大数据应用难点是什么?对于这个问题,相信很多资深从业者都会回答:海量数据的高效处理与运维。作为大数据时代数据库行业面临的基础性问题,如何解决它,既是挑战, 也是机遇。DcO曹操读书网

在无数数据库行业的老将新兵中,我们注意到一群力图解决大数据语境下数据库的使用和运维难题的“向导yin”。今天的专访对象---姚延栋,正是这批大数据“向导”中的一个。DcO曹操读书网

作为Greenplum的第三号员工,在过去十年间,姚延栋曾带领团队将Greenplum打造成为世界排名第三的分析型数据库,创下由华人主导的数据库产品最好排名。而在数据库领域从业数十年后,他又选择开启自己的创业之旅,与两位合伙人共同创办了一家名为四维纵横的数据库公司。那么,他为什么在这个时间点选择创业?当传统行业的数字化转型成为大势所趋,数据库领域又发生了什么新故事?今天,我们带着这些问题,同四维纵横创始人姚延栋一起聊聊数据库的过去与未来,挑战与机遇。DcO曹操读书网

行业中存在一种思维惯性

“创业是为了打破行业的惯性。”DcO曹操读书网

“如果把数据库领域比作一个大森林,那么我们就是对地形非常熟悉的原住民。当有人想穿过大森林,却不知该走哪条路的时候,我们就充当“向导”来帮助他们穿过森林。倘若没有我们,那他们可能会按照自己的惯性去走。”DcO曹操读书网

姚延栋在Greenplum效力的十年期间,最初主要从外围模块入手打造产品,后来逐步向核心迈进,打磨内核模块,直到团队驾驭整个数据库内核,他坦言这与农村包围城市的过程十分类似。在此期间,他发现了行业中存在着一种惯性思维,而创业的目的就是为了打破这种惯性。DcO曹操读书网

那么,这个惯性到底指的是什么?DcO曹操读书网

以时序场景为例,现在业内普遍流行使用专用的时序数据库,典型的代表产品有InfluxDB、OpenTSDB 等,而与此同时,几乎所有场景都需要关系型数据库。这样一来,大家就不得不引入多个数据库产品,使得技术栈以及监控运维变得十分复杂。DcO曹操读书网

虽然专用时序数据库在一定程度上满足了业务对于时序处理的需求,但也存在诸多问题,其中性能低、扩展性差的问题尤为显著。过去时序数据库大多是为数据中心的服务器监控、埋点数据处理等简单场景设计的,所以,其无法为物联网等场景下的大量数据源和大量指标提供支持。除此之外,开发效率低、需要MPP数据库或者大数据产品配合以及数据孤岛化等方面,都是摆在从业者面前的难题。DcO曹操读书网

应运而生的超融合时空数据库

“我一直把数据库的技术演进和生物界的进化类比去看。”DcO曹操读书网

从上世纪60年代诞生起,数据库技术就一直在不断地演进、迭代,其背后主要是两股力量在推动:一股力量是性能问题,另一股力量是效率问题。DcO曹操读书网

上世纪七八十年代,关系型数据库开始独步天下,从业者主要是基于关系型数据库来高效存储和处理应用开发中用到的数据;到了2000年左右,数据规模大幅增长,而大数据处理技术尚未展露雏形,整个社会对于浩瀚信息的处理仍处于比较迷茫的阶段,以至于技术的迭代速度赶不上数据增长的速度。自此,大数据处理的性能问题开始显现,数据库领域随之出现了时序数据库、KV数据库、文档数据库等专用数据库,以期解决性能从0到1的问题。但由于应用要与多个数据库沟通,从多个数据库读取数据到应用程序内存中再进行关联、聚集和合并等计算,很多数据处理逻辑被迫只能放在应用中,开发和运维效率就不可避免地大打折扣。DcO曹操读书网

如此一来,为了解决效率问题,行业中又出现了Presto等类型的产品,即在专用的数据库上封装一个查询引擎,试图把数据处理逻辑从应用处理逻辑中剥离出来。这种方式虽然在一定程度上解决了开发效率问题,但性能仍是短板,且并未从根本上解决技术栈复杂的问题。DcO曹操读书网

我们可以看到,在进化了近50年后,现有的数据库技术已经不能满足从业者的需求 --- 他们需要更加简单易用、省心省力的数据库。在这样的背景下,为了能给用户提供简单易用的接口,真正实现数据平民化,姚延栋和他的团队将关系数据库、时序数据库和分析数据库融合在同一个数据库产品中,打造了全球唯一一款PB级超融合时空数据库--MatrixDB。DcO曹操读书网

超融合时空数据库解决了什么问题?

目前,超融合数据库主要应用在两大场景:第一,时序、时空场景,通常是物联网、工业互联网、车联网和智慧城市等领域;第二,实时数据分析场景。DcO曹操读书网

谈到时序、时空场景,姚延栋分享了一个海量设备、大量存储的典型物联网场景。“以一家做光纤和5G通讯设备的国际制造商为例,这家制造商大概有1000万设备,每台设备每次都会采集300个指标数据,每次共计需要采集30亿指标。”基于这种情况下,MatrixDB实现了超大规模数据的实时加载特性,在保证低延迟和高并发加载的同时,也减轻了系统资源消耗,充分将快速采集、高效存储的特性显示了出来,使得海量数据的存储问题以及秒级采集的频率要求都能得到完美的解决。DcO曹操读书网

在实时分析的特性方面,姚延栋又给出了另一个案例:在一个实时数据分析的业务中,MatrixDB可以实现对IT运营域和OT生产域的数据收集,通过ETL/CDC和物联网协议插入数据以后,便能将两张网的数据整合在一起,使得公司的全部数据一目了然地展现。当企业再基于这些数据进行分析时,就能得到更加精准且全面的结论。DcO曹操读书网

DcO曹操读书网

我们还注意到了MatrixDB的另一个重要特性——模块化和可插拔。专用时序数据库通常包含存储器和简单的执行器,没有优化器和并发控制等关系数据库经典组件。从本质上来看,它是把存储器“做成”了数据库,以此来解决一个特定的问题。而超融合时空数据库则是把存储器“做进”数据库,通过把各个核心功能做到模块化、可插拔,在一个关系数据库内部同时实现多种存储引擎,以及跨存储表关联和ACID。比如,有200张表,其中190张是关系型数据,这部分可以使用关系引擎存储;剩余10张是时序数据,就可以使用时序引擎存储,且它们可以相互关联。DcO曹操读书网

与传统的关系数据库+专用时序数据库相结合的架构相比,通过支持多种存储引擎,超融合时空数据库可以让性能快10-100倍,同时大幅降低成本,提升开发运维效率。DcO曹操读书网

DcO曹操读书网

DcO曹操读书网

令人惊喜的是,除了快速采集、高效存储、实时分析以及模块化和可插拔特性以外,我们注意到MatrixDB作为一款数据库产品,还提供了机器学习的能力。随着人工智能技术的飞速发展,In-Database Machine Learning成为一个值得关注的方向,将机器学习的算法内置到数据库将逐渐成为主流。一方面,借助分布式数据库的并行计算能力,可以使计算速度超越单机;另一方面,由于单机上的内存有限,在数据量很大的情况下,只能抽样进行训练,模型精度就会变差。通过In-Database Machine Learning模式,就能实现在全量数据上训练,模型精度也将得到进一步提高。DcO曹操读书网

“过去从业者需要自己写程序才能实现机器学习。”这是姚延栋提到的一个现象,并表示这其中的技术门槛比较高。“目前,MatrixDB数据库通过直接提供SQL接口,大大降低了机器学习的门槛,能够在一定程度上缓解人才稀缺的问题”。DcO曹操读书网

下一步怎么走?

DcO曹操读书网

“未来我们会继续在性能和效率两个维度持续发力,并沿着更智能的方向去发展。”落实到具体的业务层面,姚延栋表示会在提升易用性、构建生态两个方面重点发力。DcO曹操读书网

众所周知,数据库运维对于从业者来说是一个很大的挑战,也因此衍生出了数据库运维这个行业。尤其在分布式数据库环境中,其节点数量多以及需求多样化的特点,使得运维的难度更是大幅增加。姚延栋表示:“今后,我们将继续致力于降低数据库的使用门槛,使数据库有能力提供自动的性能调优、健康检查等功能。”DcO曹操读书网

在构建生态的方面,他也给出了更高层面的考虑。数据库是基础软件,没有人能够只使用数据库就解决业务问题,其必须与很多周边产品搭配,才能发挥真正的价值。因此,对于数据库产品来说,生态的重要性不言而喻。“如果没有生态,我们相当于把复杂度问题扔给了用户,联合行业内上下游共建生态是我们接下来的方向”。DcO曹操读书网

"数据库能定义未来记忆。"由于MatrixDB数据库更多应用于物联网、车联网、工业互联网和智慧生活等场景,姚延栋也谈到了他对于万物互联时代中数据库的理解,万物互联的目的是为了更智能化,而智能的前提是基于记忆,但事物本身是没有记忆能力的,如风力发电机、智能手环等等。“未来我们希望通过超融合时空数据库,赋予一些没有记忆能力的设备以记忆,为智能衍生出更多的可能性。”DcO曹操读书网

万物互联时代的智能化到底会是什么样?这个问题还未有定论,仍然需要等待技术随着时代不断演进,不断进化才能得到答案。但可以肯定的是,在这之前先建立起事物的记忆能力,能够为不远的智能化时代奠定基础。DcO曹操读书网

谈及数据库和四维纵横的未来,姚延栋希望能够让数据处理简单到像用电、用气、用水一样,把MatrixDB数据库打造成一个真正的一站式数据处理平台,让从业者在进行数据处理时,不再需要关心底层的数据存储以及计算的复杂性。这是四维纵横正在探索的方向,也是行业共同努力的终极目标。DcO曹操读书网

核心关键字: 大数据

相关文章

  • 2021世界人工智能大会数据要素论坛顺利召开
    2021世界人工智能大会数据要素论坛顺利召开

    2021年7月10日,由世界人工智能大会组委会办公室主办,上海数据交易中心和大数据流通与交易技术国家工程实验室联合承办的2021世界人工智能大会数据要素论坛在世博中心隆重举行。上海市经济和信息化委员会副主任张英为本次论坛致辞,上海市人大财政经济委员会主任委员戴柳出席峰会并作主旨演讲。会上成立了全国数据交易联盟、数据要素智能合约创新联合体,启动了2021年SODA开放数据创新应用大赛,并发布了202...

    2021-07-12 15:52:43
  • 做数据分析的Tableau ,为什么一定要拥抱Salesforce?|钛度专访
    做数据分析的Tableau ,为什么一定要拥抱Salesforce?|钛度专访

    图片来源@网络2年前,商业智能与分析平台Tableau被CRM巨头Salesforce以157亿美元的价格收购。彼时,各类消息的焦点都聚焦到了这项收购本身,以及收购之后Salesforce与微软的竞争。但对于被收购方Tableau的影响,却鲜有提及。2年后的今天,Tableau逐渐加快推进数据分析民主化的进程,先后推出商业科学与拓展增强分析等功能,以期降低高级数据分析的门槛。借此机会,钛媒体App...

    2021-07-09 21:55:05
  • 人工智能解锁大数据价值 ,施耐德电气以AI赋能业务|WAIC 2021
    人工智能解锁大数据价值 ,施耐德电气以AI赋能业务|WAIC 2021

    在“双碳”目标的驱动下,各行各业正纷纷探索节能减排与绿色发展的双赢路径,人工智能和5G等创新技术,有望助力各行各业进一步发掘减排潜力,提高整体效率。作为全球数字化转型专家,施耐德电气不断推动人工智能、5G、工业物联网等领先技术的应用落地,助力同步实现高效与可持续,促进碳中和进程。在2021世界人工智能大会(WAIC2021)上,施耐德电气展示了以人工智能为代表的创新技术在工业和能源管理领域的最新研...

    2021-07-09 21:00:52
  • 欧科云链链上大师重磅上线 打造一体化的数据解决方案
    欧科云链链上大师重磅上线 打造一体化的数据解决方案

    中国网科技7月9日讯(记者李冰岩)7月8日,2021世界人工智能大会全体会议“科学前沿”在上海如约而至。此届世界人工智能大会聚焦以工业智能促进经济数字化转型,以AI技术为着力点促进行业生态数字化转型,探讨如何提升AI技术“数据驱动”能力,推动“智慧互联”、推进“产业融合”、打造“开放生态”等热点话题。在大数据与人工智能技术蓬勃发展的背景下,数据智能正与各行业产生着深度的融合。当前,“数据”已成为最...

    2021-07-09 13:55:38
  • 隐私计算:如何解决数据隐私之痛?
    隐私计算:如何解决数据隐私之痛?

    图片来源@视觉中国文|云岫资本,作者|吴晓婷、关若琳数据是数字经济时代的核心生产要素,但数据在自由流通或共享中才能产生更大价值。然而,隐私泄露事件层出不穷,出于数据归属、安全、隐私保护的顾虑,数据价值链不同环节之间流动受阻,分工协作脆弱,很难形成有效闭环。为使得数据交换具有安全保障,各方都在加大对数据在隐私保护下的挖掘和开发力度。在此背景下,隐私计算的提出以及快速发展,使其在消除“数据孤岛”、合规...

    2021-07-09 11:50:07
  • 华为与上海交大联合发布 “数据密集型超算示范中心”
    华为与上海交大联合发布 “数据密集型超算示范中心”

    在2021世界人工智能大会(WAIC2021)上,华为公司与上海交通大学联合发布了“数据密集型超算示范中心”。这是双方继4月份联合成立“高性能计算&存储技术联合创新中心”以来的又一重磅合作。上海交通大学党委常委、副校长奚立峰,上海交通大学网络信息中心副主任林新华,华为数据存储与机器视觉产品线总裁周跃峰博士等嘉宾出席并见证。携手建设数据密集型超算示范中心,引领超算产业升级随着超算产业与行业场景、新兴...

    2021-07-09 08:50:58
  • 打造“链上Bloomberg” 欧科云链链上大师用数据引领区块链出圈
    打造“链上Bloomberg” 欧科云链链上大师用数据引领区块链出圈

    2021年,欧科云链集团上新步履不停,即推出链上天眼Pro后,近期又推出了国内首款全景式链上数据分析工具——链上大师(ChainHub)基于OKLink九大公链浏览器,链上大师提供10000+数据指标、四大专题数据,并以周、月、年为单位输出专业研报,具备专业API接口,为用户提供一体化的数据解决方案。链上大师上线后,集合OKLink区块链浏览器和安全工具链上天眼Pro,欧科云链也成为业内首个覆盖行...

    2021-07-08 15:56:50
  • 专家解读智能语音发展:数据和算法仍存瓶颈,2B应用潜力更大
    专家解读智能语音发展:数据和算法仍存瓶颈,2B应用潜力更大

    【猎云网北京】7月7日报道7月6日下午,搜狐科技主办的《中国创新公司100》沙龙第二期成功举办。清华大学人工智能研究院听觉智能研究中心主任郑方教授、声智科技联合创始人&首席知识官常乐、科大讯飞AI研究院副院长陈志刚,共同探讨了智能语音技术的发展趋势,并分享了对智能语音商业化的思考。《中国创新公司100》是搜狐科技今年重磅打造的一档栏目,主要聚焦5G、AI、芯片、制造、出行、零售、社交等领域内的技术...

    2021-07-07 22:57:15
  • 为什么我们要防止大数据泄露?
    为什么我们要防止大数据泄露?

    作者:牲产队长来源公众号:牲产队马云说过:“在未来,大数据比石油更重要。”显然,在对大数据的认知上,资本要早于政府。在对大数据的运用上,资本的觉醒也要早于政府。因为大型互联网企业才是大数据的一线收集者和最先开发者。可是,当大数据被其他国家所窃取时,它所带来的威胁也将远远大于任何一家企业。大数据不仅是企业谋利的工具,如果被某些霸权政府所利用,也将对他国网络安全形成重大威胁。在6月30日,微软公司副总裁波特在美国众议院司法委员听证会上就提到,美国执法部门在过去5年里,每年向微软签发2400-3500份保密令,...

    2021-07-07 06:48:59
  • 中办、国办:加强中概股监管,完善数据安全、跨境数据流动等法律法规
    中办、国办:加强中概股监管,完善数据安全、跨境数据流动等法律法规

    创头条7月6日消息  近日,中共中央办公厅、国务院办公厅印发了《关于依法从严打击证券违法活动的意见》。《意见》提出,将进一步加强跨境监管执法司法协作,完善数据安全、跨境数据流动、涉密信息管理等相关法律法规。抓紧修订关于加强在境外发行证券与上市相关保密和档案管理工作的规定,压实境外上市公司信息安全主体责任。同时,加强跨境信息提供机制与流程的规范管理,加强中概股监管,切实采取措施做好中概股公司风险及突...

    2021-07-06 22:56:23
留言与评论(共有 0 条评论)
   
验证码: