本期嘉宾
简丽荣 酷克数据联合创始人兼CEO
简丽荣,北京酷克数据科技有限公司联合创始人兼CEO。2008年毕业于清华大学计算机系本科,2010年获得香港科技大学硕士学位,毕业后曾先后在IBM中国研究院、雅虎北京研发中心和Pivotal中国研发中心从事分布式计算相关研发工作。简丽荣是开源数据仓库Greenplum Database的contributor和Apache HAWQ的创始committer,在云计算及数据库领域长期保持着敏锐的洞察力和判断力。
主持人
田超 腾讯云企业中心总经理
田超,腾讯云企业中心总经理、音视频应用平台总经理,负责腾讯云用户增长、DNSPod业务以及企业应用相关产品。同时也是资深用户增长专家,大数据技术专家,曾任应用宝增长平台总经理,摩拜单车技术副总裁。长期致力于对企业数字化相关研究。
1
田超:你在创办酷克数据(HashData)之前,曾在Pivotal从事最核心产品MPP数据库Greenplum的开发工作,后续Pivotal开源了用于部署Greenplum的Hadoop分布式计算框架。这段工作经历对你的创业有什么帮助吗?
简丽荣:2010年从港科大毕业之后,我在IBM中国研究院从事云计算方面的研发工作。我们当时做了一个原型系统,就是把Hadoop变成PaaS服务,非常像后来AWS推出的EMR和腾讯云推出的弹性MapReduce。
Hadoop是一款由Apache基金会所开发的支持数据密集型分布式应用程序的开源软件框架,核心模块分为存储和计算模块,前者被称为Hadoop分布式文件系统(HDFS),后者即MapReduce计算模型,主要解决海量数据存储与计算的问题,是大数据技术中的基石。几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。
后来我又加入雅虎北京研发中心和Pivotal中国研发中心,从事Hadoop数据平台和MPP数据库的研发工作。在此期间,我先后发表了多篇国际会议期刊论文(包括SIGMOD和INFOCOM)和10多个国际专利,涉及无线网络、云计算、Hadoop和分布式数据库这些话题。
我过往的主要工作经历集中在云计算、Hadoop和MPP数据库三个领域,这都为后来创业打下了很好的技术基础。
酷克数据的核心产品HashData云数仓正是将MPP数据库超高的性能和完善的SQL能力、Hadoop为代表的大数据存算分离的哲学,以及云计算的弹性和扩展性结合起来,从而去大幅降低企业进行数据分析的门槛。
HashData自创立即具有云原生的基因,为用户提供云上一站式的数据分析平台服务。
2
田超:数据库是典型的投入高、周期长、难度大的基础软件,如果要从零开始自研,就需要做好前几年零收入的准备。既然数据库是一条不好走的路,那么你当初创业的契机是什么?
简丽荣:HashData创始团队的三位成员都是对数据库和分布式计算有着浓厚兴趣的年轻工程师。在创业之初,我们当时没有考虑太多公司运营的问题,更多的是相信自己对未来技术的判断。
我们认为,云计算会成为未来主流的IT设施,所有的基础软件包括大数据平台、数据库、数据仓库都需要围绕云架构重新构建,进行云原生改造。
只要顺应这个行业趋势,打造出足够优秀的产品,那么商业化的问题就会迎刃而解,公司这几年的发展也验证了我们当初的想法。
HashData数仓云原生能力圈
3
田超:HashData现在主要布局云端数据仓库,不过相信很多读者都对这个概念理解不深,并且很多人认为,只要一款数据仓库产品本身是分布式的,能部署在云端运行,就是云端数据仓库。你能借这个机会给大家讲解一下什么才是真正的云端数据仓库吗?云原生数据库与传统数据库对比有什么主要差异?
简丽荣:云平台提供了很多特性,包括面向服务的用户体验、几乎无限的计算和存储能力、弹性伸缩以及高性价比的存储资源。
我们评估一款产品是否属于真正的云原生数据仓库,不是简单看它是否是分布式,而是看它是否能够充分发挥云平台的这些优势特性。
我给大家举两个简单的例子,来解释云原生数据仓库和传统MPP数据库的差异。
第一,即使现在,基于对象存储,例如腾讯云COS等产品,去构建完整支持ACID(原子性、一致性、隔离性与持久性)能力的数据仓库产品仍并不多,大部分都只提供了能够访问对象存储上面的数据或把数据卸载到对象存储的能力,核心用户数据的ACID能力还是要靠块存储来保证。这类产品即使放到云上面部署,也没办法充分利用云平台高性能的存储资源,导致性价比差很多。
第二,很多云平台通过容器化技术,已经能在一分钟内创建多个新的计算节点。但传统MPP数据库的计算和存储是紧耦合的,扩容时涉及到数据的重分布,而数据仓库里的数据量一般比较多,完成一个数据重分布要花几个小时。即使在短时间内快速创建了100个新的计算节点,也需要在几个小时之后才能够参与到原来的集群里进行查询分析。这种情况下虽然它具备扩容能力,但扩容的时间周期非常长,没办法把云平台快速扩容、弹性伸缩的优势发挥出来。
HashData的云原生实践
4
田超:数据库诞生于20世纪60年代中期的美国,纵观国产数据库发展历程,与国外数据库的诞生时间和成为国际主流数据库的历程相比,都处于相对落后的状态,你认为是哪些因素拖了后腿?国产数据库和国外主流数据库的差距主要在哪里?
数据库行业发展历程(图源:艾瑞咨询《2022年中国数据库研究报告》)
简丽荣:我认为这里的差距不仅体现在数据库上面,整个基础软硬件体系,包括芯片、操作系统、语言编译器等等,其实都处于相对落后的状态。
个人认为,这种现象更多是历史原因造成的。在过去很长一段时间内,整个社会的资源都放到应用创新上面,比如移动支付等,以此满足国民经济快速增长的需求。这是可以理解的,但也致使我们在基础软件的投入不足,从而导致不管是人才培养、基础软件的商业模式成熟度,还是有竞争力的基础软件、企业数量,都跟海外有一定差距。
目前,国产数据库与国外主流数据的差距,主要还是体现在产品的稳定性、易用性、功能的完善程度和性能的可预测性。此外,海外产品已经形成比较成熟的生态,这是需要国产数据库花相当长一段时间才能慢慢构建起来的。
最近几年,从国家政策层面和企业研发层面,都越来越重视基础软件的研发,投入也在不断增大,相信我们与国外厂商的差距会逐步地缩小。
5
田超:很多行业用户使用的传统外企数据库产品,包括IBM、Oracle、Teradata,并非诞生在云时代,尽管他们的产品功能和性能都已经较为完善,但设计理念并没有考虑太多云计算本身的特点。而现在新兴的国产数据库产品自创生起就围绕云计算去构建,在扩展性、易用性、弹性乃至成本等方面都更有优势。如果国产数据库要追赶世界级数据库,你认为云计算会是国产数据库“弯道超车”的机会吗?
国外数据库产业图谱
(图源:艾瑞咨询《2022年中国数据库研究报告》)
简丽荣:我更愿意把云计算看成国产数据库“换道超车”的机遇,大家换了一个赛道重新比赛。
当前是国产数据库技术发展最好的时代,一方面云计算提供了一条全新的赛道,意味着整个市场格局会迎来重新洗牌的历史机遇;另一方面一些大公司和开源的氛围等也培养了大量的开发人才。
值得注意的是,中国庞大的人口基数、高速增长的GDP、海量的数据规模,都对数据库的发展产生了很大的帮助,而且很多应用场景是海外产品从来没碰到过的。比如微信庞大的在线用户、阿里巴巴的双11、春运期间的12306网站,这些系统后台的数据库压力是海外主流数据库无法想象的,同时也会加速国产数据库的创新步伐,从而有机会超越海外的主流数据库。
6
田超:HashData的分布式系统架构与美国代表性数仓公司Snowflake一样,都创新性地实现了元数据管理、计算和存储的三者分离,为企业客户提供更优性能、更低成本的数据分析服务。你们在实现的过程中遇到的最大难点是什么?你认为HashData距离成为中国版的Snowflake还有多远?
简丽荣:我们在实践过程中主要有两个难点。
第一个难点是工程化的实现。元数据管理、计算、存储本来是紧耦合的,把三者分开之后会带来很多性能的损耗,为此我们做了大量的工程手段,例如开发了一个非常高效的缓存系统,即使计算和存储分离,有时候会远程访问对象存储,比如说像腾讯云的COS,但数据库内核感觉它就像访问本地存储一样快。
第二个难点就是用户体验,这个的难度会比前面的工程实现要更大,因为涉及到整个思维方式的改变。我们要去思考SOA(面向服务的架构)的理念,重新把一个数据库变成SaaS服务,让用户以数据为中心,而不是以数据库为中心。这对于有互联网从业背景的人来说很容易理解,但对我们这些做数据库出身的人来说,转变观念是比较难的。
HashData产品架构:底层使用对象存储,同时在业内率先实现了“存算分离”
与Snowflake对比的话,得益于中国庞大的人口基数,HashData管理着全球规模最大的数据仓库集群,包括千万级的数据库对象、超过100PB的数据量、支撑着数千个应用并发访问、每天处理1亿条复杂的结构查询,Snowflake最大的客户可能连我们的三分之一都不到。所以从核心的数据分析能力和扩展性方面来看,我们与Snowflake的差距已经不大,有些地方可能还超越它。
我们最大的差距一方面体现在用户体验和应用性方面,另一方面Snowflake只有一种商业模式——以SaaS的方式提供服务,因此在数据安全方面做得非常好,接下来我们也会花更多精力对这两方面进行优化。
7
田超:HashData目前的企业客户主要集中在金融行业,为包括监管部门、国有大型银行、政策性银行和股份制商业银行在内的十余家客户提供服务,从信用卡、电子银行到反洗钱、风控、对公信贷、监管报送等,支撑着数百个大数据分析应用。为什么金融行业会对数据库有如此大的需求?都说金融场景是“最难啃的骨头”,那么你们的数据库是如何攻下金融行业这块高地的?
简丽荣:金融行业本质上做的就是数据的生意,每一笔业务、每一个决策背后都需要数据的支撑。比如说你刷了一笔信用卡消费,如何判断是不是你本人刷的?是不是洗钱的一部分?明天去到银行办理贷款,能不能贷?能贷多少?因此HashData在进入商业化的时候,首先选择金融行业。
HashData为国内十余家金融客户提供了稳定、高效的数据处理分析服务
我们的产品相对于传统的MPP数据库而言,实际上是在做下一代的云原生产品,而金融行业的IT设施比较成熟,可以说走在其他行业的前头,也更愿意去创新,这样的背景非常适合我们这种创新型的公司。
首先,HashData的产品能解决客户的痛点,比如我们帮助多家国有大行解决高并发问题、扩展性问题、数据问题等,给用户带来实实在在的价值。
其次,HashData的核心团队在创业之前服务过很多世界500强的客户,包括通用电器、联想、海尔等,我们成熟的技术知识团队和服务体系可以很好地去服务金融行业客户。
最后,我们有一个比较强大的产品研发团队,能够快速迭代,紧跟整个业界最新的发展趋势,能够满足客户对产品越来越高的要求。
8
田超:国产数据库行业有“四朵金花”,分别是达梦数据、人大金仓、南大通用以及神舟通用,坐拥国内数据库市场的大部分江山,其中达梦数据已经冲刺科创版IPO,估值500亿。另一方面,云厂商的自研数据库崛起,例如腾讯云TDSQL、阿里Oceanbase、华为opneGauss等,难免与独立数据厂商一起抢蛋糕。HashData在与这些国内对手竞争时会有压力吗?你们的“护城河”在哪里?
简丽荣:这里大家比较熟悉的友商产品主要集中在数据库OLTP(联机事物处理)领域,而我们更擅长的是数据仓库OLAP(联机分析处理),所以和他们在市场上碰到的机会不太多。
OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
HashData的护城河主要体现在两方面。
一方面,我们是国内最早实现像Snowflake那样元数据管理、计算和存储三者分离的厂商之一,产品在业界也是最成熟的,甚至可以说是目前国内唯一能够将这种架构的产品大规模落地的厂商,大量客户的反馈会反哺加速我们产品本身的迭代。
另一方面,我们采取的是一种开放的策略。虽然我们的产品并不开源,但我们整个应用接口与最先进的开源数据库是兼容的,而且紧跟最新的版本,不断吸收数据库领域里最新的功能特性,能够消除客户被厂商锁定的顾虑。
9
田超:虽然中国是数字经济和互联网发展大国,但大多数互联网企业都用开源或者不付费的数据库。在这种情况下,HashData作为商用数据库,你们如何进行大规模推广来保证盈利?
简丽荣:很多开源公司会先去找互联网企业,而我们采取的策略会不太一样。不同公司有不同的背景,决定了其商业模式和商业路径会不大一样。
HashData的核心团队,不管是研发、销售、市场端,主要都来自于外企,所以我们的商业化打法也比较像外企进入中国的模式。最开始的时候我们会集中精力主攻重要行业的头部客户,例如金融、能源、交通等行业。通过与这些要求最高的行业头部客户合作,来打磨产品和打造口碑。
这些行业的头部客户普遍拥有比较成熟的IT基础设施,并且对国产化替代的需求非常高,他们带来的大规模用户可以深度使用我们的产品,提出一般用户还未遇到但又非常合理的需求,对我们的产品迭代是非常有帮助的。
接下来,我们会开始通过合作伙伴去覆盖腰部的客户,最后再通过我们的公有云服务进一步覆盖长尾客户。
10
田超:DB-Engines数据显示,截至2021年1月,开源数据库的全球部署首次超过商业数据库。开源数据库可以让技术迭代更快,并且透明特性更容易在出海过程中取得国际客户的信任。但国内开源公司想从免费走到收费是非常困难的,面临着别人在此基础上二次开发拿去卖,反而最初的开源公司难盈利的窘境,即使是全球数据库龙头Snowflake也是闭源公司。你是怎么看待开源与商业化之间的矛盾关系?
简丽荣:我认为在整个基础软件领域里,靠闭门造车去构建一个完全独立的生态,这种创业成功的概率微乎其微。即便是Snowflake那样建立了行业领导地位的龙头公司,也在不断地去拥抱开源开放,已经开始支持像Iceberg这种开放的表格式,所以我认为基础软件领域的大趋势就是开源开放。
全球知名的数据库流行度排行榜网站DB-Engines宣布Snowflake成功卫冕,获得了“2022年度数据库”称号。Snowflake于2020年上市成为美股史上规模最大的一项软件公司IPO,当日收盘该公司市值突破了700亿美元。
开源有时候不太容易做商业化,这时候我们需要回归到商业的本质。用户为什么愿意付费?因为你提供的产品可以帮助客户解决用别人家产品解决不了的问题。用户是在为产品解决的问题付费,而不是为产品本身付费。
如果商业化要取得成功,很大程度上取决于企业打造的商业化版本与开源化版本之间的差异是否明显。
例如,Snowflake是闭源的,但产品足够优秀,大家都愿意买单。再例如另一个全球大数据行业里最好的公司之一Databricks,他们通过Spark开源,将Spark发展成为行业大数据标准,同时在公有云上打造了基于Spark的云服务,在安全性、用户体验方面比开源版本好很多,因此用户可能不会为开源的Spark付钱,但会为这个云服务付钱。
11
田超:数据库是从底层基础软硬件出发保障关键信息基础设施安全的关键,为此国家推出了“信创”战略,提出创建以国产CPU为基础的闭环信创体系,也给数据库产业提供了发展机遇。你认为“信创”要求下的数据库都需要具备哪些特点?HashData如何支持国家的“信创”战略?
简丽荣:我认为数据库要在“信创”环境下发展需要符合一些特定的要求:
第一点在于对国产芯片的支持。包括鲲鹏芯片、飞腾芯片、海光芯片等。
第二点在对国产操作系统的支持。比如像麒麟操作系统、统信操作系统、欧拉操作系统等。
第三点在于中间件的支持。数据库本身并不能直接解决用户的业务问题,还需要一些中间件的支持,比如像BI工具、数据总线、数据采集、数据加工等工具。
第四点在于数据安全。信创领域的数据加密并不是采用国际标准的算法,而是国密的算法。
HashData目前已与国产主流芯片、中间件、操作系统完成适配,构建自主可控的生态体系
基于此,我们做了一些相应工作,包括在2020年我们和华为的鲲鹏芯片实现了兼容性验证,后续也完成了与麒麟、统信操作系统的兼容性验证;与中间件厂家例如帆软、永洪等,与存储厂商杉岩、腾讯云COS等,以及多个云平台都有验证。2021年底,我们加入了国家信创工委会,全面参与国家信创标准的讨论和制定,为信创产业长远发展贡献一臂之力。
12
田超:随着AI、大数据、物联网等新技术的发展,数据量暴涨,对数据库的事务处理和事务分析能力提出了更高的要求。HashData如何应对这样的新趋势?你认为未来数据库最有前景的发展方向是什么?
简丽荣:针对这个趋势,HashData规划了未来3-5年的产品研发方向。
首先,不管是数据量还是数据分析需求的暴增,背后都是对数据库扩展性能力提出更高的要求,也就是数据库要几乎无限地去拓展,要容纳足够多的数据,支持足够多的用户同时访问。为此我们正在做跨数据中心、跨云的底层架构调整,也就是所谓的datacloud,让用户可以随时随地,只要连上网就能访问数据,不用在做数据分析时担心存储能力和计算能力。
第二,随着物联网等新技术的发展,大家对数据实时性的要求越来越高。HashData在构建一些新的数据存储层,类似于Snowflake去年推出的UniStore功能,去增强数据实时入库的能力。
第三,我们会不断去增强数据的分析能力。传统的数据库/数据仓库的内核是专门针对关系型操作去优化的,我们想把它变成一个类似Spark这样的通用计算平台,通过一套系统支持以关系型操作为主的数据仓库应用,去支持数据湖、以数据加工为主的数据工程、以AI机器学习为主的数据科学和数据应用等用例。
数据领域最大的发展方向就是数据融合。如今,数据被视为第五生产要素,国家也在积极推动构建一体化数据市场,让数据在统一的平台上安全、敏捷、方便地去流通、交易、关联融合。
数据就像社交网站,具备一定的网络效应,把很多数据放在一起的时候,它产生的价值远远比单独的数据产生的价值要大得多。一旦这个平台构建完成。它将能够影响整个社会的方方面面,不仅仅是金融行业,还有交通、物流、医疗等等。
除了数据以外,其他所有的生产要素都已经具备了可公开交易流通的平台,我认为数据也需要这样一个平台,这是未来最大的发展机会,这个技术趋势也顺应国家产业政策方向,符合未来经济发展的趋势。
* 图片来源:HashData、艾瑞咨询、谷歌、DB-Engines
END
栏目统筹 | 赵九州
责任编辑 | 黄绮婷 庄雅捷 张洁
你平时会使用什么数据库?你看好云原生数据库吗?欢迎在评论区分享你的看法**点亮“在看”+评论区留言**,阿D将在3月1日(周三)下午15:00随机抽取1位粉丝,送出DNSPod定制.shop收纳包
《DNSPod十问》是由腾讯云企业中心推出的一档深度谈话栏目,通过每期向嘉宾提出十个问题,带着广大读者站在产业互联网、科技领域精英的肩膀上,俯瞰各大行业发展趋势和前沿技术革新。
栏目嘉宾的领域在逐渐扩大,从最初的域名圈、站长圈到程序员圈、创业者圈、投资圈。腾讯副总裁丁珂、CSDN董事长蒋涛、Discuz!创始人戴志康、知识星球吴鲁加、腾讯安全学院副院长杨卿等技术大咖和行业领军人物都在这个栏目留下了他们的真知灼见。
《DNSPod十问》在腾讯云生态圈也极具影响力和活跃度。我们在腾讯内部平台——DNSPod公众号、腾讯中小企业服务公众号、腾讯云公众号、腾讯云主机公众号、腾讯云服务器公众号、腾讯云助手、腾讯乐问、腾讯码客圈、腾讯KM平台、腾讯云+社区、腾讯云+大学等平台累计关注度高达数十万,同时我们积极开拓与外部媒体的合作,如腾讯科技、腾讯新闻、新浪微博机构号、CSDN社区技术专栏、知乎机构号、企鹅号、搜狐号、头条号、开源中国技术社区、IT之家、InfoQ社区资讯站点、Twitter机构号、Facebook机构号等媒体阅读总量逾百万。
未来,我们希望这个栏目的影响力会覆盖更加多元的受众,把更多正确的理念对外传递出去。欢迎各位读者在评论区留下你想看到的嘉宾和想问的问题,我们邀请你共同成为《DNSPod十问》栏目的提问者与发声者。
合作联系:
qitinghuang@tencent.com
▼公众号后台获取二维码
加入DNSPod官方用户群