腾讯云数据仓库套件Sparkling 简介
云数据仓库套件 Sparkling(Tencent Sparkling Data Warehouse Suite)基于业界领先的 Apache Spark 框架为您提供一套全托管、简单易用的、高性能的 PB 级云端数据仓库解决方案。支持创建数千节点的企业级云端分布式数据仓库,并高效的弹性扩缩容,支持数据可视化,通过智能分析帮助企业挖掘数据的价值。
腾讯云数据仓库套件Sparkling 优势
一站式创建
用户只需要在腾讯云终端界面选择产品的参数指标即可完成对云数据仓库套件 Sparkling 服务的创建。具体创建流程对用户完全屏蔽,由后台完成对 CVM、TencentDB、CLB 等资源的申请,及对云数据仓库套件 Sparkling 集群的搭建、服务的拉起、监控等创建工作。
统一的交互方式
云数据仓库套件 Sparkling 提供统一的交互方式,用户可以使用数据开发页面进行交互式的数据处理,同时云数据仓库套件 Sparkling 也为用户提供了 JDBC/ODBC 接口,用户可以程序化的方式与数仓进行交互。
专业的集群管控
独享模式为用户提供集群管理和监控模块,支持集群创建、自动扩缩容、集群配置、启停、资源智能监控报警等功能。Sparkling 集群是全托管集群,用户无需过多关注集群底层架构,减少运维压力。
丰富的异构数据集成
提供各类异构数据源的接入集成。用户可以通过 Data Studio 控制台将传统关系型数据库 RDBMS、对象存储 COS、Kafka 消息队列中的数据经过抽取、转换和装载,接入到云数据仓库套件 Sparkling 的存储中,同时也提供了丰富的抽取条件和抽取任务调度,以满足用户不同的数据导入需求。
齐全的数据管理
提供元数据管理模块,支持技术元数据、管理元数据和业务元数据的注册、导入、存储、检索、导出、发布等管理功能,同时为用户提供数据地图、数据字典、数据血缘追踪和影响分析、元数据版本管理、元数据统计分析、数据质量报表等多种数据管理能力。
企业级作业调度
云数据仓库套件 Sparkling 提供了企业级的作业调度引擎,可以帮助用户以复杂的依赖关系构建完整的作业流程。同时提供任务编排调度管理模块,支持时间驱动与事件驱动的 DAG 任务编排和调度。同时提供完备的任务监控,方便用户运维数据 ETL 和数据加工分析作业。
完备的项目管理与账号服务
提供项目管理模块,支持客户按照企业内部产品线、团队和项目方式来创建项目空间并进行项目人员和笔记簿管理。有完备的账号服务相关方案,确保主账号和子账号之间的资源共享和权限管理。
高性能、高可用及高可扩展性
云数据仓库套件 Sparkling 依托腾讯云提供的 IaaS 服务以及自身组件的能力,提供了高性能、高可用性以及高可扩展性的数仓产品。
数据安全保障
通过用户专用网络,权限管理、多租户隔离等方式,保证用户数据的安全。
腾讯云数据仓库套件Sparkling 产品功能
集群管控
Sparkling 集群是云数据仓库套件 Sparkling 为用户提供服务的载体。一个 Sparkling 集群由 Master 节点和工作节点组成。工作节点包括核心节点和弹性计算节点,其中核心节点提供数据存储能力和计算能力,弹性计算节点提供计算能力。Sparkling 集群的大小,决定了云数据仓库套件 Sparkling 所能提供的存储能力和计算能力的上限。
Sparkling 支持创建高可用的集群,来保证服务的高可用性。在高可用模式下,Master 节点服务在机架级硬件故障情况下仍然可用。
- 云数据仓库套件 Sparkling 提供了非常简洁易用的 集群管理 功能,方便用户指定符合业务需求的 Sparkling 集群规模。同时,随着用户业务的发展,存储和计算需求的增加,用户也可以很方便的 扩容和缩容 集群规模。随着节点规模的增加,整个集群的存储容量和计算性能也得到线性的提升。
- 当用户不再需要使用某个集群时,可以选择 销毁集群。被销毁的集群无法恢复,同时集群中存储的数据也会在一段时间之后无法再访问。
- Sparkling 的集群管理除了支持集群的创建、销毁、扩缩容,还可以查看集群当前运行状态、资源信息、所在地域、节点型号等信息。
数据集成
提供各类异构数据源的接入集成。用户可以通过 Data Studio 控制台将传统关系型数据库、对象存储 COS、Kafka 流式数据经过抽取、转换和装载,接入到云数据仓库套件 Sparkling 的存储中。
Sparkling 提供丰富的功能供用户定制数据接入过程。用户可以:
- 行裁剪:设置过滤条件,对导入数据进行行裁剪。
- 导入部分列:删除导入数据数据的某些列,只将部分列导入数据仓库。
- 列顺序调整:对导入列的顺序进行调整。
- 设置分区:在某些列上设置分区,提高后续数据查询的效率。
- 多种格式存储:支持多种数据文件存储格式。
- 管理数据源:支持保存和管理数据源,方便之后设置新的数据导入任务以及数据溯源。
- 导入已有数据表:支持将数据导入到数仓上一个已经存在的数据表中。
- 设置映射关系:用户可以设置源数据表与目标数据表之间的映射关系,使数据导入更加灵活。
- 预览数据:数据导入过程中用户可以预览导入数据。
- 定时导入:用户可以进行单次导入,也可以设置定时任务进行周期性导入。
- 全量/增量导入:支持数据的全量导入和增量导入。
- 增量导入自定义语法:支持增量导入条件中提供一些自定义语法使增量导入条件更加灵活。
数据开发
Sparkling 为用户提供基于 Notebook 的线上交互式环境。用户可以通过在 Notebook 中执行代码,对数据仓库中的数据进行分析和加工。
用户可以在 Sparkling Notebook 中执行 SQL、python 和 spark 代码。Sparkling SQL 是一种结构化的查询语言,语法与 MySQL/Oracle/Hive SQL 类似,兼容业界 SQL 标准 ANSI SQL 2003。熟悉传统数据库或 Hive 的用户可以很容易上手。除了标准的 SQL 操作,Sparkling SQL 还嵌入了多种高级函数,这些函数包含了常见的数学运算、统计分析、时间日期等方面的操作。
用户在 Sparkling Notebook 里还可以运行 spark 和 pyspark 程序,方便用户开发更灵活的数据分析程序。
Sparkling Notebook 提供了数据可视化工具。通过拖拽组件的方式,用户可以在 Notebook 中通过多种方式(如饼状图、散点图等)对数据进行可视化。通过结合交互式编程和数据可视化,用户可以方便的分析和调试数据。用户还可以将数据分析结果进行报表展示,以及将分析结果导出下载到本地。
Sparkling 还提供一些辅助功能提高用户效率,例如用户可以按照项目组织自己 Notebook,可以在一个 SQL IDE 中查看数据表。
任务管理
对于持续更新的数据,Sparkling 支持用户将数据导入和 Notebook 设置为按一定周期定时执行。周期设置的范围从小时到月。Sparkling 提供可靠的周期调度,支持任务的回填调度。
除了基本的数据导入和 Notebook 定时任务,用户可以将数据导入和 Notebook 进行组合,组成一个 DAG 工作流任务,Sparkling 将对整体 DAG 工作流任务进行按依赖关系进行调度,这在复杂的数据分析流水线和数据科学等场景下尤为有用。
通过 Sparkling 统一的任务管理界面可以查看和管理数据导入和 Notebook 定时运行任务。用户可以进行如查看任务状态、历史信息、临时触发任务或终止任务等操作。
弹性伸缩
云数据仓库套件 Sparkling 提供强大的弹性扩缩容能力。计算存储分离,集群工作节点包括核心节点和弹性计算节点。用户通过 Data Studio 控制台或云 API,实现手动和自动对大规模节点的快速线性横向的扩容,以及纵向计算和存储能力的变配。弹性计算节点同时支持自动化弹性缩容,以适配业务的发展。
数据管理
提供元数据管理模块,支持技术元数据、管理元数据和业务元数据的注册、导入、存储、检索、导出、发布等管理功能,同时为用户提供数据地图、数据字典、数据血缘追踪和影响分析、元数据版本管理、元数据统计分析、数据质量报表等多种数据管理能力。
项目管理
提供项目管理模块,支持客户按照企业内部产品线、团队和项目方式来创建项目空间并进行项目人员和笔记簿管理。