点击蓝字 关注我们

请在此添加图片描述

请在此添加图片描述

本文共计3923字 预计阅读时长12分钟

5 月 20 日,腾讯云融合创新峰会 AI+融合创新产品专场在北京中国大饭店举行。会上,腾讯云与中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)联合发布了《大数据平台在 DATA+AI 时代下的融合创新》白皮书,由腾讯云大数据 TBDS 产品中心总经理徐晓敏和中国信通院人工智能研究所副总工程师闫树代表腾讯云和 CCSA TC601 共同发布,白皮书系统提出 Data+AI 时代大数据平台的架构演进路径,深度解读腾讯云大数据 TBDS的三层融合创新架构,及其在金融、能源等关键行业的落地范式。

请在此添加图片描述

请在此添加图片描述

以数据处理为中心的架构已经不够用了

当大数据平台走到 Data 与 AI 一体化的阶段,过去十余年沿用的那套以数据处理为中心的架构,已经不再能支撑下一阶段的企业数字化需求。白皮书围绕这一判断,给出三条结论。

结论一:自主创新已成为平台的基础能力,而不再是附加项。

截至 2024 年底,我国数字经济核心产业增加值占 GDP 比重超过 10%,大数据平台成为关键生产要素的承载系统。与此同步,关键行业企业在大数据平台上的合规投入占比普遍超过 30%,自主创新从合规动作转变为关系系统连续性和竞争力的基础要求。

结论二:传统架构在 AI 场景下暴露了结构性短板。

Gartner 的数据显示,企业约 80% 的知识以非结构化形态存在;信通院调研则显示,国内企业大数据集群的平均 CPU 利用率普遍低于 20%,GPU 更低。一边是非结构化数据沉淀在各业务系统里无法被模型消费,一边是算力买回来后利用率很低,"有算力无数据、有模型无知识",这不是个别企业的工程问题,而是传统大数据架构在面对 AI 场景时的系统性失配。

结论三:平台的核心坐标正在由"以数据处理为中心"向"以数据智能为中心"迁移。

传统平台主要处理结构化数据,AI 场景需要在同一个底座上同时承载结构化数据、非结构化数据、向量、模型文件、特征数据。数据跨系统搬运、SQL 与 Python 彼此割裂、治理只能覆盖结构化表,这些在 AI 场景下不再是可接受的代价。下一代平台需要在底座层完成统一,否则任何上层的 AI 能力建设都很难走得长远。

请在此添加图片描述

腾讯云 TBDS 的三层融合架构

围绕上述判断,白皮书以腾讯云 TBDS 作为架构演进的工程参照,给出了一条具体的演进路径:不在原有平台上做能力叠加,而是从内核层完成一次彻底重构,最终形成自下而上三层融合架构。

架构降本层负责统一架构与统一存储。在存算分离、湖仓一体之上,TBDS 构建了覆盖认证、账号、授权、访问控制与审计的 5A 安全体系,以及 HDFS、S3、POSIX、CSI 四协议并行访问同一份数据。这一层落到客户侧的结果:集群综合资源利用率从不足 20% 升至 70% 以上,存储空间节省 50%–80%,AI 训练首轮数据加载时间缩短到原来的三到五分之一,运维人力投入减少 50%,操作可审计覆盖率达到 100%。

资源提效层由统一调度、统一元数据、统一引擎三部分组成。OneKubernetes 将 YARN 与 K8s 的资源池打通,qGPU 虚拟化使 GPU 按任意比例切分并强隔离,异构算力融合涵盖鲲鹏、海光、飞腾等国产芯片以及 Nvidia、昇腾等 AI 算力。元数据层 TBDS-MetaLake 将原有以表结构为中心的元数据,扩展为业务实体建模、知识图谱与 AI 多模智能打标,让模型推理依据从字段名升级为业务知识图谱,直接作用于降低分析幻觉。引擎层在 Spark 与 AI 原生能力融合的基础上新增 Vecturbo 向量计算引擎。客户侧的结果:CPU/GPU 利用率从不足 15% 升至 50%–70%,同等算力规模下硬件采购成本减少 30%,GPU 碎片率下降 40%,批量推理吞吐量达到原来的三到五倍,向量检索硬件成本减少 90%。

智能协作层对应统一开发与统一治理。Data Studio 与 Notebook 融合、XOps 流程编排、Feature Store、WeData Copilot、AI for Governance 智能治理构成一整套工作流,SQL、Python、Scala 在统一 DAG 下混合执行。客户侧数据:模型从立项到上线周期减半,特征复用率达到原来的三倍,数据准备时间减少 60%,数据治理自动化程度提升 80%。

贯穿三层的设计理念,白皮书概括为 Data for AI 与 AI for Data 双轮驱动——数据支撑 AI 训练与推理,AI 反过来参与数据治理、运维调优、资产发现。

在三层架构之上,TBDS 提供了以 Data Agents 为代表的数据智能体体系,覆盖数据分析、数据工程、经营分析等场景。与市场上常见的 Text-to-SQL 或 ChatBI 类产品不同,Data Agents 以业务本体(Ontology)为核心资产,把企业的业务实体、关系、行为沉淀为一张知识蓝图,让智能体在这张蓝图上做推理,而不是在字段名上做猜测。

与 Data Agents 协同工作的还有 TBDS-Insight 智能管家,覆盖感知、诊断、处置三个环节的自动化运维能力。某头部客户借助该系统识别出 63.5% 的 HDFS 冷分区,存储治理带来 30%–40% 的空间节省,HDFS 存储从 4.81PB 优化至 3.32PB,下线 17 台存储节点。

请在此添加图片描述

融合创新的成功实践

TBDS 的融合创新架构已经在多个关键行业的高强度业务场景中得到规模化验证。

金融行业实践

某大型国有商业银行以 TBDS 承载超过 250PB 数据、5100 多个运行节点,服务 30 余个部门、4000 多名数据分析师。核心平台国产率达到 80%,集群资源利用率从不足 15% 升至 50%–70%;实时反欺诈已覆盖 14 个实时业务应用,风险识别从分钟级降至毫秒级,年度欺诈拦截能力提升超过 30%;基于 2 亿以上用户全域画像的精准营销,转化率提升超过 20%;一表通监管报送从天级压缩至 12 小时内。

能源行业实践

某大型能源电网企业通过 TBDS 管理 700 多套两级系统、90 多万张数据表,数据总量超过 12PB,日增量 5TB。亿级宽表查询从小时级提速至秒级,关键业务由 T+1 升级到 T+0;37000 多条质量规则的自动化定责率达到 99.99%;15 分钟级潮汐供电预测准确率超过 97%,弃风弃光率下降 5 至 8 个百分点;多模态异常检测使主要设备非计划停电减少 30% 以上;无人机巡检结合 AI 缺陷识别,使巡检效率达到原来的五倍,人工登塔减少 70% 以上。

在超大规模数据量、强监管、高可用三重约束下,融合创新平台已经能够同时承担国产替代与 Data+AI 升级两项任务。国产替代不是简单的国外产品替换,而是以"可用、好用、易用"为目标,把自主创新、性能优化与业务适配组织成一条统一路径。

请在此添加图片描述

实施建议与趋势判断

围绕这一架构演进,五条行动指南构成了从战略到选型的完整路径:按核心、重要、一般、办公四级分类制定融合创新策略;构建统一的数据底座;治理先行;全面拥抱 Data+AI 一体化;与可靠的合作伙伴形成长期协同。五条的排序本身就是一种方法论——先分级、再建底座、再治理、再引入 AI,最后才是选型,确保架构演进的节奏与企业现实匹配。

着眼未来几年,行业逐渐形成四点共识:数据要素化全面落地,三权分置与资产入表规则逐步推开;AI 走向全员可用、全流程嵌入、全场景覆盖;Data+AI 一体化平台成为企业数字化的标准底座;安全合规从外挂防护转向内生安全,安全投入由成本中心转向价值中心。

腾讯云与 CCSA TC601 认为,大数据平台已经走出单点性能比拼的阶段,下一程的核心竞争力,是能否把数据、算力、模型、治理、智能体组织成一个自洽演进的整体底座。腾讯云大数据 TBDS 以三层融合架构服务关键行业,为各行业客户在 Data+AI 时代的转型,提供一个安全、自主、可演进的数据底座。

请在此添加图片描述

关于本次发布

《大数据平台在 DATA+AI 时代下的融合创新》白皮书由腾讯云大数据与中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)联合编制,以 TBDS 的产品工程与客户实践为参考样本,面向政企客户、行业研究机构与生态伙伴公开发布。完整版可通过扫描下方二维码获取。

请在此添加图片描述

关于腾讯云大数据处理套件(TBDS)

腾讯云大数据处理套件(TBDS)是腾讯云面向政企客户的一体化融合创新大数据平台,全面适配鲲鹏、海光、飞腾等国产芯片,以及统信 UOS、麒麟 OS、TencentOS Server 等国产操作系统,采用架构降本、资源提效、智能协作三层融合架构,目前已在金融、能源、政务、运营商等关键行业规模化落地。

关于 CCSA TC601

中国通信标准化协会大数据技术标准推进委员会(CCSA TC601),旨在凝聚产业链各个环节,识别和解决大数据发展面临的重大问题,开展大数据技术、数据资产管理、数据共享与流通、数据安全等共性基础标准研究,以标准推进工作为纽带,推动大数据与实体经济深度融合。

END

关注腾讯云大数据╳探索数据的无限可能

往期精彩

请在此添加图片描述

请在此添加图片描述

请在此添加图片描述

求点赞

请在此添加图片描述

求分享

请在此添加图片描述

求喜欢

请在此添加图片描述

文章来源于腾讯云开发者社区,点击查看原文