腾讯云TBDS面向AI时代的多模态智算平台，助力企业AI转型

请在此添加图片描述

本文共计5625字预计阅读时长17分钟

// TBDS · 多模智算平台系列 //

01 腾讯云TBDS面向AI时代的多模态智算平台，助力企业AI转型

02 ......

03 ......

随着多模态大模型快速演进，企业在AI基础设施层面面临异构算力管理复杂、数据处理链路冗长、训练推理资源割裂浪费等核心挑战。腾讯云TBDS基于Ray构建多模态数据智算平台，支持GPU/CPU等异构资源统一调度，把多模数据转换和AI计算放到一个pipeline，提高40%GPU资源使用率，通过推理框架性能优化，支持大模型推理服务分布式构建，流量负载均衡等功能，自研Xpark，HyperFrame和SQL AI Function等处理库，让客户用一句SQL就能调用大模型，像查表一样分析数据湖里的图片、视频和文本，把多模态数据从"难用的资产"变成"开箱即用的生产力"，AI落地周期从月级压缩到天级。

AI浪潮下的算力困局

异构算力资源调度与管理复杂度激增

当前企业AI基础设施普遍存在 GPU/NPU/CPU/DPU 混合部署的异构算力格局。以典型的智算中心为例，往往同时承载：

NVIDIA A100/H100 集群用于大模型训练。
国产加速卡（昇腾、寒武纪等）满足信创与合规要求。
高主频CPU节点 用于数据预处理、特征工程和轻量推理。
DPU/SmartNIC 用于网络卸载与存储加速。

这种"多池共存"的架构带来三大管理难题：

请在此添加图片描述

企业更期望在一个统一平台内管理训练（Training）、微调（Fine-tuning）、推理（Inference）、数据处理（ETL）四类负载，并统一运维体系，而传统架构中这四类负载往往跑在完全独立的计算集群上，导致GPU等昂贵的计算资源利用率极低。

多模态数据处理链路工程化门槛高

传统多模态AI应用（视频理解、图文检索、自动驾驶感知，财报分析）的数据处理链路极为复杂，典型流程如下：

请在此添加图片描述

这一链路的工程化痛点在于：

工具链割裂：视频处理用FFmpeg，OCR用PaddleOCR，向量化用SentenceTransformers，每个环节依赖不同的Python环境和计算后端
计算形态混杂：视频抽帧是CPU密集型，OCR和向量化适合GPU加速，数据格式转换又回归CPU —— 同一条Pipeline需要在CPU和GPU之间多次数据搬运
扩展性不足：当数据规模从百万级增长到亿级时，单机Python脚本无法横向扩展，而迁移到Spark/Flink又面临PyUDF性能瓶颈和API不兼容问题
数据需要反复落盘，验证影响cpu使用率

数据-训练-推理割裂导致资源使用率低

在传统AI工程架构中，数据预处理、模型训练和在线推理三套系统各自独立：

数据系统：基于Hadoop/Spark集群，使用Java/Scala生态
训练系统：基于Kubernetes + GPU集群，使用Python/PyTorch生态
推理系统：基于Triton/TensorRT/vLLM，使用独立的模型仓库和Serving框架

三套系统意味着三套存储、三套计算、三次数据搬运：

原始数据从数据湖（HDFS/OSS）抽取到训练集群的本地SSD
训练输出的Checkpoint再推送到模型仓库（S3/NFS）
推理服务从模型仓库加载模型到显存

数据在HDFS → 本地SSD → S3 → 显存之间多次拷贝，不仅浪费存储带宽，更导致端到端迭代周期以"天"为单位。

腾讯云TBDS基于腾讯TCS云原生套件构建多模态数据智算平台，CPU和GPU在一个集群里面混合调度，数据在共享内存Object Memory Store里面高效传输，打通数据预处理，模型训练和推理服务上线全部流程，从而实现一个计算引擎，一个存储和一套运维管控系统，把多模态数据处理效率提升100%，gpu使用率提升40%。

腾讯云TBDS智算平台

TBDS智算平台基于构建的多模态数据智算引擎，通过分层架构设计将异构资源管理、分布式计算、模型服务有机整合，实现了从数据接入、特征工程、模型训练到推理部署的全链路闭环，为企业提供一站式AI开发与交付能力。

智算平台总体架构

请在此添加图片描述

TBDS 为企业级 AI 推理场景提供从镜像、模型到运维的全栈标准化能力。通过弹性扩缩容和多租户隔离实现资源降本（GPU 利用率提升一倍以上），通过一键部署和预置镜像实现研发提效（上线从周级缩短到分钟级），通过滚动升级、高可用和灰度发布保障生产稳定（业务无感知升级、故障秒级恢复），并以统一鉴权、全链路审计和监控追踪构建企业级安全治理。让算法团队无需关心底层基础设施，专注模型价值本身。

用户接入

用户作业多入口统一接入和鉴权能力：
- WeData 数据开发平台：面向数据工程师的可视化开发环境，支持拖拽式Pipeline编排、血缘追踪、数据质量检测。用户可通过WeData直接提交Ray作业，平台自动完成资源申请、镜像拉取、作业监控的全生命周期管理。
- Kyuubi 统一SQL网关：基于Apache Kyuubi构建的SQL代理层，兼容Spark SQL / Hive SQL / Trino SQL 语法。用户可通过标准JDBC/ODBC接口，将SQL查询无缝路由到Ray计算引擎执行，实现大数据与AI计算的SQL化统一访问。

镜像管理与模型支持

TBDS智算平台内置支持x86的GPU和CPU基础镜像，预装部分常用机器学习库，并提供业务依赖的python库的在线、离线部署能力，满足不同网络环境下的快速环境构建。用户既可直接使用开箱即用的标准镜像，也可按需扩展自定义依赖，无需重新打包镜像即可灵活调整运行环境，大幅降低环境配置成本与上线门槛。

请在此添加图片描述

统一运维底座

全栈可观测体系

资源大盘监控：
- 全局资源总览：总卡数 / 已用卡数 / 碎片卡数 / 利用率趋势。
- 作业资源使用：支持作业使用资源监控大盘，协助定位资源使用。
- 节点级监控：每张GPU的显存占用、温度、功耗、NVLink带宽。
- 租户隔离：按Namespace/Project维度展示资源配额与使用量。
History Server：
- 作业全生命周期追踪：提交时间、排队时间、执行时间、资源使用量。
- 任务级Profiling：每个Actor/Task的CPU/内存/显存时间线。

企业级高可用架构

高可用与滚动升级：
- Head节点元数据高可用：基于redis实现元数据高可用。
- Worker节点自动故障转移：节点宕机后，受影响Actor自动迁移至健康节点。
- 滚动升级：不停机更新Ray版本和平台组件，升级期间任务零中断。
自动扩缩容：
- 自动扩容：Ray集群和推理服务均内置支持自动扩容容服务，可以预设相关资源使用阈值，达到阈值后，集群会启动自动扩缩容，降低资源使用成本。
- 集群挂起/启动：在确定集群短期不再使用后，可以一键挂起集群，释放底层的所有机器资源，后续可以一键拉起，原规格重建智算集群。

审计和鉴权

日志审计：全量记录多源 Ray 任务操作轨迹，满足安全审计合规要求。
鉴权：与 WeData 身份体系深度集成，确保 Ray 任务提交权限可控。

自研Xpark多模态数据计算引擎

Xpark 是腾讯自研基于 Python 生态的分布式多模态数据计算引擎，基于 Ray Data 实现，并内置丰富的多模数据处理算子，支持分析处理文本、图片、音频、视频等多模态数据，使企业可以高效的实现多模态数据预处理和分析。

请在此添加图片描述

Xpark 提供的部分算子需要使用 AI 模型并需要部署推理服务，如有远程可用的模型推理服务，您也可以在 Xpark 集群与远程模型服务网络互通情况下使用远程模型。使用相关算子之前建议提前将模型下载至本地文件系统中，并通过智算平台统一推理服务管理和部署该模型，提供更低的网络延迟和更高效的推理性能。

自研 SQL AI Function

企业数据湖仓中积累了海量结构化数据（交易记录、用户行为、IoT传感器，账单等数据），但业务人员缺乏SQL+AI的融合分析能力。TBDS通过自研Spark SQL AI Function，配合TBDS统一推理服务，让业务人员用标准SQL即可调用LLM进行智能分析，体验开箱即用的AI能力。

SELECT
  text
  ai_query(
    'model_test//hunyuan/0',
    text,
    '请用英文单词翻译:"{input}"'
  )AS translated
FROM table_iceberg
WHERE qid=100000078 and scp_id>=499872;

其中：'model_test//hunyuan/0'表示部署在TBDS ，并在Gravitino 注册的模型路径，也可以置为“”，默认选择内置混元大模型。目前已经支持如下常用的SQL AI Function :

请在此添加图片描述

统一推理服务平台

TBDS基于腾讯 TCS 云原生架构，构建 TBDS 统一推理平台，为企业提供从模型接入到业务落地的全链路推理能力，解决了传统推理架构中芯片锁定、模型上线慢、资源利用率低、流量管控缺失四大痛点，助力企业AI转型。

请在此添加图片描述

核心能力：

私有化部署：TBDS智算平台支持在客户自有IDC或私有云部署，支持流量负载均衡，自动扩缩容，流控等特性
国密算法支持：TLS通信采用SM2/SM3/SM4国密算法，满足金融行业合规要求
模型热更新：模型版本统一管理，不停机更新模型版本，通过蓝绿部署实现推理服务零中断升级
审计与溯源：完整记录每次推理请求（输入摘要、输出摘要、模型版本、耗时），满足监管审计要求
支持信创芯片：支持华为昇腾、海光 DCU、寒武纪 MLU 等国产 GPU。

场景落地

多模态数据处理

随着大模型与生成式 AI 的全面普及，企业核心数据正在从"结构化表格"快速转向"多模态原始资产"——文本、图像、音视频、点云、文档、向量混合存在，体量从 TB 级跃升到 PB 级，并以远超传统业务数据的速度持续增长。

请在此添加图片描述

这些数据的共同特点是：单条体量大、格式异构、处理链路长（解析 → OCR/抽帧 → 清洗 → 推理 → 入库）、CPU 与 GPU 算力混合——传统的 Spark/Hive 批处理栈为结构化分析而生，难以胜任；而单机脚本又无法承载 PB 级吞吐。

TBDS智算平台通过调度 CPU/GPU 异构算力，把多步骤算子编排为单一 Pipeline，有有效的处理视频，音频，PPT，PDF，md文本等多模态数据，并把处理的结构化数据实时入TBDS数据湖，供企业后续使用、屏蔽分布式细节，可以让算法工程师专注业务逻辑。

请在此添加图片描述

实际收益：

效率：文档全量处理周期从周级缩短到天级；

成本：得益于pipeline带来的性能提升，整体计算资源使用率节约约 60%；

研发：算法同学只需写单机逻辑，分布式调度与数据分片由平台屏蔽，研发和运维人力投入大幅下降。

模型推理服务私有化部署

随着开源大模型能力日益增强，企业真正的痛点已不再是"训不训得出模型"，而是如何把现成模型稳定、低成本、安全地嵌入业务系统——这正是 TBDS 统一推理平台的核心价值所在：

屏蔽底层异构算力：CPU 推理、NVIDIA GPU、国产信创芯片统一纳管，业务无需感知硬件差异。
治理能力开箱即用：内置鉴权、流控、负载均衡、审计、监控，无需额外搭建。
统一推理网关：OpenAI 兼容 API，一条 URL 接入所有业务系统。
弹性自动扩缩容：流量高低自适应，让算力随业务波动，持续守护企业成本。

请在此添加图片描述

综合收益：

业务接入周期从月级缩短到天级，单 Token 推理成本降低 40% 以上，GPU 利用率提升 30%+；通过国产信创芯片纳管，实现关键业务零依赖国外 GPU，全面满足合规要求。

大模型训练和微调

得益于 TBDS 智算平台简洁的编程模型，开发者无需关心分布式、并行、容错等底层细节——只需写一段 Python 训练函数，平台便会在同一个异构集群中自动完成对象存储读取、数据预处理、模型迭代训练与 Checkpoint 落盘，并将训练完成的模型一键发布到 TBDS 统一推理平台对外提供服务。整套流程端到端打通，开发与调试成本大幅降低，让企业的微调试验从月级缩短到天级。

统一调度 —— CPU + GPU + 信创芯片统一纳管，单 DAG 内算子级绑核绑卡，异构资源不再分散管理。
数据加速 —— tbdsfs:// 直读 + Object Store 零拷贝，跨算子张量传引用不传数据，GPU 等待数据的时间趋近于零。
并行框架 —— 原生兼容 PyTorch DDP / FSDP / DeepSpeed / Megatron-LM，开发者无需改代码即可在多机多卡上拉起训练。
容错弹性 —— 自动 Checkpoint + 故障节点自动恢复 + 弹性扩缩容，长时训练遇到硬件故障不再"重头再来"。
闭环上线 —— 训练产出自动登记到 Gravitino 元数据中心，模型权重落 TBDSFS，TBDS 统一推理平台一键拉起对外提供服务。

请在此添加图片描述