
本文共计5625字 预计阅读时长17分钟
// TBDS · 多模智算平台系列 //
01 腾讯云TBDS面向AI时代的多模态智算平台,助力企业AI转型
02 ......
03 ......
随着多模态大模型快速演进,企业在AI基础设施层面面临异构算力管理复杂、数据处理链路冗长、训练推理资源割裂浪费等核心挑战。腾讯云TBDS基于Ray构建多模态数据智算平台,支持GPU/CPU等异构资源统一调度,把多模数据转换和AI计算放到一个pipeline,提高40%GPU资源使用率,通过推理框架性能优化,支持大模型推理服务分布式构建,流量负载均衡等功能,自研Xpark,HyperFrame和SQL AI Function等处理库,让客户用一句SQL就能调用大模型,像查表一样分析数据湖里的图片、视频和文本,把多模态数据从"难用的资产"变成"开箱即用的生产力",AI落地周期从月级压缩到天级。
AI浪潮下的算力困局
异构算力资源调度与管理复杂度激增
当前企业AI基础设施普遍存在 GPU/NPU/CPU/DPU 混合部署 的异构算力格局。以典型的智算中心为例,往往同时承载:
- NVIDIA A100/H100 集群用于大模型训练。
- 国产加速卡(昇腾、寒武纪等)满足信创与合规要求。
- 高主频CPU节点 用于数据预处理、特征工程和轻量推理。
- DPU/SmartNIC 用于网络卸载与存储加速。
这种"多池共存"的架构带来三大管理难题:

企业更期望在一个统一平台内管理训练(Training)、微调(Fine-tuning)、推理(Inference)、数据处理(ETL)四类负载,并统一运维体系,而传统架构中这四类负载往往跑在完全独立的计算集群上,导致GPU等昂贵的计算资源利用率极低。
多模态数据处理链路工程化门槛高
传统多模态AI应用(视频理解、图文检索、自动驾驶感知,财报分析)的数据处理链路极为复杂,典型流程如下:

这一链路的工程化痛点在于:
- 工具链割裂:视频处理用FFmpeg,OCR用PaddleOCR,向量化用SentenceTransformers,每个环节依赖不同的Python环境和计算后端
- 计算形态混杂:视频抽帧是CPU密集型,OCR和向量化适合GPU加速,数据格式转换又回归CPU —— 同一条Pipeline需要在CPU和GPU之间多次数据搬运
- 扩展性不足:当数据规模从百万级增长到亿级时,单机Python脚本无法横向扩展,而迁移到Spark/Flink又面临PyUDF性能瓶颈和API不兼容问题
- 数据需要反复落盘,验证影响cpu使用率
数据-训练-推理割裂导致资源使用率低
在传统AI工程架构中,数据预处理、模型训练和在线推理三套系统各自独立:
- 数据系统:基于Hadoop/Spark集群,使用Java/Scala生态
- 训练系统:基于Kubernetes + GPU集群,使用Python/PyTorch生态
- 推理系统:基于Triton/TensorRT/vLLM,使用独立的模型仓库和Serving框架
三套系统意味着三套存储、三套计算、三次数据搬运:
- 原始数据从数据湖(HDFS/OSS)抽取到训练集群的本地SSD
- 训练输出的Checkpoint再推送到模型仓库(S3/NFS)
- 推理服务从模型仓库加载模型到显存
数据在HDFS → 本地SSD → S3 → 显存之间多次拷贝,不仅浪费存储带宽,更导致端到端迭代周期以"天"为单位。
腾讯云TBDS基于腾讯TCS云原生套件构建多模态数据智算平台,CPU和GPU在一个集群里面混合调度,数据在共享内存Object Memory Store里面高效传输,打通数据预处理,模型训练和推理服务上线全部流程,从而实现一个计算引擎,一个存储和一套运维管控系统,把多模态数据处理效率提升100%,gpu使用率提升40%。
腾讯云TBDS智算平台
TBDS智算平台基于构建的多模态数据智算引擎,通过分层架构设计将异构资源管理、分布式计算、模型服务有机整合,实现了从数据接入、特征工程、模型训练到推理部署的全链路闭环,为企业提供一站式AI开发与交付能力。
智算平台总体架构

TBDS 为企业级 AI 推理场景提供从镜像、模型到运维的全栈标准化能力。通过弹性扩缩容和多租户隔离实现资源降本(GPU 利用率提升一倍以上),通过一键部署和预置镜像实现研发提效(上线从周级缩短到分钟级),通过滚动升级、高可用和灰度发布保障生产稳定(业务无感知升级、故障秒级恢复),并以统一鉴权、全链路审计和监控追踪构建企业级安全治理。让算法团队无需关心底层基础设施,专注模型价值本身。
用户接入
- 用户作业多入口统一接入和鉴权能力:
- WeData 数据开发平台:面向数据工程师的可视化开发环境,支持拖拽式Pipeline编排、血缘追踪、数据质量检测。用户可通过WeData直接提交Ray作业,平台自动完成资源申请、镜像拉取、作业监控的全生命周期管理。
- Kyuubi 统一SQL网关:基于Apache Kyuubi构建的SQL代理层,兼容Spark SQL / Hive SQL / Trino SQL 语法。用户可通过标准JDBC/ODBC接口,将SQL查询无缝路由到Ray计算引擎执行,实现大数据与AI计算的SQL化统一访问。
镜像管理与模型支持
TBDS智算平台内置支持x86的GPU和CPU基础镜像,预装部分常用机器学习库,并提供业务依赖的python库的在线、离线部署能力,满足不同网络环境下的快速环境构建。用户既可直接使用开箱即用的标准镜像,也可按需扩展自定义依赖,无需重新打包镜像即可灵活调整运行环境,大幅降低环境配置成本与上线门槛。

统一运维底座
全栈可观测体系
- 资源大盘监控:
- 全局资源总览:总卡数 / 已用卡数 / 碎片卡数 / 利用率趋势。
- 作业资源使用:支持作业使用资源监控大盘,协助定位资源使用。
- 节点级监控:每张GPU的显存占用、温度、功耗、NVLink带宽。
- 租户隔离:按Namespace/Project维度展示资源配额与使用量。
- History Server:
- 作业全生命周期追踪:提交时间、排队时间、执行时间、资源使用量。
- 任务级Profiling:每个Actor/Task的CPU/内存/显存时间线。
企业级高可用架构
- 高可用与滚动升级:
- Head节点元数据高可用:基于redis实现元数据高可用。
- Worker节点自动故障转移:节点宕机后,受影响Actor自动迁移至健康节点。
- 滚动升级:不停机更新Ray版本和平台组件,升级期间任务零中断。
- 自动扩缩容:
- 自动扩容:Ray集群和推理服务均内置支持自动扩容容服务,可以预设相关资源使用阈值,达到阈值后,集群会启动自动扩缩容,降低资源使用成本。
- 集群挂起/启动:在确定集群短期不再使用后,可以一键挂起集群,释放底层的所有机器资源,后续可以一键拉起,原规格重建智算集群。
审计和鉴权
- 日志审计:全量记录多源 Ray 任务操作轨迹,满足安全审计合规要求。
- 鉴权:与 WeData 身份体系深度集成,确保 Ray 任务提交权限可控。
自研Xpark多模态数据计算引擎
Xpark 是腾讯自研基于 Python 生态的分布式多模态数据计算引擎,基于 Ray Data 实现,并内置丰富的多模数据处理算子,支持分析处理文本、图片、音频、视频等多模态数据,使企业可以高效的实现多模态数据预处理和分析。

Xpark 提供的部分算子需要使用 AI 模型并需要部署推理服务,如有远程可用的模型推理服务,您也可以在 Xpark 集群与远程模型服务网络互通情况下使用远程模型。使用相关算子之前建议提前将模型下载至本地文件系统中,并通过智算平台统一推理服务管理和部署该模型,提供更低的网络延迟和更高效的推理性能。
自研 SQL AI Function
企业数据湖仓中积累了海量结构化数据(交易记录、用户行为、IoT传感器,账单等数据),但业务人员缺乏SQL+AI的融合分析能力。TBDS通过自研Spark SQL AI Function,配合TBDS统一推理服务,让业务人员用标准SQL即可调用LLM进行智能分析,体验开箱即用的AI能力。
SELECT
text
ai_query(
'model_test//hunyuan/0',
text,
'请用英文单词翻译:"{input}"'
)AS translated
FROM table_iceberg
WHERE qid=100000078 and scp_id>=499872;
其中:'model_test//hunyuan/0'表示部署在TBDS ,并在Gravitino 注册的模型路径,也可以置为“”,默认选择内置混元大模型。目前已经支持如下常用的SQL AI Function :

统一推理服务平台
TBDS基于腾讯 TCS 云原生架构,构建 TBDS 统一推理平台,为企业提供从模型接入到业务落地的全链路推理能力,解决了传统推理架构中芯片锁定、模型上线慢、资源利用率低、流量管控缺失四大痛点,助力企业AI转型。

核心能力:
- 私有化部署:TBDS智算平台支持在客户自有IDC或私有云部署,支持流量负载均衡,自动扩缩容,流控等特性
- 国密算法支持:TLS通信采用SM2/SM3/SM4国密算法,满足金融行业合规要求
- 模型热更新:模型版本统一管理,不停机更新模型版本,通过蓝绿部署实现推理服务零中断升级
- 审计与溯源:完整记录每次推理请求(输入摘要、输出摘要、模型版本、耗时),满足监管审计要求
- 支持信创芯片:支持华为昇腾、海光 DCU、寒武纪 MLU 等国产 GPU。
场景落地
多模态数据处理
随着大模型与生成式 AI 的全面普及,企业核心数据正在从"结构化表格"快速转向"多模态原始资产"——文本、图像、音视频、点云、文档、向量混合存在,体量从 TB 级跃升到 PB 级,并以远超传统业务数据的速度持续增长。

这些数据的共同特点是:单条体量大、格式异构、处理链路长(解析 → OCR/抽帧 → 清洗 → 推理 → 入库)、CPU 与 GPU 算力混合——传统的 Spark/Hive 批处理栈为结构化分析而生,难以胜任;而单机脚本又无法承载 PB 级吞吐。
TBDS智算平台通过调度 CPU/GPU 异构算力,把多步骤算子编排为单一 Pipeline,有有效的处理视频,音频,PPT,PDF,md文本等多模态数据,并把处理的结构化数据实时入TBDS数据湖,供企业后续使用、屏蔽分布式细节,可以让算法工程师专注业务逻辑。

实际收益:
效率:文档全量处理周期从周级缩短到天级;
成本:得益于pipeline带来的性能提升,整体计算资源使用率节约约 60%;
研发:算法同学只需写单机逻辑,分布式调度与数据分片由平台屏蔽,研发和运维人力投入大幅下降。
模型推理服务私有化部署
随着开源大模型能力日益增强,企业真正的痛点已不再是"训不训得出模型",而是如何把现成模型稳定、低成本、安全地嵌入业务系统——这正是 TBDS 统一推理平台的核心价值所在:
- 屏蔽底层异构算力:CPU 推理、NVIDIA GPU、国产信创芯片统一纳管,业务无需感知硬件差异。
- 治理能力开箱即用:内置鉴权、流控、负载均衡、审计、监控,无需额外搭建。
- 统一推理网关:OpenAI 兼容 API,一条 URL 接入所有业务系统。
- 弹性自动扩缩容:流量高低自适应,让算力随业务波动,持续守护企业成本。

综合收益:
业务接入周期从月级缩短到天级,单 Token 推理成本降低 40% 以上,GPU 利用率提升 30%+;通过国产信创芯片纳管,实现关键业务零依赖国外 GPU,全面满足合规要求。
大模型训练和微调
得益于 TBDS 智算平台简洁的编程模型,开发者无需关心分布式、并行、容错等底层细节——只需写一段 Python 训练函数,平台便会在同一个异构集群中自动完成对象存储读取、数据预处理、模型迭代训练与 Checkpoint 落盘,并将训练完成的模型一键发布到 TBDS 统一推理平台对外提供服务。整套流程端到端打通,开发与调试成本大幅降低,让企业的微调试验从月级缩短到天级。
- 统一调度 —— CPU + GPU + 信创芯片统一纳管,单 DAG 内算子级绑核绑卡,异构资源不再分散管理。
- 数据加速 —— tbdsfs:// 直读 + Object Store 零拷贝,跨算子张量传引用不传数据,GPU 等待数据的时间趋近于零。
- 并行框架 —— 原生兼容 PyTorch DDP / FSDP / DeepSpeed / Megatron-LM,开发者无需改代码即可在多机多卡上拉起训练。
- 容错弹性 —— 自动 Checkpoint + 故障节点自动恢复 + 弹性扩缩容,长时训练遇到硬件故障不再"重头再来"。
- 闭环上线 —— 训练产出自动登记到 Gravitino 元数据中心,模型权重落 TBDSFS,TBDS 统一推理平台一键拉起对外提供服务。

综合收益:

总结与展望
腾讯云TBDS多模态数据智算平台通过Ray统一计算底座 + 自研Xpark/HyperFrame引擎 + TBDSFS统一存储的三层架构,系统性解决了企业在AI基础设施层面面临的异构算力管理、多模态数据处理、训练推理割裂等核心难题。
资源效率:GPU利用率从30%提升至75%,CPU资源充分复用,整体TCO降低60%+。
工程效率:从"周"级的Pipeline开发周期压缩到"天"级,SQL AI Function让业务人员自助分析。
落地速度:预置多行业解决方案模板,银行/券商/自动驾驶/音视频等场景开箱即用。



关注腾讯云大数据╳探索数据的无限可能
往期精彩


