本文共计4189字 预计阅读时长13分钟

随着企业数据规模持续增长,数据团队普遍面临开发协同效率不足、数据一致性难以稳定保障、AI 场景落地链路偏长等挑战。WeData 2月版本围绕数据开发、数据集成、数据科学、数据治理四大核心模块全面升级,覆盖从开发协同、实时同步到 AI 落地与合规管控的关键环节,进一步提升端到端能力,以一体化方案助力企业打通数据链路、释放数据价值。

1

数据开发:一体化 + 工程化,

效率与规范双提升

1.全新Studio数据开发IDE,开发体验革新

  • 多任务类型一站式开发:Studio作为全新的数据工程开发模块,打造了Notebook与SQL的统一开发环境。用户可以在同一个界面中灵活切换多种开发语法,直接在单元格中运行Python或SQL代码。有效解决了开发者在数据处理和分析过程中需要频繁切换开发工具的痛点,使得开发过程更加流畅。

请在此添加图片描述

  • 大数据引擎生态打通:通过Jupyter内核机制,开发者可以将Notebook任务直接提交到DLC或EMR引擎执行,轻松访问引擎数据,避免了在开发过程中进行频繁的数据搬迁,提升数据处理的效率和便捷性,完成了引擎与大数据开发平台功能闭环。
  • 工程级协作和资产管理:Studio深度集成了Git源代码管理功能,提供严格的版本控制和分支管理能力,使得开发团队能够有效地追踪代码变更,避免因代码冲突而导致的开发问题,从而提升代码质量和项目的可维护性。

请在此添加图片描述

  • 开发隐私安全进一步提升:Studio提供了用户隔离的个人开发环境,确保每位用户在独立的空间中进行开发,防止数据泄露或误操作。同时支持细粒度的文件权限控制,用户可以根据需要设置不同的访问权限,为数据处理和分析提供了安全保障。

2.WeData Bundle工程化交付,融入企业 DevOps

数据开发与发布长期依赖人工配置和跨环境迁移,容易出现版本不可追溯、环境不一致、漏配错配等问题,交付效率与稳定性难以保障。为此,WeData新增 WeData CLI与WeData Bundle,提供面向数据工程的CI/CD方案:CLI支持命令行操作与自动化集成;Bundle将工作流、任务等开发资源源文件化,沉淀为可管理、可审计的文件包,纳入企业现有工程体系。结合GitLab Pipeline等CI/CD流水线,可在提交后自动完成跨环境发布与迁移,并支持工作流/任务YAML 在线预览与快捷生成,进一步降低配置成本。最终让数据资产像代码一样进入流水线,实现自动化部署,把跨环境迁移从“半天手工配置”变成“一条命令完成”。

请在此添加图片描述

3.编排空间丰富任务类型和调度模式

  • 开发与编排深度集成:编排空间新增Notebook任务节点,支持选择Studio的Notebook文件进行统一编排调度,使得数据的 ETL(抽取、转换、加载)过程更加高效和自动化,确保数据产出的及时性和准确性;
  • 多任务类型联动编排:新增DLC Spark实时计算,支持Spark Streaming任务,实现实时任务开发、编排、监控一站式管理; 数据质量节点上线,内置校验模板,支持表级/字段级/自定义规则校验,异常数据可阻断流转;
  • 双重模式灵活调度:同时支持任务级与工作流级调度,适配精细化与批量管理需求。

2

数据集成: 构建全球互联、

多模态融合与高可靠的全域

数据连接服务

1.全球化链路覆盖:打破地域限制,加速海外业务布局

针对企业出海或多云架构下海外数据源接入难、链路扩展性差的挑战,WeData新增了对AWS S3、Azure Blob Storage、BigQuery等海外数据源的支持,同时实时整库迁移任务新增 30+ 条同步链路,助力企业构建全球化数据互联网络,将新业务接入周期从周级缩短至天级。

2.多模态数据同步:激活沉睡资产,实现全域数据入湖

面对本地及云端大量非结构化数据(如文档、图片、日志)难以统一入湖分析的痛点,WeData现支持将本地及COS文件一键上传至多模态数据湖,全面补齐数据资产版图,为后续的 AI 训练与大数据分析提供全量、高质量的“原始燃料”,实现全域数据资产的一站式掌控。

3.数据对账:从“人工抽检”到“分钟级监控”,捍卫数据一致性

在金融、电商等对数据准确性极度敏感的场景中,针对丢数、错数导致报表失真且人工核对效率低的问题,我们推出全量与增量双模式对账功能,实时监控源端与目标端在数据条数、数据内容上的差异,将一致性问题的发现时间从天级缩短至分钟级,确保每一条数据都精准无误。

请在此添加图片描述

4.整库灵活配置:兼顾高效与灵活,实现精细化管控

针对大规模整库同步时无法兼顾单表差异化需求、导致运维成本高昂的困境,WeData支持按单表粒度配置字段映射与数据过滤,让用户在享受整库同步便捷性的同时,获得精细化的管控能力。

请在此添加图片描述

5.轻量ETL转换:同步即清洗,开启“入库即可用”新模式

面对源端数据格式杂乱、二次清洗链路长且计算成本高的现状,我们在同步过程中集成了轻量ETL转换,内置JSON、哈希、时间等六大类函数库,实现“同步即加工”,简化了50% 以上的处理链路,显著提升数据流转效率,让数据价值的释放更加实时高效。

3

数据科学:模型训练和服务,

全链路闭环,加速AI规模化落地

1.全链路追溯与精细化权限管理

  • 端到端血缘追溯:支持“数据–特征–实验–模型–服务”全链路血缘查看与跳转,帮助快速定位问题来源,提升研发与运维效率;
  • 模型服务质量监控:支持推理数据回流,提供分类、回归、预测等模型指标与数据漂移监控,实时掌握线上服务效果;
  • 训练数据质量监控:支持原始数据与特征数据的质量分析与漂移监控,及时感知业务场景变化;
  • 实体级权限控制:支持按用户精细化授权特征、模型、实验等操作权限,在保障安全的同时提升团队协作效率。

请在此添加图片描述

2.特征管理能力全面升级

  • 统一特征管理体系:实现离线与在线特征的统一存储、统一管理与统一消费,集约化的存储、读取、分析和复用特征,避免烟囱式的开发协作模式;
  • 支持离线特征批量导入、默认特征库配置及特征详情、血缘查看;

请在此添加图片描述

  • 离在线特征一致性保障:支持离线与在线特征自动同步,实现从离线特征加工到在线服务的无缝衔接,模型上线前的特征准备时间大幅缩短;
  • 特征工程代码化与调度:提供特征工程工具包,支持特征处理全流程代码化,并可结合工作流实现周期调度。

请在此添加图片描述

3.模型服务和训练能力持续优化

  • 自定义服务镜像:支持使用自定义镜像部署模型服务,并提供服务健康与性能监控;
  • 模型服务资源组:支持统一纳管计算资源用于在线服务部署,提升资源利用效率;
  • 服务高可用能力:支持多副本部署与负载均衡,实现模型服务容灾,保障业务连续性;
  • GPU深度学习支持:打通深度学习训练、实验管理到模型部署全流程,显著提升深度学习模型开发效率。

4.无代码建模AutoML

无代码AutoML:覆盖分类、回归、时间序列预测等核心场景,让用户无需深入掌握机器学习算法和调参细节,也能高效地完成数据预处理、特征工程、模型选择、超参数优化、模型评估等一系列机器学习任务。将AI建模的门槛从“需要算法工程师数周开发”降低为“业务人员数小时自助完成”。

请在此添加图片描述

4

数据治理:全域统管+质效双升,

夯实AI-Ready智能数据根基

1.支持指标加速,开放指标服务

  • 指标加速:支持创建指标视图,并可基于指标视图配置加速任务,查询指标时将自动路由至加速结果集,显著提升指标结果查询速度;

请在此添加图片描述

  • 指标MCP 赋能Agent智能取数:开放指标MCP协议,让 Agent 可以跟进用户提问直接调用 WeData 的指标服务,实现’自然语言提问 → 指标查询 → 结果返回’的闭环,相较于NLtoSQL查询结果更准确、更可性、更可控。
  • 开放指标服务:支持 JDBC、Restful API 等多元指标服务接口,全面开放指标服务能力。JDBC 支持与 BI 系统灵活对接,可基于指标可视化配置与生成报表;Restful API 为业务系统提供指标计算结果的实时查询与调用能力。

请在此添加图片描述

2.统一元数据管理

通过构建Catalog→Schema→Table/View/Model/Volume/Function三层元数据管理架构,统一纳管结构化数据、模型与非结构化数据;支持一站式查看元数据基础信息、表血缘、模型血缘、变更历史、数据质量、访问日志及使用说明,并提供全域统一的权限管控能力。

请在此添加图片描述

3.升级质量监控,覆盖模型训练数据和模型质控

针对模型训练数据和模型质量,通过自动化的质量管控预警数据漂移与性能衰减风险,并支持配置Dashboard查看推理表、时序表和快照表等关键质量指标,降低AI运维成本。

请在此添加图片描述

图1:基础分析

请在此添加图片描述

图2:推理分析-公平性和偏差

请在此添加图片描述

图3: 漂移监控-数据漂移指标

5

WeData核心链路OpenAPI重构,

覆盖四大核心模块

本次更新完成了WeData核心链路OpenAPI全面重构,覆盖平台基础、数据开发、任务运维、数据资产四大核心模块,优化接口逻辑与调用体验,提升平台开放能力与系统稳定性。

  • 平台基础模块 - 夯实底层能力,提供统一权限管理、资源调度等基础服务;
  • 数据开发模块 - 赋能数据开发全流程,支持任务编排、调度配置、代码管理等核心场景;
  • 任务运维模块 - 打通运维监控链路,实现任务状态追踪、异常告警、性能优化等智能运维;
  • 数据资产模块 - 构建资产管理体系,覆盖元数据管理、血缘分析、质量监控等关键能力。

WeData OpenAPI可显著提高系统集成与互操作性,实现与企业现有系统的无缝对接,支持与第三方工具和平台的灵活集成;通过 API 形式实现定制化能力,满足企业特殊业务需求,灵活扩展平台功能,适应不同业务场景。通过 API 实现数据开发流程的自动化,支持程序化调用,减少手工操作,帮助企业在数据构建和应用的过程中减少重复开发工作,加快项目交付速度。

未来,WeData将持续增强Data+AI的企业级数据智能平台的功能,帮助各行业客户加速释放数据与智能融合价值。

点击“阅读原文”立即进入WeData开启产品体验→

文章来源于腾讯云开发者社区,点击查看原文