spark

国内首个生产级Spark+Ray智能数据湖平台来了！

Agent 从概念走向落地，企业数据架构正面临一场静默的革命。传统"数据平台 + AI 平台"的两套架构，让数据在搬运中流失价值、让运维成本随规模指数增长。Agent 需要的不是更多的管道，而是一块能让数据与 AI 计算原生融合的统一底座。 7 月 25 日上午，深圳机场凯悦酒店，DataFun

腾讯QQ大数据

2026-07-13

0

8

大索引技术，大数据的未来

不管你信也好，不信也好，大数据时代真的来临了，随着Hadoop技术的普及，其生态圈发展的越来越壮大，Hive、Hbase、Spark、Storm等的一系列新名词不断的涌现在我们的眼里。似乎NoSQL一夜间，攻陷了全部的大数据阵地。那么传统的关系型数据库的一些思路，真的没有用武之地了么？真的就一去不

腾讯大数据

2023-03-04

0

85

实时湖仓一体规模化实践：腾讯广告日志平台

1. 背景 1.1 整体架构腾讯广告系统中的日志数据流，按照时效性可划分为实时和离线，实时日志通过消息队列供下游消费使用，离线日志需要保存下来，供下游准实时（分钟级）计算任务，离线（小时级/天级/Adhoc）分析处理和问题排查等基于日志的业务场景。因此，我们开发了一系列的日志落地处理模块，包括消息

腾讯大数据

2022-09-20

0

222

【技术分享】交换最小二乘

本文原作者：尹迪，经授权后发布。 1 什么是ALS ALS是交替最小二乘（alternating least squares）的简称。在机器学习中，ALS特指使用交替最小二乘求解的一个协同推荐算法。它通过观察到的所有用户给商品的打分，来推断每个用户的喜好并向用户推荐适合的商品。举个例子，我们看下面一

腾讯云TI平台

2020-02-21

0

75

Spark源码和调优简介 Spark Core

作者：calvinrzluo，腾讯 IEG 后台开发工程师本文基于 Spark 2.4.4 版本的源码，试图分析其 Core 模块的部分实现原理，其中如有错误，请指正。为了简化论述，将部分细节放到了源码中作为注释，因此正文中是主要内容。 Spark Core RDD RDD(Resilient D

腾讯技术工程官方号

2020-02-10

0

81

深入浅出理解 Spark：环境部署与工作原理

一、Spark 概述 Spark 是 UC Berkeley AMP Lab 开源的通用分布式并行计算框架，目前已成为 Apache 软件基金会的顶级开源项目。Spark 支持多种编程语言，包括 Java、Python、R 和 Scala，同时 Spark 也支持 Hadoop 的底层存储系统 HD

腾讯技术工程官方号

2019-12-30

0

104

腾讯正式开源图计算框架Plato，十亿级节点图计算进入分钟级时代

腾讯开源再次迎来重磅项目，14日，腾讯正式宣布开源高性能图计算框架Plato，这是在短短一周之内，开源的第五个重大项目。相对于目前全球范围内其它的图计算框架，Plato可满足十亿级节点的超大规模图计算需求，将算法计算时间从天级缩短到分钟级，性能全面领先领先于其它主流分布式图计算框架，并且打破了原本

腾讯技术工程官方号

2019-11-18

0

58

SuperSQL：跨数据源、跨DC、跨执行引擎的高性能大数据SQL中间件

导语：SuperSQL是腾讯数据平台部自研的跨数据源、跨数据中心、跨执行引擎的统一大数据SQL分析平台/中间件，支持对接适配多类外部开源SQL执行引擎，如Spark、Hive等。背景 SuperSQL是一款自研的跨数据源、跨数据中心、跨执行引擎的高性能大数据SQL中间件，满足对位于不同数据中心的不

腾讯大数据

2019-09-26

0

132

SuperSQL：跨数据源、跨DC、跨执行引擎的高性能大数据SQL中间件

导语：SuperSQL是腾讯数据平台部自研的跨数据源、跨数据中心、跨执行引擎的统一大数据SQL分析平台/中间件，支持对接适配多类外部开源SQL执行引擎，如Spark、Hive等。背景 SuperSQL是一款自研的跨数据源、跨数据中心、跨执行引擎的高性能大数据SQL中间件，满足对位于不同数据中心的不

腾讯技术工程官方号

2019-09-24

0

125

腾讯重磅发布全栈机器学习平台Angel 3.0

腾讯首个AI开源项目Angel，正式发布一个里程碑式的版本：Angel 3.0。这是一个全栈的机器学习平台，功能特性涵盖了机器学习的各个阶段，超过50万行代码，在 GitHub 上 Star 数已超过 4200，Fork 数超过 1000。一个全栈的机器学习平台，近日悄悄上线了。 8月22日，腾讯

腾讯技术工程官方号

2019-08-28

0

92

腾讯首个AI开源项目Angel发布3.0里程碑版本，迈向全栈机器学习平台

2019年8月22日，腾讯首个AI开源项目Angel正式发布3.0版本。Angel 3.0尝试打造一个全栈的机器学习平台，功能特性涵盖了机器学习的各个阶段：特征工程、模型训练、超参数调节和模型服务。 Angel 3.0概览（红色表示新增特性，白色表示已有但在持续改进的特性） Angel的特征工程模

腾讯开源

2019-08-28

0

77

超50万行代码、GitHub 4200星：腾讯重磅发布全栈机器学习平台Angel 3.0

**【导读】**腾讯首个AI开源项目Angel，正式发布一个里程碑式的版本：Angel 3.0。这是一个全栈机器学习平台，功能特性涵盖了机器学习的各个阶段，超过50万行代码，在 GitHub 上 Star 数已超过 4200，Fork 数超过 1000。一个全栈机器学习平台，近日悄悄上线了。 8月

腾讯大数据

2019-08-26

0

81

【技术分享】Spark DataFrame入门手册

本文原作者：赖博先，经授权后发布。一、简介 Spark SQL是spark主要组成模块之一，其主要作用与结构化数据，与hadoop生态中的hive是对标的。而DataFrame是spark SQL的一种编程抽象，提供更加便捷同时类同与SQL查询语句的API，让熟悉hive的数据分析工程师能够非常快

腾讯云TI平台

2019-08-06

0

156

大牛书单 | 大数据存储方向好书分享

导语：读书是一生的功课，技术人通过读书实现自我提升，学习优秀知识沉淀。TEG书知道本期特邀腾讯云数仓数据湖产品负责人堵俊平、腾讯云数据库负责人林晓斌、腾讯TEG云架构平台部数据块中心高级工程师王银虎，腾讯TEG计费平台部账户中心专家工程师潘安群为大家带来大数据方向好书推荐。来看看技术大牛在读什么，收

腾讯技术工程官方号

2019-06-03

0

71