tag

MapReduce

​ Apache Pig是在HDFS和MapReduce之上的数据流处理语言,它将数据流处理自动转换为一个DAG(有向无环图)的MapReduce作业流去执行,为数据分析人员提供了更简单的海量数据操作接口。但是在DAG的作业流中,作业之间存在冗余的磁盘读写、网络开销以及多次资源申请,使得Pig任务存

引言 虎牙是中国第一家上市的游戏直播公司,旗下产品包括知名游戏直播平台虎牙直播、风靡东南亚和南美的游戏直播平台NimoTV等,产品覆盖PC、Web、移动三端。其中,游戏直播平台虎牙直播月活达1.5亿。 如何借助于海量业务数据将全平台的优质内容与终端用户更智能、高效地连接起来,为公司运营和业务发展提供

1. 前言 ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。它于2016年以apache 2.0协议开源,以优秀的查询性能,深受广大大数据工程师欢迎。为了服务客户业务,腾讯云于2020年4月正式上线ClickHouse服务。 服务上线以来,迅速获得内外客户广泛支持

​引言 随着大数据技术架构的演进,存储与计算分离的架构能更好的满足用户对降低数据存储成本,按需调度计算资源的诉求,正在成为越来越多人的选择。相较 HDFS,数据存储在对象存储上可以节约存储成本,但与此同时,对象存储对海量文件的写性能也会差很多。 腾讯云弹性 MapReduce(EMR) 是腾讯云的一

​ 导语 | 腾讯内部每日都需要对海量的游戏营销活动数据做效果分析,而活动参与人数的去重一直是一项难点。本文将为大家介绍腾讯游戏营销活动分析系统——奕星,在去重服务上的技术思路和迭代方案,希望与大家一同交流探讨。 文章作者:王方晓,腾讯运营开发工程师。 ​ 一、背景 奕星 (EAS) 是腾讯内部专注

​ 1. 当前大数据挑战 近年来,随着大数据规模的增长,以及大数据应用的发展,大数据技术的架构也在持续演进。早期的技术架构是计算资源和存储资源高度融合,计算和存储资源一体化存在以下明显的挑战: 数据孤岛:如今,企业拥有PB级数据已经成为常态,EB级数据时代也将很快到来。企业需要面向结构化数据、非结构