spark

四两拨千斤：借助Spark GraphX将QQ千亿关系链计算提速20倍

腾讯QQ有着国内最大的关系链，而共同好友数，属于社交网络分析的基本指标之一，是其它复杂指标的基础。借助Spark GraphX，我们用寥寥100行核心代码，在高配置的TDW-Spark集群上，只花了2个半小时，便完成了原来需要2天的全量共同好友计算。这标志着QQ千亿级别的关系链计算进入了小时级别时代

腾讯大数据

2018-01-29

0

64

Hadoop Raid-实战经验总结

分布式文件系统用于解决海量数据存储的问题，腾讯大数据采用HDFS（Hadoop分布式文件系统）作为数据存储的基础设施，并在其上构建如Hive、HBase、Spark等计算服务。 HDFS块存储采用三副本策略来保证数据可靠性，随着数据量的不断增长，三副本策略为可靠性牺牲的存储空间也越来越大。如何在不降

腾讯大数据

2018-01-29

0

31

效果广告点击率预估实践：在线学习

1.引言技术钻研如逆水行舟，不进则退。公司的广告业务发展非常迅猛，有目共睹，激烈的外部竞争和客户越来越高的期望，都要求我们的技术不断进步；与此同时，我们也的确在生产实践中遇到了不少的技术问题和挑战，这些都促使我们在技术上不断的尝试突破。经过两年多时间的技术钻研和应用实践，同发表上一篇KM文章时的技

腾讯大数据

2018-01-29

0

34

SparkInAction 图计算用户关系染色分析

前言需求：如果一个用户使用了某个手机，这个手机上登录过其他的用户，那么这些用户是有关系的，同样用户关联到的用户又可以通过手机关联到其他用户这样就构成了一个强大的关系网。现在给出用户与手机登录关系表，请找出所有的用户是有关系的。问题分析整个用户手机关系网拓扑图如下图所示：从图中可以发现，找到

腾讯大数据

2018-01-26

0

20

腾讯大数据套件带你玩转大数据

前言 ‍ 人类每一次大的技术变革都是先在新兴产业生根发芽，再慢慢把触角伸到传统行业。在当前这股由IT(Information Technology)向DT(Data Technology)转变的技术浪潮中，互联网行业成为云计算、大数据等高新技术的试验田。经过近十年的发展，随着大数据技术的不断成熟以及

腾讯大数据

2018-01-26

0

61

一文教你看懂大数据的技术生态圈 Hadoop,hive,spark

大数据本身是个很宽泛的概念，Hadoop生态圈（或者泛生态圈）基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各的用处，互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤，你可以用小刀或者刨子去皮。但是每个工具有自己的特性，虽然奇怪的组合也能

腾讯大数据

2018-01-26

0

18

飞起来的大象-Hadoop从离线到在线

时代在变迁，市场在变化，周边的软硬件环境也突飞猛进般的发展，同时企业的业务需求也不断升级，从规模到成本都有较高的要求，这刺激Hadoop生态圈的变革。据AMR研究显示，到2020年Hadoop将拥有502亿美元市场。如此多金诱惑下，各大解决方案提供商对Hadoop生态圈的发力可谓是越来越快，顺应潮流

腾讯大数据

2018-01-26

0

24

主流大数据系统在后台的层次角色及数据流向

最近有不少质疑大数据的声音，这些质疑有一定的道理，但结论有些以偏概全，应该具体问题具体分析。对大数据的疑问和抗拒往往是因为对其不了解，需要真正了解之后才能得出比较客观的结论。大数据是一个比较宽泛的概念，它包含大数据存储和大数据计算，其中大数据计算可大致分为计算逻辑相对简单的大数据统计，以及计算

腾讯大数据

2018-01-26

0

26

浅谈开源大数据平台的演变

一说到开源大数据处理平台，就不得不说此领域的开山鼻祖Hadoop，它是GFS和MapReduce的开源实现。虽然在此之前有很多类似的分布式存储和计算平台，但真正能实现工业级应用、降低使用门槛、带动业界大规模部署的就是Hadoop。得益于MapReduce框架的易用性和容错性，以及同时包含存储系统

腾讯大数据

2018-01-26

0

24

相比Hadoop,如何看待Spark技术?

之前看Spark的评价，几乎一致表示，Spark是小数据集上处理复杂迭代的交互系统，并不擅长大数据集，也没有稳定性。但是最近的风评已经变化，尤其是14年10月他们完成了Peta sort的实验，这标志着Spark越来越接近替代Hadoop MapReduce了。 **Sort和Shuffle是Map

腾讯大数据

2018-01-26

0

20