小红书是年轻人的生活方式平台,于2013年在上海创立。小红书以“Inspire Lives 分享和发现世界的精彩”为使命,用户可以通过短视频、图文等形式记录生活点滴,分享生活方式,并基于兴趣形成互动。

小红书作为国内头部社交电商平台,日活跃用户数超3500万,月活跃用户数超过1亿,每天笔记曝光量达到80亿次。面对爆发式增长的业务场景,小红书研发团队利用公有云弹性计算的能力完成AI训练和学习,为推荐、广告和搜索等业务提供模型支撑,同时也满足了海量大数据计算下对性能成本的弹性需求从而减少业务成本。

小红书SRE总监陈翱翔表示,随着算力需求不断增长,小红书迫切需要高性能、高性价比的算力支撑。在经过性能、稳定性、成本等多个维度详细评测后,小红书最终决定选择基于腾讯云星星海自研硬件的SA2云服务器作为主力计算机型使用。结合其秒级急速扩缩容、超强兼容和平滑迁移的能力,小红书在抗住数以亿计的用户访问量,保证系统稳定运行的同时,也实现了成本的大幅下降。

星星海SA2云服务器是基于腾讯云星星海首款自研服务器而打造。腾讯云星星海作为自研硬件品牌,致力于通过创新性的高兼容架构,简洁可靠的自主设计,结合腾讯自有业务以及云上数百万客户的需求特性,为云计算时代提供安全稳定、性能领先的基础设施产品和服务。如今,星星海SA2云服务器也正在为越来越多的企业提供低成本、高效率、更安全的弹性计算服务。

以下为对话小红书SRE总监陈翱翔实录。

请您介绍一下小红书及主要业务模式?

小红书是年轻人的生活方式平台,在这里发现向上、多元的真实世界。小红书的日活超3500万,月度活跃用户过亿,每天笔记曝光量达到80亿次。小红书主要由两部分组成,社交平台和网络购物。相比其他在线平台,小红书的内容基于真实口碑分享,种草不止于线上,还能够赋能线下的实体店。

围绕业务发展,小红书系统架构经历了怎样的转型和演变?

系统架构变化不大,影响最深的是资源开销。过去三年的资源开销增加得很明显,环比有约10倍的增长。这个背景下,我们做了努力去优化,包括很早期,小红书就开始使用K8S来做资源调度了。在18年年中以前,绝大部分的服务已经全量容器化。

目前小红书系统架构中,计算基础设施建设与布局是怎样的?

我们当前的建设方式,可以简单描述为星型结构。腾讯云上海某区是我们的计算中心,它承载着我们的核心数据和在线业务。在外围,我们还有两个用于计算分流的数据中心,它们同时承担着容灾以及在线业务双活的角色。

和其他新型电商类互联网公司类似,小红书基础设施中的大部分算力主要用于为离线数据分析、模型训练和在线推荐等平台。随着业务的发展,算力的需求也在以更快的速度增长。

我们预估在2025年,AI相关的计算需求将消耗掉大部分的算力,在线业务消耗的算力将下降到30%以内。所以在基础设施的规划上,我们一方面花了不少精力做减法,让基础设施更简单、健壮;另一方面也会赋予它更多灵活性和扩展性,以便适配更具性价比的计算资源和更灵活的算力调度。

小红书基于什么原因选择了腾讯云星星海SA2云服务器?规模怎样?

前面提到我们对算力的需求增长得更快,它和日活用户的比例超过了线性的增长。我们对高性能、高性价比的算力需求是很迫切的。星星海SA2云服务器在推出前,我们就已经和腾讯云服务团队开始了频繁的沟通和硬件测试。我们从性能、稳定性、成本等多个维度详细评测后,决定选择基于腾讯云星星海自研硬件的SA2云服务器作为主力计算机型使用。并且从腾讯云侧了解到,很多客户早已经在用星星海SA2云服务器了,甚至包括腾讯自己的关键业务比如广告、微信也都在用,也很稳定,我们也就比较放心。

所以我们在前几个月购买了大量的SA2,目前SA2云服务器在我们业务上的占比已经超过50%。

您认为腾讯云星星海SA2云服务器有哪些优势?

相比其他机型,星星海SA2云服务器带来最直观的收益是,在算力提升的同时,单位核数的成本有非常明显的下降,帮助我们公司进行降本增效。并且SA2云服务器的超强兼容性,使我们的业务可以完全平滑部署,不需要做任何的架构上的调整。

另外我们还发现,这个系列的服务器故障率也很低,自切换到SA2云服务器以来,没有出现过稳定性方面的问题。

能否谈谈未来小红书在系统架构,尤其是算力建设上的主要方向和计划?

如前面提到的,我们预估在2025年,AI相关的计算需求将消耗掉大部分的算力,相比之下在线业务消耗的算力会下降到30%以内。

所以,在算力建设上,我们会让基础环境更简单、更健壮,这个方向上需要花不少精力去做减法,如机型标准化、简化网络结构、资源灵活配比与调度、高性能、高稳定性,以及性价比与效能提升等。根据目前使用情况来看,星星海SA2云服务器是理想型。

此外我们SRE还会考虑投入一定的人力,去深入了解业务,以架构师的视角从架构设计、业务逻辑入手,寻找可优化的地方,避免低效的资源使用,和产品研发团队一起推动算力效能的提升。

您如何评价与腾讯云及计算产品团队的合作?

腾讯云计算产品和腾讯的其他产品线一样,走的是贴近用户需求的路线。在我们的多家服务厂商中,腾讯云计算提供的服务,在专业度、响应速度和服务质量上有着一流的水准。在刚刚过去的双十一大促期间,我们只需专注业务,稳定和性能保障全部交给了腾讯云团队。

腾讯云对互联网业务有着深刻的理解。作为为云而生、高速迭代的企业,服务着国内数量最多的电商平台,据了解这些电商平台90%的算力支撑来自星星海。小红书自诞生之日起就是全量上云,也有着相似的业务诉求。

另外,腾讯云在自研服务器上的投入也越来越大。星星海作为腾讯云首款自研云服务器,确实在性能、稳定性等方面的优化指标明显,使得云服务器性价比重新上了一个台阶。

总的来说,和腾讯云计算产品团队的深入合作,让我们能把更多的精力,从基础设施转移到资源效能、资源交付、产品迭代和业务创新上。

互动话题

留言给大家安利一下星星海

点赞最高1位将获得腾讯云新年礼盒

统计截止1月4日18:00

推荐阅读

活动|独家开箱帖,带你云逛计算Park

产品|腾讯云助力 NVIDIA CloudXR™,为 XR 带来全新体验

文章来源于腾讯云开发者社区,点击查看原文