2023 年 1 月 9 日云原生产业联盟(CNIA)举办 2022 年度线上年会,中国信通院云大所云计算发布了云原生系列测评成果,腾讯云主导开源的云原生成本优化项目 Crane 首批通过“云原生混部”项目评估

Crane 是国内第一个基于云原生技术的成本优化开源项目,遵循 FinOps 标准,旨在为云原生用户提供云成本优化一站式解决方案。

技术方面,Crane 基于两级调度能力,实现高优先级延迟敏感业务和低优先级高吞吐业务在相同节点上的混合运行。

一级调度能力,确保应用的高效调度,实现真正的“用多少占多少”。

基于应用历史负载信息进行画像构建

基于应用画像和节点画像实现智能调度

基于DSP算法、AI算法等实现弹性预测

二级调度能力,在保障服务质量的同时,实现资源利用率的大幅提升。

节点画像和闲置资源回收。运行在每个节点的代理采集节点负载,基于 DSP等预测算法预测未来负载走势,并将闲置资源回收成为节点扩展资源供低优业务使用。

资源隔离和服务质量保障。定义资源隔离规则,确保当混部业务发生资源竞争时,高优业务的稳定性不受影响;开源方案基于 CPU Quota 完成低优业务的资源压制;闭源方案基于腾讯 TLinux 如意内核完成高优业务的绝对资源抢占。

干扰检测和低优主动回避。节点代理探测资源隔离策略生效后,节点是否依然有干扰发生,如有干扰则驱逐低优业务确保高优业务不受影响。

腾讯云自 2015 年起在混部领域进行探索,在支撑海量自研业务上云的过程中广泛使用。目前管理规模已达数千万核,混部能力使服务器资源利用率从30% 提升至 65%。Crane 在 2022 年开源以后,已经被腾讯自研业务、小红书、网易、思必驰、酷家乐、明源云、数数科技等公司部署在生产系统,其主要贡献者来自腾讯、小红书、谷歌、eBay、微软、特斯拉等知名公司。

《云原生混部技术能力要求》标准的由来

随着企业数字化转型工作深入推进,企业正在通过精细化的资源管理、跨集群跨地域资源协同、灵活快捷的资源编排调度,以及异构资源共享复用等方式,实现灵活的弹性资源供给、更加智能的应用自动部署,以及更大规模节点的算力协同。

云原生混部解决方案依托容器、微服务、平台编排调度等云原生技术,帮助用户将业务负载与大数据分析、人工智能计算等不同优先级的应用混合部署到共享的基础设施上,提高资源利用率,实现“降本增效”。

在此背景下,中国信通院牵头,联合腾讯云等多家云服务商,经过多轮研讨,形成了《云原生混部技术能力要求》标准。

标准涉及基础设施能力要求、平台混部能力要求、业务应用能力要求,以及混部效果评价四个部分,从资源隔离、资源复用、干扰检测、负载反馈、任务调度、资源预测、应用服务质量等不同维度,对混部产品及解决方案进行全面评估。

衍生阅读

Crane 已成功加入 CNCF Landscape,欢迎关注项目,合作共建:

文章来源于腾讯云开发者社区,点击查看原文