tag

监控

背景 在人工智能(AI)蓬勃发展的当下,图形处理单元(GPU)凭借其强大的并行计算能力,成为了 AI 训练和推理工作负载的核心驱动力。从大规模的深度学习模型训练到实时的图像识别和自然语言处理任务,GPU 的高效运行直接决定了 AI 应用的性能和效率。 无论是追求极致的 AI 训练效率,还是保障科学计

引言 随着全球汽车市场的日益竞争激烈,新能源汽车积极拓展海外市场。在这一过程中,确保系统的稳定性和业务的连续性成为至关重要的任务。本文将探讨如何通过应用性能监控(APM)和 Prometheus 监控工具的结合,实现全链路精准监控与业务缺口定位,为新能源汽车出海提供有力保障。 一、自建监控的三大视线

导语 在当今大数据和实时通信的时代,消息队列在分布式系统中扮演着至关重要的角色。CKafka 作为一种高性能、高可靠的消息中间件,被广泛应用于各种业务场景中。然而,随着业务的增长和数据流量的增加,CKafka 在生产者和消费者以极高的速度生产/消费大量数据或产生请求时,可能会导致 Broker上资源

引言 Kubernetes 可以说是容器编排领域的事实标准。不管你的业务是运行在公有云、私有云,还是混合云上,Kubernetes 都能给你一种“统一天下”的感觉。它不仅能帮你把容器化应用管理得井井有条,还能让你的系统在扩展性、弹性、高可用性上更上一层楼。Kubernetes 就是云原生时代的“基础

在 AI 服务日益成为业务核心的今天,传统监控体系在应对 SSE 这类流式传输协议时暴露出明显短板——当数以万计的异步消息在客户端与服务端间持续流动时,如何捕捉每个微小的异常波动?如何在复杂的对话场景中保障用户体验? 一场突如其来的“假死”危机 AI 应用体验差的影响 (1) 服务异常难定位,团队交

导语:文章主要介绍腾讯云 Prometheus 在监控出行行业的突出优势与解决方案,为客户运维团队降低了很多成本。 选型背景 某汽车客户在拥抱腾讯云过程中,监管控的体系成熟度成为运维团队核心 KPI,同时也决定着业务能否在腾讯云上迅速铺开。腾讯云团队与客户联合梳理了现状诉求。以下腾讯云可观测平台 P

导语:本文主要探讨 Prometheus 在观测 Kubernetes 方面的独特优势和最佳实践,包括如何在 Kubernetes 不同层次和维度上实现全面的可观测性,如何排查最常见的 Kubernetes 故障,以及维护集群稳定高效运行的最佳实践。 雷畅 腾讯高级工程师/腾讯云可观测方案架构师。具

导语:文章主要讲解如何让前端性能监控(RUM)和应用性能监控(APM)串联起来,在腾讯云可观测平台实现全链路高效监控。 RUM 与 APM 面临的挑战 1、行业挑战 监控行业的友商们陆续都提供了全链路能力; 链路追踪无法闭环,查错能力不足。 2、用户挑战 用户使用腾讯云可观测平台 RUM 无法查看链

Prometheus 监控服务 功能优化 1.集成云监控新增快速采集【腾讯云数据仓库 TCHouse-C】的监控数据,支持配置采集云产品更多维度的数据。 2.集成 CVM Node Exporter 和 CVM 进程监控支持跨地域配置能力,满足用户采集不同地域 CVM 监控数据的需求。 3.容器预设

导语:本文将探讨某新能源车企如何借助腾讯云可观测平台,实施可观测性方案,从而缓解运维焦虑,实现更高效的系统管理。 雷畅 腾讯高级工程师/腾讯云可观测方案架构师。具有多年可观测领域研发经验,对业务端到端监控有深刻理解。 案例背景 在新能源汽车行业的快速发展中,企业面临着日益复杂的运维挑战。可观测性技术

Prometheus 监控服务 功能优化 1.支持在容器集群详情页的 Prometheus 监控页面,一键安装集成中心中更多类型的组件监控,缩短用户使用路径。 2.支持快速关联采集和管理非腾讯云 k8s 资源的监控,满足多云与混合云监控场景。 3.支持通过可视化配置快速安装非腾讯云主机监控,提高用户

Prometheus 监控服务 功能优化 1.支持新建容器集群时自动开通 Prometheus 监控,提高用户使用效率。 2.Prometheus 国际站采集端架构升级,支持实例诊断、系统健康检查,并提升了采集 Agent 资源利用率和指标采集稳定性。 3.集成中心改版一期上线,支持用户统一管理不同

导语:笔者穷尽毕生绝学写就此文,通过剖析最典型的“怪现象”,解答 “Prometheus 指标值为何不准”这一灵魂拷问。 引子 有一天,你打算试用 Prometheus,监控你的业务系统。 你来到腾讯云,仅需几次点击,指标便从四面八方来,汇聚成 Grafana 上的优雅曲线。 “不愧是云原生监控一哥

导语:笔者穷尽毕生绝学写就此文,通过剖析最典型的“怪现象”,解答 “Prometheus 指标值为何不准”这一灵魂拷问。 ​ 雷畅 腾讯高级工程师,目前主要负责腾讯云可观测系统的设计与研发。 引子 有一天,你打算试用 Prometheus,监控你的业务系统。 你来到腾讯云,仅需几次点击,指标便从四面

前言:本文通过案例详细介绍 APM 新推出的线程池与连接池监控功能。 ​ 概要 在 Java 生态系统中,Tomcat 线程池、Dubbo 线程池和 Druid 连接池等资源池被广泛使用。若缺乏有效的监控机制,资源池可能会面临一系列挑战,包括难以察觉的性能瓶颈、资源的不必要浪费、系统稳定性的潜在威胁