首页
AI 平台
AI 推理服务
AI Infra
AI 应用实践
AI RCA
平台工程
Kubernetes
云原生
容器平台
交付平台
微服务治理
网关与流量治理
服务网格
可观测性
链路追踪
日志收集
指标监控
运维与Linux
运维
Linux
大数据
散宜生的个人博客
累计撰写
238
篇文章
累计创建
148
个标签
累计收到
0
条评论
栏目
首页
AI 平台
AI 推理服务
AI Infra
AI 应用实践
AI RCA
平台工程
Kubernetes
云原生
容器平台
交付平台
微服务治理
网关与流量治理
服务网格
可观测性
链路追踪
日志收集
指标监控
运维与Linux
运维
Linux
大数据
目 录
CONTENT
以下是
Prometheus
相关的文章
2026-02-07
指标、日志、链路三层可观测:一次可关联排障能力建设复盘
这篇文章复盘一次三层可观测平台建设实践。真正搭起来的不是三套彼此独立的工具,而是一条可关联的定位链路:指标负责发现异常,链路负责还原请求路径,日志负责补足实例证据,而 trace id / span id 则把日志与链路真正串了起来。
2026-02-07
18
0
0
可观测性
链路追踪
日志收集
指标监控
2025-10-07
SGLang 上 K8S:接入 Open WebUI、服务发布与 GPU 运维
当 SGLang 已经能在单机上通过本地或 Docker 方式稳定提供推理接口后,下一步自然就是把它放进 K8S,接上 Open WebUI,变成团队可共享、可访问、可观测的内部 AI 服务。本文按实战顺序完成这条链路:准备模型存储、部署 SGLang 工作负载、接入 Open WebUI、通过 NodePort 和 Gateway 发布服务,并补上 GPU 与 SGLang 指标监控和告警。
2025-10-07
8
0
0
AI 推理服务
2025-10-01
vLLM 上 K8S:服务部署、对外暴露、监控与验证
当 vLLM 已经能在单机上通过本地或 Docker 方式稳定提供 API 后,下一步自然就是把它放进 K8S,变成团队可以共享、扩展和观测的正式推理服务。本文按实战顺序完成这条链路:部署 NVIDIA Device Plugin、准备模型存储、发布 vLLM 工作负载、通过 Service 和 Gateway 对外暴露,并补上 GPU 与服务层监控。
2025-10-01
4
0
0
AI 推理服务
2024-09-03
node_exporter采集原理和二开自定义模块
node_exporter主流程源码追踪 mem模块采集的流程 自定义一个模块的二开方法 自定义一个errLog模块,统计/var/log/message 中的错误日志 node_exporter主流程源码追踪 采集器的初始化 初始化handler 源码位置 node_exporter-releas
2024-09-03
12
0
0
指标监控
2024-08-29
prometheus采集node_exporter并应用http请求参数过滤采集器
将node_exporter 作为采集job配置在prometheus node_exporter 通过http参数 过滤相关模块的指标 prometheus如何配置 采集目标的参数 node_export源码中怎么处理传入的模块参数 将node_exporter job配置在prometheus中
2024-08-29
13
0
0
指标监控
2024-08-29
关于node_exporter sdk指标和配置本地采集目录
prometheus sdk指标简介和如何在node_exporter中禁用 节点上自打点数据上报 prometheus sdk指标 promhttp_ 代表访问/metrics 的http情况 go_代表 goruntime 信息等 process_代表 进程信息等 [root@prome-mas
2024-08-29
5
0
0
指标监控
2024-08-06
node_exporter配置采集模块启用黑白名单
node_exporter 中有默认开启和默认关闭的采集模块,主要基于以下几个原因: 资源使用和性能考虑:某些采集模块可能会消耗较多的系统资源,比如 CPU、内存或网络带宽。默认关闭这些模块可以避免在不需要时对系统性能产生不必要的影响。 例如,一些详细的硬件监测模块,如果在大多数场景下不是关键的监控
2024-08-06
9
0
0
指标监控
2024-08-01
ansible playbook安装node-exporter
rsyslog 和 logrotate service_deploy yaml的编写 配置机器直接的ssh免密码登录 节点主机名host解析 节点主机名写入hosts echo "192.168.40.20 prome-master" >> /etc/hosts echo "192.168.40
2024-08-01
13
0
0
指标监控
2024-07-31
Prometheus 四种数据类型
四种数据类型 Gauge 当前值 Counter 计数器 Histogram 直方图样本观测 Summary 摘要 四种数据类型 Gauge 当前值 Gauge 用于表示可以任意上下波动的值,例如当前的内存使用量、CPU 使用率、正在运行的进程数量等。与计数器(Counter)不同,Gauge 的值
2024-07-31
5
0
0
指标监控
2024-07-31
Prometheus 四种标签匹配模式
4种标签匹配模式 = 等于 != 不等于 =~ 正则匹配 !~ 正则非匹配 四种标签匹配模式 = 等于 例: cpu第一个核并且是用户态的数据 node_cpu_seconds_total{mode="user",cpu="0"} 查询: go_gc_duration_seconds{quantil
2024-07-31
9
0
0
指标监控
1
2