首页
AI 平台
AI 推理服务
AI Infra
AI 应用实践
AI RCA
平台工程
Kubernetes
云原生
容器平台
交付平台
微服务治理
网关与流量治理
服务网格
可观测性
链路追踪
日志收集
指标监控
运维与Linux
运维
Linux
大数据
散宜生的个人博客
累计撰写
238
篇文章
累计创建
148
个标签
累计收到
0
条评论
栏目
首页
AI 平台
AI 推理服务
AI Infra
AI 应用实践
AI RCA
平台工程
Kubernetes
云原生
容器平台
交付平台
微服务治理
网关与流量治理
服务网格
可观测性
链路追踪
日志收集
指标监控
运维与Linux
运维
Linux
大数据
目 录
CONTENT
以下是
Kubernetes
相关的文章
2026-02-07
指标、日志、链路三层可观测:一次可关联排障能力建设复盘
这篇文章复盘一次三层可观测平台建设实践。真正搭起来的不是三套彼此独立的工具,而是一条可关联的定位链路:指标负责发现异常,链路负责还原请求路径,日志负责补足实例证据,而 trace id / span id 则把日志与链路真正串了起来。
2026-02-07
18
0
0
可观测性
链路追踪
日志收集
指标监控
2026-02-07
APISIX 与微服务入口治理:从流量接入到蓝绿灰度发布边界
这篇文章复盘一次 APISIX 微服务入口治理实践。真正升级的不是入口代理组件,而是外部流量进入微服务平台的方式:从传统 Nginx upstream 转发,演进到具备规则化识别、环境指向切换、蓝绿灰度分面和职责分层的入口治理模型。
2026-02-07
4
0
0
网关与流量治理
2026-02-06
ACK 微服务容器平台建设:从固定部署到可治理运行时承载能力的演进
这篇文章复盘一次 ACK 微服务容器平台建设实践。真正升级的不是部署介质,而是微服务的运行时承载模型:从 ECS 上固定目录、固定端口、固定启动命令的进程式部署,演进到具备滚动发布、健康检查、弹性扩缩、资源隔离、回滚与可观测接入能力的平台化运行方式。
2026-02-06
5
0
0
容器平台
2026-02-05
从 Git 托管 YAML 到 Nacos:一次面向运维实践与架构演进的微服务治理改造复盘
这次改造表面上看,是把配置从 Git 中的 YAML 文件迁移到了 Nacos,并把 Dubbo 注册中心从 Zookeeper 统一到了 Nacos;但更深一层,它其实是一次微服务运行时治理方式的升级。
2026-02-05
6
0
0
微服务治理
2025-10-12
vLLM 和 SGLang 到底怎么选
当一套大模型私有化部署路线已经从环境准备、K8S 底座、vLLM 实战和 SGLang 实战全部走通之后,真正绕不开的问题就只剩下一个:vLLM 和 SGLang 到底该怎么选。本文不再重复安装步骤,而是从目标、场景、团队阶段、复杂度和运维成本五个角度,把这两个框架的差异和选型逻辑讲清楚。
2025-10-12
10
0
0
AI 推理服务
2025-10-07
SGLang 上 K8S:接入 Open WebUI、服务发布与 GPU 运维
当 SGLang 已经能在单机上通过本地或 Docker 方式稳定提供推理接口后,下一步自然就是把它放进 K8S,接上 Open WebUI,变成团队可共享、可访问、可观测的内部 AI 服务。本文按实战顺序完成这条链路:准备模型存储、部署 SGLang 工作负载、接入 Open WebUI、通过 NodePort 和 Gateway 发布服务,并补上 GPU 与 SGLang 指标监控和告警。
2025-10-07
8
0
0
AI 推理服务
2025-10-01
vLLM 上 K8S:服务部署、对外暴露、监控与验证
当 vLLM 已经能在单机上通过本地或 Docker 方式稳定提供 API 后,下一步自然就是把它放进 K8S,变成团队可以共享、扩展和观测的正式推理服务。本文按实战顺序完成这条链路:部署 NVIDIA Device Plugin、准备模型存储、发布 vLLM 工作负载、通过 Service 和 Gateway 对外暴露,并补上 GPU 与服务层监控。
2025-10-01
4
0
0
AI 推理服务
2025-09-24
用 Ollama + Open WebUI 快速搭建本地 AI 体验环境
当前面的 K8S 底座、入口和存储都补齐后,最适合先跑通的一条 AI 路线,往往不是直接上 vLLM 或 SGLang,而是先用 Ollama + Open WebUI 做一套低门槛、可交互、可验证的本地 AI 体验环境。本文按实战顺序完成完整闭环:部署 Ollama、拉起 DeepSeek 模型、接入 Open WebUI、通过 Gateway 对外暴露,并给出关键命令输出和验收方法。
2025-09-24
4
0
0
AI 应用实践
2025-09-21
为 K8S 补齐入口与存储:MetalLB、Gateway API、NFS 动态供给
一套原生 K8S 集群即使已经 Ready,也还不等于能稳定承载 AI 服务。裸机或私有云环境里,最缺的通常是三类能力:对外入口、负载均衡地址,以及可动态申请的持久存储。本文按实战顺序补齐这三层:MetalLB、Gateway API 和 NFS 动态供给,并在关键步骤给出命令、示例输出和验收方法。
2025-09-21
2
0
0
AI Infra
2025-09-17
基于 Ubuntu 24.04 搭建 AI 推理用原生 K8S 集群
当大模型部署开始从单机验证走向团队共享时,Kubernetes 往往就不再是“可选项”,而是服务化运营的基础底座。本文基于 Ubuntu 24.04,按 AI 推理场景常见需求,完整梳理一套原生 K8S 集群搭建流程:主机初始化、containerd、kubeadm、Calico 和最终的 Nginx 验证,并在关键步骤补充命令输出和状态判断。
2025-09-17
2
0
0
AI Infra
1
2
3
4
5