首页
可观测性
链路追踪
日志收集
指标监控
云原生
服务网格
关于
散宜生的个人博客
累计撰写
238
篇文章
累计创建
245
个标签
累计收到
0
条评论
栏目
首页
可观测性
链路追踪
日志收集
指标监控
云原生
服务网格
关于
目 录
CONTENT
以下是
GPU
相关的文章
2025-10-07
SGLang 上 K8S:接入 Open WebUI、服务发布与 GPU 运维
当 SGLang 已经能在单机上通过本地或 Docker 方式稳定提供推理接口后,下一步自然就是把它放进 K8S,接上 Open WebUI,变成团队可共享、可访问、可观测的内部 AI 服务。本文按实战顺序完成这条链路:准备模型存储、部署 SGLang 工作负载、接入 Open WebUI、通过 NodePort 和 Gateway 发布服务,并补上 GPU 与 SGLang 指标监控和告警。
2025-10-07
4
0
0
AI 推理服务
2025-10-01
vLLM 上 K8S:服务部署、对外暴露、监控与验证
当 vLLM 已经能在单机上通过本地或 Docker 方式稳定提供 API 后,下一步自然就是把它放进 K8S,变成团队可以共享、扩展和观测的正式推理服务。本文按实战顺序完成这条链路:部署 NVIDIA Device Plugin、准备模型存储、发布 vLLM 工作负载、通过 Service 和 Gateway 对外暴露,并补上 GPU 与服务层监控。
2025-10-01
2
0
0
AI 推理服务
2025-09-17
基于 Ubuntu 24.04 搭建 AI 推理用原生 K8S 集群
当大模型部署开始从单机验证走向团队共享时,Kubernetes 往往就不再是“可选项”,而是服务化运营的基础底座。本文基于 Ubuntu 24.04,按 AI 推理场景常见需求,完整梳理一套原生 K8S 集群搭建流程:主机初始化、containerd、kubeadm、Calico 和最终的 Nginx 验证,并在关键步骤补充命令输出和状态判断。
2025-09-17
1
0
0
AI Infra
2025-09-14
大模型推理环境准备实战:GPU、驱动、CUDA、容器运行时
大模型私有化部署最容易踩的坑,不是模型本身,而是底层运行环境没有理顺。GPU 能否被系统识别、驱动和 CUDA 是否匹配、PyTorch 能否正确调用显卡、容器运行时是否完成 GPU 透传,这几层只要有一层没打通,后面的 vLLM、SGLang、Ollama 和 K8S 部署都会反复出问题。本文从实战角度把这些关系一次讲清楚。
2025-09-14
1
0
0
AI Infra