AI 平台-散宜生的个人博客

散宜生的个人博客

累计撰写 238 篇文章
累计创建 148 个标签
累计收到 0 条评论

目录CONTENT

以下是 AI 平台相关的文章

2026-02-08
从可观测到 AI RCA：一次值班辅助决策闭环的落地复盘如果说可观测平台解决的是“数据看得见”，那么 AI RCA 解决的就是“值班时怎么更快把这些数据变成第一轮可用判断”。
- 2026-02-08
- 14
- 0
- 0
- AI RCA
2025-10-12
vLLM 和 SGLang 到底怎么选当一套大模型私有化部署路线已经从环境准备、K8S 底座、vLLM 实战和 SGLang 实战全部走通之后，真正绕不开的问题就只剩下一个：vLLM 和 SGLang 到底该怎么选。本文不再重复安装步骤，而是从目标、场景、团队阶段、复杂度和运维成本五个角度，把这两个框架的差异和选型逻辑讲清楚。
- 2025-10-12
- 10
- 0
- 0
- AI 推理服务
2025-10-07
SGLang 上 K8S：接入 Open WebUI、服务发布与 GPU 运维当 SGLang 已经能在单机上通过本地或 Docker 方式稳定提供推理接口后，下一步自然就是把它放进 K8S，接上 Open WebUI，变成团队可共享、可访问、可观测的内部 AI 服务。本文按实战顺序完成这条链路：准备模型存储、部署 SGLang 工作负载、接入 Open WebUI、通过 NodePort 和 Gateway 发布服务，并补上 GPU 与 SGLang 指标监控和告警。
- 2025-10-07
- 9
- 0
- 0
- AI 推理服务
2025-10-05
SGLang 私有化部署实战：本地部署、Docker 部署、能力体验当 vLLM 已经帮你把“正式推理 API”这条路跑通之后，下一步如果你开始关注多步骤推理、工具调用和复杂任务编排，就很自然会走到 SGLang。本文按实战顺序拆开 SGLang 的两条常见起步路径：本地部署和 Docker 部署，并通过模型列表、聊天接口和 Open WebUI 接入来验证它不只是能启动，而是真的能承接复杂 AI 应用。
- 2025-10-05
- 7
- 0
- 0
- AI 推理服务
2025-10-01
vLLM 上 K8S：服务部署、对外暴露、监控与验证当 vLLM 已经能在单机上通过本地或 Docker 方式稳定提供 API 后，下一步自然就是把它放进 K8S，变成团队可以共享、扩展和观测的正式推理服务。本文按实战顺序完成这条链路：部署 NVIDIA Device Plugin、准备模型存储、发布 vLLM 工作负载、通过 Service 和 Gateway 对外暴露，并补上 GPU 与服务层监控。
- 2025-10-01
- 5
- 0
- 0
- AI 推理服务
2025-09-28
vLLM 私有化部署实战：本地部署、Docker 部署、接口验证当你已经用 Ollama 跑通过一条可交互体验链路之后，下一步通常就该进入更正式的推理服务路线。对很多团队来说，vLLM 正是这一步的自然选择。本文把 vLLM 的两条典型起步路径拆开讲清楚：本地 Python/Conda 部署和 Docker 容器部署，并在关键步骤补充命令、输出和 OpenAI 兼容接口验证方法。
- 2025-09-28
- 2
- 0
- 0
- AI 推理服务
2025-09-24
用 Ollama + Open WebUI 快速搭建本地 AI 体验环境当前面的 K8S 底座、入口和存储都补齐后，最适合先跑通的一条 AI 路线，往往不是直接上 vLLM 或 SGLang，而是先用 Ollama + Open WebUI 做一套低门槛、可交互、可验证的本地 AI 体验环境。本文按实战顺序完成完整闭环：部署 Ollama、拉起 DeepSeek 模型、接入 Open WebUI、通过 Gateway 对外暴露，并给出关键命令输出和验收方法。
- 2025-09-24
- 4
- 0
- 0
- AI 应用实践
2025-09-21
为 K8S 补齐入口与存储：MetalLB、Gateway API、NFS 动态供给一套原生 K8S 集群即使已经 Ready，也还不等于能稳定承载 AI 服务。裸机或私有云环境里，最缺的通常是三类能力：对外入口、负载均衡地址，以及可动态申请的持久存储。本文按实战顺序补齐这三层：MetalLB、Gateway API 和 NFS 动态供给，并在关键步骤给出命令、示例输出和验收方法。
- 2025-09-21
- 2
- 0
- 0
- AI Infra
2025-09-17
基于 Ubuntu 24.04 搭建 AI 推理用原生 K8S 集群当大模型部署开始从单机验证走向团队共享时，Kubernetes 往往就不再是“可选项”，而是服务化运营的基础底座。本文基于 Ubuntu 24.04，按 AI 推理场景常见需求，完整梳理一套原生 K8S 集群搭建流程：主机初始化、containerd、kubeadm、Calico 和最终的 Nginx 验证，并在关键步骤补充命令输出和状态判断。
- 2025-09-17
- 2
- 0
- 0
- AI Infra
2025-09-14
大模型推理环境准备实战：GPU、驱动、CUDA、容器运行时大模型私有化部署最容易踩的坑，不是模型本身，而是底层运行环境没有理顺。GPU 能否被系统识别、驱动和 CUDA 是否匹配、PyTorch 能否正确调用显卡、容器运行时是否完成 GPU 透传，这几层只要有一层没打通，后面的 vLLM、SGLang、Ollama 和 K8S 部署都会反复出问题。本文从实战角度把这些关系一次讲清楚。
- 2025-09-14
- 4
- 0
- 0
- AI Infra

1
2