CUDA-散宜生的个人博客

散宜生的个人博客

累计撰写 238 篇文章
累计创建 148 个标签
累计收到 0 条评论

目录CONTENT

以下是 CUDA 相关的文章

2025-10-05
SGLang 私有化部署实战：本地部署、Docker 部署、能力体验当 vLLM 已经帮你把“正式推理 API”这条路跑通之后，下一步如果你开始关注多步骤推理、工具调用和复杂任务编排，就很自然会走到 SGLang。本文按实战顺序拆开 SGLang 的两条常见起步路径：本地部署和 Docker 部署，并通过模型列表、聊天接口和 Open WebUI 接入来验证它不只是能启动，而是真的能承接复杂 AI 应用。
- 2025-10-05
- 14
- 0
- 0
- AI 推理服务
2025-09-28
vLLM 私有化部署实战：本地部署、Docker 部署、接口验证当你已经用 Ollama 跑通过一条可交互体验链路之后，下一步通常就该进入更正式的推理服务路线。对很多团队来说，vLLM 正是这一步的自然选择。本文把 vLLM 的两条典型起步路径拆开讲清楚：本地 Python/Conda 部署和 Docker 容器部署，并在关键步骤补充命令、输出和 OpenAI 兼容接口验证方法。
- 2025-09-28
- 5
- 0
- 0
- AI 推理服务
2025-09-14
大模型推理环境准备实战：GPU、驱动、CUDA、容器运行时大模型私有化部署最容易踩的坑，不是模型本身，而是底层运行环境没有理顺。GPU 能否被系统识别、驱动和 CUDA 是否匹配、PyTorch 能否正确调用显卡、容器运行时是否完成 GPU 透传，这几层只要有一层没打通，后面的 vLLM、SGLang、Ollama 和 K8S 部署都会反复出问题。本文从实战角度把这些关系一次讲清楚。
- 2025-09-14
- 19
- 0
- 0
- AI Infra