首页
AI 平台
AI 推理服务
AI Infra
AI 应用实践
AI RCA
平台工程
网关与流量治理
服务网格
可观测性
链路追踪
日志收集
指标监控
云原生
服务网格
散宜生的个人博客
累计撰写
238
篇文章
累计创建
160
个标签
累计收到
0
条评论
栏目
首页
AI 平台
AI 推理服务
AI Infra
AI 应用实践
AI RCA
平台工程
网关与流量治理
服务网格
可观测性
链路追踪
日志收集
指标监控
云原生
服务网格
目 录
CONTENT
最新文章
2025-09-28
vLLM 私有化部署实战:本地部署、Docker 部署、接口验证
当你已经用 Ollama 跑通过一条可交互体验链路之后,下一步通常就该进入更正式的推理服务路线。对很多团队来说,vLLM 正是这一步的自然选择。本文把 vLLM 的两条典型起步路径拆开讲清楚:本地 Python/Conda 部署和 Docker 容器部署,并在关键步骤补充命令、输出和 OpenAI 兼容接口验证方法。
2025-09-28
1
0
0
AI 推理服务
2025-09-24
用 Ollama + Open WebUI 快速搭建本地 AI 体验环境
当前面的 K8S 底座、入口和存储都补齐后,最适合先跑通的一条 AI 路线,往往不是直接上 vLLM 或 SGLang,而是先用 Ollama + Open WebUI 做一套低门槛、可交互、可验证的本地 AI 体验环境。本文按实战顺序完成完整闭环:部署 Ollama、拉起 DeepSeek 模型、接入 Open WebUI、通过 Gateway 对外暴露,并给出关键命令输出和验收方法。
2025-09-24
3
0
0
AI 应用实践
2025-09-21
为 K8S 补齐入口与存储:MetalLB、Gateway API、NFS 动态供给
一套原生 K8S 集群即使已经 Ready,也还不等于能稳定承载 AI 服务。裸机或私有云环境里,最缺的通常是三类能力:对外入口、负载均衡地址,以及可动态申请的持久存储。本文按实战顺序补齐这三层:MetalLB、Gateway API 和 NFS 动态供给,并在关键步骤给出命令、示例输出和验收方法。
2025-09-21
1
0
0
AI Infra
2025-09-17
基于 Ubuntu 24.04 搭建 AI 推理用原生 K8S 集群
当大模型部署开始从单机验证走向团队共享时,Kubernetes 往往就不再是“可选项”,而是服务化运营的基础底座。本文基于 Ubuntu 24.04,按 AI 推理场景常见需求,完整梳理一套原生 K8S 集群搭建流程:主机初始化、containerd、kubeadm、Calico 和最终的 Nginx 验证,并在关键步骤补充命令输出和状态判断。
2025-09-17
1
0
0
AI Infra
2025-09-14
大模型推理环境准备实战:GPU、驱动、CUDA、容器运行时
大模型私有化部署最容易踩的坑,不是模型本身,而是底层运行环境没有理顺。GPU 能否被系统识别、驱动和 CUDA 是否匹配、PyTorch 能否正确调用显卡、容器运行时是否完成 GPU 透传,这几层只要有一层没打通,后面的 vLLM、SGLang、Ollama 和 K8S 部署都会反复出问题。本文从实战角度把这些关系一次讲清楚。
2025-09-14
1
0
0
AI Infra
2025-09-10
本地、Docker、K8S:大模型私有化部署路线怎么选
大模型私有化部署最容易踩的坑,不是某个命令执行失败,而是一开始就把路线选复杂了。这篇文章不讲具体安装步骤,而是先把路线拆清楚:本地、Docker、K8S 分别适合什么阶段,Ollama、vLLM、SGLang 又该怎么搭配,帮助你少走弯路地完成从验证到服务化的演进。
2025-09-10
2
0
0
AI Infra
2024-10-26
在 Istio Service Mesh 中接入 Apache APISIX:实践与思考
1. 引言 当微服务体系接入 Service Mesh(例如 Istio)后,东西向流量可以实现统一治理,但体系外的南北向流量依然需要 API 网关。 我们团队目前在用的 API 网关是 Apache APISIX。 问题在于: APISIX 本身不是基于 Envoy 架构,对 Istio 的原生支
2024-10-26
13
0
0
网关与流量治理
服务网格
2024-10-24
从 Dubbo2 到 Dubbo3 Triple + Hessian2:低成本接入 Istio Service Mesh 的实践
1. 引言 在微服务体系中,Dubbo 一直是 Java 生态里最常见的 RPC 框架之一。 在过去的很长一段时间里,Dubbo2 采用自研的二进制协议,性能出色,但它与云原生的 Service Mesh 架构 之间存在天然的鸿沟。 随着企业逐渐向 Kubernetes + Istio 等云原生基础
2024-10-24
7
0
0
微服务治理
网关与流量治理
服务网格
2024-09-24
apisix-go-plugin-runner插件开发,记录JWT session认证信息MD5值
之前写过一篇《记录session认证信息,并由logstash进行压缩处理》的笔记,其中篇尾也说明了该方案的缺点:日志占用空间大,logstash压力高,且因MD5值在Apisix外部计算得到,无法以其为key,进行接口限流操作。 后来需要以认证信息的MD5值为key,使用limit_rate插件进
2024-09-24
34
0
0
日志收集
2024-09-17
Envoy HTTP流量治理基础
在Envoy中,虚拟主机(Virtual Host)和路由(Route)是配置HTTP请求路由的重要概念。 一、Envoy HTTP路由配置框架 1.1 虚拟主机(Virtual Host) 虚拟主机是Envoy中用于根据请求的主机头(Host Header)来匹配请求的一种机制。它允许你在同一个E
2024-09-17
19
0
0
云原生
1
2
3
4
5
...
24