首页
AI 平台
AI 推理服务
AI Infra
AI 应用实践
AI RCA
平台工程
Kubernetes
云原生
容器平台
交付平台
微服务治理
网关与流量治理
服务网格
可观测性
链路追踪
日志收集
指标监控
运维与Linux
运维
Linux
大数据
散宜生的个人博客
累计撰写
238
篇文章
累计创建
148
个标签
累计收到
0
条评论
栏目
首页
AI 平台
AI 推理服务
AI Infra
AI 应用实践
AI RCA
平台工程
Kubernetes
云原生
容器平台
交付平台
微服务治理
网关与流量治理
服务网格
可观测性
链路追踪
日志收集
指标监控
运维与Linux
运维
Linux
大数据
目 录
CONTENT
以下是
zhanjie.me
的文章
2025-09-28
vLLM 私有化部署实战:本地部署、Docker 部署、接口验证
当你已经用 Ollama 跑通过一条可交互体验链路之后,下一步通常就该进入更正式的推理服务路线。对很多团队来说,vLLM 正是这一步的自然选择。本文把 vLLM 的两条典型起步路径拆开讲清楚:本地 Python/Conda 部署和 Docker 容器部署,并在关键步骤补充命令、输出和 OpenAI 兼容接口验证方法。
2025-09-28
1
0
0
AI 推理服务
2025-09-24
用 Ollama + Open WebUI 快速搭建本地 AI 体验环境
当前面的 K8S 底座、入口和存储都补齐后,最适合先跑通的一条 AI 路线,往往不是直接上 vLLM 或 SGLang,而是先用 Ollama + Open WebUI 做一套低门槛、可交互、可验证的本地 AI 体验环境。本文按实战顺序完成完整闭环:部署 Ollama、拉起 DeepSeek 模型、接入 Open WebUI、通过 Gateway 对外暴露,并给出关键命令输出和验收方法。
2025-09-24
4
0
0
AI 应用实践
2025-09-21
为 K8S 补齐入口与存储:MetalLB、Gateway API、NFS 动态供给
一套原生 K8S 集群即使已经 Ready,也还不等于能稳定承载 AI 服务。裸机或私有云环境里,最缺的通常是三类能力:对外入口、负载均衡地址,以及可动态申请的持久存储。本文按实战顺序补齐这三层:MetalLB、Gateway API 和 NFS 动态供给,并在关键步骤给出命令、示例输出和验收方法。
2025-09-21
2
0
0
AI Infra
2025-09-17
基于 Ubuntu 24.04 搭建 AI 推理用原生 K8S 集群
当大模型部署开始从单机验证走向团队共享时,Kubernetes 往往就不再是“可选项”,而是服务化运营的基础底座。本文基于 Ubuntu 24.04,按 AI 推理场景常见需求,完整梳理一套原生 K8S 集群搭建流程:主机初始化、containerd、kubeadm、Calico 和最终的 Nginx 验证,并在关键步骤补充命令输出和状态判断。
2025-09-17
2
0
0
AI Infra
2025-09-14
大模型推理环境准备实战:GPU、驱动、CUDA、容器运行时
大模型私有化部署最容易踩的坑,不是模型本身,而是底层运行环境没有理顺。GPU 能否被系统识别、驱动和 CUDA 是否匹配、PyTorch 能否正确调用显卡、容器运行时是否完成 GPU 透传,这几层只要有一层没打通,后面的 vLLM、SGLang、Ollama 和 K8S 部署都会反复出问题。本文从实战角度把这些关系一次讲清楚。
2025-09-14
3
0
0
AI Infra
2025-09-10
本地、Docker、K8S:大模型私有化部署路线怎么选
大模型私有化部署最容易踩的坑,不是某个命令执行失败,而是一开始就把路线选复杂了。这篇文章不讲具体安装步骤,而是先把路线拆清楚:本地、Docker、K8S 分别适合什么阶段,Ollama、vLLM、SGLang 又该怎么搭配,帮助你少走弯路地完成从验证到服务化的演进。
2025-09-10
4
0
0
AI Infra
2024-10-26
在 Istio Service Mesh 中接入 Apache APISIX:实践与思考
1. 引言 当微服务体系接入 Service Mesh(例如 Istio)后,东西向流量可以实现统一治理,但体系外的南北向流量依然需要 API 网关。 我们团队目前在用的 API 网关是 Apache APISIX。 问题在于: APISIX 本身不是基于 Envoy 架构,对 Istio 的原生支
2024-10-26
15
0
0
网关与流量治理
服务网格
2024-10-24
从 Dubbo2 到 Dubbo3 Triple + Hessian2:低成本接入 Istio Service Mesh 的实践
1. 引言 在微服务体系中,Dubbo 一直是 Java 生态里最常见的 RPC 框架之一。 在过去的很长一段时间里,Dubbo2 采用自研的二进制协议,性能出色,但它与云原生的 Service Mesh 架构 之间存在天然的鸿沟。 随着企业逐渐向 Kubernetes + Istio 等云原生基础
2024-10-24
7
0
0
微服务治理
网关与流量治理
服务网格
2024-09-24
apisix-go-plugin-runner插件开发,记录JWT session认证信息MD5值
之前写过一篇《记录session认证信息,并由logstash进行压缩处理》的笔记,其中篇尾也说明了该方案的缺点:日志占用空间大,logstash压力高,且因MD5值在Apisix外部计算得到,无法以其为key,进行接口限流操作。 后来需要以认证信息的MD5值为key,使用limit_rate插件进
2024-09-24
34
0
0
日志收集
2024-09-17
Envoy HTTP流量治理基础
在Envoy中,虚拟主机(Virtual Host)和路由(Route)是配置HTTP请求路由的重要概念。 一、Envoy HTTP路由配置框架 1.1 虚拟主机(Virtual Host) 虚拟主机是Envoy中用于根据请求的主机头(Host Header)来匹配请求的一种机制。它允许你在同一个E
2024-09-17
21
0
0
云原生
1
2
3
4
5
...
24