
云原生下的工作方向(2019 旧文)
这是 2019 年初我整理给团队的一篇内部分享,原始 changelog 是
2019-01-04 完稿。 时隔多年回看,里面的方向判断大部分仍然成立——容器、调度、服务网格、可观测、Serverless 这条主线确实跑出来了;只是后面又叠加了大模型/AI Infra 这条新的山脊。 内容做了脱敏处理,仅保留通用思考。
云原生应用是未来开发的一个大趋势和方向。在写这篇笔记的时候(2019 年初),CNCF 刚刚把 Kubernetes 毕业(2018 年 3 月),Istio 也只是刚刚走向 1.0,runC/runV 还在跟 OCI 规范磨合,Service Mesh 这个词被提出来还不到两年。
但是站在 Infra 团队的视角,那个时间点已经能看到一些清晰的方向。
Cloud Native 的四个发展阶段
| 阶段 | 描述 | 关键点 | 收益 |
|---|---|---|---|
| 1 | 单体架构,实现虚拟化部署和隔离,自动脚本部署 | 虚拟化隔离、模块化、负载均衡 | 线性开发、重构困难、依赖运维 |
| 2 | 微服务结构,无状态、自治、隔离,服务根据业务等级划分,可快速降级 | 微服务框架、持续交付、调用链路、监控、自动化部署、自动化测试 | 缩短交付周期、不严格依赖测试、蓝绿发布 |
| 3 | 可编程基础设施,服务 0 中断,有状态服务的自动伸缩,异地多活,灰度发布 | 分布式存储、队列、缓存,金丝雀发布、资源调度、全局一致性 | 开发专注业务,架构由基础设施负责,基础设施共享,金丝雀发布 |
| 4 | 自学习、自恢复、自调整,高度的可视化和自动化发布 | 智能运维、高度自动化 | AIOps/NoOps,极大的资源利用率,强可知性,极高的可用性 |
这个分级今天回看依然成立,差异是 stage 4 的"智能运维"在大模型出现之后被重新定义了——以前我们说的是 AIOps(规则/统计意义上的智能),现在则可以真正用大模型做异常诊断、根因分析、甚至自动修复。
几个大的工作方向
我当时认为云原生生态中会有几个大的工作方向:
- 容器技术:基于和迭代 runC、runV 等 Open Container 规范,完善 rkt、moby 等容器实现。
- 资源调度:基于 Kubernetes 以及 Terraform 进行优化和改造,以支持自身的云平台。
- 服务网格:Service Mesh 是 2017 年才提出来的概念,解决的是大规模应用下的服务治理问题。业内以 Istio、Linkerd 应用居多。
- Cloud Native 开发框架:提供面向云原生的开发框架支持。
另外,在 Gartner DevOps Model 提出来后,应该致力于将基础平台或云平台向 DevOps 发展,如此才有机会进入 AIOps 阶段。
几年后的回看(2026 补注)
写这篇笔记到现在 7 年了,可以对自己当年的判断做个粗略的盘点:
- 容器技术 ✅ — runC / containerd 成了事实标准,rkt 凉了;后来的关键演进在 Cgroup v2、systemd cgroup driver、NRI、镜像 lazy-pull 这些方向。
- 资源调度 ✅ — Kubernetes 全面统一,Terraform 在 IaC 层占住位置;但更有意思的演进在 推理调度 这条新线:KVCache 感知路由、PD 分离、GPU 共享、SLO 多云调度,本质都是把传统调度思路搬到大模型场景。
- 服务网格 ⚠️ — Istio 没像当年预测的那样统一江湖,sidecar 的复杂度反而催生了 ambient mesh、eBPF 路由这些"去 sidecar 化"的方案。
- Cloud Native 开发框架 ❌ — 这条线没跑出来,反而是 Serverless 框架(Knative、各家 FaaS)和后来的大模型推理框架(vLLM/SGLang)成了实际的落地形态。
回看的最大感受是:方向判断容易,落地节奏难判断。早 2 年看到容器/调度的统一是容易的,但准确预测"sidecar 会被 eBPF 反向解构""调度会和 AI 推理深度耦合"这种细节,几乎不可能。
所以做基础设施这条线,重要的不是预测得多准,而是保持嗅觉,持续在新场景里把老问题重新做一遍。
附录:通用技术栈索引(2019 视角)
下面是当年整理的云原生技术栈速查表,2019 年的视角,仅作为时代切片保留。
面向云原生开发的协议/规范:
- Open API、Open Trace、Open Metrics、Open Container Initiative、CNAB
社区:CNCF
基础设施层:
- 容器:Docker、rkt
- 资源调度:Kubernetes、Terraform
- 服务治理:Envoy、Istio
- Trace/Metrics:Jaeger、Prometheus
- 数据库:TiDB、HBase、MinIO
- FaaS:Knative
中间件层:
- LevelDB、RocksDB、BoltDB、TiKV
- gRPC、HTTP/2
- OpenTracing、Jaeger
- CoreDNS
- Helm
- React、Vue、Preact、Next.js、Gatsby
Changelog
2026-06-27增加多年后的回看与脱敏调整2019-01-04初版完稿

Written by
Zoe
AI Infra Engineer · LLM Serving · GPU/RDMA · 造工具的偏执狂