云原生下的工作方向(2019 旧文)

云原生下的工作方向(2019 旧文)

7 分钟阅读

这是 2019 年初我整理给团队的一篇内部分享,原始 changelog 是 2019-01-04 完稿。 时隔多年回看,里面的方向判断大部分仍然成立——容器、调度、服务网格、可观测、Serverless 这条主线确实跑出来了;只是后面又叠加了大模型/AI Infra 这条新的山脊。 内容做了脱敏处理,仅保留通用思考。


云原生应用是未来开发的一个大趋势和方向。在写这篇笔记的时候(2019 年初),CNCF 刚刚把 Kubernetes 毕业(2018 年 3 月),Istio 也只是刚刚走向 1.0,runC/runV 还在跟 OCI 规范磨合,Service Mesh 这个词被提出来还不到两年。

但是站在 Infra 团队的视角,那个时间点已经能看到一些清晰的方向。

Cloud Native 的四个发展阶段

阶段 描述 关键点 收益
1 单体架构,实现虚拟化部署和隔离,自动脚本部署 虚拟化隔离、模块化、负载均衡 线性开发、重构困难、依赖运维
2 微服务结构,无状态、自治、隔离,服务根据业务等级划分,可快速降级 微服务框架、持续交付、调用链路、监控、自动化部署、自动化测试 缩短交付周期、不严格依赖测试、蓝绿发布
3 可编程基础设施,服务 0 中断,有状态服务的自动伸缩,异地多活,灰度发布 分布式存储、队列、缓存,金丝雀发布、资源调度、全局一致性 开发专注业务,架构由基础设施负责,基础设施共享,金丝雀发布
4 自学习、自恢复、自调整,高度的可视化和自动化发布 智能运维、高度自动化 AIOps/NoOps,极大的资源利用率,强可知性,极高的可用性

这个分级今天回看依然成立,差异是 stage 4 的"智能运维"在大模型出现之后被重新定义了——以前我们说的是 AIOps(规则/统计意义上的智能),现在则可以真正用大模型做异常诊断、根因分析、甚至自动修复。

几个大的工作方向

我当时认为云原生生态中会有几个大的工作方向:

  1. 容器技术:基于和迭代 runC、runV 等 Open Container 规范,完善 rkt、moby 等容器实现。
  2. 资源调度:基于 Kubernetes 以及 Terraform 进行优化和改造,以支持自身的云平台。
  3. 服务网格:Service Mesh 是 2017 年才提出来的概念,解决的是大规模应用下的服务治理问题。业内以 Istio、Linkerd 应用居多。
  4. Cloud Native 开发框架:提供面向云原生的开发框架支持。

另外,在 Gartner DevOps Model 提出来后,应该致力于将基础平台或云平台向 DevOps 发展,如此才有机会进入 AIOps 阶段。

几年后的回看(2026 补注)

写这篇笔记到现在 7 年了,可以对自己当年的判断做个粗略的盘点:

  • 容器技术 ✅ — runC / containerd 成了事实标准,rkt 凉了;后来的关键演进在 Cgroup v2、systemd cgroup driver、NRI、镜像 lazy-pull 这些方向。
  • 资源调度 ✅ — Kubernetes 全面统一,Terraform 在 IaC 层占住位置;但更有意思的演进在 推理调度 这条新线:KVCache 感知路由、PD 分离、GPU 共享、SLO 多云调度,本质都是把传统调度思路搬到大模型场景。
  • 服务网格 ⚠️ — Istio 没像当年预测的那样统一江湖,sidecar 的复杂度反而催生了 ambient mesh、eBPF 路由这些"去 sidecar 化"的方案。
  • Cloud Native 开发框架 ❌ — 这条线没跑出来,反而是 Serverless 框架(Knative、各家 FaaS)和后来的大模型推理框架(vLLM/SGLang)成了实际的落地形态。

回看的最大感受是:方向判断容易,落地节奏难判断。早 2 年看到容器/调度的统一是容易的,但准确预测"sidecar 会被 eBPF 反向解构""调度会和 AI 推理深度耦合"这种细节,几乎不可能。

所以做基础设施这条线,重要的不是预测得多准,而是保持嗅觉,持续在新场景里把老问题重新做一遍。


附录:通用技术栈索引(2019 视角)

下面是当年整理的云原生技术栈速查表,2019 年的视角,仅作为时代切片保留。

面向云原生开发的协议/规范

  • Open API、Open Trace、Open Metrics、Open Container Initiative、CNAB

社区:CNCF

基础设施层

  1. 容器:Docker、rkt
  2. 资源调度:Kubernetes、Terraform
  3. 服务治理:Envoy、Istio
  4. Trace/Metrics:Jaeger、Prometheus
  5. 数据库:TiDB、HBase、MinIO
  6. FaaS:Knative

中间件层

  • LevelDB、RocksDB、BoltDB、TiKV
  • gRPC、HTTP/2
  • OpenTracing、Jaeger
  • CoreDNS
  • Helm
  • React、Vue、Preact、Next.js、Gatsby

Changelog

  • 2026-06-27 增加多年后的回看与脱敏调整
  • 2019-01-04 初版完稿
Zoe

Written by

Zoe

AI Infra Engineer · LLM Serving · GPU/RDMA · 造工具的偏执狂

评论