Volcano 笔记
按:一个任务的一生来梳理 Volcano,重点包括:
- 从 vcjob 提交、controller 创建 PodGroup/Pod、scheduler 执行 enqueue/allocate/bind,一直到 kubelet 起容器、Job Policy 处理异常、TTL 自动清理
- 把 Queue、PodGroup、gang、action、plugin 这些核心概念挂到同一条主线上,方便理解调度过程
- 补充网络拓扑感知、层级队列、在线离线混部、反调度、TDM、GPU/NPU、扩展方式、生态和运维排查
- 最后记录一次 CRD 版本不匹配导致 vcjob 不创建 PodGroup 的真实排查过程