按:一个任务的一生来梳理 Volcano,重点包括:

  • vcjob 提交、controller 创建 PodGroup/Podscheduler 执行 enqueue/allocate/bind,一直到 kubelet 起容器、Job Policy 处理异常、TTL 自动清理
  • QueuePodGroupgangactionplugin 这些核心概念挂到同一条主线上,方便理解调度过程
  • 补充网络拓扑感知、层级队列、在线离线混部、反调度、TDM、GPU/NPU、扩展方式、生态和运维排查
  • 最后记录一次 CRD 版本不匹配导致 vcjob 不创建 PodGroup 的真实排查过程