分类 分布式 中的文章

Volcano 笔记

按:一个任务的一生来梳理 Volcano,重点包括:

  • vcjob 提交、controller 创建 PodGroup/Podscheduler 执行 enqueue/allocate/bind,一直到 kubelet 起容器、Job Policy 处理异常、TTL 自动清理
  • QueuePodGroupgangactionplugin 这些核心概念挂到同一条主线上,方便理解调度过程
  • 补充网络拓扑感知、层级队列、在线离线混部、反调度、TDM、GPU/NPU、扩展方式、生态和运维排查
  • 最后记录一次 CRD 版本不匹配导致 vcjob 不创建 PodGroup 的真实排查过程

阅读全文

分布式系统的8大谬误

围绕分布式系统的“修好”错觉和八大谬误展开,重点包括:

  • 先讨论“分布式系统不存在修好”这句话哪些成立、哪些说得过头,并给出更准确的版本:在选定一致性模型之外,竞态只能管理
  • 解释为什么分布式系统难,不只是 CAP/FLP 这类理论边界,还有故障组合爆炸、调试困难、正确性边界滑动和人为变更
  • 逐条拆解 网络可靠延迟为零带宽无限网络安全拓扑不变只有一个管理员传输代价为零网络同质 这八大谬误
  • 最后总结这些谬误背后的共同结构,以及它们对超时、重试、幂等、批量、隔离、观测和恢复策略的直接要求

阅读全文

分布式系统双写一致性问题

围绕 AI 平台配额管理里的“双写一致性”问题展开,重点包括:

  • 先把业务问题讲清楚:是否应该让 MySQL 中的配额账本K8s 中的真实资源占用 保持实时一致
  • FLPCAP两将军问题PACELC 这些经典理论出发,说明“跨两个独立分布式系统做实时强一致双写”为什么在理论上不可达
  • 再落到工程实践,分析提交链路、运行期和系统层故障会如何把最终一致方案推向状态机、幂等、补偿、对账和组合爆炸
  • 最后结合 Google Borg / Kubernetes / AWS 等业界做法,给出结论:放弃“实时库存式扣减”,采用 准入控制 + K8s 实时用量 的方案

阅读全文

最近文章

分类

归档

标签

RSS