
得物【技术保障】云原生调度专家
任职要求
1. 扎实的编程基础、良好的编程风格与工作习惯,熟练掌握go,C++等编程语言的一种或多种 2. 深入了解k8s体系, cgroup机制,资源调度实现, 有混部相关经验更佳 3. 对linux内核有一定的了解, 对日常相关的问题排查, 有一定的经验 4. 对弹性容量管理体系有一定的实践经验 5. 对无服务化技术有了解更佳
工作职责
团队介绍 我们致力于通过云原生技术和不断的技术创新突破, 帮助我们的业务提升研发和运维效率,在业务高速发展的阶段,让研发把更多的精力放在创造业务价值上去。 团队贴近得物丰富的业务场景, 通过云原生CI/CD, 云原生AI, 在离线混部,边缘部署, 多云管理, 集群管理等为得物技术带来了成本的降低和效率的提升。 岗位职责: 1. 负责混部管理系统的开发, 包括调度能力强化, 内核资源隔离, 内核能力增强, 及相关的稳定性组件建设 2. 负责弹性容量体系的开发, 包括HPA&VPA, 水位平衡,容量预估等功能 3. 负责k8s相关组件的开发, 包括网络组件, 存储组件及容器运行时

职位描述 1. 定位为资深AI Infra Arch,在AI算力基础设施、AI推理和训练框架全栈底层技术方面有丰富经验技术,可带领团队建设AI平台,助力CV/NLP/AIGC/社区/搜广推等算法业务场景提升效率,加速AI能力向业务效果的转换。 2. 负责设计研发得物AI平台,对AI算力相关相关资源(GPU/TPU/CPU、存储、网络等)做平台化管理,持续提升资源利用率,为业务提供一个满足企业级稳定性和性能要求的AI平台。 3. 负责训练和推理引擎优化,助力各算法业务场景提升模型迭代效率、提高推理服务性能。 4. 解决规模增长带来的技术和业务问题。 5. 解决多云场景下的AI算力资源、数据资源的管理问题,以及业务使用效率问题,目标是降本提效。
容器统一调度与在离线混部方向 岗位职责 1.负责公司容器调度平台的架构设计和核心功能开发,包括容器资源管理、调度优化、弹性伸缩等模块。 2.设计和实现在线与离线任务的混部调度方案,优化集群资源的整体利用率,实现计算、存储和网络资源的高效调度。 3.针对不同业务场景,研究并改进 Kubernetes 调度算法,包括任务优先级、抢占机制、节点选择等,提升集群的资源分配效率和稳定性。 4.与多集群管理平台、资源隔离、QoS 管理等模块协同工作,确保在复杂场景下的资源调度策略具备高可用性和可扩展性。 5.跟踪云原生生态的最新发展趋势,研究并应用新技术以提升系统性能和调度灵活性。 6.支持系统的性能监控与故障诊断,参与系统优化和技术问题的快速解决,保障系统的高效稳定运行。
蚂蚁算力调度团队负责蚂蚁通智算场景资源统一调度,帮助蚂蚁在线服务、大数据、AI等核心业务场景提升资源使用效率、优化工作负载性能、提高业务全局容错性和弹性资源保障。我们致力于打造高性能、规模化、有竞争力的算力调度系统,推动蚂蚁基础技术的不断创新与发展。我们重点工作领域包括: ● 研发通智算一体的高性能调度系统,支持云原生应用、分布式作业、函数任务等多种工作负载混合部署; ● 优化大规模任务调度,提升AI、大数据场景任务调度性能、优化并行计算场景作业编排; ● 结合硬件拓扑、网络架构,研发异构硬件优化调度算法,提升异构硬件下的服务/任务运行效率; ● 提升算力调度服务水平,保障大规模调度场景的服务可用性,提高系统化处理效率;