logo of antgroup

蚂蚁金服蚂蚁集团-算力调度研发专家-杭州A

社招全职3年以上技术-基础平台地点:杭州状态:招聘

任职要求


● 具有 3 年以上的云计算/任务调度/高性能计算领域经验;
● 熟练掌握分布式调度系统、大规模高可用系统、高性能软硬件架构等领域的专业知识;
● 熟悉云原生或大规模并行计算相关技术栈,如 KubernetesVolcano、Knat…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


蚂蚁算力调度团队负责蚂蚁通智算场景资源统一调度,帮助蚂蚁在线服务、大数据、AI等核心业务场景提升资源使用效率、优化工作负载性能、提高业务全局容错性和弹性资源保障。我们致力于打造高性能、规模化、有竞争力的算力调度系统,推动蚂蚁基础技术的不断创新与发展。我们重点工作领域包括:
● 研发通智算一体的高性能调度系统,支持云原生应用、分布式作业、函数任务等多种工作负载混合部署;
● 优化大规模任务调度,提升AI、大数据场景任务调度性能、优化并行计算场景作业编排;
● 结合硬件拓扑、网络架构,研发异构硬件优化调度算法,提升异构硬件下的服务/任务运行效率;
● 提升算力调度服务水平,保障大规模调度场景的服务可用性,提高系统化处理效率;
包括英文材料
高可用+
Kubernetes+
Volcano+
还有更多 •••
相关职位

logo of antgroup
社招5年以上技术类-开发

蚂蚁HCS 算力服务是全站通算,智算资源管理的基础设施平台, 通过Kubernetes等容器和平台技术,为上层业务提供云原生服务,AI算力服务,全局资源动态分配,调度节点单集群规模超过万台,同时致力于在系统、业务多个层面,包括os/kernel、容器/PaaS、智能调度/仿真容量等进行技术突破,提高容器系统规模化的资源利用效率,降低大促等各种大规模复杂业务场景下的资源成本,打造智能、高效、稳定的智算基础设施平台本岗位负责在云原生,AI快速发展的背景下,能够面向异构的物理资源,设计和实现大规模的k8s集群节点和资源的管理能力 ● 算力调度产品架构研发: 负责设计通算,智算的算力调度,优化的平台架构,实现算力的弹性伸缩,分时调度,能够设计训推混部的统一架构平台,实现算力资源有效利用 ● 节点池架构与异构资源管理:负责节点池架构设计,实现算力节点池的产品化管理能力,支持CPU/GPU等异构资源的统一调度与资源隔离,优化AI异构场景下的节点管理策略,提升大规模集群的资源利用率与任务执行效率。 ● 算力节点生命周期产品化管理:建设节点生命周期的全链路产品化能力,设计并实现节点故障预测与主动运维能力,支持算力节点与模型实例的自动化发现与自愈,能够保障算力的稳定和持续供给。 ● 技术创新与成本优化:探索云原生与AI技术结合的创新场景(如弹性节点池、智能调度算法),推动资源管理效率的持续提升。通过资源预测、库存优化等手段,降低集群运维成本与资源浪费

更新于 2025-06-11杭州
logo of alibaba
社招3年以上技术类-开发

团队介绍: 阿里国际以AI技术驱动,助力全球数字贸易及电商生 态的发展。AlBusiness是阿里国际内部集大模型研究 及智能化前沿产品研发于一体的AI部门,自研面向跨境商贸增强的多语言大模型-Marco和多模态大模型 -Ovis,依托全球化的AI基础设施和算力资源,帮助 AliExpress、Lazada、Alibaba国际站、Trendyol、 Daraz等平台全面革新跨境电商全链路的经营体验和 商业效率。基于先进的大模型与工程技术,我们正在打造新一代的智能体(Agent)和智能引擎(Deep Search)产品,持续致力于让全球商业没有语言障碍,用智能帮助跨境贸易更加简单。 职位描述: 1. 进行AI Infra相关的研发工作,包括但不限于模型推理引擎,分布式训练框架,模型部署和服务,任务分发和调度,弹性扩缩容,高性能计算集群管理等。 2. 通过AI Infra的研发工作,支持LLM和多模态等大模型的研发、部署和上线服务,支持Agentic AI等新型AI产品的研发和应用,保障客户体验,实现业务落地和成本降低等目标。 3. 与算法、产品、运营以及工程等团队通力合作,推进AI产品和技术的发展和应用。

更新于 2026-01-15杭州
logo of aliyun
社招5年以上云智能集团

1.负责阿里云容器平台在AI基础设施与应用架构方向的产品研发与技术演进; 2.主导大规模异构资源(GPU/NPU/RDMA等)集群的调度、管理与性能优化,提升资源利用效率、系统稳定性与运行性能; 3.设计并开发面向AI Agent场景的Serverless容器算力产品; 4.推动云原生AI领域前沿技术预研、落地及开源生态建设,持续引领技术创新与行业实践。

更新于 2026-01-05北京|杭州
logo of aliyun
社招5年以上云智能集团

作为通义万相的AI infra训推优化团队,你将有机会参与或负责以下工作内容: ● 对推理引擎的运行时环境进行深度优化,减少延迟,提高整体性能; ● 针对多种异构AI加速硬件,对核心算子进行极致性能优化,结合量化、蒸馏、cache等技术,降低视频推理成本; ● 开发智能的请求调度算法,确保高并发场景下的最优响应时间和吞吐量; ● 持续关注并跟进业界技术发展,积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。

更新于 2025-12-19北京|杭州