logo of antgroup

蚂蚁金服蚂蚁集团-AI-Infra技术专家-杭州/北京/上海

社招全职3年以上技术类-开发地点:北京 | 上海 | 杭州状态:招聘

任职要求


1. 具有至少 2 年以上的AI系统/任务调度/高性能并行计算领域研发经验;
2. 熟悉 Transformer/MoE 等大模型结构原理、分布式调度系统、大模型训练/推理/Agent 系统、高性能软硬件架构等任一领域的专业知识;
3. 熟悉 sglangvllmmegatron 等训推框架和大规模训推优化、GRPO/PPO/DPO 等 RL 算法、AReaL/veRL/openRLHF 等强化学习框架的优先;
4. 对新技术有强烈好奇心,具备较强的团队合作能力,逻辑思维清晰、沟通表达能力强

加分项:
1. 在多模态/语言大模型/计算机视觉领域的 国际顶级会议/期刊上发表过高质量论文。
2. 熟悉常见的大模型结构,有多模态大模型实际工程优化经验优先

工作职责


1. 负责大模型分布式训练和推理研发,持续优化提升大模型训练框架(基于MegatronLM), 或推理框架(基于sglang 或 vllm) 的性能。
2. 深度参与原生多模态大模型研发,实现 基于MoE的多模态大模型架构 和 训练推理框架协同co-design,实现千亿级模型高效训练
包括英文材料
Transformer+
大模型+
AI agent+
SGLang+
vLLM+
Megatron+
算法+
强化学习+
OpenCV+
相关职位

logo of aliyun
社招3-5年云智能集团

弹性计算异构AI推理团队,承担着构建阿里云IAAS资源在公共云竞争力的职责。在AI领域,团队对接业界主要AI用户的业务需求,承接提升GPU、AI加速器等芯片在AI场景的竞争力职责。和团队一起通过专家领域知识和软硬件分析能力构建阿里云在AI场景的核心竞争力和加速解决方案。 1. 负责基于云上AI真实场景的解决方案和性能分析系统建设,构建性能标尺。 2. 负责基于云上大规模推理场景的构建和底层软件性能优化工作。 3. 负责包括CIPU、GPU、AI加速器等硬件在阿里云AI场景的竞争力构建。 4. 与厂商和内部业务团队合作,为阿里云的AI用户提供具有竞争力的AI解决方案。

更新于 2025-07-15
logo of tongyi
校招通义2026届秋

我们正在寻找业界顶尖的系统专家,加入我们的AI基础架构团队,共同设计和构建下一代生成式AI的“在线服务操作系统”。您的使命是解决将前沿AI能力(大模型、AI Agent、多模态等)转化为大规模、高效率、高可用在线服务时所面临的系统性、全栈性挑战。您将负责端到端的服务性能与架构演进,从顶层应用到底层硬件,全面提升AI服务的竞争力。 具体职责包括(若你对以下一个或者多个方向感兴趣均欢迎投递): 1. 大规模模型服务平台与智能调度系统设计: (1)负责承载大规模在线模型服务(Serving)平台的核心架构设计与演进,通过对底层推理引擎(如PAI平台提供)的深度适配与协同优化,实现极致的推理吞吐与资源利用率。 (2)设计并实现面向复杂混合负载(长/短序列长度、多Lora、多模型、异构资源、多租户、高/低优先级)的上层智能请求调度与资源管理系统,通过与推理引擎的深度协同,动态调整调度策略,保障服务质量(SLA)并最大化云上服务的性价比。 2. 分布式基础设施与底层硬件优化: (1)负责面向大规模模型服务的分布式推理拓扑管理与通信计算协同优化,针对张量并行、流水线并行等场景,优化跨节点通信(InfiniBand/RoCE, NVLink),降低端到端延迟。 (2)深入理解GPU、NPU等异构硬件架构与特性,负责从服务层面对底层计算、编译优化(由PAI等引擎团队提供)进行性能评测、分析与反馈,驱动端到端的硬件效能提升。 3. AI应用层运行时与算法协同优化: (1)深入AI Agent、检索增强生成(RAG)、多模态理解等复杂应用场景,设计并优化其专用的高效运行时(Runtime),解决长链条、多依赖、异步任务流的性能瓶颈。 (2)负责高性能向量检索(Vector Search)与图计算(Graph Computing)引擎的服务化与集成,优化其在RAG和复杂推理场景下的数据访问与计算效率,实现数据层与模型层的无缝高效协同。

更新于 2025-08-07
logo of xiaohongshu
社招3-5年数据引擎

工作职责 1. 参与大数据存储产品(Kafka/文件缓存/文件系统)的系统研发与优化工作,构建一流的数据基础设施,满足AI+BI对数据Infra不断增长的需求 2. 与团队共同推动技术创新,探索更加AI-native的数据生产与存储链路,落地具有行业影响力的业务成果

更新于 2025-08-22
logo of xiaohongshu
社招3-5年数据引擎

1. 参与分布式存储产品的系统研发与优化工作,构建一流的数据基础设施,满足AI、机器学习、大数据对数据Infra不断增长的需求 2. 与团队共同推动技术创新,探索更加AI-native的数据生产与存储链路,落地具有行业影响力的业务成果

更新于 2025-07-30