logo of momenta

MomentaAI Infra 高级研发工程师

社招全职地点:北京 | 上海 | 苏州 | 深圳状态:招聘

任职要求


1. 学历背景: 计算机相关专业硕士及以上学历,具备扎实的理论基础和强大的动手能力;
2. 编程能力:
  - 熟悉 Python/C++/CUDA/CUTLASS/Triton 编程,熟悉 PyTorch 框架及其底层实现;
  - 熟悉分布式系统开发与调试,熟悉分布式通信开发 NCCL/RDMA/IB/RoCE,有多进程调度与并行算法优化经验者优先;
3. 训练与推理经验:
  …
登录查看完整任职要求
微信扫码,1秒登录

工作职责


负责 Momenta 自动驾驶大模型、世界模型的分布式训练推理框架研发,主要包括:
1. 参与设计、研发、维护团队内部的模型分布式训练框架,擅长分析并深度优化训练各个阶段的性能瓶颈,包括计算效率、通信延迟、显存占用等;
2. 结合不断迭代的模型算法逻辑,设计并实现针对性的高效分布式并行训练策略;
3. 深入研究 CUDA、NCCL、RDMA 等编程范式和通信库,针对团队内部的 GPU 和 集群拓扑约束,开发高性能算子 并 优化分布式通信效率,达到行业 SOTA 水平;
4. 深入研究低精度混合精度训练策略,在保证模型精度满足预期的情况下,探索低精度(FP8、FP4)训练的性能极限;
5. 配合算法需求,开发 RL 训练框架、迭代 RL 训练算法逻辑,优化在线 Rollout 推理性能,深度优化 分布式 On-Policy/异步 RL 训练效率。
包括英文材料
学历+
Python+
C+++
CUDA+
Triton Inference Server+
PyTorch+
还有更多 •••
相关职位

logo of aliyun
社招5年以上产品类-平台型

1. 负责百炼专属版大模型AI Infra产品定义、设计及商业化落地; 2. 制定产品策略以及商业策略,以业务成功为导向,协同研发工程师,售前架构师, 产品运营等多角色共同努力达成业务目标; 3. 深刻理解客户业务和场景需求,追踪行业发展趋势及技术发展动态,规划产品演进路径及迭代,保持具有持续产品力竞争优势; 4. 追踪标杆客户,确保技术可行性,以及对产品演进的持续反馈,沉淀最佳实践,标杆项目案例; 5. 收集客户需求,结合技术理解和研判,推动产品功能升级迭代,提升产品市场竞争力和市场占有率。

更新于 2025-06-27北京|杭州
logo of aliyun
社招3-5年云智能集团

弹性计算异构AI推理团队,承担着构建阿里云IAAS资源在公共云竞争力的职责。在AI领域,团队对接业界主要AI用户的业务需求,承接提升GPU、AI加速器等芯片在AI场景的竞争力职责。和团队一起通过专家领域知识和软硬件分析能力构建阿里云在AI场景的核心竞争力和加速解决方案。 1. 负责基于云上AI真实场景的解决方案和性能分析系统建设,构建性能标尺。 2. 负责基于云上大规模推理场景的构建和底层软件性能优化工作。 3. 负责包括CIPU、GPU、AI加速器等硬件在阿里云AI场景的竞争力构建。 4. 与厂商和内部业务团队合作,为阿里云的AI用户提供具有竞争力的AI解决方案。

更新于 2025-07-15北京|杭州|上海
logo of aliyun
社招8年以上云智能集团

1. 深入理解所负责的容器平台技术原理、架构和使用场景,对容器平台调度/容器运行时/应用编排/serverless/弹性容量等特性进行架构设计和客户方案管理,推动和实现产品的商业化落地; 2. 具备良好的架构思维能力,根据对云计算平台以及企业用户的业务需求,从稳定性、功能、性能、可用性等方面,敏锐捕捉市场趋势,分析竞对产品及市场策略,为产品的设计、实现、改进不断提出建设性的想法和建议,反哺产品能力建设,不断提升容器产品的市场竞争力; 3. 与前线架构师/BTE销售紧密合作,主动了解客户当前在产品方案遇到的困难和需求,帮助客户解决技术问题,寻找新的业务突破点。推广产品方案并能够影响客户的基础设施、工程、算法等不同团队,用产品技术推动业务扩展; 4. 分析云计算技术发展趋势/市场竞争格局,挖掘行业数据/客户商机,建立可复制行业解决方案,与产品内部的产品经理、产品运营、研发等团队紧密配合,推动营收增长。

更新于 2025-09-11杭州|上海
logo of jd
社招5年以上测试开发岗

1. 负责京东云AI基础设施产品的质量保障工作,为上层AI开发提供高性能计算/网络、AI存储、大模型训练/推理、大数据开发等高质量底层技术产品; 2. 参与构建产品质量保障体系,根据产品需求、设计文档,制定测试计划,编写和执行测试用例,反馈问题,评价版本质量; 3. 参与自动化测试框架及测试pipeline建设,持续提高提测质量和测试效率。

更新于 2025-08-24北京