阿里云阿里云智能-AI Infra 高级研发工程师-北京/杭州/上海

社招全职3-5年云智能集团2025-07-15地点：北京 | 杭州 | 上海状态：招聘

扫码手机上打开

任职要求

1. 3-5年Linux C/C++/Python/CUDA/NCCL/TensorRT等编程经验，对程序架构和数据结构有深入理解。
2. 熟练掌握主流AI计算框架(PyTorch/TensorFlow)的性能优化技术，有AI编译优化，大语言模型优化经验者优先。
3. 充分理解AI…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

弹性计算异构AI推理团队，承担着构建阿里云IAAS资源在公共云竞争力的职责。在AI领域，团队对接业界主要AI用户的业务需求，承接提升GPU、AI加速器等芯片在AI场景的竞争力职责。和团队一起通过专家领域知识和软硬件分析能力构建阿里云在AI场景的核心竞争力和加速解决方案。
1. 负责基于云上AI真实场景的解决方案和性能分析系统建设，构建性能标尺。
2. 负责基于云上大规模推理场景的构建和底层软件性能优化工作。
3. 负责包括CIPU、GPU、AI加速器等硬件在阿里云AI场景的竞争力构建。
4. 与厂商和内部业务团队合作，为阿里云的AI用户提供具有竞争力的AI解决方案。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Linux+

C+

C+++

Python+

CUDA+

还有更多 •••

登录查看完整学习资料

相关职位

AI平台高级研发工程师（大模型专项）

社招3-5年大模型

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！ 1、负责大模型平台的架构设计和核心功能研发，构建云原生架构，设计高可用、高性能的微服务体系； 2、负责构建面向大模型全流程的DevOps，与下游云原生平台深度融合，支撑大模型在公司内各业务生产链路稳定高效地落地； 3、负责万卡规模GPU集群效能分析及优化，通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段，提升GPU集群使用效率； 4、将平台和框架结合，通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率，涉及k8s/kubeflow、网络通信、分布式训练等； 5、优化各AI平台性能，提升系统稳定性和可扩展性，保障大规模并发场景下的服务质量与用户体验； 6、持续研究分析业内创新AI平台产品，优化技术方案，改进产品功能，提升创新能力与产品体验。

更新于 2025-10-23北京|上海|杭州

阿里云智能-AI基础设施产品专家/高级专家（训推加速平台方向）-北京/杭州

社招5年以上产品类-平台型

1. 负责百炼专属版大模型AI Infra产品定义、设计及商业化落地； 2. 制定产品策略以及商业策略，以业务成功为导向，协同研发工程师，售前架构师，产品运营等多角色共同努力达成业务目标； 3. 深刻理解客户业务和场景需求，追踪行业发展趋势及技术发展动态，规划产品演进路径及迭代，保持具有持续产品力竞争优势； 4. 追踪标杆客户，确保技术可行性，以及对产品演进的持续反馈，沉淀最佳实践，标杆项目案例； 5. 收集客户需求，结合技术理解和研判，推动产品功能升级迭代，提升产品市场竞争力和市场占有率。

更新于 2025-06-27北京|杭州

AI Infra 高级研发工程师

社招

负责 Momenta 自动驾驶大模型、世界模型的分布式训练推理框架研发，主要包括： 1. 参与设计、研发、维护团队内部的模型分布式训练框架，擅长分析并深度优化训练各个阶段的性能瓶颈，包括计算效率、通信延迟、显存占用等； 2. 结合不断迭代的模型算法逻辑，设计并实现针对性的高效分布式并行训练策略； 3. 深入研究 CUDA、NCCL、RDMA 等编程范式和通信库，针对团队内部的 GPU 和集群拓扑约束，开发高性能算子并优化分布式通信效率，达到行业 SOTA 水平； 4. 深入研究低精度混合精度训练策略，在保证模型精度满足预期的情况下，探索低精度（FP8、FP4）训练的性能极限； 5. 配合算法需求，开发 RL 训练框架、迭代 RL 训练算法逻辑，优化在线 Rollout 推理性能，深度优化分布式 On-Policy/异步 RL 训练效率。

更新于 2025-04-17北京|上海|苏州

阿里国际-AI Infra研发高级工程师-北京

社招3年以上技术类-开发

团队介绍： "阿里巴巴国际数字商业集团的智能技术团队，负责阿里巴巴旗下多个国际化电商平台的搜索、推荐、广告、用增等技术。团队致力于将最前沿的AI技术与国际化电商业务问题深度结合，为用户打造更好更智能化的网上购物体验，同时赋能百万商家实现更高效的经营。选择加入我们意味着投身入于高速发展的国际化电商业务，一起打造最先进的AI技术以驱动全球电商业务发展。" 职位描述： 1. 打造行业领先的AI工程平台：设计并构建支撑算法模型高效迭代的标准化平台体系（特征平台、训练平台、在线推理框架等），打通算法创新与业务验证的“任督二脉”，加速模型价值落地。 2. 攻坚大模型工程化挑战：深入探索生成式AI（AIGC）技术在实际业务中的规模化落地，主导大模型训练、推理加速、性能优化等核心工程难题的解决。 3. 开拓AI创新应用的边界：积极探索AI在搜索/推荐/广告（搜推广）等核心场景的颠覆性应用（如生成式召回、生成式排序、行为大模型），以及AI Agent技术在智能运维、资源优化、智能客服助手等领域的创新实践，为业务创造新价值。

更新于 2025-12-12北京