阿里云阿里云智能-集群通信优化技术专家-杭州/北京

社招全职5年以上云智能集团2026-03-25地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

• 5 年以上Coding经验；
• 作为所负责领域的owner，充分理解自己团队在生产关系大图中的定位，与周边团队形成良好协作，及时解决职责/认知冲突类问题并驱动合理方案落地；
• 精通工作中使用的技术栈，在设计、架构、并发、分布式、数据等一个或多个技术领域达到专家水平，准确解决问题；
• 对自己负责的研发模块具备快速上线、响应、应急处理能力；
 •熟悉领…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.技术方案设计
• 调研AI大模型训练及推理的前沿技术发展，分析前沿技术和网络的关联以及优化方向
• 分析客户需求，帮助客户使用我们的产品和解决方案，帮忙客户进行性能优化
2.技术实现
• 负责AI计算系统的通信库研发、测试、以及交付与支持
• 基于技术方案的拆解，按照任务目标和产出规范，完成任务/子任务的设计、编码开发和系统功能实现
• 负责核心功能的架构与代码模板的编写，开发与维护系统公用核心模块，技术架构重构、优化等
• 对编码进行阶段性的讨论和CodeReview，并通过调试优化，推动代码成功部署
• 对开发中和部署后的程序进行必要的维护和迭代，包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等
3.稳定性和性能优化
• 制定稳定性策略，寻找并解决产品系统中的潜在风险和瓶颈，覆盖线上疑难杂症问题，确保系统的安全可靠
• 运用产品优化技术和方法，进行性能优化，提高产品稳定性和性能
4.技术预研
• 分析AI业务通信pattern和发展趋势，探索通信库的优化空间，以及AI计算系统全栈的协同设计，提升系统端到端的稳定性和性能
5.技术规划
• 理解业务战略及重点，基于业务需求作出高性能、高可用、高可靠、高拓展性的技术架构规划和落地。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

相关职位

大规模GPU集群调度优化工程师/专家

社招引擎

大模型具备很强的泛化及理解世界能力，在小红书内的众多生产场景遍地开花，大模型的训练和部署已成为许多算法工程师的日常。在多团队、多业务频繁使用的大规模GPU集群上，如何能够通过高效的GPU调度策略，使大家不仅能丝滑地完成训练及部署任务，同时也能充分激发大规模GPU集群的效能，是行业公认的关键挑战。在这里，你可以聚焦LLM场景，接触到超大规模GPU集群，并使用真实负载数据进行深入分析及技术探索。欢迎加入我们，一起探索领先技术改变世界！工作职责： 1、负责万卡规模GPU集群效能分析及优化，通过调度策略优化、在离线混部、集群调度、GPU虚拟化、故障快速恢复、存储&网络加速等手段，提升大规模GPU集群的整体使用效率。 2、负责构建面向大模型训练、微调、推理、部署全流程LLMOps，与下游云原生平台深度融合，支撑大模型在公司内各业务生产链路稳定高效地落地。 3、持续关注业界最新的GPU资源调度相关技术动态，探索建设业界领先的资源调度策略及方法，构建下一代大规模AI资源调度系统。

北京|上海

AI平台高级研发工程师（训练方向）

社招3年以上机器学习平台

1、负责模型训练平台核心功能开发和架构设计，包括传统CN/NLP/SD/LLM等多场景支持 2、负责大模型后训练工具平台化建设，包括后预训练、微调、对齐等技术落地 3、设计和实现高性能分布式训练系统，打造端到端训练解决方案 4、优化训练调度和资源管理，提升集群利用率和训练效率 5、开发模型训练监控诊断工具，建设可观测性体系

北京|上海|深圳

机器学习系统工程师 -AI技术部

社招后端开发

【职位描述】 1、设计和实现机器学习平台业务系统, 包括工具链/组件等AI基础设施, 落地业务功能需求； 2、高效优化和部署计算机视觉、语音识别、语音合成、自然语言处理等业务模型； 3、与公司各算法部门深度合作, 分析业务性能瓶颈和系统架构特征, 软硬件结合优化, 实现极致性能。

北京|上海

分布式KV缓存研发工程师(J250331011)

社招技术

1. 负责万亿级别QPS的分布式缓存/存储集群，支撑公司所有产品线的业务需求； 2. 设计、研发高可用、高性能的缓存/存储架构和中间件，应对弹性扩缩容，秒级故障自动切换，异地多活，分布式事务等极具挑战性的工作内容和方向； 3. 优化系统性能，深入内核，提升基础服务相关资源的使用率，增加系统稳定性，保障业务运行； 4. 设计并研发自动化运维平台，提升运维质量和效率，探索运维自动化和智能化技术和方向。

更新于 2025-04-01北京