阿里云阿里云智能-高性能网络技术专家-北京

社招全职8年以上技术类-开发2025-06-19地点：北京状态：招聘

扫码手机上打开

任职要求

• 8年以上工作经验，5年以上高性能网络方向工作经验
• 熟悉RDMA协议的细节，参与过高性能网络协议的设计和研发工作
• 参与过基于RDMA的通信库或网络系统的研发，并有实际落地部署的经验
• 熟悉RDMA或自定义高性能在生产网大规模部署时的常见问题
• 有拥塞控制算法研发经验或端到端性能分析和优化经验者优先
• 熟悉Nvidia DPU架构和有相关研发经验者优先
• 熟悉Nvidia RPDMA框架和有相关研发经验者优先
• 熟悉智能网卡RDMA引擎实现细节或网卡驱动者…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、技术方案设计
• 收集、识别、分析客户需求，并确定技术方案的目标、范围和交付成果
• 基于需求分析，进行技术可行性分析和方案评审，选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等
2、技术实现
• 基于技术方案的拆解，按照任务目标和产出规范，完成任务/子任务的设计、编码开发和系统功能实现
• 负责核心功能的架构与代码模板的编写，开发与维护系统公用核心模块，技术架构重构、优化等
• 对编码进行阶段性的讨论和CodeReview，并通过调试优化，推动代码成功部署
• 对开发中和部署后的程序进行必要的维护和迭代，包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等
3、稳定性和性能优化
• 制定稳定性策略，寻找并解决产品系统中的潜在风险和瓶颈，覆盖线上疑难杂症问题，确保系统的安全可靠
• 运用产品优化技术和方法，进行性能优化，提高产品稳定性和性能
4、技术预研
• 跟踪和了解新的产品技术和趋势，根据业务需要提供新的技术支持和建议。
5、技术规划
• 理解业务战略及重点，基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

算法+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-块存储软硬结合技术专家-AI领域-北京/杭州

社招5年以上云智能集团

1. 围绕高性能、低延迟的分布式存储系统，负责新机型及新型硬件技术选型与系统架构的设计适配，评估其对性能、可靠性、成本和运维的影响，输出硬件引入可行性方案。 2. 负责深度参与软硬件协同调优，结合自研分布式存储软件栈与底层硬件特性，在 CPU 性能热点调优、异构计算加速、端网一体等层面进行联合优化，取得吞吐最大化、延迟SLA有保障的系统优化结果。 3. 负责构建并实施覆盖兼容性、稳定性与性能的多维度验证体系，针对不同CPU、存储介质、网络架构，开展大规模自动化测试与长期压力验证，确保硬件满足生产环境SLA要求。 4. 负责推动新硬件在生产环境的标准化导入与灰度上线验证，制定硬件准入规范、监控指标与故障应急机制，协同运维、SRE与供应链团队完成从灰度到规模化部署的过程。 5. 负责持续跟踪存储与服务器硬件前沿技术，开展预研验证与原型测试，为下一代存储架构演进提供技术储备与决策依据。

更新于 2025-11-20北京|杭州

大规模GPU集群调度优化工程师/专家

社招引擎

大模型具备很强的泛化及理解世界能力，在小红书内的众多生产场景遍地开花，大模型的训练和部署已成为许多算法工程师的日常。在多团队、多业务频繁使用的大规模GPU集群上，如何能够通过高效的GPU调度策略，使大家不仅能丝滑地完成训练及部署任务，同时也能充分激发大规模GPU集群的效能，是行业公认的关键挑战。在这里，你可以聚焦LLM场景，接触到超大规模GPU集群，并使用真实负载数据进行深入分析及技术探索。欢迎加入我们，一起探索领先技术改变世界！工作职责： 1、负责万卡规模GPU集群效能分析及优化，通过调度策略优化、在离线混部、集群调度、GPU虚拟化、故障快速恢复、存储&网络加速等手段，提升大规模GPU集群的整体使用效率。 2、负责构建面向大模型训练、微调、推理、部署全流程LLMOps，与下游云原生平台深度融合，支撑大模型在公司内各业务生产链路稳定高效地落地。 3、持续关注业界最新的GPU资源调度相关技术动态，探索建设业界领先的资源调度策略及方法，构建下一代大规模AI资源调度系统。

北京|上海

大模型网关资深工程师/专家

社招A172997

1、负责边缘大模型网关，边缘推理等产品化工作； 2、负责安全、高可靠性、高性能的端边云算力协同平台建设； 3、掌握业界前沿的技术，持续探索在各种边缘场景下的AI解决方案。

更新于 2025-03-03北京

阿里云智能-深度学习训练系统研发专家-北京，杭州

社招云智能集团

● 负责PAI平台深度学习框架的研发，包括但不局限于MoE模型大规模训练框架、多模态训练框架、RLHF训练框架等，支持包括通义实验室、阿里集团等不同领域方向；参与包括基模型Pretrain、SFT等多个阶段的训练任务优化； ● 致力于提升不同阶段模型训练负载的极限吞吐，能够针对不同模型负载系统化的分析不同阶段耗时并提供相应的优化手段，优化手段包括但不局限于算子优化、通信优化、分布式策略优化等； ● 负责超大规模训练任务的稳定性的设计，通过各种手段来提升训练任务的有效吞吐，构建更可靠的故障检测系统和自愈系统，提供超大规模训练任务的丝滑体验。 ● 参与训练框架对于不同硬件的支持和优化。

更新于 2025-07-22北京|杭州