logo of quark

夸克智能信息-大模型推理优化专家-通信优化

社招全职3年以上地点:杭州 | 广州 | 北京状态:招聘

任职要求


1、精通C++/CUDA/Python编程,具备扎实的算法和数据结构基础;
2、深入理解分布式训练/推理的并行范式(Tensor Parallelism, Pipeline Parallelism, Data Parallelism等);
3、拥有丰富的通信库优化经验,熟练掌握NCCL/RC…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、专注于解决大规模分布式模型推理中的通信瓶颈,优化通信效率;
2、深入分析NCCL/MPI等通信库在All-Reduce、All-Gather等集合操作中的性能问题,并利用GPUDirect RDMA、InfiniBand等高速网络技术进行底层优化;
3、设计与实现异步通信、计算-通信重叠、拓扑感知集合通信等策略,实现通信与计算的高效重叠,最大化GPU集群在TP/PP/EP等并行场景下的整体效率。
包括英文材料
C+
C+++
Python+
Linux+
机器学习+
算法+
大模型+
PyTorch+
JAX+
深度学习+
DeepSpeed+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

1.技术方案设计 • 调研AI大模型训练及推理的前沿技术发展,分析前沿技术和网络的关联以及优化方向 • 分析客户需求,帮助客户使用我们的产品和解决方案,帮忙客户进行性能优化 2.技术实现 • 负责AI计算系统的通信库研发、测试、以及交付与支持 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等 3.稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 4.技术预研 • 分析AI业务通信pattern和发展趋势,探索通信库的优化空间,以及AI计算系统全栈的协同设计,提升系统端到端的稳定性和性能 5.技术规划 • 理解业务战略及重点,基于业务需求作出高性能、高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2026-01-13北京|杭州
logo of aliyun
社招5年以上云智能集团

1、技术方案设计 • 调研AI大模型训练及推理的前沿技术发展,分析前沿技术和网络的关联以及优化方向; • 分析客户需求,帮助客户使用我们的产品和解决方案,帮忙客户进行性能优化; 2、技术实现 • 负责AI计算系统的通信库研发、测试、以及交付与支持 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等 3、稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 4、技术预研 • 分析AI业务通信pattern和发展趋势,探索通信库的优化空间,以及AI计算系统全栈的协同设计,提升系统端到端的稳定性和性能 5、技术规划 • 理解业务战略及重点,基于业务需求作出高性能、高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-12-24北京|杭州
logo of liauto
社招智能与信息技术

1. 负责AI大模型的推理引擎和服务设计、研发和交付; 2. 负责AI大模型分布式调度方案设计、研发和交付; 3. 负责AI大模型推理性能分析和优化; 4. 负责大模型在异构 NPU 平台上编译、移植和优化;

上海
logo of aliyun
社招8年以上云智能集团

1、技术方案设计 • 调研AI大模型训练及推理的前沿技术发展,分析计算通信协同优化的技术方案; • 分析客户需求,帮助客户使用我们的产品和解决方案,帮忙客户进行性能优化; 2、技术实现 • 负责AI计算系统的通信优化方案设计,包括计算通信协同优化、通信库研发测试、以及交付与支持; • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等; • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署; • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等。 3、稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠; • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能。 4、技术预研 • 分析AI业务通信pattern和发展趋势,探索通信库的优化空间,以及AI计算系统全栈的协同设计,提升系统端到端的稳定性和性能。 5、技术规划 • 理解业务战略及重点,基于业务需求作出高性能、高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-09-25北京|杭州