
智能互联千问事业部-大模型推理优化专家-通信优化
任职要求
1、精通C++/CUDA/Python编程,具备扎实的算法和数据结构基础; 2、深入理解分布式训练/推理的并行范式(Tensor Parallelism, Pipeline Parallelism, Data Parallelism等); 3、拥有丰富的通信库优化经验,熟练掌握NCCL/RC…
工作职责
1、专注于解决大规模分布式模型推理中的通信瓶颈,优化通信效率; 2、深入分析NCCL/MPI等通信库在All-Reduce、All-Gather等集合操作中的性能问题,并利用GPUDirect RDMA、InfiniBand等高速网络技术进行底层优化; 3、设计与实现异步通信、计算-通信重叠、拓扑感知集合通信等策略,实现通信与计算的高效重叠,最大化GPU集群在TP/PP/EP等并行场景下的整体效率。

1、研究并应用先进的模型压缩技术,在极小精度损失下实现模型瘦身与加速; 2、研发并落地大模型低比特(INT8/INT4/FP8/FP4等)量化技术,开发与硬件协同的量化部署方案,攻克干亿参数模型低比特推理精度挑战; 3、研发并优化新一代投机采样技术,探索多模态与MoE架构加速,构建动态投机采样策略,联合工程团队打造高效训练推理引擎,最大化吞吐收益; 4、研发并应用结构化/非结构化稀疏与剪枝技术,探索与改进KV-Cache压缩、Token剪枝、Prompt压缩及CoT压缩等动态稀疏化方法,以显著降低内存占用并提升系统吞吐。
1、面向通算的弹性、混部、分布式作业调度等技术的设计和研发,满足客户不同 SLA 的资源调度;高效解决AI场景下资源协调、碎片化、隔离与干扰等技术难题; 2、面向大规模、分布式的智算场景,设计实现大模型推理服务的多角色分离式编排调度、及时准确的弹性伸缩等,实现AI模型部署优化等平台能力; 3、通过画像建设、机器学习等,为调度系统提供更加智能的决策;在保障不同类型工作负载 SLA 前提下,尽可能提升硬件利用率; 4、负责多地多中心联邦调度建设,为客户提供多种异构资源、环境需求等,保障集群合理的分布、负载。

1、面向通算的弹性、混部、分布式作业调度等技术的设计和研发,满足客户不同 SLA 的资源调度;高效解决AI场景下资源协调、碎片化、隔离与干扰等技术难题; 2、面向大规模、分布式的智算场景,设计实现大模型推理服务的多角色分离式编排调度、及时准确的弹性伸缩等,实现AI模型部署优化等平台能力; 3、通过画像建设、机器学习等,为调度系统提供更加智能的决策;在保障不同类型工作负载 SLA 前提下,尽可能提升硬件利用率; 4、负责多地多中心联邦调度建设,为客户提供多种异构资源、环境需求等,保障集群合理的分布、负载。

1.负责基于 LLM 和 Agent 框架(如 LangGraph, CrewAI, AutoGPT 等)设计并实现 SRE 智能体,构建具备感知、推理、规划、执行与反思能力的闭环运维系统; 2.深度拆解故障排查、容量规划、性能调优等运维场景,利用大模型重构工作流,实现从异常检测、根因分析到故障自愈的端到端自动化; 3.负责构建运维领域专业知识库,优化 RAG链路,提升 Agent 在处理复杂领域问题时的准确性和专业度; 4.探索多 Agent 协同机制,设计并实现针对复杂运维任务的任务分发、角色协作与共识协议; 5.持续优化智能运维平台的性能与扩展性,确保在高并发、超大算力规模环境下 AI 决策的实时性与稳定性。