logo of tencent

腾讯大模型推理集群优化研发工程师

社招全职CSIG技术地点:上海状态:招聘

任职要求


1.熟悉容器化技术,熟悉Kubernetes技术栈,有Kubernetes生产级集群管理经验;
2.熟悉LLM推理特性(显存管理、动态批处理、KV Cache优化),熟悉开源大模型推理框架(如vLLM、SGLang);
3.熟悉LLM推理PD分离式架构,对PD分离架构下的调…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责大模型推理集群的长期规划、架构设计与持续迭代,构建高可用、高性能的分布式推理基础设施;
2.参与大模型推理部署平台的建设,包括大模型模型服务管理、模型发布、模型滚动升级、模型回滚等基础能力;
3.构建大模型服务自动化部署工具链,支持一键式模型发布与集群扩缩容;
4.负责大语言模型PD分离架构下的集群优化,包括PD分离集群管理、PD分离高可用、PD分离集群资源优化等;
5.负责大语言服务层流量调度,包括流量分发系统、负载均衡策略(如动态权重分配、请求优先级调度、KV Cache感知);
6.设计面向外部的高性能大模型调用API(REST/gRPC),实现请求鉴权、流量控制、请求计费、熔断降级等核心功能;
7.搭建端到端监控体系(QPS/延迟/错误率/GPU利用率),建立SLA保障机制与故障自愈能力;
8.解决多租户场景下的资源隔离和资源复用问题,保证用户需求的基础上,实现最大化集群利用率。
包括英文材料
Kubernetes+
大模型+
还有更多 •••
相关职位

logo of xiaohongshu
实习机器学习平台

1、研发面向大语言/多模态/CV/NLP等类型模型的推理与训练框架; 2、参与推理框架研发优化,包括算子优化、推理架构优化、异构调度等多种技术研发落地等; 3、参与训练框架研发优化,包括数据读取、分布式训练及微调工具链等AI基础设施的建设等; 4、参与多个业务场景中的模型压缩技术实现,对模型进行轻量化压缩,提高训练/推理效率,支持业务降本增效; 5、与公司各算法部门深度合作,参与大语言模型、多模态大模型、计算机视觉、语音、自然语言处理等业务训推任务的优化提效; 6、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等。

北京|上海
logo of xiaohongshu
实习引擎

1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架; 2、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架; 2、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等; 3、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成。

更新于 2025-08-05北京
logo of meituan
实习核心本地商业-基

1.围绕大模型异构训练集群,尤其是非NV GPU大规模异构硬件集群,面向大模型预训练、Finetune等场景进行新模型使能,系统分析/优化,业务支撑等工作,包括分布式优化框架,AI框架,网络集合通信,算子等方面内容; 2.负责大模型推理引擎的研发和优化,包括推理系统优化、模型量化压缩和模型部署; 3. 熟悉NLP类模型训练场景,有GPT,LlaMa、DeepSeek等相关知识和经验者优先 4. 熟悉视觉类,多模态大模型训练场景,有ViT, Swin Transformer, Stable Diffusion, MoE相关知识和经验者优先 5. 熟悉Megatron, Deepspeed, Colossal AI, FSDP等分布式框架,有相关知识、使用和调优经验者优先 6. 熟悉以下推理框架者优先,如FasterTransformer、vllm、sglang、LMDeploy、TensorRT-LLM等; 7. 熟悉PyTorch分布式场景,有二次开发经验,系统调优知识和经验者优先 8. 熟悉集合通信原理和基本知识,对NCCL有大规模使用,调优经验者优先 9. 熟悉算子开发流程,有CUDA编程知识和相关经验者优先 10. 熟悉NV GPU架构,对其他类型AI芯片有使用经验者优先

更新于 2025-04-07北京|上海
logo of xiaohongshu
社招5-10年引擎

大模型具备很强的泛化及理解世界能力,在小红书内的众多生产场景遍地开花,大模型的训练和部署已成为许多算法工程师的日常。在多团队、多业务频繁使用的大规模GPU集群上,如何能够通过高效的GPU调度策略,使大家不仅能丝滑地完成训练及部署任务,同时也能充分激发大规模GPU集群的效能,是行业公认的关键挑战。在这里,你可以聚焦LLM场景,接触到超大规模GPU集群,并使用真实负载数据进行深入分析及技术探索。欢迎加入我们,一起探索领先技术改变世界! 工作职责: 1、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、集群调度、GPU虚拟化、故障快速恢复、存储&网络加速等手段,提升大规模GPU集群的整体使用效率。 2、负责构建面向大模型训练、微调、推理、部署全流程LLMOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地。 3、持续关注业界最新的GPU资源调度相关技术动态,探索建设业界领先的资源调度策略及方法,构建下一代大规模AI资源调度系统。

更新于 2025-10-25北京