logo of tencent

腾讯大模型推理集群优化研发工程师

社招全职CSIG技术地点:上海状态:招聘

任职要求


1.熟悉容器化技术,熟悉Kubernetes技术栈,有Kubernetes生产级集群管理经验;
2.熟悉LLM推理特性(显存管理、动态批处理、KV Cache优化),熟悉开源大模型推理框架(如vLLM、SGLang);
3.熟悉LLM推理PD分离式架构,对PD分离架构下的调…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责大模型推理集群的长期规划、架构设计与持续迭代,构建高可用、高性能的分布式推理基础设施;
2.参与大模型推理部署平台的建设,包括大模型模型服务管理、模型发布、模型滚动升级、模型回滚等基础能力;
3.构建大模型服务自动化部署工具链,支持一键式模型发布与集群扩缩容;
4.负责大语言模型PD分离架构下的集群优化,包括PD分离集群管理、PD分离高可用、PD分离集群资源优化等;
5.负责大语言服务层流量调度,包括流量分发系统、负载均衡策略(如动态权重分配、请求优先级调度、KV Cache感知);
6.设计面向外部的高性能大模型调用API(REST/gRPC),实现请求鉴权、流量控制、请求计费、熔断降级等核心功能;
7.搭建端到端监控体系(QPS/延迟/错误率/GPU利用率),建立SLA保障机制与故障自愈能力;
8.解决多租户场景下的资源隔离和资源复用问题,保证用户需求的基础上,实现最大化集群利用率。
包括英文材料
Kubernetes+
大模型+
还有更多 •••
相关职位

logo of pinduoduo
社招技术类

1. 负责生成式语言模型应用的设计,开发,和落地,为用户使用场景提供更好的体验。 2. 在已部署的大模型服务中,调研不同模型与架构对服务指标的影响。 3. 结合提示词工程 (prompt engineering),模型微调 (supervised/parameter efficient fine-tuning),函数调用 (function calling),配合向量数据库的检索增强生成 (RAG)等大模型技术,研发关键功能,实现稳定,可复现的模型产出。 4. 跟进业界的最新产出结果,根据业务需求,为团队调研引入新的大模型应用场景。

更新于 2025-09-15上海
logo of aliyun
社招3年以上云智能集团

1. 行业解决方案设计与交付 - 基于阿里云大模型技术(如通义千问),为银行、保险、证券等金融客户量身定制AI大模型解决方案,覆盖AI财富助手、智能客服、智能风控等核心场景。 - 深入理解客户业务痛点,提供从需求分析、技术选型到方案落地的全流程支持,确保大模型技术与金融业务深度融合。 2. 大模型全生命周期技术赋能 - 主导客户侧大模型后训练(Post-training)、领域微调(Domain-specific Fine-tuning)、模型蒸馏(Distillation)及多模态融合优化,提升模型在金融垂直场景的精度及性能。 - 优化大模型训练与推理性能,包括分布式训练加速(如DeepSpeed、Megatron-LM)、显存优化、量化压缩(INT8/FP16)及低延迟推理部署(如vLLM、SGLang)等。 3. 工程化落地与性能调优 - 解决金融场景高并发、高稳定性需求,设计高性能计算架构,优化模型在GPU/TPU集群的训练效率及端到端推理链路。 - 结合金融行业数据隐私与安全要求,设计符合监管的模型部署方案。 4. 客户技术赋能与生态共建 - 面向客户技术团队提供大模型技术培训、实战工作坊及POC验证,推动AI能力在客户内部的规模化应用。 - 沉淀金融行业大模型最佳实践,输出白皮书、案例研究及标准化解决方案,提升阿里云在金融AI领域的市场影响力。

更新于 2025-12-09深圳|广州
logo of antgroup
社招5年以上技术类-开发

蚂蚁HCS 算力服务是全站通算,智算资源管理的基础设施平台, 通过Kubernetes等容器和平台技术,为上层业务提供云原生服务,AI算力服务,全局资源动态分配,调度节点单集群规模超过万台,同时致力于在系统、业务多个层面,包括os/kernel、容器/PaaS、智能调度/仿真容量等进行技术突破,提高容器系统规模化的资源利用效率,降低大促等各种大规模复杂业务场景下的资源成本,打造智能、高效、稳定的智算基础设施平台,HCS产品架构师的职责包括: ● 平台架构设计: 在日益复杂的AI异构的大背景下,主导设计并构建能够支撑大规模算力交付的平台架构,涵盖系统,内核,存储,网络,算力,kubernetes,确保平台具备高性能、高可用、弹性扩展和安全性,满足海量业务场景需求。 ● 算力交付体系构建: 建立高效的算力交付体系,优化资源调度和分配策略,实现算力的快速供给和弹性伸缩,降低业务获取算力的复杂度,和提升算力使用体验。 ● 算力优化架构:设计和建设智算时代的通智一体的算力架构,实现算力的分时,混部,隔离,一体化调度的架构,充分满足业务的同时,提升资源利用率 ● 经营体系搭建: 构建算力服务的经营体系,制定合理的资源定价模型和计费策略,建立完善的成本控制和收益分析机制,推动平台实现商业化运营。

更新于 2025-06-11杭州
logo of antgroup
社招技术类-开发

1. 负责AI训练推理服务高可用方向工作,如推理框架、推理在线服务、训练平台、训练框架等。 2. 负责以上平台的集群的资源治理、数字化管理等平台的研发。 3. 通过软硬件协同优化和技术创新,为双11、双12大促,新春红包等重大活动的保障与业务护航。

更新于 2025-04-23杭州