腾讯大模型推理集群优化研发工程师

社招全职CSIG技术2025-06-17地点：上海状态：招聘

扫码手机上打开

任职要求

1.熟悉容器化技术，熟悉Kubernetes技术栈，有Kubernetes生产级集群管理经验；
2.熟悉LLM推理特性（显存管理、动态批处理、KV Cache优化），熟悉开源大模型推理框架（如vLLM、SGLang）；
3.熟悉LLM推理PD分离式架构，对PD分离架构下的调…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.负责大模型推理集群的长期规划、架构设计与持续迭代，构建高可用、高性能的分布式推理基础设施；
2.参与大模型推理部署平台的建设，包括大模型模型服务管理、模型发布、模型滚动升级、模型回滚等基础能力；
3.构建大模型服务自动化部署工具链，支持一键式模型发布与集群扩缩容；
4.负责大语言模型PD分离架构下的集群优化，包括PD分离集群管理、PD分离高可用、PD分离集群资源优化等；
5.负责大语言服务层流量调度，包括流量分发系统、负载均衡策略（如动态权重分配、请求优先级调度、KV Cache感知）；
6.设计面向外部的高性能大模型调用API（REST/gRPC），实现请求鉴权、流量控制、请求计费、熔断降级等核心功能；
7.搭建端到端监控体系（QPS/延迟/错误率/GPU利用率），建立SLA保障机制与故障自愈能力；
8.解决多租户场景下的资源隔离和资源复用问题，保证用户需求的基础上，实现最大化集群利用率。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Kubernetes+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

大模型算法应用工程师

社招技术类

1. 负责生成式语言模型应用的设计，开发，和落地，为用户使用场景提供更好的体验。 2. 在已部署的大模型服务中，调研不同模型与架构对服务指标的影响。 3. 结合提示词工程 (prompt engineering)，模型微调 (supervised/parameter efficient fine-tuning)，函数调用 (function calling)，配合向量数据库的检索增强生成 (RAG)等大模型技术，研发关键功能，实现稳定，可复现的模型产出。 4. 跟进业界的最新产出结果，根据业务需求，为团队调研引入新的大模型应用场景。

更新于 2025-09-15上海

阿里云智能-行业解决方案架构师（股份制）-新金融行业线（广州/深圳）

社招3年以上云智能集团

1. 行业解决方案设计与交付 - 基于阿里云大模型技术（如通义千问），为银行、保险、证券等金融客户量身定制AI大模型解决方案，覆盖AI财富助手、智能客服、智能风控等核心场景。 - 深入理解客户业务痛点，提供从需求分析、技术选型到方案落地的全流程支持，确保大模型技术与金融业务深度融合。 2. 大模型全生命周期技术赋能 - 主导客户侧大模型后训练（Post-training）、领域微调（Domain-specific Fine-tuning）、模型蒸馏（Distillation）及多模态融合优化，提升模型在金融垂直场景的精度及性能。 - 优化大模型训练与推理性能，包括分布式训练加速（如DeepSpeed、Megatron-LM）、显存优化、量化压缩（INT8/FP16）及低延迟推理部署（如vLLM、SGLang）等。 3. 工程化落地与性能调优 - 解决金融场景高并发、高稳定性需求，设计高性能计算架构，优化模型在GPU/TPU集群的训练效率及端到端推理链路。 - 结合金融行业数据隐私与安全要求，设计符合监管的模型部署方案。 4. 客户技术赋能与生态共建 - 面向客户技术团队提供大模型技术培训、实战工作坊及POC验证，推动AI能力在客户内部的规模化应用。 - 沉淀金融行业大模型最佳实践，输出白皮书、案例研究及标准化解决方案，提升阿里云在金融AI领域的市场影响力。

更新于 2025-12-09深圳|广州

蚂蚁集团-算力服务产品架构师-杭州

社招5年以上技术类-开发

蚂蚁HCS 算力服务是全站通算，智算资源管理的基础设施平台, 通过Kubernetes等容器和平台技术，为上层业务提供云原生服务，AI算力服务，全局资源动态分配，调度节点单集群规模超过万台，同时致力于在系统、业务多个层面，包括os/kernel、容器/PaaS、智能调度/仿真容量等进行技术突破，提高容器系统规模化的资源利用效率，降低大促等各种大规模复杂业务场景下的资源成本，打造智能、高效、稳定的智算基础设施平台，HCS产品架构师的职责包括： ● 平台架构设计: 在日益复杂的AI异构的大背景下，主导设计并构建能够支撑大规模算力交付的平台架构，涵盖系统，内核，存储，网络，算力，kubernetes，确保平台具备高性能、高可用、弹性扩展和安全性，满足海量业务场景需求。 ● 算力交付体系构建: 建立高效的算力交付体系，优化资源调度和分配策略，实现算力的快速供给和弹性伸缩，降低业务获取算力的复杂度，和提升算力使用体验。 ● 算力优化架构：设计和建设智算时代的通智一体的算力架构，实现算力的分时，混部，隔离，一体化调度的架构，充分满足业务的同时，提升资源利用率 ● 经营体系搭建: 构建算力服务的经营体系，制定合理的资源定价模型和计费策略，建立完善的成本控制和收益分析机制，推动平台实现商业化运营。

更新于 2025-06-11杭州

蚂蚁集团-AI推理引擎高可用工程师-杭州Z

社招技术类-开发

1. 负责AI训练推理服务高可用方向工作，如推理框架、推理在线服务、训练平台、训练框架等。 2. 负责以上平台的集群的资源治理、数字化管理等平台的研发。 3. 通过软硬件协同优化和技术创新，为双11、双12大促，新春红包等重大活动的保障与业务护航。

更新于 2025-04-23杭州