腾讯腾讯云-云原生AI Infra研发工程师(深圳/北京)
任职要求
1.本科及以上学历,5年及以上相关工作经验; 2.熟悉Kubernetes生态,对Kubernetes源码有了解,具备 K8s Operator 相关开发经验优先; 3.熟悉 AI 训练、微调、推理等各个环节,熟悉主流大模型推理框架,如triton、vllm、lightllm、oll…
工作职责
1.负责 deepseek 等AI大模型在 K8s 上的推理部署方案研发,深度对接客户场景; 2.负责AI Infra相关能力在TKE的落地,如AI 相关工作负载的设计与研发,降低用户使用成本; 3.通过优化 AI 部署的计算、网络、存储相关资源,提升训练及推理效率; 4.负责推理稳定性、亲和性调度、推理框架优化、GPU池化等相关工作,降低推理成本,提升推理效率。
1.设计自动化数据治理流水线,支持多模态数据清洗/标注/增强(文本、图像、表格数据); 2.打造可视化微调工作台,支持LoRA/QLoRA/Adapter等高效算法一键配置; 3.开发智能评估中心,集成20+评估维度(事实性/安全性/逻辑性/领域适应性; 4.实现高并发推理服务,设计动态批处理/量化压缩/流量调度方案。
1.基于开源项目 Ray,打造业内领先的通用分布式计算引擎,包括但不限于以下方向:引擎内核(分布式Task调度与执行)、分布式数据处理框架、分布式在线服务编排框架等; 2.面向 Data + AI,支持和拓展以 Ray 为 infra 的多种业务场景,包括但不限于以下方向:数据科学、大模型训练数据管道服务、在线推理与离线推理、AI Agent与应用系统、隐私计算、图计算等; 3.与 K8S 深度融合,建设云原生环境下超大规模分布式系统的服务能力与平台化能力,为业务提供高可用、可扩展、高易用性的集群化服务; 4.参与开源共建与合作,提升团队与个人在业界的影响力。

base地 北京/上海/广州/深圳 1.进行数据闭环,分布式模型训练框架和管理系统的软件研发; 2.基于云原生和 Kubernetes 生态系统,打造高可用和高稳定性的复杂业务系统; 3.负责训练框架前沿技术的探索和研究,负责分布式训练架构体系的演进; 4.打造自动驾驶领域的数据闭环系统,自动驾驶大规模离线仿真技术等高水平大模型基础软件。

参与商汤大装置智能云的核心 Web 产品研发,包括: · 云控制台(算力/云服务/AI Infra) · AI 中台(大模型、数据、训练/推理平台) · 智能运营平台、官网等关键 B 端产品 我们会根据你的经验与意愿匹配具体方向。 岗位职责: 1. 负责大装置控制台、AI 中台、运营平台等 Web 应用的前端开发与架构优化。 2. 深度参与产品需求讨论,与产品、后端、设计团队紧密协作,推动功能迭代与用户体验提升。 3. 独立完成前端开发工作。 4. 优化系统性能、前端工程化体系和可观察性,提升整体开发效率与用户体验。 5. 参与前端组件、微前端架构及工程工具链的建设与持续优化。