logo of tencent

腾讯腾讯云-容器产品AI Infra研发工程师(深圳/北京)

社招全职5年以上CSIG技术地点:深圳状态:招聘

任职要求


1.本科及以上学历,5年及以上相关工作经验;
2.熟悉Kubernetes生态,对Kubernetes源码有了解,具备 K8s Operator 相关开发经验优先;
3.熟悉 AI 训练、微调、推理等各个环节,熟悉主流大模型推理框架,如triton、vllm、lightllm、ollama、sglang等优先;
4.熟悉GPU、 CUDA 、 RDMA 、 NCCL 等相关技术优先,熟悉KubeFlow 、 Ray等相关框架者优先;
5.熟练掌握Golang语言开发,具备C/C++Rust, Python, Java, Shell等其他一种或多种语言开发经验。

工作职责


1.负责 deepseek 等AI大模型在 K8s 上的推理部署方案研发,深度对接客户场景;
2.负责AI Infra相关能力在TKE的落地,如AI 相关工作负载的设计与研发,降低用户使用成本;
3.通过优化 AI 部署的计算、网络、存储相关资源,提升训练及推理效率;
4.负责推理稳定性、亲和性调度、推理框架优化、GPU池化等相关工作,降低推理成本,提升推理效率。
包括英文材料
学历+
Kubernetes+
Kubernetes Operator+
大模型+
vLLM+
Ollama+
CUDA+
Ray+
Go+
C+
C+++
Rust+
Python+
Java+
Bash+
相关职位

logo of xpeng
社招

1、与机器学习工程师紧密协作,负责将端到端模仿学习、强化学习和大语言模型等最新技术部署于人形机器人中,开发并优化深度学习的 C++ 推理管道; 2、开发机器人研发工具链,如可视化、数据转发、上位机等软件,加速各个团队研发落地; 3、设计并实现通信、数据采集、监控等中间件,优化机器人算力,确保软件和算法的高性能与稳定运行; 4、开发机器人 DevOps 和 MLOps 流程,将机器人软件与模型集成到 CI/CD 平台中; 5、与跨部门团队紧密合作,确保软件解决方案的兼容性和性能优化,推动项目成功落地; 6、积极探索新兴技术与工程领域,影响并参与团队的技术决策。

更新于 2025-06-25
logo of xpeng
校招

我们正在寻找对大语言模型(LLM)的应用落地、效果调优和系统效能提升充满热情的工程师。您将加入我们的核心研发团队,主要负责将先进的 LLM 技术转化为实际的业务价值,特别是在指令微调(SFT)、智能体(AI Agent)的设计与部署,以及应用基础设施(Infra)的优化。我们的目标是打造高效、可靠、智能的 LLM 应用解决方案,加速模型在人形机器人、自动驾驶、多模态等前沿领域的落地。 1. LLM 微调与应用落地:负责设计并执行 LLM 的指令微调(SFT)和对齐(如 RLHF/DPO)实验,以提升模型在特定应用场景(如代码生成、复杂推理、对话)的表现。主导模型效果的评估体系搭建和优化,确保模型输出的准确性、安全性和一致性。 2. 云端训练框架与效率优化:主导 LLM 微调(SFT/对齐)流程在云端环境下的效率优化,包括数据加载、多机通信、资源调度、框架稳定性等方面,确保 SFT 流程的高效、稳定和低成本运行。 3. 前沿应用技术追踪:紧密追踪 LLM 在 Agent 框架、长上下文处理、多模态交互等应用层面的最新研究与工程实践,并将其快速引入到产品线。 4. AI Agent 研发与部署:探索并实践基于 LLM 的 AI Agent(智能体) 框架,包括工具调用(Tool Use/Function Calling)、规划(Planning)、记忆(Memory)等核心模块的设计与实现。将开发的 Agent 系统集成到实际产品或业务流程中,提升自动化和智能决策能力。 5. 跨团队协作:与算法、数据和产品团队紧密合作,将模型优化成果快速产品化,并收集应用层的反馈来指导下一轮模型迭代。

更新于 2025-10-15
logo of weride
社招2年以上

更新于 2025-08-01
logo of xpeng
实习

我们正在寻找对大语言模型(LLM)的应用落地、效果调优和系统效能提升充满热情的工程师。您将加入我们的核心研发团队,主要负责将先进的 LLM 技术转化为实际的业务价值,特别是在指令微调(SFT)、智能体(AI Agent)的设计与部署,以及应用基础设施(Infra)的优化。我们的目标是打造高效、可靠、智能的 LLM 应用解决方案,加速模型在人形机器人、自动驾驶、多模态等前沿领域的落地。 1. LLM 微调与应用落地:负责设计并执行 LLM 的指令微调(SFT)和对齐(如 RLHF/DPO)实验,以提升模型在特定应用场景(如代码生成、复杂推理、对话)的表现。主导模型效果的评估体系搭建和优化,确保模型输出的准确性、安全性和一致性。 2. 云端训练框架与效率优化:主导 LLM 微调(SFT/对齐)流程在云端环境下的效率优化,包括数据加载、多机通信、资源调度、框架稳定性等方面,确保 SFT 流程的高效、稳定和低成本运行。 3. 前沿应用技术追踪:紧密追踪 LLM 在 Agent 框架、长上下文处理、多模态交互等应用层面的最新研究与工程实践,并将其快速引入到产品线。 4. AI Agent 研发与部署:探索并实践基于 LLM 的 AI Agent(智能体) 框架,包括工具调用(Tool Use/Function Calling)、规划(Planning)、记忆(Memory)等核心模块的设计与实现。将开发的 Agent 系统集成到实际产品或业务流程中,提升自动化和智能决策能力。 5. 跨团队协作:与算法、数据和产品团队紧密合作,将模型优化成果快速产品化,并收集应用层的反馈来指导下一轮模型迭代。

更新于 2025-10-15