腾讯智能体- LLMOps 平台技术负责人-CodeBuddy/WorkBuddy

社招全职5年以上腾讯云-Codebuddy技术2026-06-17地点：深圳状态：招聘

扫码手机上打开

任职要求

1.LLMOps 实战经验：深刻理解以数据为中心的大模型训练理念，具备大规模语料处理、数据质量工程、数据配比与课程学习、数据版本管理等方向的实际平台建设经验；熟悉 Pre-train / Mid-train / Post-train 各阶段的数据需求与工程挑战；
2.扎实的工程能力与系统设计功底：具备丰富的大规模分布式系统设计与开发经验，精通高可用架构、大规模存储系统、高性能计算调度、容错与断点续训、网络通信优化等核心技术，能够独立完成复杂训练基础设施的架构设计与技术选…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.负责以数据为中心的 LLMOps 平台整体架构设计与建设，覆盖大语言模型 Post-train（SFT、RLHF、DPO 等）全阶段的数据管线与训练工程体系；
2.主导大模型训练数据生命周期管理，包括大规模语料采集与清洗、数据质量评估与过滤、数据去重去污染、数据版本管理与血缘追踪，确保各训练阶段数据的高质量与可溯源；
3.带领工程团队构建高效的数据处理流水线与编排调度系统，支撑 PB 级语料的高吞吐处理，持续优化数据准备到训练启动的端到端效率。负责团队的技术方向把控、人才培养与跨团队协作，推动工程文化与最佳实践落地；
4.建设模型训练实验管理与可复现体系，打通数据准备、分布式训练、评估验证（Benchmark / Human Eval）、模型注册到部署上线的全流程自动化，缩短模型迭代周期；
5.构建 Post-train 阶段的数据闭环能力，包括人类偏好数据采集与管理、RLHF/DPO 训练数据管线、合成数据生成（Synthetic Data）与质量评估体系；
6.持续提升平台运行稳定性、安全性与可观测性，建立完善的 SLA 体系、训练容错与断点续训机制，保障大规模训练任务的连续性；
7.优化大规模 GPU/异构计算集群的资源调度策略，提升多任务并行训练效率与集群利用率，降低基础设施成本；
8.紧跟 LLM 领域前沿动态（如 Data-Centric AI、Scaling Laws、MoE、长上下文训练、多模态等方向），推动技术架构持续演进与平台能力升级。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

系统设计+

还有更多 •••

登录查看完整学习资料