logo of tencent

腾讯智能体- LLMOps 平台技术负责人-CodeBuddy/WorkBuddy

社招全职5年以上腾讯云-Codebuddy技术地点:深圳状态:招聘

任职要求


1.LLMOps 实战经验:深刻理解以数据为中心的大模型训练理念,具备大规模语料处理、数据质量工程、数据配比与课程学习、数据版本管理等方向的实际平台建设经验;熟悉 Pre-train / Mid-train / Post-train 各阶段的数据需求与工程挑战;
2.扎实的工程能力与系统设计功底:具备丰富的大规模分布式系统设计与开发经验,精通高可用架构、大规模存储系统、高性能计算调度、容错与断点续训、网络通信优化等核心技术,能够独立完成复杂训练基础设施的架构设计与技术选…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责以数据为中心的 LLMOps 平台整体架构设计与建设,覆盖大语言模型 Post-train(SFT、RLHF、DPO 等)全阶段的数据管线与训练工程体系;
2.主导大模型训练数据生命周期管理,包括大规模语料采集与清洗、数据质量评估与过滤、数据去重去污染、数据版本管理与血缘追踪,确保各训练阶段数据的高质量与可溯源;
3.带领工程团队构建高效的数据处理流水线与编排调度系统,支撑 PB 级语料的高吞吐处理,持续优化数据准备到训练启动的端到端效率。负责团队的技术方向把控、人才培养与跨团队协作,推动工程文化与最佳实践落地;
4.建设模型训练实验管理与可复现体系,打通数据准备、分布式训练、评估验证(Benchmark / Human Eval)、模型注册到部署上线的全流程自动化,缩短模型迭代周期;
5.构建 Post-train 阶段的数据闭环能力,包括人类偏好数据采集与管理、RLHF/DPO 训练数据管线、合成数据生成(Synthetic Data)与质量评估体系;
6.持续提升平台运行稳定性、安全性与可观测性,建立完善的 SLA 体系、训练容错与断点续训机制,保障大规模训练任务的连续性;
7.优化大规模 GPU/异构计算集群的资源调度策略,提升多任务并行训练效率与集群利用率,降低基础设施成本;
8.紧跟 LLM 领域前沿动态(如 Data-Centric AI、Scaling Laws、MoE、长上下文训练、多模态等方向),推动技术架构持续演进与平台能力升级。
包括英文材料
大模型+
系统设计+
还有更多 •••