腾讯智能体- LLMOps 平台技术负责人-CodeBuddy/WorkBuddy
社招全职5年以上腾讯云-Codebuddy技术地点:深圳状态:招聘
任职要求
1.LLMOps 实战经验:深刻理解以数据为中心的大模型训练理念,具备大规模语料处理、数据质量工程、数据配比与课程学习、数据版本管理等方向的实际平台建设经验;熟悉 Pre-train / Mid-train / Post-train 各阶段的数据需求与工程挑战; 2.扎实的工程能力与系统设计功底:具备丰富的大规模分布式系统设计与开发经验,精通高可用架构、大规模存储系统、高性能计算调度、容错与断点续训、网络通信优化等核心技术,能够独立完成复杂训练基础设施的架构设计与技术选…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1.负责以数据为中心的 LLMOps 平台整体架构设计与建设,覆盖大语言模型 Post-train(SFT、RLHF、DPO 等)全阶段的数据管线与训练工程体系; 2.主导大模型训练数据生命周期管理,包括大规模语料采集与清洗、数据质量评估与过滤、数据去重去污染、数据版本管理与血缘追踪,确保各训练阶段数据的高质量与可溯源; 3.带领工程团队构建高效的数据处理流水线与编排调度系统,支撑 PB 级语料的高吞吐处理,持续优化数据准备到训练启动的端到端效率。负责团队的技术方向把控、人才培养与跨团队协作,推动工程文化与最佳实践落地; 4.建设模型训练实验管理与可复现体系,打通数据准备、分布式训练、评估验证(Benchmark / Human Eval)、模型注册到部署上线的全流程自动化,缩短模型迭代周期; 5.构建 Post-train 阶段的数据闭环能力,包括人类偏好数据采集与管理、RLHF/DPO 训练数据管线、合成数据生成(Synthetic Data)与质量评估体系; 6.持续提升平台运行稳定性、安全性与可观测性,建立完善的 SLA 体系、训练容错与断点续训机制,保障大规模训练任务的连续性; 7.优化大规模 GPU/异构计算集群的资源调度策略,提升多任务并行训练效率与集群利用率,降低基础设施成本; 8.紧跟 LLM 领域前沿动态(如 Data-Centric AI、Scaling Laws、MoE、长上下文训练、多模态等方向),推动技术架构持续演进与平台能力升级。
包括英文材料
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
系统设计+
https://roadmap.sh/system-design
Everything you need to know about designing large scale systems.
https://www.youtube.com/watch?v=F2FmTdLtb_4
This complete system design tutorial covers scalability, reliability, data handling, and high-level architecture with clear explanations, real-world examples, and practical strategies.
还有更多 •••