滴滴post-training框架研发专家(J250314019)
任职要求
1. 计算机科学、数学、统计学、自动化等相关专业本科及以上学历。 2. 熟悉Post-Training流程,深入了解RL领域,包括但不限于RM、PPO、DPO、GRPO等算法。 3.具备大模型训练框架开发能力,包括pytorch、megatron等。 4.具备强化学习框架开发能力,包括openRLHF、verl等。 5.具备一线的C++/Python工程能力,精通数据结构和常用算法,掌握各种编译、调试、性能分析工具,,熟悉并行编程(CUDA/Triton等)优先。
工作职责
1.参与滴滴内部 post-training 框架研发,聚焦 LLM + RL 方向,设计框架架构与技术路线,提升其扩展性、稳定性与效率。 2.优化框架性能,如训练速度、显存占用等,降低训练成本,为 LLM + RL 训练提供有力技术支撑。 3.协同业务团队,将 LLM 能力在业务场景落地,根据业务需求定制训练方案并评估验证模型。 4.关注行业前沿,引入有价值的技术到公司框架和模型中,探索新算法与方法,推动技术创新。
岗位描述: 全面负责夸克大模型在 Post-Training 能力进化和上限突破、持续推进模型能力边界和商业价值的不断延伸。通过对前沿算法的极致探索和高效能工程体系的构建,驱动模型在逻辑推理、问答、复杂多轮上下文、指令遵循、Agent 智能体、多模态交互等关键领域实现突破性进展,打造世界一流的模型效果,并定义其在未来 AI 应用中的核心价值。 工作职责: ● 【战略规划与技术引领】 制定并执行大模型 Post-training 的中长期技术路线图,预判并布局下一代对齐技术、能力增强及对齐方案。主导核心算法的战略方向,确保技术路径与公司业务战略高度协同。 ● 【核心能力与壁垒构建】 领导团队进行体系化的数据驱动实验,不仅局限于日常迭代,更要建立可规模化的能力提升范式。您将攻坚并解决模型在复杂指令遵循、通用问答、RAG、深度逻辑推理、内容创作、Tool-Using 等方面的瓶颈问题,构建技术壁垒。 ● 【前沿算法研究与创新】 深入探索并推动 Post-training 领域的前沿算法创新,包括但不限于 RLHF/RLAIF 的新范式、模型融合 (Model Fusion/Merge) 、模型蒸馏及 MoE 模型的高效对齐策略。您的目标是显著降低模型幻觉、提升推理的效果、加强模型复杂指令的遵循能力。 ● 【多模态与未来探索】 从统一多模态模型的战略视角出发,您将指导并规划多模态统一大模型的 Post-training 技术融合。探索并落地高效的多模态 SFT 数据构建、跨模态能力协同训练及对齐策略,确保模型在图文问答、视频对话 等复杂场景下实现无缝、精准的理解与生成。 ● 【团队领导与效能提升】 负责 Post-training 算法团队的组建、培养与管理,打造一支具备高效执行力和持续创新能力的顶尖团队。您将指导并优化从研究、实验、评测到部署的全链路工具链与工程框架,实现研发效能的倍增。
1、参与电商大模型智能体产品研发,包括框架设计、算法开发、迭代优化等 2、根据业务产品形态对大模型进行post training(SFT/RLHF等)优化、结构优化、prompt engineering等 3、基于LLM的机器人AI Agent模块与产品其他功能模块交互的工程实现 4、跟进大模型智能体前沿技术趋势,结合实际业务需求,将技术应用到实际业务场景
负责文生图基座模型Post-training阶段算法研发,包括但不限于Quality-Tuning、RHLF等算法模块,持续提升基座模型图像生成质量; 基于自研文生图基座模型研发具备长文本可控生成、图像可控编辑能力,推动图像生成在各业务场景的产品化落地;