滴滴大模型算法工程师-Agent 应用与强化学习方向(JR2026010600Q)
任职要求
任职要求 1、计算机、人工智能等相关专业,具备扎实的数据结构与算法基础; 2、具备扎实的 Python 编程能力,熟练掌握 PyTorch 等深度学习框架,有优秀的代码规范与工程素养; 3、熟悉 LLM 训练全流程(Pre-train/CPT/SFT/RLHF),熟练使用主流训练/推理框架(如 Megatron-LM、DeepSpeed、vLLM、Sglang 等); 4、深入理解强化学习原理,熟悉 PPO、DPO、GRPO 等算法基本原理,熟悉基于 RLV…
工作职责
1、参与司机智能助手相关的大模型 Agent 设计与应用,构建包含意图识别、复杂任务拆解、多步推理、ReAct 工具调用、长短期记忆及智能推荐在内的完整链路; 2、运用 SFT、RL 等后训练方法训练强化垂域模型,提升大模型的多步推理、上下文遵循、ReAct 工具调用、领域问答等能力; 3、基于数据反馈构建高质量训练数据,设计奖励函数与优化机制,提升模型在垂直领域的泛化能力,利用 PPO/GRPO 等算法建设基于强化学习的迭代路径; 4、跟踪 LLM 与 Agent 领域的国际前沿技术(如多智能体协作、Long Context、CoT),推动前沿技术在业务中的应用落地; 5、深度理解网约车业务,沉淀通用、模块化的算法能力,与产品、工程紧密沟通协作,推动业务迭代。
1.负责大语言模型或多模态大模型算法在电商域相关业务场景的赋能,包括电商标签生产/商品信息抽取/商品表征/知识问答/内容理解/内容生成等; 2.负责大语言模型或多模态大模型设计、开发和落地工作,包括高质量数据集构建、Prompt设计、大模型训练(继续预训练、SFT、RLHF)、高性能服务部署等; 3.紧跟业界大语言模型或多模态大模型等方向进展,探索前沿技术并结合具体场景进行应用,为业务提效,形成系列算法/大模型解决方案,推动大模型效果达到行业领先。

我们正在寻找对AI Agent技术充满热情的应届毕业生加入我们的算法团队。你将参与设计和开发下一代智能Agent系统,致力于构建能够自主决策、多轮交互和复杂任务执行的AI应用。 主要工作内容: 1.参与Agent框架的设计与优化,包括规划、记忆、工具使用等核心模块 2.开发多模态Agent系统,支持文本、图像、语音等多种输入输出形式 3.研究和实现Agent的推理链优化,提升复杂任务的执行效率 4.构建Agent评测体系,设计自动化测试和性能监控方案 5.参与Agent在垂直领域的落地应用,如代码生成、数据分析、客服等场景 6.跟踪前沿研究,将最新理论成果快速转化为产品创新
1. 构建行业有影响力的各类智能体和研究对应学术前沿问题,训练业界效果领先的大模型智能体模型,并通过发表论文、开源、竞赛等,打造学术影响力; 2. 打造业界一流的通用大模型智能体解决方案,并落地小米核心业务。 【课题名称】 大模型智能体研究与应用 【课题内容】 构建行业有影响力的各类智能体和研究对应学术前沿问题,包括但不限于: 1. 研究通用任务AI Agent核心技术,包括但不限于规划、工具调用、多智能体等,并构建和开源业界有影响力的AI Agent模型和解决方案; 2. 研究GUI Agent相关核心技术,包括但不限于SFT、离线强化学习、在线强化学习等,并训练和开源业界有影响力的GUI Agent模型; 3. 研究强化学习算法全流程核心技术,包括但不限于算法优化,奖励函数设计、环境构建等,并基于强化学习构建和开源业界有影响力的推理大语言模型、GUI Agent模型、deep search模型等; 4. 研究RAGRAG全流程核心技术,包括但不限于音-视-文全模态理解与生成、端侧RAG等,并推动相关领域技术突破和业务落地。