logo of didi

滴滴大模型算法工程师-Agent 应用与强化学习方向(JR2026010600Q)

社招全职技术状态:招聘

任职要求


任职要求
1、计算机、人工智能等相关专业,具备扎实的数据结构与算法基础;
2、具备扎实的 Python 编程能力,熟练掌握 PyTorch 等深度学习框架,有优秀的代码规范与工程素养;
3、熟悉 LLM 训练全流程(Pre-train/CPT/SFT/RLHF),熟练使用主流训练/推理框架(如 Megatron-LM、DeepSpeed、vLLM、Sglang 等);
4、深入理解强化学习原理,熟悉 PPO、DPO、GRPO 等算法基本原理,熟悉基于 RLV…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、参与司机智能助手相关的大模型 Agent 设计与应用,构建包含意图识别、复杂任务拆解、多步推理、ReAct 工具调用、长短期记忆及智能推荐在内的完整链路;
2、运用 SFT、RL 等后训练方法训练强化垂域模型,提升大模型的多步推理、上下文遵循、ReAct 工具调用、领域问答等能力;
3、基于数据反馈构建高质量训练数据,设计奖励函数与优化机制,提升模型在垂直领域的泛化能力,利用 PPO/GRPO 等算法建设基于强化学习的迭代路径;
4、跟踪 LLM 与 Agent 领域的国际前沿技术(如多智能体协作、Long Context、CoT),推动前沿技术在业务中的应用落地;
5、深度理解网约车业务,沉淀通用、模块化的算法能力,与产品、工程紧密沟通协作,推动业务迭代。
包括英文材料
相关职位

logo of jd
社招算法开发岗

1.负责大语言模型或多模态大模型算法在电商域相关业务场景的赋能,包括电商标签生产/商品信息抽取/商品表征/知识问答/内容理解/内容生成等; 2.负责大语言模型或多模态大模型设计、开发和落地工作,包括高质量数据集构建、Prompt设计、大模型训练(继续预训练、SFT、RLHF)、高性能服务部署等; 3.紧跟业界大语言模型或多模态大模型等方向进展,探索前沿技术并结合具体场景进行应用,为业务提效,形成系列算法/大模型解决方案,推动大模型效果达到行业领先。

更新于 2025-06-11北京
logo of 360
校招算法类

我们正在寻找对AI Agent技术充满热情的应届毕业生加入我们的算法团队。你将参与设计和开发下一代智能Agent系统,致力于构建能够自主决策、多轮交互和复杂任务执行的AI应用。 主要工作内容: 1.参与Agent框架的设计与优化,包括规划、记忆、工具使用等核心模块 2.开发多模态Agent系统,支持文本、图像、语音等多种输入输出形式 3.研究和实现Agent的推理链优化,提升复杂任务的执行效率 4.构建Agent评测体系,设计自动化测试和性能监控方案 5.参与Agent在垂直领域的落地应用,如代码生成、数据分析、客服等场景 6.跟踪前沿研究,将最新理论成果快速转化为产品创新

更新于 2025-09-02北京
logo of mi
校招

1. 构建行业有影响力的各类智能体和研究对应学术前沿问题,训练业界效果领先的大模型智能体模型,并通过发表论文、开源、竞赛等,打造学术影响力; 2. 打造业界一流的通用大模型智能体解决方案,并落地小米核心业务。 【课题名称】 大模型智能体研究与应用 【课题内容】 构建行业有影响力的各类智能体和研究对应学术前沿问题,包括但不限于: 1. 研究通用任务AI Agent核心技术,包括但不限于规划、工具调用、多智能体等,并构建和开源业界有影响力的AI Agent模型和解决方案; 2. 研究GUI Agent相关核心技术,包括但不限于SFT、离线强化学习、在线强化学习等,并训练和开源业界有影响力的GUI Agent模型; 3. 研究强化学习算法全流程核心技术,包括但不限于算法优化,奖励函数设计、环境构建等,并基于强化学习构建和开源业界有影响力的推理大语言模型、GUI Agent模型、deep search模型等; 4. 研究RAGRAG全流程核心技术,包括但不限于音-视-文全模态理解与生成、端侧RAG等,并推动相关领域技术突破和业务落地。

更新于 2025-06-25北京
logo of tme
社招2年以上集团部门-技术类

1、负责内容安全业务的垂直大模型算法研发与应用,包括:大模型选型、指令微调及强化学习后训练等,持续提升算法性能 2、深入业务场景,将前沿技术转化为业务需求的解决方案,驱动算法准召率、服务效率等业务指标提升 3、负责算法和服务的持续迭代与性能优化,通过数据分析、A/B实验等手段,系统性提升模型效果与推理效率 4、追踪领域前沿技术,主动探索并验证新技术在业务中的应用潜力,推动技术创新

更新于 2025-10-19深圳