饿了么算法工程师-强化学习

校招全职淘宝闪购秋季2026届应届生招聘2025-12-05地点：杭州状态：招聘

扫码手机上打开

任职要求

1、计算机科学、数学、统计学、自动化等相关专业优先。
2、熟悉Post-Training流程及其在各大公司中的不同应用方式（如Qwen K1.5, DeepSeek-R1等）。
3、深入了解RL领域，包括但不限于RM、PPO、DPO、ORPO、GRPO、MBRL、DDPG、DDQN等算法。
4、精通LLM&NLP领域，涵盖LLM训练（CPT、SFT）、文本分类、信息抽取、搜索算法等。
5、具备扎实的机器学习、深度学习与自然语言处理理论基础，熟悉主流预训练模型如BERT、Transformer、ViT、CLIP等。
6、精通Python开发，具备丰富的算法实现经验，熟练使…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们正在构建一个创新的数据分析诊断模型，旨在通过强化学习（RL）与大语言模型（LLM）技术的结合，为商家提供智能化的店铺运营支持。该模型将帮助商家提高运营效率和服务质量，实现数据驱动的决策优化。
培养方向：
1、参与系统的需求分析、架构设计与开发工作，确保算法模型的高效落地与业务目标的达成。
2、结合大语言模型（LLM）与强化学习（RL）技术，设计并实现智能化的文本生成模型，助力商家运营效率和服务质量的全面提升。
3、持续关注并研究强化学习领域的前沿技术动态，探索新方法与新思路，推动技术创新在实际业务中的落地应用。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

算法+

大模型+

NLP+

SFT+

机器学习+

深度学习+

BERT+

Transformer+

还有更多 •••

登录查看完整学习资料

相关职位

算法工程师-强化学习

校招智能信息秋季20

1. 开展大语言模型、多模态生成/理解大模型复杂推理能力、可信性研究和奖励模型，包括但不限于自然语言处理、视觉理解、多模态生成与理解等； 2. 开展多模态大模型后训练阶段的强化学习算法研发迭代，包括：基于人类、AI、环境反馈的强化学习算法的优化升级，覆盖规则遵循、复杂推理等多个任务的多目标强化学习训练算法研发和调优，设计并实施实验； 3. 关注和学习最新前沿研究，参与学术讨论和技术交流，撰写研究报告、技术文档或论文，鼓励在国际顶级期刊或会议上发表研究成果。

更新于 2025-08-13北京|杭州

算法工程师（强化学习方向）

校招研发技术类

1. 负责家电产品AI相关算法功能开发； 2. 负责深度学习、强化学习等神经网络或LLM模型的设计、训练改善工作，提升产品实际功能及创造价值。

更新于 2025-11-18深圳

算法工程师（强化学习方向）

校招研发技术类

1. 负责家电产品AI相关算法功能开发； 2. 负责深度学习、强化学习等神经网络或LLM模型的设计、训练改善工作，提升产品实际功能及创造价值。

更新于 2025-11-18深圳

腾讯广告-算法工程师-强化学习方向

社招3年以上腾讯广告技术

1.多目标强化学习算法开发与调优。基于业务场景构建DQN、PPO、SAC等算法的改进框架，针对延迟奖励稀疏性设计分层强化学习架构。搭建离线仿真环境与在线AB测试闭环，设计动态滑动窗口评估机制，量化算法迭代效果； 2.效果瓶颈分析与突破。构建强化学习可解释性分析工具（如SHAP值、注意力热力图），定位状态表征缺失/奖励函数偏差/探索不足等瓶颈。设计课程学习机制，通过渐进式难度提升策略解决稀疏奖励场景下的策略退化问题； 3.状态与奖励机制创新。构建异构特征融合模型，集成用户实时行为序列（LSTM）、跨场景偏好迁移（Meta Learning）等高阶状态表征。设计复合奖励函数，融合稠密奖励（点击行为）与稀疏奖励（购买行为），引入基于KL散度的奖励塑形技术； 4.跟踪深度学习、计算广告、推荐系统，deepseek等最新前沿技术，应用到多目标排序。

更新于 2025-12-02深圳