腾讯腾讯广告-算法工程师-强化学习方向

社招全职3年以上腾讯广告技术2025-12-02地点：深圳状态：招聘

扫码手机上打开

任职要求

1.计算机/统计学/运筹学硕士及以上学历，1-3年强化学习实战经验；
2.扎实的强化学习理论基础，掌握MDP、贝尔曼方程等核心理论框架，深入理解DQN、PPO、DDPG等算法原理，具备改进算法效率和稳定性能力。同时有传统机器学习和深度学习知识背景，熟悉Transformer/Attention等原理和应用；
3.…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.多目标强化学习算法开发与调优。基于业务场景构建DQN、PPO、SAC等算法的改进框架，针对延迟奖励稀疏性设计分层强化学习架构。搭建离线仿真环境与在线AB测试闭环，设计动态滑动窗口评估机制，量化算法迭代效果；
2.效果瓶颈分析与突破。构建强化学习可解释性分析工具（如SHAP值、注意力热力图），定位状态表征缺失/奖励函数偏差/探索不足等瓶颈。设计课程学习机制，通过渐进式难度提升策略解决稀疏奖励场景下的策略退化问题；
3.状态与奖励机制创新。构建异构特征融合模型，集成用户实时行为序列（LSTM）、跨场景偏好迁移（Meta Learning）等高阶状态表征。设计复合奖励函数，融合稠密奖励（点击行为）与稀疏奖励（购买行为），引入基于KL散度的奖励塑形技术；
4.跟踪深度学习、计算广告、推荐系统，deepseek等最新前沿技术，应用到多目标排序。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

强化学习+

算法+

机器学习+

深度学习+

Transformer+

Python+

Java+

还有更多 •••

登录查看完整学习资料

相关职位

资深游戏AI算法工程师（强化学习方向）

社招网易游戏（互娱）

- 参与强化学习、模仿学习、进化算法的落地工作，包括但不限于智能体、平衡性测试等； - 基于强化学习、模仿学习等AI技术为游戏产品打造更强力、更多样、更拟人的AI机器人； - 参与开发强化学习训练和部署平台。

更新于 2025-06-05广州

资深游戏AI算法工程师（强化学习/模型学习方向）

社招3-5年网易游戏（互娱）

- 参与强化学习、模仿学习、进化算法的落地工作，包括但不限于智能体、平衡性测试等； - 基于强化学习、模仿学习等AI技术为游戏产品打造更强力、更多样、更拟人的AI机器人； - 参与开发强化学习训练和部署平台

更新于 2025-08-24广州

高德-算法工程师-强化学习方向-信息研发

社招3年以上技术类-算法

1、负责强化学习算法的工程化实现与性能优化 2、构建可扩展的分布式训练系统，支持大规模并行训练和实验 3、优化策略网络的训练流程，提升训练效率和模型性能 4、实现前沿强化学习算法的落地应用

更新于 2025-08-04北京

游戏 AI 算法工程师（强化学习方向）-【游戏事业部】

社招2年以上D8039

1、研究并应用强化学习（RL）技术在游戏场景中的创新应用，如 NPC 行为学习、自适应游戏策略、自动化测试等； 2、负责开发基于 RL 的智能体决策、路径规划、多智能体协作等算法； 3、结合 LLM、计算机视觉等技术，提升游戏 AI 的决策能力和可玩性； 4、负责强化学习模型的训练、优化和部署，提升游戏 AI 的自主学习能力； 5、跟踪强化学习在游戏领域的最新研究，并结合游戏项目进行创新探索； 6、持续改进算法和框架，开发和完善通用框架和SDK工具，提升游戏AI开发效率。

更新于 2025-03-18杭州