logo of tencent

腾讯腾讯广告-算法工程师-强化学习方向

社招全职3年以上腾讯广告技术地点:深圳状态:招聘

任职要求


1.计算机/统计学/运筹学硕士及以上学历,1-3年强化学习实战经验;
2.扎实的强化学习理论基础,掌握MDP、贝尔曼方程等核心理论框架,深入理解DQN、PPO、DDPG等算法原理,具备改进算法效率和稳定性能力。同时有传统机器学习深度学习知识背景,熟悉Transformer/Attention等原理和应用;
3.…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.多目标强化学习算法开发与调优。基于业务场景构建DQN、PPO、SAC等算法的改进框架,针对延迟奖励稀疏性设计分层强化学习架构。搭建离线仿真环境与在线AB测试闭环,设计动态滑动窗口评估机制,量化算法迭代效果;
2.效果瓶颈分析与突破。构建强化学习可解释性分析工具(如SHAP值、注意力热力图),定位状态表征缺失/奖励函数偏差/探索不足等瓶颈。设计课程学习机制,通过渐进式难度提升策略解决稀疏奖励场景下的策略退化问题;
3.状态与奖励机制创新。构建异构特征融合模型,集成用户实时行为序列(LSTM)、跨场景偏好迁移(Meta Learning)等高阶状态表征。设计复合奖励函数,融合稠密奖励(点击行为)与稀疏奖励(购买行为),引入基于KL散度的奖励塑形技术;
4.跟踪深度学习、计算广告、推荐系统,deepseek等最新前沿技术,应用到多目标排序。
包括英文材料
学历+
强化学习+
算法+
机器学习+
深度学习+
Transformer+
Python+
Java+
还有更多 •••
相关职位

logo of netease
社招网易游戏(互娱)

- 参与强化学习、模仿学习、进化算法的落地工作,包括但不限于智能体、平衡性测试等; - 基于强化学习、模仿学习等AI技术为游戏产品打造更强力、更多样、更拟人的AI机器人; - 参与开发强化学习训练和部署平台。

更新于 2025-06-05广州
logo of netease
社招3-5年网易游戏(互娱)

- 参与强化学习、模仿学习、进化算法的落地工作,包括但不限于智能体、平衡性测试等; - 基于强化学习、模仿学习等AI技术为游戏产品打造更强力、更多样、更拟人的AI机器人; - 参与开发强化学习训练和部署平台

更新于 2025-08-24广州
logo of amap
社招3年以上技术类-算法

1、负责强化学习算法的工程化实现与性能优化 2、构建可扩展的分布式训练系统,支持大规模并行训练和实验 3、优化策略网络的训练流程,提升训练效率和模型性能 4、实现前沿强化学习算法的落地应用

更新于 2025-08-04北京
logo of kuaishou
社招2年以上D8039

1、研究并应用强化学习(RL)技术在游戏场景中的创新应用,如 NPC 行为学习、自适应游戏策略、自动化测试等; 2、负责开发基于 RL 的智能体决策、路径规划、多智能体协作等算法; 3、结合 LLM、计算机视觉等技术,提升游戏 AI 的决策能力和可玩性; 4、负责强化学习模型的训练、优化和部署,提升游戏 AI 的自主学习能力; 5、跟踪强化学习在游戏领域的最新研究,并结合游戏项目进行创新探索; 6、 持续改进算法和框架,开发和完善通用框架和SDK工具,提升游戏AI开发效率。

更新于 2025-03-18杭州