腾讯智能体专家

社招全职IEG技术2025-06-05地点：深圳状态：招聘

扫码手机上打开

任职要求

1.在智能体领域有不错的学术或工业产出；
2.编码能力良好，熟练掌握C++，具备实现常用的深度强化学习算法能力；
3.熟悉大模型分布式训练，调优，调试；
4.优秀的分析问题和解决问题的能力，对解决具有挑战性的问题充满激情；
5.有较强的研究能力，在领域顶级会议（NIPS, IJCAI, AAAI, ICML, ICLR, AAMAS等）发表过高质量论文；
6.责任心强，良好的业务意识，团队合作能力和沟通协调能力。

加分项
1.同时具备游戏AI制作及强化学习背景或经验；
2.在以下深度强化学习领域有一定积累：无模型强化学习（Model-Free RL：Value-based Algorithm, Policy Gradients, Deterministic Poli…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.结合实际业务需求与数据，研发高效可靠的游戏智能体解决方案，包括但不限于：多智能体强化学习：在竞争或合作的仿真环境训练多智能体AI，设计新的多智能体算法，提高多智能体算法的效果；模仿学习：利用游戏玩家数据生成风格化各异的游戏AI角色，学习出具有一定智能的游戏AI角色；GAIL：利用游戏玩家数据和仿真环境训练强化学习AI，在提升AI强度的同时保证AI的拟人性；
2.跟踪并理解分析工业界及学术界相关方向的最新进展，为业务及技术规划提供参考意见；
3.和光子内各工作室及职能方进行合作，探索前沿游戏AI制作和应用场景，提升游戏内外的玩家体验。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

C+++

强化学习+

算法+

还有更多 •••

登录查看完整学习资料

相关职位

大模型后端开发工程师/专家

社招后端开发

1、参与大模型在公司效能领域的应用落地，包括使用开源模型或者API搭建大模型应用架构、评测体系建设、智能体建设、智能CR、智能问答、测试用例生成等； 2、学习跟踪业界大模型在效能领域的最新进展，并探索大模型在公司效能方向的机会点和提升改进落地效果；

上海|北京

AI研发效能专家（AI4SE方向）(J66611)

社招2年以上效能架构部

1、参与AI大模型和主流AI类框架的调研与评测，主导Agentic框架设计、智能体设计、内部知识库设计与应用。 2、探索和应用最新的人工智能技术，参与构建完整的AI研发工具体系，聚焦提升组织内产研效率。 3、参与组织内AI4SE相关课题的前沿研究，参与相关项目的落地，并协助组织构建内外部技术影响力。

更新于 2025-03-10北京

数据智能平台-技术专家

社招软硬件服务-Sa

1. 设计与开发基于LLM的智能体系统架构，实现复杂任务规划、工具调用、记忆存储等核心功能 2. 构建多智能体协作框架，探索Agent间的通信协议与协同决策机制 3. 集成外部工具API（搜索引擎/数据库/专业软件），扩展Agent能力边界 4. 优化Agent的实时交互能力，包括对话流畅性、任务分解准确性、异常处理鲁棒性 5. 开发Agent评估体系，设计自动化测试场景与量化评估指标 6. 研究Agent持续学习机制，实现长期记忆存储与经验复用

更新于 2025-04-17北京

蚂蚁集团-算法工程师-具身智能方向

社招3年以上技术类-算法

1. 路径规划 ‒ 开发适用于多种场景（如机器人导航、自动驾驶、无人机等）的路径规划算法； ‒ 实现经典和前沿的全局及局部路径规划方法（如 A*、Dijkstra、RRT、DWA 等），优化路径规划的效率和鲁棒性； ‒ 处理动态环境中的路径生成和调整，解决复杂场景下的避障问题。 2. 行动决策 ‒ 研究并实现具身智能体的行动决策算法，设计任务分解和行为选择的逻辑； ‒ 基于行为树（Behavior Tree）、有限状态机（FSM）等方法，构建模块化的决策框架； ‒ 开发多智能体协作与竞争的行动决策模型，支持复杂交互任务的执行。 3. 强化学习（Reinforcement Learning，RL） ‒ 针对具身智能场景（如机械臂控制、机器人动态避障、导航等），设计强化学习的 reward 函数和训练策略； ‒ 实现主流深度强化学习算法（如 DQN、DDPG、PPO、SAC 等），解决高维连续控制与探索问题； ‒ 优化强化学习模型的收敛速度和鲁棒性，提升算法在实际场景中的表现。 4. 模仿学习（Imitation Learning，IL） ‒ 通过专家示范数据（如轨迹、动作序列）训练智能体，实现模仿人类/智能体行为； ‒ 应用行为克隆（Behavior Cloning, BC）、逆强化学习（Inverse Reinforcement Learning, IRL）等技术解决稀疏奖励问题； ‒ 结合模仿学习与强化学习，提升智能体在复杂任务中的学习和泛化能力。 5. 算法优化与工程实现 ‒ 优化算法的计算效率和资源占用，适配实时性要求；‒ 在仿真环境（如 Gazebo、PyBullet、Mujoco 等）和真实设备中验证算法性能； ‒ 配合嵌入式团队完成算法在终端设备上的部署与优化。 6. 技术研究与创新 ‒ 跟踪具身智能领域的前沿算法进展，探索新技术的实际应用； ‒ 研究多模态感知与决策（如视觉、语音、触觉）的融合方法，提升智能体的环境理解与行动能力； ‒ 参与长期自主学习、在线学习和自适应学习系统的设计与开发。

更新于 2026-01-14上海