logo of tencent

腾讯智能体专家

社招全职IEG技术地点:深圳状态:招聘

任职要求


1.在智能体领域有不错的学术或工业产出;
2.编码能力良好,熟练掌握C++,具备实现常用的深度强化学习算法能力;
3.熟悉大模型分布式训练,调优,调试;
4.优秀的分析问题和解决问题的能力,对解决具有挑战性的问题充满激情;
5.有较强的研究能力,在领域顶级会议(NIPS, IJCAI, AAAI, ICML, ICLR, AAMAS等)发表过高质量论文;
6.责任心强,良好的业务意识,团队合作能力和沟通协调能力。

加分项
1.同时具备游戏AI制作及强化学习背景或经验;
2.在以下深度强化学习领域有一定积累:无模型强化学习(Model-Free RL:Value-based Algorithm, Policy Gradients, Deterministic Poli…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.结合实际业务需求与数据,研发高效可靠的游戏智能体解决方案,包括但不限于:多智能体强化学习:在竞争或合作的仿真环境训练多智能体AI,设计新的多智能体算法,提高多智能体算法的效果;模仿学习:利用游戏玩家数据生成风格化各异的游戏AI角色,学习出具有一定智能的游戏AI角色;GAIL:利用游戏玩家数据和仿真环境训练强化学习AI,在提升AI强度的同时保证AI的拟人性;
2.跟踪并理解分析工业界及学术界相关方向的最新进展,为业务及技术规划提供参考意见;
3.和光子内各工作室及职能方进行合作,探索前沿游戏AI制作和应用场景,提升游戏内外的玩家体验。
包括英文材料
C+++
强化学习+
算法+
还有更多 •••
相关职位

logo of xiaohongshu
社招后端开发

1、参与大模型在公司效能领域的应用落地,包括使用开源模型或者API搭建大模型应用架构、评测体系建设、智能体建设、智能CR、智能问答、测试用例生成等; 2、学习跟踪业界大模型在效能领域的最新进展,并探索大模型在公司效能方向的机会点和提升改进落地效果;

上海|北京
logo of ke
社招2年以上效能架构部

1、参与AI大模型和主流AI类框架的调研与评测,主导Agentic框架设计、智能体设计、内部知识库设计与应用。 2、探索和应用最新的人工智能技术,参与构建完整的AI研发工具体系,聚焦提升组织内产研效率。 3、参与组织内AI4SE相关课题的前沿研究,参与相关项目的落地,并协助组织构建内外部技术影响力。

更新于 2025-03-10北京
logo of meituan
社招软硬件服务-Sa

1. 设计与开发基于LLM的智能体系统架构,实现复杂任务规划、工具调用、记忆存储等核心功能 2. 构建多智能体协作框架,探索Agent间的通信协议与协同决策机制 3. 集成外部工具API(搜索引擎/数据库/专业软件),扩展Agent能力边界 4. 优化Agent的实时交互能力,包括对话流畅性、任务分解准确性、异常处理鲁棒性 5. 开发Agent评估体系,设计自动化测试场景与量化评估指标 6. 研究Agent持续学习机制,实现长期记忆存储与经验复用

更新于 2025-04-17北京
logo of antgroup
社招3年以上技术类-算法

1. 路径规划 ‒ 开发适用于多种场景(如机器人导航、自动驾驶、无人机等)的路径规划算法; ‒ 实现经典和前沿的全局及局部路径规划方法(如 A*、Dijkstra、RRT、DWA 等),优化路径规划的效率和鲁棒性; ‒ 处理动态环境中的路径生成和调整,解决复杂场景下的避障问题。 2. 行动决策 ‒ 研究并实现具身智能体的行动决策算法,设计任务分解和行为选择的逻辑; ‒ 基于行为树(Behavior Tree)、有限状态机(FSM)等方法,构建模块化的决策框架; ‒ 开发多智能体协作与竞争的行动决策模型,支持复杂交互任务的执行。 3. 强化学习(Reinforcement Learning,RL) ‒ 针对具身智能场景(如机械臂控制、机器人动态避障、导航等),设计强化学习的 reward 函数和训练策略; ‒ 实现主流深度强化学习算法(如 DQN、DDPG、PPO、SAC 等),解决高维连续控制与探索问题; ‒ 优化强化学习模型的收敛速度和鲁棒性,提升算法在实际场景中的表现。 4. 模仿学习(Imitation Learning,IL) ‒ 通过专家示范数据(如轨迹、动作序列)训练智能体,实现模仿人类/智能体行为; ‒ 应用行为克隆(Behavior Cloning, BC)、逆强化学习(Inverse Reinforcement Learning, IRL)等技术解决稀疏奖励问题; ‒ 结合模仿学习与强化学习,提升智能体在复杂任务中的学习和泛化能力。 5. 算法优化与工程实现 ‒ 优化算法的计算效率和资源占用,适配实时性要求 ;‒ 在仿真环境(如 Gazebo、PyBullet、Mujoco 等)和真实设备中验证算法性能; ‒ 配合嵌入式团队完成算法在终端设备上的部署与优化。 6. 技术研究与创新 ‒ 跟踪具身智能领域的前沿算法进展,探索新技术的实际应用; ‒ 研究多模态感知与决策(如视觉、语音、触觉)的融合方法,提升智能体的环境理解与行动能力; ‒ 参与长期自主学习、在线学习和自适应学习系统的设计与开发。

更新于 2026-01-14上海