安克创新强化学习算法工程师-具身智能

社招全职2年以上2024-09-10地点：北京状态：招聘

扫码手机上打开

任职要求

1.计算机相关专业硕士以上学历，具备2年以上相关领域经验；
2.深入掌握深度学习理论，在强化学习、模仿学习、控制理论等方向有深入研究经验，具有大模型多模态等相关领域知识；
3.有机器人场景端到端研发以及项目落地经、先进机器人控制技术、仿真平…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.负责机器人端到端操作方向的强化学习算法研发，解决机器人复杂任务操作问题；
2.对学界及业界前研技术的持续跟进；
3.围绕机器人场景落地先进算法技术。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

深度学习+

强化学习+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

蚂蚁集团-机器人强化学习算法工程师-具身智能方向

社招3年以上技术类-算法

1. 负责开发和优化灵巧手grasp相关的强化学习方法。 2. 设计和实施强化学习策略，分析实验数据，评估算法表现，解决机器人操作的sim2real问题 3. 跟进最新的灵巧操作研究趋势，为团队带来新的思路和解决方案。

更新于 2025-09-28上海

蚂蚁集团-算法工程师-具身智能方向

社招3年以上技术类-算法

1. 路径规划 ‒ 开发适用于多种场景（如机器人导航、自动驾驶、无人机等）的路径规划算法； ‒ 实现经典和前沿的全局及局部路径规划方法（如 A*、Dijkstra、RRT、DWA 等），优化路径规划的效率和鲁棒性； ‒ 处理动态环境中的路径生成和调整，解决复杂场景下的避障问题。 2. 行动决策 ‒ 研究并实现具身智能体的行动决策算法，设计任务分解和行为选择的逻辑； ‒ 基于行为树（Behavior Tree）、有限状态机（FSM）等方法，构建模块化的决策框架； ‒ 开发多智能体协作与竞争的行动决策模型，支持复杂交互任务的执行。 3. 强化学习（Reinforcement Learning，RL） ‒ 针对具身智能场景（如机械臂控制、机器人动态避障、导航等），设计强化学习的 reward 函数和训练策略； ‒ 实现主流深度强化学习算法（如 DQN、DDPG、PPO、SAC 等），解决高维连续控制与探索问题； ‒ 优化强化学习模型的收敛速度和鲁棒性，提升算法在实际场景中的表现。 4. 模仿学习（Imitation Learning，IL） ‒ 通过专家示范数据（如轨迹、动作序列）训练智能体，实现模仿人类/智能体行为； ‒ 应用行为克隆（Behavior Cloning, BC）、逆强化学习（Inverse Reinforcement Learning, IRL）等技术解决稀疏奖励问题； ‒ 结合模仿学习与强化学习，提升智能体在复杂任务中的学习和泛化能力。 5. 算法优化与工程实现 ‒ 优化算法的计算效率和资源占用，适配实时性要求；‒ 在仿真环境（如 Gazebo、PyBullet、Mujoco 等）和真实设备中验证算法性能； ‒ 配合嵌入式团队完成算法在终端设备上的部署与优化。 6. 技术研究与创新 ‒ 跟踪具身智能领域的前沿算法进展，探索新技术的实际应用； ‒ 研究多模态感知与决策（如视觉、语音、触觉）的融合方法，提升智能体的环境理解与行动能力； ‒ 参与长期自主学习、在线学习和自适应学习系统的设计与开发。

更新于 2025-11-27上海

仿真算法工程师-具身智能

社招

在机器人的强化学习和模仿学习等前沿领域进行技术和研究，引导机器人从仿真环境和真实环境中学习高泛化和稳定的操作能力。

更新于 2024-11-25北京

【蚂蚁星-Plan A】具身智能算法工程师

校招蚂蚁星计划 -

1.负责具身智能的核心算法研发，聚焦强化学习（RL）与模仿学习（IL）技术，推动智能体在复杂物理环境中的感知、决策与行动能力； 2.设计并实现基于强化学习的端到端训练框架，解决稀疏奖励、多任务学习、长周期规划等挑战性问题； 3.开发高效的模仿学习算法，结合人类示范数据与自主探索策略，提升智能体在真实场景中的泛化性与安全性； 4.针对机器人控制、多模态感知-动作闭环等场景，优化算法在计算效率、实时性与鲁棒性方面的表现； 5.与硬件、仿真团队紧密协作，推动算法在实体机器人或虚拟环境中的部署与验证。

上海