网易具身智能算法研究员 (工程机械智能化)
任职要求
1、精通主流多模态模型原理及训练方式,有大语言模型(如 GPT-系列)或多模态任务的理论研究基础; 2、熟悉常见模仿学习方法(如 ACT、DP 等)以及 Model-Based RL 算法,对具身智能算法有深刻的理论理解; 3、熟悉深度学习框架(如 PyTorch 或 TensorFlow),掌握 Python/C++ 等语言,能设计…
工作职责
1、深入研究机器人多模态大模型(VLA模型)的理论及应用,包括预训练、微调策略、以及效果优化; 2、负责基于大模型的决策控制算法设计,探索前沿模仿学习(如 ACT、DP)及 Model-Based RL 算法在机器人上的研究与创新; 3、基于大模型开发创新算法框架,探索具身智能机器人实际场景中的应用方向,如 RT 系列等; 4、负责最新文献调研,跟踪多模态模型与机器人领域结合的技术前沿,提出具有创新性的研究思路; 5、参与并主导自定义数据集构建、特定任务的模型训练与评估; 6、推动具身智能系统算法在复杂场景下的理论研究,探索工程机械场景智能化解决方案。

1. VLA模型研发: 参与或主导 VLA 模型的架构设计、训练和优化,提升模型在多模态理解和具身任务执行中的性能。 2. 数据闭环建设: 负责具身智能所需的数据采集、标注和处理流程,构建高效的数据闭环系统,以持续优化模型。你将探索新的数据获取方式,包括但不限于利用机器人自身进行自动化数据采集。 3. 具身技能开发: 将 VLA 模型部署到实际机器人平台上,解决模型与机器人硬件之间的集成和适配问题。开发和调试机器人技能,使其能够完成抓取、放置、操作工具等复杂任务。 4. 算法优化与落地: 持续关注具身智能领域的最新研究成果,并将前沿算法应用到实际产品中,解决技术挑战,推动产品性能的迭代升级。
探索具身智能前沿技术,制定技术路线或提升某技术方向(如VLA、自主学习等)。 - 追踪行业技术趋势,统筹内部具身智能研发方向和技术路线; - 领导核心算法研究,如具身交互、感知、操作、仿真、训练等算法,提升具身能力和可靠性; - 推动相关工具建设,高效训练和验证部署,加快具身智能的产品化落地;
预训练 探索下一代大模型预训练范式,从模型结构、训练策略、数据策略、算力利用率等角度切入,打造具有更强能力和更高潜力的基座模型。 1.设计更高效的模型结构,提高给定数据量、计算量、参数量、序列长度等约束下的模型能力,如长序列能力、记忆能力、推理能力等; 2.探索更科学的训练策略,对影响training dynamic的关键变量(如学习率、batchsize、初始化等)形成更科学的认知,探索更适合大模型的optimizer等; 3.研究模型结构和数据的耦合关系;探索预训练与上下游环节的联合优化;改进分阶段训练范式; 4.结合MLsys解决大规模训练和推理中遇到的卡点问题,实现算法和工程联合设计。 原生多模态 1.负责面向真实世界数据(尤其是大规模视频序列、图文交错数据等)的原生多模态大模型的架构设计与预训练技术探索。攻坚多模态信息(视觉、语言、音频、触觉等)的深度融合、统一表征与跨模态生成。借助更大规模自监督学习范式,驱动模型学习多模态序列分布,致力于让模型从海量数据中学习世界运行的规律、物理交互知识与通用技能; 2.设计并优化适用于原生多模态架构的表征构建与学习方案,以增强模型对多模态Token的深层理解、采样与复杂推理能力。结合SFT/RL等后训练探索,激发模型采样多模token,解决物理世界问题能力; 3.负责将原生多模态大模型学到的丰富先验知识高效迁移并赋能具身智能体。主导或参与强化学习(RL)、模仿学习(IL)、规划与控制算法的设计与优化,显著提升智能体在模拟及真实机器人上的学习效率、任务成功率与自主决策能力; 4.负责设计并与工程团队紧密协作搭建高逼真度、可扩展的具身智能模拟环境,产出多样化、高质量的合成交互数据,为强化学习算法的训练、测试以及Sim-to-Real研究提供坚实的数据与环境基础。 智能体系统 1.研发端到端训练、能够自主处理问题、具备完整工具使用能力的智能体(Agent)系统,在Agentic Coding、DeepResearch等各类端到端任务上取得突破。 2.探索能够自主与环境交互,自适应学习并持续提升的智能体(Agent)系统,提升大模型解决现实问题的能力。