小米机器人实验室-机器人强化学习算法工程师实习生
任职要求
1、硕士及以上学历,机器人、计算机、人工智能、机器学习、应用数学等专业,理论功底深厚,有相关足式机器人传统控制经验更优; 2、具有强化学习相关项目研究经验,熟悉Mujoco、Pybullet、Isaac Sim/Gym等机器人仿真平台,熟悉Linux、ROS等操作系统; 3、掌握主流强化学习算法如DQN、PPO、DDPG、SAC等主流算法,熟悉Pytorch、TensorFlow机器学习框架; 4、扎实的C++、python编程能力; 5、数学基础扎实,具有较强的学习与研究能力; 6、熟悉大模型理论者优先;
工作职责
1、开发基于机器学习的机器人控制策略,完成机器人端对端的算法训练与部署; 2、负责算法策略的训练与移植部署,实现算法sim2real在机器人实机上落地应用; 3、持续跟踪国内外前沿研究成果,并进行相关算法复现,参与相关方向的论文与专利积累。
1、参与具身智能算法模型在技能学习、动作规划、抓取操作等应用上的研发,实现多场景多任务的泛化; 2、设计、训练、部署模仿学习、强化学习、迁移学习、多模态学习等算法,构建机器人各类应用的通用技能; 3、与大模型、运控等团队合作,推动具身智能数据集、机器人平台等各项目落地实施; 4、紧跟最新技术进展,将学术界前沿创新内容进行快速复现并创新,参与相关方向的论文与专利积累。
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 视觉语言理解能力是Qwen最重要的能力之一,围绕 LLM 建设出具有视觉深度理解与推理能力的基座模型是团队的必经之路。结合视觉理解和推理能力的基础模型,将拓展到视频理解,GUI Agent,以及VLA 和机器人等场景中。团队负责:1)多模态基础模型的研发,包括融合视觉语言的跨模态理解模型设计,提升视觉基础模型在图像/视频中的视觉知识、空间感知、Omni Parsing等核心能力,并优化多模态大模型AI infra;2)探索多模态Agent和推理能力,构建支持网络世界(PC/Mobile/Web/游戏)交互的通用智能体;3)研究生成与理解统一的模型架构,实现跨模态生成与推理的协同优化。 工作职责 1. 多模态Pre-training:开展研究及进行实验。研究内容包括:数据清洗与筛选、数据配比优化、课程学习、视觉语言模型结构设计与优化、训练策略优化、预训练数据合成、scaling law预测、词表优化、模型蒸馏与压缩、长上下文能力优化等。 2. 多模态Post-training:迭代Post-training训练策略(SFT/RLHF),专项能力数据迭代,参与模型能力评测及评测数据和评估标准的迭代。 3. 多模态推理和通用Agent:通过强化学习(RL)持续提升多模态模型推理能力和执行任务能力,打造多模态的Test Scaling Laws,并推动模型对网络和虚拟世界的交互和任务完成能力。 4. 统一理解生成:构建视觉统一理解生成大模型,推进多模态统一生成与理解的推理和交互新范式。
1、主导电商场景下NLP、多模态融合及大模型技术的创新应用,如智能对话机器人/智能客服辅助系统开发,推动技术从实验室到生产环境的转化 2、探索基于Transformer架构的预训练模型优化(如LoRA、Prefix Tuning等),提升客服场景下的上下文理解能力与任务执行效率 3、设计基于LLM的多轮对话管理机制,实现用户咨询意图识别(Query Parsing)、跨模态内容理解(如图文混合Query分析)及个性化回答生成,结合强化学习(RLHF)优化对话策略 4、从预训练到微调全流程优化,重点突破:模型量化压缩(GPTQ/NNPQ)、推理加速及长文本生成连贯性问题
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、GenMedia、AI for Science、机器人等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、在人工智能、机器人领域开展前沿技术研究,并保持算法在工业界和学术界的领先; 2、推动最新多模态感知、深度学习、强化学习等在智能机器人上的扩展; 3、参与研发下一代智能机器人相关技术和新产品。