小米顶尖应届-具身大模型算法研究员-XiaomiRobotics
任职要求
1、硕士及以上学历,计算机、人工智能、机器人、自动化、数学等相关专业,具备扎实的机器学习、深度学习和概率建模基础。 2、熟悉具身智能、多模态大模型、视频生成或动作生成等方向,理解主流方法原理与适用场景,如Transformer、Diffusion、VAE、VQ、MoE等。 3、具备较强的算法研发能力,熟练使用PyTorch等深度学习框架,有从模型设计、训练调优到实验分析的完整研发经验。 …
工作职责
1、围绕视觉-语言-动作 (VLA) 模型与具身世界模型方向,研发面向机器人感知、理解、预测、决策与动作生成的一体化算法,推动多模态端到端模型在复杂场景中的能力上限。 2、具身大模型全生命周期研发,包括模型架构设计、预训练、后训练、评测与部署,持续优化模型在真实任务中的成功率、鲁棒性与泛化能力。 3、主导或参与视觉/动作编码器、多模态表征学习、离散/连续tokenizer等核心模块研发,提升模型对视觉、动作、时空信息的压缩、建模与生成能力。 4、与数据、Infra等团队,推动数据-训练-测评的协同迭代。 5、跟踪具身智能、多模态大模型、生成式建模等前沿方向,复现并创新相关方法,推动高水平论文、开源项目及专利产出。
1.参与具身智能算法模型在技能学习、动作规划、抓取操作等应用上的研发,实现多场景多任务的泛化; 2.设计、训练、部署模仿学习、强化学习、迁移学习、多模态学习等算法,构建机器人各类应用的通用技能; 3.与大模型、运控等团队合作,推动具身智能数据集、机器人平台等各项目落地实施; 4.紧跟最新技术进展,将学术界前沿创新内容进行快速复现并创新,参与相关方向的论文与专利积累。 【课题名称】 机器人具身智能算法研究 【课题内容】 追踪当下前沿机器人具身智能算法,复现并创新。
1. 参与研究与开发融合视觉与语言理解的端到端机器人新范式; 2. 负责视觉语言大模型(VLA)相关算法的设计、实现与优化,提升模型的环境感知、决策规划能力; 3. 探索如何利用VLA增强机器人的泛化能力及人机交互的自然性; 4. 参与相关数据集的构建、处理以及模型在真实场景中的部署与测试; 5. 跟踪VLA及相关领域(多模态学习、大模型等)的前沿技术动态; 6. 发表高水平论文至国际顶会顶刊,参加相关领域的国内外顶级学术会议。 【课题名称】 具身基座VLA大模型预研 【课题内容】 探索如何利用VLA与Foundation Model技术提升机器人的环境理解、任务规划与泛化执行能力,构建面向未来的通用智能体。
团队介绍: 高德地图机器学习研发部是公司AI核心技术引擎,聚焦多模态大模型、视频生成与理解、图像编辑与生成等前沿领域。团队深耕人工智能技术落地,支撑亿级用户产品,同时长期投入前沿探索,在NeurIPS/ICLR/CVPR/ACL等顶会发表多篇论文,多项成果入选“最有影响力论文”榜单。我们拥有海量数据与算力资源,鼓励创新突破,诚邀你与顶尖算法专家并肩,共同定义AI的未来!如果你渴望挑战多模态与生成式AI的技术巅峰,在视频、图像、大模型的交叉领域实现突破,欢迎加入我们!团队的github页面是:https://github.com/AMAP-ML/ 我们提供 • 参与亿级用户产品的AI核心算法研发,见证技术直接赋能业务; • 与学术大牛和工业界专家共事,持续提升技术视野; • 顶配算力资源+开放创新氛围,支持前沿探索与顶会论文发表。 具体职责包括但不限于: 1. 视频生成:负责视频生成技术的前沿技术的研究,对AIGC的diffusion和auto-regressive技术有深入了解,在T2I/AIGCT2V/I2V上面有一定的研究,图文对齐,长视频生成等有一定的研究,做好视频生成在高德业务(广告,POI详情页等)中的进行落地。 2. 视频理解:能够使用和优化多模态大模型对用户上传的视频进行质量理解,标签,densecaption,视频summary等生成,作用到视频的搜索,广告,推荐等业务的落地。 3. 世界模型: 参与世界模型的构建,能够使用最新的视频生成技术,3D技术等构建符合人类物理规律的统一的世界模型,在高德的业务进行落地。 4. 紧跟技术前沿和技术沉淀,形成顶会论文和专利。