美团【基座大模型北斗实习】智能体系统的通用游戏能力与开放世界探索能力研究
实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘
任职要求
岗位要求: 1、本科及以上学历,计算机、人工智能、自动化、数学、物理等相关专业在读; 2、在强化学习、文本/多模态大模型训练、Agent 、世界模型等一个或多个领域有较深入的研究和实践经验者; 3、好奇…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
简介:我们认为,训练智能体系统的核心在于训练对任意复杂的环境进行合理交互、并在复合guidance 信号下充分进行系统级长程任务解决。这里,环境向真实物理世界演化是一个可以预见的方向,从而依赖模型在动态的、存在时序自变化的多模态环境下的探索与交互能力。为了激发这样的能力,一方面,我们认为游戏是一个高度可验证、同时充满训练潜力的场景;另一方面,如 minecraft / 原神 以至更复杂的开放世界环境更可以作为智能体系统在进行真实物理世界训练之前的一个练兵场。 具体的,我们关注如下研究目标: 1、探索通过在高度多样、丰富的游戏任务下进行大规模智能体训练,提高模型面对一般多模态场景的交互与融合模态推理能力。 2、探索趋向于真实物理世界的开放世界建模,为模型在真实物理世界下的训练和模拟训练提供坚实基础。 3、训练模型在动态、时序变化的开放世界下,自主进行感知、观察、探索、交互、任务推进的能力,并预期这样的能力作为真实物理世界训练的坚实前置基础,可以 minimize 所需的高成本真实物理世界训练量。
包括英文材料
学历+
强化学习+
https://cloud.google.com/discover/what-is-reinforcement-learning?hl=en
Reinforcement learning (RL) is a type of machine learning where an "agent" learns optimal behavior through interaction with its environment.
https://huggingface.co/learn/deep-rl-course/unit0/introduction
This course will teach you about Deep Reinforcement Learning from beginner to expert. It’s completely free and open-source!
https://www.kaggle.com/learn/intro-to-game-ai-and-reinforcement-learning
Build your own video game bots, using classic and cutting-edge algorithms.
还有更多 •••
相关职位
社招2-5年网易有道
我们正在寻找一位AI算法应用工程师,加入我们的技术团队。 该职位将负责开发和优化我们的基于LLM的大模型AI应用,预训练、基座需求较少。重点在于AI应用的开发阶段,后续可能会有SFT或DPO的需求。开发基于大模型的应用产品,以教育行业落地为导向,实现技术价值最大化。 工作职责: 1.负责企业应用中生成式AI能力的设计、开发和部署,提供更好的用户体验 2.结合工作流、提示工程、模型选择、模型微调等技术,支持关键产品功能 3.开发并维护我们使用大型语言模型能力的服务,保证算法服务的稳定性和可观测性 4.跟进前沿趋势,为团队调研引入新的AI应用场景
更新于 2025-04-16北京
社招3-5年后端开发
工作职责 1. 参与广告投放平台(聚光、薯条等)核心业务系统设计和开发,包括广告管理、广告数据、创意优选等核心模块,服务于小红书商业广告数十万客户。 2. 参与到广告B端基于AI核心功能开发与优化,从投前拉新、投中广告诊断到投后复盘多个环节进行深度提效,不断降低广告营销门槛让更多的客户在小红书持续投放持续经营。 3,参与广告核心中台维护,负责底层海量广告库的维护与开发,不断提升广告系统的稳定性和整体运行效率,构建行业一流的广告基座服务。 4. 和产运、一线客户一起,共同设计小红书行业特色的广告产品,服务于千行百业广告主,共同推进小红书商业化广告快速发展。
更新于 2026-03-27北京|上海
社招0-3年XYZ
各类大模型算法岗位:包括不限于 ✓大模型应用(Rag、Agent的研究等) ✓大模型技术研究 (指令微调、强化学习、推理等) ✓多模态理解与生成研究(文本、图像、视频、音频等)
更新于 2025-02-18北京