logo of liauto

理想汽车【基座模型】多模生成大模型算法工程师

社招全职智能与信息技术地点:北京状态:招聘

任职要求


1. 机器学习模式识别、信号处理或相关专业的硕士或博士;
2. 在计算机视觉、AIGC、渲染生成、语音生成/合成等一个或多个领域有较深入的研究者;
3. 熟练掌握Python开发语言,有较强的算法实现能力;
4. 有多模态大模型研发经验者优先,相关顶会/期刊上发表过高质量论文者优先;
5. 有团队精神,良好的沟通能力和协作能力,参与过大型项目者优先。

工作职责


1. 探索多模态理解与生成、语音/音乐生成、3D生成、视频生成、强化学习等前沿技术;
2. 利用预训练、仿真等技术对虚拟/现实世界的各类环境进行建模,研发以人工智能技术为核心的新技术、新产品。
包括英文材料
机器学习+
模式识别+
OpenCV+
Python+
算法+
大模型+
相关职位

logo of meituan
校招核心本地商业-基

预训练 探索下一代大模型预训练范式,从模型结构、训练策略、数据策略、算力利用率等角度切入,打造具有更强能力和更高潜力的基座模型。 1.设计更高效的模型结构,提高给定数据量、计算量、参数量、序列长度等约束下的模型能力,如长序列能力、记忆能力、推理能力等; 2.探索更科学的训练策略,对影响training dynamic的关键变量(如学习率、batchsize、初始化等)形成更科学的认知,探索更适合大模型的optimizer等; 3.研究模型结构和数据的耦合关系;探索预训练与上下游环节的联合优化;改进分阶段训练范式; 4.结合MLsys解决大规模训练和推理中遇到的卡点问题,实现算法和工程联合设计。 原生多模态 1.负责面向真实世界数据(尤其是大规模视频序列、图文交错数据等)的原生多模态大模型的架构设计与预训练技术探索。攻坚多模态信息(视觉、语言、音频、触觉等)的深度融合、统一表征与跨模态生成。借助更大规模自监督学习范式,驱动模型学习多模态序列分布,致力于让模型从海量数据中学习世界运行的规律、物理交互知识与通用技能; 2.设计并优化适用于原生多模态架构的表征构建与学习方案,以增强模型对多模态Token的深层理解、采样与复杂推理能力。结合SFT/RL等后训练探索,激发模型采样多模token,解决物理世界问题能力; 3.负责将原生多模态大模型学到的丰富先验知识高效迁移并赋能具身智能体。主导或参与强化学习(RL)、模仿学习(IL)、规划与控制算法的设计与优化,显著提升智能体在模拟及真实机器人上的学习效率、任务成功率与自主决策能力; 4.负责设计并与工程团队紧密协作搭建高逼真度、可扩展的具身智能模拟环境,产出多样化、高质量的合成交互数据,为强化学习算法的训练、测试以及Sim-to-Real研究提供坚实的数据与环境基础。 智能体系统 1.研发端到端训练、能够自主处理问题、具备完整工具使用能力的智能体(Agent)系统,在Agentic Coding、DeepResearch等各类端到端任务上取得突破。 2.探索能够自主与环境交互,自适应学习并持续提升的智能体(Agent)系统,提升大模型解决现实问题的能力。

更新于 2025-05-23
logo of meituan
校招核心本地商业-基

研究方向一:图像生成大模型技术研究 1.负责下一代图像生成模型架构建设,包括但不限于AR-Diffusion、生成编辑统一架构构建; 2.负责生图专项能力升级,包括Reward model设计、多语言文字生成能力。 研究方向二:视频生成大模型技术研究 1.负责下一代视频生成模型架构建设,以及高效率、低精度损失、高压缩比的视频VAE和tokenizer建设; 2.负责视频生成下游功能拓展,包括多概念注入生成、交互式生成、长视频生成等。 研发方向三:视觉内容创作Agent 1.负责对话式创作助手核心能力攻坚,包括图像视频创作场景的CoT能力、交互式编辑能力提升。 2.负责图文海报、剧情化成片等典型应用场景的模型微调、Agent能力建设。 研究方向四:拟人化多模交互前沿路线研究 1.构建多模输入的人物视频生成模型,具备高度拟人化的面部驱动、人体动作生成。 2.构建基于多模态大模型的端到端交互模型,实现智能双工交互和人-物-场景的交互。

更新于 2025-05-23
logo of meituan
校招核心本地商业-基

美团大模型评测团队以指引通往AGI的道路为目标,深耕模型评测研究,系统性的理解大模型当前能力水平及未来技术发展方向,并以此为基础完善模型评测能力矩阵。团队工作方向包括但不限于: 1.构建科学有效的评测方案,为现阶段大模型提供有效的评测和分析手段,并面向未来模型储备评测技术,包括人机协同评测、产品化隐式评测方案、全模态交互式评测方案等; 2.结合模型训练过程和评测结果,对模型的能力进行建模及深入的理解和研究,包括能力体系构建、训练阶段分析、模型能力/问题溯源等; 3.探索模型能力边界,发现当前模型训练范式的局限性,寻求模型能力突破,包括异步交互、记忆管理、自主学习、具身智能等。 本岗位涉及的模型及方向包括: 1.面向下一代文本模型的评测与探索,包括但不限于:完善推理系模型的评测框架,引入推理效率相关的评测指标等。 2.面向多模理解与生成能力评测与探索,包括但不限于:全模态及跨模态交互能力,世界模型与具身智能能力。 3.面向模型Agent能力的评测与探索,包括但不限于:模型的任务规划、工具使用、环境反馈、自主决策等通用Agent能力,及Computer Use、Code Agent、通用搜索等产品级Agent方向。 4.长周期人机协作与Agent能力边界探索,包括但不限于:Agent的异步交互、适时思考、记忆管理、自主学习等能力的评测方案及实践探索。

更新于 2025-05-23
logo of meituan
校招核心本地商业-基

数据与训练方向: 1.大模型数据体系建设:构建多语言和多模态的数据处理流程和实验链路,优化数据的筛选与配比策略,探索动态数据调整、多阶段训练和课程学习等方法提升数据质量和多样性,优化大模型的训练效果。 2.合成数据探索:探索大规模合成数据方法,应用于复杂任务、推理、代码和多模态等场景。制定合成数据在预训练、强化学习等不同训练阶段的应用策略,并深入研究数据扩展规模定律、数据多样性和模型坍塌等基础问题,推动数据驱动的性能突破。 3.多模态学习与推理:探索多模态预训练的新范式,突破模态融合瓶颈。具体包括实现多模态能力的早期融合、理解与生成的统一建模,研究多模态扩展定律以指导数据与训练方案,扩展超长上下文机制以支持全模态场景等。同时,面向复杂的多模态推理与交互场景,探索多模态强化学习、多模态奖励模型、推理阶段扩展(test-time scaling)以及全模态链式思维(CoT)等方法,提升模型处理复杂任务和全模态交互的能力。 4.高效模型架构设计:设计高效的大模型架构以提升训练和推理效率。探索 MoE(混合专家)、稀疏注意力、线性注意力等高效模型结构,以及模型编辑与合并等技术,研发能够显著提升推理速度和资源利用率的新型模型架构。 5.推理效率与性能优化:推动算法与系统的协同优化,实现模型性能与效率的最大化平衡。基于对硬件计算潜力的深度挖掘,开发高效的模型推理方案和算法,包括模型压缩、剪枝、量化、稀疏化等,降低模型应用部署成本。 后训练方向: 1.后训练数据与流程建设,从指令数据生产、合成、进化、配比等方面提升数据质量,优化指令微调、强化学习、奖励模型等训练pipeline,提升模型综合能力; 2.后训练关键能力建设,包括但不限于优化模型创意生成、多语言、逻辑推理、复杂指令遵循、代码生成、工具调用等能力,提升模型可控性和安全性,拓展模型能力边界; 3.面向准确性、多模信息、最优路径等方向,探索奖励模型的新范式,构建统一模型学习环境,实现模型的价值对齐和能力对齐; 4.面向推理规划能力、多智能体系统、模型自进化等方向,探索下一代强化学习算法,持续提升大模型的智能水平和在真实复杂场景效果; 5.前沿探索:动态推理计算优化(Test-time Compute Optimization)、多智能体协同进化架构 、大规模强化学习系统优化等。

更新于 2025-05-23