logo of meituan

美团大模型算法研究员-复杂推理/RL方向

社招全职1年以上核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1. 数学、物理、计算机和机器学习等相关专业
2. 具备post-training或强化学习相关经验
3. 熟悉至少一种深度学习框架和强化学习训练框架,具备良好的算法工程结合能力
4. 有AGI…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 提升模型general reasoning的能力:提升模型在创作、人类偏好、指令遵循等各专项上的能力;减少reasoning model的幻觉情况和reward hacking情况
2. 提升模型frontier reasoning的能力:研发面向下一代reasoning model的架构设计,研究test-time scaling的训练范式,从ENV/reward/action三个视角进行RL scaling,提升模型的复杂任务处理能力和智能水平。
3. 构建model as agents:研究模型解决数字世界所有任务所需原生掌握的最小工具集合和meta skill,探索统一模态的reasoning
包括英文材料
机器学习+
强化学习+
还有更多 •••
相关职位

logo of bytedance
校招A76469

团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok AI创新中心,是致力于AI基础设施建设和创新研究的部门,探索行业领先的人工智能技术,致力于突破多模态大模型与代码大模型的技术边界。我们正在构建下一代AI系统,这些系统能够无缝理解与整合多语言文本、海量视频内容及复杂代码结构,打造真正跨模态的统一智能架构。我们的研究不仅关注模型的理解能力,更探索其在复杂推理任务中的应用潜力,将代码作为连接各类智能任务的通用语言。团队旨在通过创新算法设计,为用户提供前所未有的内容体验与创作辅助,同时显著提升开发效率与系统性能。 课题介绍:多模态基础大模型VLM 是行业的研究热点,也是TikTok业务场景应用的关键技术,2024年TikTok AI创新中心研发了面向TikTok业务场景的多模态大模型VFM V1,在公开测试集上能够与最好的开源模型 Qwen VL持平,同时在 TikTok 业务测试集上,能够大幅领先所有其它基础模型。未来,我们希望持续研发具有高效感知和推理思考能力的基础模型,能够处理多语言和海量视频内容理解的模型算法,为用户带来更好的内容消费体验。 1、探索和研发多模态的基础模型(Foundational models),致力于构建能够统一理解和生成文本、视觉、代码等多模态信息,并具备通用智能的系统,力求达到或超越行业领先水平(如Gemini,Claude,GPT等); 2、深入研究多模态/代码预训练、指令微调、基于人类反馈的强化学习(RLHF)和其他对齐技术,以及模型压缩,以提升模型在复杂任务和跨领域泛化上的表现; 3、推动模型在多场景的落地应用,包括但不限于视频内容理解与生成、个性化推荐、代码效率优化、以及统一多模态交互系统等; 4、深入研究并与海内外大学的研究人员进行学术合作,共同探索AI的统一理论与前沿架构。

更新于 2025-05-26上海
logo of meituan
校招核心本地商业-基

预训练 探索下一代大模型预训练范式,从模型结构、训练策略、数据策略、算力利用率等角度切入,打造具有更强能力和更高潜力的基座模型。 1.设计更高效的模型结构,提高给定数据量、计算量、参数量、序列长度等约束下的模型能力,如长序列能力、记忆能力、推理能力等; 2.探索更科学的训练策略,对影响training dynamic的关键变量(如学习率、batchsize、初始化等)形成更科学的认知,探索更适合大模型的optimizer等; 3.研究模型结构和数据的耦合关系;探索预训练与上下游环节的联合优化;改进分阶段训练范式; 4.结合MLsys解决大规模训练和推理中遇到的卡点问题,实现算法和工程联合设计。 原生多模态 1.负责面向真实世界数据(尤其是大规模视频序列、图文交错数据等)的原生多模态大模型的架构设计与预训练技术探索。攻坚多模态信息(视觉、语言、音频、触觉等)的深度融合、统一表征与跨模态生成。借助更大规模自监督学习范式,驱动模型学习多模态序列分布,致力于让模型从海量数据中学习世界运行的规律、物理交互知识与通用技能; 2.设计并优化适用于原生多模态架构的表征构建与学习方案,以增强模型对多模态Token的深层理解、采样与复杂推理能力。结合SFT/RL等后训练探索,激发模型采样多模token,解决物理世界问题能力; 3.负责将原生多模态大模型学到的丰富先验知识高效迁移并赋能具身智能体。主导或参与强化学习(RL)、模仿学习(IL)、规划与控制算法的设计与优化,显著提升智能体在模拟及真实机器人上的学习效率、任务成功率与自主决策能力; 4.负责设计并与工程团队紧密协作搭建高逼真度、可扩展的具身智能模拟环境,产出多样化、高质量的合成交互数据,为强化学习算法的训练、测试以及Sim-to-Real研究提供坚实的数据与环境基础。 智能体系统 1.研发端到端训练、能够自主处理问题、具备完整工具使用能力的智能体(Agent)系统,在Agentic Coding、DeepResearch等各类端到端任务上取得突破。 2.探索能够自主与环境交互,自适应学习并持续提升的智能体(Agent)系统,提升大模型解决现实问题的能力。

更新于 2025-05-23北京|上海
logo of meituan
校招核心本地商业-业

研究方向一:垂域LLM研究与构建​ 1.基座模型架构设计与优化:参与大语言模型基座架构的设计,研究前沿技术,如稀疏激活、混合精度训练等,同时优化模型的训练和推理流程。​ 2.技术创新与突破:参与前沿技术研究,如多任务学习、跨模态理解等,推动模型在复杂任务上的性能提升;探索Transformer替代架构,突破现有模型scaling law限制;同时挑战学术benchmark,为模型的性能树立新的行业标杆。​ 3.强化学习算法研究:参与大语言模型后训练阶段的强化学习算法研究,包括基于AI和环境反馈的强化学习(RLXF)算法。同时探索奖励模型与反馈机制,研究可泛化的细粒度过程监督和奖励建模,探索基于细粒度反馈的强化学习算法。​ 4.垂域模型定制化构建:领域认知智能突破,探索小样本场景自演进架构设计、可信推理机制构建等方向,同时建立面向AGI的模型评价体系新范式。​ 5.跨部门协作与落地:与公司数据科学家、算法工程师、产品团队紧密合作,将研究成果快速转化为实际应用,推动大语言模型在更多场景的落地。​​ 研究方向二:垂域MLLM研究与构建​ ​1.研究多模态表征与大语言模型融合的前沿技术,设计和实现创新算法,研究异质数据的统一编解码模型,适配多种模态下的特征统一,实现高效微调与优化。​ 2.探索强化学习(RL)在多模态大模型中的应用,包括强化学习增强的多模态生成、跨模态对齐、偏好建模及自适应优化,提升多模态理解与推理能力。 ​3.持续追踪多模态与强化学习结合的最新研究进展,优化现有多模态系统架构,提升性能、效率与可扩展性,推动多模态强化学习在智能体交互、决策推理等任务中的应用。 ​4.构建技术评估体系,通过多场景验证推动多模态理解、生成及强化学习优化策略的落地应用,提升多模态大模型的泛化能力和实际应用价值。​​ 研究方向三:基于角色扮演的虚拟数字助理 ​​1. 角色扮演技术(Role-Playing):通过模型优化、Agent构建,在人设、拟人性、情感等取得显著提升。 ​2. 记忆管理与增强(Memory):通过模型长上下文,记忆抽取与管理,提升系统的记忆能力。 ​3. 个性化技术:通过用户行为数据挖掘与建模,结合多轮对话上下文理解,分析用户情感状态,提升模型的个性化回复能力。 ​4. 基于Agent的数字助理:通过Agent构建和基于RL的优化,实现数字助理的能力复刻和增强

更新于 2025-05-23北京
logo of tencent
社招2年以上微信读书技术

1.负责微信读书以及音视频应用的高质量深度理解、生成任务的设计和构建; 2.负责读书产品部的 Multi-Agents 系统的构建,探索多种模态内容的深度创作并落地; 3.负责前沿算法技术的研究和探索,包括但不限于 RL,DeepResearch,Long Context 等; 4.负责读书产品部多个 AI 应用的 AI Agent Memory 系统的构建和优化。

更新于 2025-08-05北京