美团【北斗】大模型应用算法工程师
任职要求
1.熟练掌握深度学习相关开发工具,具有丰富的大模型相关项目的实践经验,有大厂知名大模型项目或搜推项目实习经验者优先; 2.拥有良好的沟通能力、表达能力,具有良好的自我驱动力、主动性,有创新意识,对前沿技术有敏感性和热情; 3.相关领域内的国际权威期刊/顶会(如NIPS、ACL、SIGIR、KDD、ICLR等)以第一作者身份发表过高水平论文者优先; 4.大模型领域知名开源项目主要贡献者优先,在重要国际评测上排名靠前者优先,或者在Kaggle、天池、KDDCUP等知名竞赛中,排名top3者优先。 岗位亮点: 1.提供海量数据深度实践场景,服务亿级用户; 2.充足的卡资源供模型训练; 3.与数位Kaggle冠军、Grandmaster、学术达人、知名论文/书籍作者合作共事。
工作职责
1.深入参与行业内主流大模型落地场景的技术迭代,包括:生成式检索/推荐、RAG、推理优化等,持续提高模型的推理性能与效果; 2.跟进Deep Research,Agent RL等前沿技术,并在点评搜推以及大模型应用场景中探索落地,持续改善用户体验。
基础算法研究 一、推理思考 1.开发链式思考、思维树等推理增强技术,优化模型对复杂业务逻辑推理、策略规划等任务的深度理解。 2.探索通过大规模强化学习持续提升模型推理能力。 3. 构建业务逻辑推理评测基准,推动模型思维链的可解释性研究。 二、多模态端到端 1.研发语音-文本跨模态对齐与联合表示学习算法,解决语义鸿沟问题,提升模型对语音指令理解、语音到文本生成的鲁棒性。 2.探索语音交互场景下的多模态增强技术(如语音情感分析、端到端语音对话生成),推动模型在智能客服、语音助手的应用落地。 三、生活服务领域增强 1.大模型基座知识能力增强,打造生活服务领域基座,赋能美团各类大模型应用场景; 2.探索预训练增强阶段的大规模高质量数据自动合成、Scaling Law、长链条复杂推理反思能力增强; 3.建设生活服务chat模型与智能体,通过强化学习等方式增强模型推理反思、复杂指令遵循、高情商交互等能力。 应用算法研究 一、深度推理、规划与决策能力强化 1.优化大模型在逻辑推理、多步规划、复杂决策、多轮多步工具调用等任务上的表现,探索如RL scaling、Test-time scaling等前沿技术。 2.构建能够处理模糊与不完全信息、进行自主假设与验证的推理框架。赋能大模型实现精准的工具调用与智能体协同。 二、高度拟人化交互与专业沟通能力构建 1.赋予模型深度理解与分析专业领域问题的能力,包括隐性需求挖掘和复杂语境下的语义理解。 2.探索多轮对话中的上下文记忆、情绪感知、共情表达与高情商交互技巧,实现稳定人设、知识遵循与高度自然的对话风格。 3.研究模型主动感知用户全面信息、进行预判性服务与信息推送的策略,而非被动响应,打造能真正吸引用户持续对话的自主交互。 三、多智能体协作研发范式与前沿技术应用 1.设计和研究多智能体间的动态协调、知识/记忆共享与冲突解决机制,实现“1+1>>2”的协同效应。 2.推动面向智能体的大模型研发新范式,探索大模型智能体在环境感知、记忆与知识库管理、复杂指令遵循等基础能力的统一建模与提升路径。 四、基于强化学习的智能体优化方法研究 1.研究和改进现有的强化学习算法,实现端到端Agent性能优化,提升Agent鲁棒性与泛化能力。 2.构建面向领域任务的DeepResearch能力,提升Agent在多步骤信息检索、工具调用、推理规划等任务中的表现。
【课题说明】 通用模型往往难以兼顾多样化的场景需求,容易出现泛化能力强但针对性不足的问题。针对这一挑战,本课题聚焦于研究面向具体业务或应用场景的强化学习训练优化策略,通过引入场景特定的奖励函数、环境建模和数据采样机制,提升模型在特定任务下的表现能力与适应性。课题重点突破模型在细粒度场景下的泛化能力不足、奖励稀疏、训练效率低等问题,为大模型的行业落地提供有力支撑。 【建议研究方向】 1.场景特定奖励设计:针对不同业务场景,定制化设计奖励函数,提升模型在目标任务中的表现能力。 2.环境模拟与数据生成:构建高保真场景模拟环境,开发高效的数据采样与生成机制,提升强化学习训练效率。 3.迁移与泛化能力增强:研究多场景迁移学习与元强化学习方法,提升模型从通用能力到场景定制能力的转化效率。 4.推理增强型RAG系统:基于图结构的知识融合、混合模型的协同推理架构和强化学习驱动的优化方法,进一步提升RAG系统能力。 5.基于价值观约束的大模型风险控制与安全防护。
【课题说明】 以大模型对话技术为核心,探索前沿技术问题。研究方向包括角色扮演、个性化对话、记忆管理,拟人化,数字人等,主要业务场景包括运营,招聘,销售,审核等。目标是构建覆盖多个场景的Agent系统,实现“技术驱动业务范式”的升级转变。 【建议研究方向】 1. 大模型个性化(Personalized LLM):通过角色扮演、用户行为数据挖掘与建模、上下文理解等方法,分析用户情感状态,提升模型的个性化回复能力。 2. 面向语音交互的拟人化技术(Voice Agent):优化大模型在语音对话场景的效果,提升大模型的拟人化水平,探索下一代端到端语音对话大模型的技术实现。 3. 记忆管理与增强(Memory):通过优化模型长上下文能力、设计记忆抽取与管理模块,提升系统的记忆能力。 4. 基于LLM的RL(LLM-based RL):通过强化学习,提升模型规划、决策、推理等能力。 我们将提供充足的计算资源和良好的工作自由度,目标是产出有影响力的工作,解决业务实践中的问题。
【课题说明】 大模型研发正从“人类数据时代”跨入“经验时代”,评估已然是大模型研发的重点和难点。具体而言,评估驱动的行业大模型研发下半场范式主要包括两方面内容:①行业核心问题定义和评估归因;②Post-Training多阶段协同的效果提升。本课题基于美团的本地生活业务,精选销售、履约、医药和客服四个代表性行业,旨在探索评估驱动的行业大模型研发的下半场范式。 【建议研究方向】 1.行业大模型通用评估方案探索。 2.行业模型reward设计与探索。 3.面向行业推理能力建设的通用自动化样本构建方法和评估归因方法。 4.面向行业推理能力增强的通用强化训练方案。 5.销售、履约、医药和客服行业大模型训练。