logo of meituan

美团【大模型北斗实习】高拟人对话智能体技术研究

实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1)对大模型、智能体、人机对话等相关领域一个或多个方向有深入的研究经历,且有相关实际项目经验。
2)熟练使用深度学习框架(比如PyTorch),熟悉 MegatronDeepSpeed 等开源训练框架。
加分项:
1)在知名开源项目中有核心贡献者优先。
2)有过任务型对话系统、强化学习、知识图谱、情感计算等方面的经验。
3)在国际会议发表过高水平论文。
4)关注行业应用动态。

工作职责


课题目标是在提升工具调用、规划、记忆等基本能力之外,探索高度拟人,具备环境感知,知识遵循,思考决策能力,同时能够以稳定的人设和对话风格进行人机交互,最终完成对话任务的复杂智能体或多智能体。研究内容:
1)研究智能体推理框架与各项基本能力的优化建模方法。通过多智能体架构与思维链设计,合成数据构造方法,大模型微调、强化等后训练方法的创新,实现智能体交互效果的提升。
2)研究智能体快速适应具体应用领域要求的建模方法。通过挖掘领域关键知识与决策相关信号,设计依靠领域专家的主动学习范式,构建与人工偏好和流程规则对齐的建模方案,打造低成本迁移的拟人智能体。
3)研究智能体情商和智商优化的自学习方法。结合应用需求设计奖励模型,通过强化学习等方法迭代智能体在意图理解和推测、情绪感知、主动服务、共情表达、语言风格等方面的表现,提升用户交互的满意度。
包括英文材料
大模型+
深度学习+
PyTorch+
Megatron+
DeepSpeed+
强化学习+
相关职位

logo of meituan
实习核心本地商业-基

该课题聚焦于利用语音多模态大模型以及深度推理大模型构建对话Agent,通过实时全双工交互,精准理解和感知用户情绪,凭借高情商为用户提供极具价值的回复,旨在为用户打造温暖、贴心且高度智能的对话Agent。研究内容:​ 1)参与语音多模态大模型在客服、销售、C端助理等场景应用技术研究,通过文本-语音的对齐机制等措施,提升模型对语音中包含的语义以及声学信息的实时理解与处理能力,通过加入业务知识,增强对业务场景知识遵循能力。 2)结合客服、销售、C端助理等业务问题,研究大模型反思、规划、决策等深度推理能力,提升模型回复的拟人度及回复准确性。

更新于 2025-05-23
logo of meituan
实习核心本地商业-基

该课题聚焦于利用原生语音大模型构建情感陪伴 Agent,通过实时全双工交互,精准理解和感知用户情绪,凭借高情商为用户提供极具价值的回复,旨在为用户打造温暖、贴心且高度智能的情感陪伴体验。​研究内容:​ 1)模型优化:参与优化原生语音多模态大模型,通过改进Speech Tokenizer和文本-语音的对齐机制等措施,提升模型对语音中包含的语义以及声学信息的实时理解与处理能力,增强其对用户情绪的精准识别。​ 2)交互设计:设计高效、自然的全双工交互机制,确保 Agent 与用户之间的交流流畅且符合日常沟通习惯,提高交互的实时性与稳定性。​ 3)情商塑造:运用先进技术手段,赋予 Agent 高情商特质,使其能够根据用户情绪做出恰当、暖心且富有智慧的回应,提升用户情感体验。​ 4)数据构建:收集、整理、合成与情感陪伴相关的语音对话数据,为模型训练与优化提供高质量的数据支持,推动模型性能持续提升。​

更新于 2025-05-23
logo of meituan
实习核心本地商业-基

探索下一代大模型预训练范式,从模型结构、训练策略、数据策略、算力利用率等角度切入,打造具有更强能力和更高潜力的基座模型。 1)设计更高效的模型结构,提高给定数据量、计算量、硬件型号、输出序列长度等约束下的模型能力,如长序列能力、记忆能力等。 2)探索更科学的训练策略,对影响training dynamic的关键变量(如学习率、batchsize、初始化等)形成更科学的认知,探索更适合大模型的optimizer等。 3)研究模型结构和数据的耦合关系,优化分阶段训练范式。 4)结合MLsys解决大规模训练中遇到的卡点问题,实现算法和工程联合设计。

更新于 2025-05-23
logo of meituan
实习核心本地商业-基

研究方向包括但不限于: 1).高效率、低精度损失、高压缩比的视频VAE和tokenizer。 2)围绕DiT结构的高效训练和推理探索,包括稀疏架构、MoE、AR生成等。 3) 视频生成下游功能拓展,包括多概念注入生成、交互式生成、长视频生成等。

更新于 2025-05-23