美团【大模型北斗实习】代码大模型
任职要求
1)熟悉NLP、LLM、MLsys、Optimization、OR、Control、RL等相关领域,对其中一个或多个方向有深入的研究经历,且有相关实际项目经验。 2)熟悉Python等至少一门编程语言,熟悉LINUX环境。 3)熟悉Pytorch、 Megatron、DeepSpeed 等开源训练框架。 加分项: 1)有影响力的开源项目中做出过核心贡献。 2)发表过高水平论文优先(如NeurIPS,ICLR,ICML,ACL,EMNLP等)。 3)KDDCup等业界知名机器学习比赛中获奖经历。
工作职责
随着AI技术的突破,代码大模型正成为软件开发领域的核心驱动力。基于LLM的代码生成工具已实现从自然语言描述到高质量代码的自动化生成,带来开发效率的大幅提升。本课题旨在打造行业领先的代码大模型,并推动Coding Agent在实际应用场景落地。 研究内容: 1)通过代码pretrain、continue train、SFT、RL等手段,提升大模型的代码能力。 2)构建高质量代码语料库,涵盖多语言、多场景的工业级代码数据。 3)研发Coding Agent,支持代码生成、编辑、单测生成等领域的落地应用。
Post-training是联结大模型通用知识和人类偏好的桥梁,在规范知识输出、提升推理能力、对齐人类偏好等方面起到了关键作用。本课题专注于大模型Post-training相关前沿算法研究,包括但不限于: 1)训练机制设计和优化:包括数据建设、指令微调,人类偏好和安全对齐,奖励模型、强化学习及效果评估等方向,优化模型文本创作、逻辑推理、指令遵循、代码生成、工具调用等能力,提升模型可控性和安全性。 2)Post-training前沿研究:面向下一代推理基座的架构设计,test-time compute训练范式,思维链学习,多智能体和自博弈强化学习,提升模型的复杂任务处理能力和智能水平。
Reasoning(推理)是大模型理解和处理信息的核心能力,是通用智能水平逼近的重要观测维度。课题聚焦于探究生成式模型的高级推理发生机制,提升大模型在复杂任务上的推理表现。 研究内容包括但不限于: 1)复杂任务推理应用效果优化,诸如逻辑推理、数学推理、代码推理、跨模态推理、多模型决策等。 2) RL scaling,通过大规模强化学习持续提升模型推理能力。 3)Test time scaling,通过增加inference时消费的算力持续提升模型推理能力。
该课题聚焦于利用原生语音大模型构建情感陪伴 Agent,通过实时全双工交互,精准理解和感知用户情绪,凭借高情商为用户提供极具价值的回复,旨在为用户打造温暖、贴心且高度智能的情感陪伴体验。研究内容: 1)模型优化:参与优化原生语音多模态大模型,通过改进Speech Tokenizer和文本-语音的对齐机制等措施,提升模型对语音中包含的语义以及声学信息的实时理解与处理能力,增强其对用户情绪的精准识别。 2)交互设计:设计高效、自然的全双工交互机制,确保 Agent 与用户之间的交流流畅且符合日常沟通习惯,提高交互的实时性与稳定性。 3)情商塑造:运用先进技术手段,赋予 Agent 高情商特质,使其能够根据用户情绪做出恰当、暖心且富有智慧的回应,提升用户情感体验。 4)数据构建:收集、整理、合成与情感陪伴相关的语音对话数据,为模型训练与优化提供高质量的数据支持,推动模型性能持续提升。