美团【北斗】多模态智能数字人算法专家
任职要求
1.学术背景:计算机科学、人工智能、应用数学或电子工程专业博士或顶尖院校硕士在CVPR、ICCV、ACL、NeurIPS等国际顶级会议发表过论文者优先 2.工程实践能力:较好的工程能力,掌握模型服务化、模型推理加速等算法工程能力 3.研究创新能力与业务洞察力:能够独立设计具有学术突破性的实验方案;能够深度理解业务和算法,形成复杂问题的AI解决方案 岗位亮点: 1.丰富的AI业务场景:数字人直播是完全由AI能力驱动产品从而带动的业务形态,在美团有着大量的需求和业务体量,需要AI能力强、业务理解能力优秀的同学一起,全方位探索和打造AI落地场景 2.前沿技术攻坚战场:深度参与生成式AI、多模态交互、实时渲染等核心技术研发,主导数字人在直播、客服、营销等场景中的创新突破,打造行业标杆级解决方案。 3.全链路闭环能力建设:从0到1构建数字人技术-产品-商业化完整闭环,覆盖3D建模、动态驱动、情感计算全技术栈,实现技术价值向商业价值的直接转化。
工作职责
研究方向一:多模态Agent 1.基于多模态数据的智能决策、任务自动化及人机协同,提升直播运营效率与效果 2.多Agent框架设计与系统研发 研究方向二:高表现力数字人生成驱动 1.语音精准唇形驱动。通过AIGC、人脸驱动等能力,形成人形交互的行业最优产品化方案 2.人体驱动技术。针对AI直播业务场景,适配最优的人体肢体驱动技术解决方案 3.端到端人形生成能力。打造从语音文本输入到完整数字人输出的跨模态生成架构,通过联合训练实现语音驱动表情、文本驱动肢体语言、情感驱动微动作的多维度协同控制 研究方向三:智能对话与多模态内容生成交互技术 1.多模态智能对话技术。基于业务数据,利用RAG、跨模态检索、大模型后训练等方式,打造高效的智能对话能力 2.多模态内容理解及生成技术。基于业务数据,利用多模态大模型、AIGC技术构建多模态交互的基础数据
【课题说明】 聚焦多模态数字人核心技术,以直播为应用场景,旨在突破其在真实感、智能交互、情感表达及多模态信息处理上的瓶颈。研发能自主执行复杂运营任务、展现丰富情感与高表现力,并与用户进行深度多模态内容互动的下一代数字人,革新直播行业运营模式与用户体验。 【建议研究方向】 1.智能运营Agent:研究数字人作为智能Agent,在直播前(策划、脚本、货盘)、中(场控、问答、促单)、后(复盘、再创)全流程承担运营职能。重点攻克基于多模态数据的智能决策、任务自动化及人机协同,提升直播运营效能。 2.高表现力数字人生成驱动:探索高真实感、个性化数字人形象(外观、声音、风格)的快速生成与定制。重点研究大模型驱动的、与语音同步且富含细腻情感的表情、口型、动作的实时驱动,增强直播感染力。 3.多模态内容生成和交互:研究理解用户多模态输入(文、语、图、视频)并进行深度互动。探索数字人自主生成动态多模态内容,丰富直播呈现,提升用户参与感。
研究方向一:垂域LLM研究与构建 1.基座模型架构设计与优化:参与大语言模型基座架构的设计,研究前沿技术,如稀疏激活、混合精度训练等,同时优化模型的训练和推理流程。 2.技术创新与突破:参与前沿技术研究,如多任务学习、跨模态理解等,推动模型在复杂任务上的性能提升;探索Transformer替代架构,突破现有模型scaling law限制;同时挑战学术benchmark,为模型的性能树立新的行业标杆。 3.强化学习算法研究:参与大语言模型后训练阶段的强化学习算法研究,包括基于AI和环境反馈的强化学习(RLXF)算法。同时探索奖励模型与反馈机制,研究可泛化的细粒度过程监督和奖励建模,探索基于细粒度反馈的强化学习算法。 4.垂域模型定制化构建:领域认知智能突破,探索小样本场景自演进架构设计、可信推理机制构建等方向,同时建立面向AGI的模型评价体系新范式。 5.跨部门协作与落地:与公司数据科学家、算法工程师、产品团队紧密合作,将研究成果快速转化为实际应用,推动大语言模型在更多场景的落地。 研究方向二:垂域MLLM研究与构建 1.研究多模态表征与大语言模型融合的前沿技术,设计和实现创新算法,研究异质数据的统一编解码模型,适配多种模态下的特征统一,实现高效微调与优化。 2.探索强化学习(RL)在多模态大模型中的应用,包括强化学习增强的多模态生成、跨模态对齐、偏好建模及自适应优化,提升多模态理解与推理能力。 3.持续追踪多模态与强化学习结合的最新研究进展,优化现有多模态系统架构,提升性能、效率与可扩展性,推动多模态强化学习在智能体交互、决策推理等任务中的应用。 4.构建技术评估体系,通过多场景验证推动多模态理解、生成及强化学习优化策略的落地应用,提升多模态大模型的泛化能力和实际应用价值。 研究方向三:基于角色扮演的虚拟数字助理 1. 角色扮演技术(Role-Playing):通过模型优化、Agent构建,在人设、拟人性、情感等取得显著提升。 2. 记忆管理与增强(Memory):通过模型长上下文,记忆抽取与管理,提升系统的记忆能力。 3. 个性化技术:通过用户行为数据挖掘与建模,结合多轮对话上下文理解,分析用户情感状态,提升模型的个性化回复能力。 4. 基于Agent的数字助理:通过Agent构建和基于RL的优化,实现数字助理的能力复刻和增强
以大模型对话技术为核心,探索前沿技术问题,研究方向主要为垂域模型的研究与构建。目标是为用户提供专属的玩乐变美便捷生活小助手,实现“技术驱动业务范式”的升级转变,最终助力商业价值全面提升。 研究方向一:Agent能力增强 基于Agent的用户助理,研究提升Agent自主规划能力,并通过Agent构建和基于后训练的优化,实现数字助理的能力复刻和增强。 研究方向二:强化学习算法研究 参与大语言模型后训练阶段的强化学习算法研究,包括基于AI和环境反馈的强化学习(RLXF)算法。同时探索奖励模型与反馈机制,研究可泛化的细粒度过程监督和奖励建模,探索基于细粒度反馈的强化学习算法。 研究方向三:垂域模型定制化构建 领域认知智能突破,探索小样本场景自演进架构设计、可信推理机制构建等方向,同时建立面向AGI的模型评价体系新范式。 研究方向四:精准上下文理解与长程依赖建模 研究如何高效、准确地捕获和利用复杂的项目级上下文信息(如整个代码库、依赖关系、API文档、Issue跟踪等),探索能够处理超长代码序列、理解跨文件依赖和项目架构的先进模型结构与表征方法,以支持更精准、更全局的代码智能,从而提升业务研发在存量代码中迭代的效率。
自主任务执行的计算智能体是AI应用的重要场景之一,具备充分的技术深度(如浅层环境感知能力和深层规划决策能力)和广泛的应用价值(如智能助手、具身智能等)。本课题旨在构建业界前沿的多模态智能体,包括2D数字世界的Computer Use和Browser Use,以及3D物理世界的具身智能等能力。探索优化智能体在视觉理解、决策反思、强化学习等方向的技术挑战。 研究内容包括: 1)智能体算法优化:提升智能体视觉定位和决策反思水平,探索强化学习在智能体决策的应用价值,构建2D数字和3D物理环境的环境感知能力。 2)Compute & Brower Use:探索多模态大模型自主规划完成计算机、手机、互联网网页的操作能力。 3)具身智能:探索多模态大模型的空间理解和自主规划能力,能够完成物理世界操作能力。