腾讯腾讯智能座舱-多模态/大语言模型算法专家
任职要求
1.硕士及以上学历,计算机、人工智能、数学等相关专业,3年及以上大模型/多模态/跨模态相关的算法经验; 2.精通主流多模态或全模态大模型,主导或核心参与过多模态大模型项目优先;有行业落地案例或相关开源项目经验者优化; 3.有声学、语音大模型等工作经历背景优先; 4.具有优秀的基础算…
工作职责
1.负责智能座舱领域多模态大模型的训练及优化,支撑车端部署,改善交互体验;结合行业需求,探索座舱领域全模态(图像、文本、视频、语音)大模型的完整训练链路,升级基座模型表现; 2.参与智能座舱产品的核心算法研发,推动多模态大模型在座舱领域的应用落地,将大模型技术与业务需求结合,改善座舱产品交互体验; 3.跟踪大模型前沿技术,理解实际业务需求,持续探索前沿技术与产业应用相结合的机会点; 4.有效组织部门内/跨部门团队合作,确保相关技术方案的顺利实施。
【部门介绍】 阿里云智能大数据和智能实验室致力于成为通义大模型与行业的桥梁,积极推动AI大模型时代各行业的智能化升级。团队主要负责行业语言大模型、多模态大模型以及大模型基础研究,主要技术成果已成功应用到智慧交通、城市治理、生物医疗、大型国际赛事(亚运会和奥运会)等多个行业大模型中。 【工作内容】 1、负责大模型核心技术的研究与开发,深入理解其工作原理,不断探索创新的技术及其应用场景;解决复杂问题的推理能力scaling up,探索Post-training的前沿技术,如Agent RL、test time learning,并参与research intern的指导,沉淀技术成果,提升部门的AI技术的影响力及AI产品的竞争力,以支撑业务的持续增长。 2、对大模型的效果进行持续调优,通过高效的Post-training手段(SFT、RL等)提升LLM领域模型在业务场景下的表现,支撑通义的AI普惠影响力建设和模型规模化调用。
1. 多模态大模型研发与优化 1) 设计并实现多模态大模型(图文音联合建模),解决跨模态语义对齐、动态数据处理等核心问题。 2) 优化模型生成能力,支持复杂多模态交互,实现毫秒级响应。 2. 多 Agent 系统算法设计 1) 构建多 Agent 协作框架,设计动态任务分配与博弈策略,解决资源争夺、动态联盟等复杂场景下的决策问题。 2) 结合博弈论与强化学习,开发对手建模模块,预测其他 Agent 的策略分布,优化协作效率。 3) 参与工业级 Agent 系统落地。 3. 行业场景落地与创新 1) 探索生成式 AI 与 RAG的结合,提升垂直领域的知识推理能力。 2) 跟踪前沿技术,推动技术方案的创新与落地。
一、GUI Agent多模态大模型研发与优化 1. 设计并实现多模态大模型,解决跨模态语义对齐、动态数据处理等核心问题。 2. 优化模型生成能力,支持复杂多模态交互,实现毫秒级响应。 3. 参与GUI Agent数据集构建及数据质量提升相关工作。 4. 参与大模型用户意图理解、任务规划及长任务执行端到端执行能力提升构建 二、多 Agent 系统算法设计 1. 构建多 Agent 协作框架,设计动态任务分配与博弈策略,解决资源争夺、动态联盟等复杂场景下的决策问题。 2. 结合各类强化学习策略,优化协作效率。 3. 参与工业级 Agent 系统落地,推动大模型与工具链的深度整合。 三、行业场景落地与创新 1. 探索生成式 AI 与 RAG(检索增强生成)的结合,提升垂直领域的知识推理能力。 2. 探索行业Deep Research+强化学习结合,提升行业Deep Research竞争力。 3. 熟悉AIGC视频生成或者图像生成技术,参与过业界知名视频生成项目优先,, 或者有视频生成模型优化技术经验。 4. 跟踪前沿技术,推动技术方案的创新与落地。