阿里巴巴业务技术-AIGC多模态大模型算法专家-天猫技术
任职要求
● 对多模态大模型(MLLM)领域有深入的研究,对多模态大模型有优化设计或行业成功应用经验; ● 计算机或相关专业,计算机视觉、深度学习、多模态等研究方向;具备扎实的机器学习/深度学习理论功底和算法经验,熟练掌握深度学习框架,…
工作职责
● 负责多模态大模型(MLLM)方向的研究,为室内智能设计提供创新解决方案; ● 深入研究最新的论文和研究成果,跟进多模态大模型 (MLLM)预训练、SFT、RLHF等技术,调研与跟进业界最新进展,探索多模态大模型在电商导购场景的应用; ● 参与基于多模态大模型的创新产品研发,设计多模态大模型的技术链路,包括数据体系、算法调优、评估迭代等
团队介绍: 高德地图机器学习研发部是公司AI核心技术引擎,聚焦多模态大模型、视频生成与理解、图像编辑与生成等前沿领域。团队深耕人工智能技术落地,支撑亿级用户产品,同时长期投入前沿探索,在NeurIPS/ICLR/CVPR/ACL等顶会发表多篇论文,多项成果入选“最有影响力论文”榜单。我们拥有海量数据与算力资源,鼓励创新突破,诚邀你与顶尖算法专家并肩,共同定义AI的未来!如果你渴望挑战多模态与生成式AI的技术巅峰,在视频、图像、大模型的交叉领域实现突破,欢迎加入我们!团队的github页面是:https://github.com/AMAP-ML/ 我们提供 • 参与亿级用户产品的AI核心算法研发,见证技术直接赋能业务; • 与学术大牛和工业界专家共事,持续提升技术视野; • 顶配算力资源+开放创新氛围,支持前沿探索与顶会论文发表。 具体职责包含但不限于: 1. 视觉理解任务的技术探索,要求对视觉基础任务有深入的理解,做好在商品理解、详情页的文图内容、开放图片识别等公司核心业务上的落地; 2. 多模态大模型的技术探索,要求对多模态大模型训练、文图跨模态对齐等有深入实践,做好多模态大模型的能力构建和应用; 3. 追踪领域前沿工作,沉淀技术,投稿领域顶级会议。
1. 探索研究多模态理解、多模态生成、计算机视觉、自然语言处理、音频等前沿技术; 2. 参与研发多模态、全模态大模型等下一代人工智能核心技术,探索大规模/超大规模多模态理解与生成交织的基础模型,提升大模型能力; 3. 负责跟踪和研究多模态大模型前沿技术调研、落地、对业务进行优化。
1. 负责多模态虚拟人生成技术研发,包括但不限于:基于多模态大模型或视频大模型的虚拟人生成、实时互动、虚拟人与环境交互等。 2. 推进虚拟人相关技术在业务场景落地。 3. 完成相关专利申请或论文撰写。
一、GUI Agent多模态大模型研发与优化 1. 设计并实现多模态大模型,解决跨模态语义对齐、动态数据处理等核心问题。 2. 优化模型生成能力,支持复杂多模态交互,实现毫秒级响应。 3. 参与GUI Agent数据集构建及数据质量提升相关工作。 4. 参与大模型用户意图理解、任务规划及长任务执行端到端执行能力提升构建 二、多 Agent 系统算法设计 1. 构建多 Agent 协作框架,设计动态任务分配与博弈策略,解决资源争夺、动态联盟等复杂场景下的决策问题。 2. 结合各类强化学习策略,优化协作效率。 3. 参与工业级 Agent 系统落地,推动大模型与工具链的深度整合。 三、行业场景落地与创新 1. 探索生成式 AI 与 RAG(检索增强生成)的结合,提升垂直领域的知识推理能力。 2. 探索行业Deep Research+强化学习结合,提升行业Deep Research竞争力。 3. 熟悉AIGC视频生成或者图像生成技术,参与过业界知名视频生成项目优先,, 或者有视频生成模型优化技术经验。 4. 跟踪前沿技术,推动技术方案的创新与落地。