蚂蚁金服研究型实习生-多模态大模型在商品领域的优化与应用研究
任职要求
研究领域: -目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位 -具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScript或Go -具有上述研究领域的…
工作职责
研究领域: 深度学习 项目简介: 在商品领域风险/质量防控、信息抽取、素材优化、营销文案生成和人货匹配推荐等多个场景都依赖对商品的认知,传统的方法需要运营人工定义标签体系并收集大量的标注数据,多模态大模型可以在较少的人力投入和标注成本下实现更好的商品理解和生成,有很大的应用前景。
研究领域: 多媒体 项目简介: 在支付宝平台上,存在着海量的帖子、文章、评论、商品信息、社群内容、以及其他各种形式的数字化内容,如何有效地对这些内容进行压缩和表示,是提升信息处理效率和赋能下游应用的关键。现有内容表征方法面临以下挑战: 1. 表征效率低下: 传统方法往往难以有效处理海量内容数据,表征效率较低,计算成本高昂。 2. 表征能力不足: 难以有效捕捉内容中的关键语义信息和上下文关联,表征能力有限,难以满足复杂应用的需求。 3. 通用性差: 现有方法往往针对特定类型或特定模态的内容,通用性较差,难以适应多样化的应用场景。 计划研发研发一种通用和灵活的基于大模型架构的内容表征引擎,能够对海量、多模态内容进行高效压缩和精准表征,为下游应用提供统一、高效的信息处理基础。 - 助力内容认知和理解场景获取更为准确的表征输出 - 支持需要长上下文场景的表征应用 - 提升表征的泛化性、跨领域表征适配能力增强 - 可灵活用于支持各类跨模态、跨domain的表征匹配任务
希望解决如下技术问题。 1、适用于商品视频生成的文本-视频数据集:构建一个能够支持基于多模态大模型的商品视频生成算法训练和优化的文本-视频数据集 2. 基于多模态大模型的商品视频生成系统:通过探索基于多模态大模型的文本到视频生成技术,以“视频关键帧-高帧率视频-高分辨率视频”为基本路径,完成文本到视频关键帧生成模型、视频插帧模型、视频超分辨率生成模型等核心算法模型,构建视频生成系统,实现输入商品描述文本+商品图片,自动生成原生化的商品微视频和商品短视频。
1. 探索多模态(去ID化)在电商冷启场景的落地,优化冷启商品/内容的分发效率; 2. 探索冷启动与跨域推荐,构建可迁移的统一冷启推荐大模型,实现不同业务场景下的高效迁移和应用; 3. 优化大规模模态编码器的训练及推理策略,提高资源利用效率,降低模型训练时间和GPU内存消耗; 4. 结合以上方向的探索和研究,撰写发表论文,和业界、学术界保持良好的交流。