蚂蚁金服蚂蚁集团-多模态内容理解算法专家-内容技术
任职要求
1. 计算机或数学专业硕士及以上,具有计算机视觉、NLP、多模态预训练等领域相关专业知识,在大模型方向有一定经验; 2. 在内容机审、内容检索和内容结构化等多模态内容理解领域有2年左右的工作经验优先 3. 出色的问题分析和解决能力,能够见业务问题到算法模型有效结合,有自驱力和进取心,能及时关注和学习业界最佳实践。 4. 有内容理解领域的国际比赛获奖或有CVPR/NeurIPS/ICCV/ECCV/ACM MM/TIP等(会议或期刊)论文发表的候选人优先。
工作职责
1. 探索和拥抱多模态大模型,深度改进多模态内容理解技术,应用到支付宝短视频、直播业务中; 2. 负责NLP、CV、Audio、多模态相关算法研发与落地,包括但不限于短视频/笔记内容结构化、文本&多模态内容理解表征、作者画像、主题发现、信息抽取、智能摘要等,完成短视频中"人、作者和用户"的标签对齐 3. 进行大模型前沿技术探索和研发,包含但不限于pre-train、SFT、RLHF等,用大模型解决实际的业务场景问题,负责算法设计、研发以及推动上线,提升业务效果
商品基础算法团队是淘天集团核心的商品理解中台,负责对淘天全域(淘宝、天猫等)数百亿的商品进行深度、精准、多维度的内容理解。我们产出的商品认知能力(如属性、卖点、风格、品类、知识),是整个淘天搜索、推荐、广告、AIGC应用、智能导购、直播等所有核心业务的基石,直接决定了用户“逛”和“买”的体验,是连接“人”与“货”的智能引擎。 当前,我们正处在用新一代AI技术(大模型、多模态大模型)彻底重塑商品世界的历史机遇期。在这里,你将接触到全球最丰富、最复杂的电商多模态数据,有机会定义下一代商品理解的技术范式,你的工作成果将通过集团各大业务场景,影响亿万用户的消费决策。 岗位职责: 1. 构建业界领先的商品多模态理解体系: 负责利用大语言模型(LLM)及视觉语言模型(VLM)等前沿技术,对商品的多模态内容(文本标题、详情描述、图片、视频等)进行深度解析,完成高质量的标签抽取、卖点挖掘、风格识别、需求理解等核心任务。 2. 探索大模型背景下的下一代商品知识库的构建范式:如何从海量商品信息、用户评论、行业知识中自动化构建知识体系?如何解决知识的事实性问题?如何在庞大、有噪声的知识库中抽取有效知识,用于下游落地和应用 3. 负责大模型/多模态模型的前沿技术探索与落地: 跟踪并实践领域内前沿的模型和技术(如模型Fine-tuning, RAG, In-Context Learning, Agent, Model Distillation等),结合业务场景进行技术选型、方案设计与模型优化,解决从训练到部署全链路的挑战,实现技术创新与业务效果的双赢。 4. 设计和优化算法架构与系统: 负责商品理解算法系统的整体架构设计与持续迭代,保证系统的高性能、高可用和高扩展性,以应对淘天集团海量数据的挑战。 5. 驱动技术创新转化为业务价值: 深入理解业务,主动挖掘技术能创造价值的场景,与产品、工程团队紧密协作,通过严谨的AB实验验证算法效果,用技术力量持续驱动业务指标增长。
1. 设计和实现多模态(图文)和多源信息(PGC/UGC/Web content等)的综合内容理解,以优化我们的地图搜索、推荐和POI信息理解能力; 2. 深入研究和改进模型的性能,包括准确性、效率和可扩展性; 3. 与跨职能团队合作,包括数据工程师、产品经理和架构工程师,确保模型与业务目标一致; 4. 跟踪新的人工智能和机器学习研究,将新的研究成果应用于实际问题; 5. 负责模型的维护和迭代,确保其在动态环境中的稳定性和可靠性。

1,理解电商场景商品、商品匹配业务,结合得物自身场景特点,提升算法指标; 2,理解电商服装商品特点,优化服装尺码推荐准确度; 3,参与商品内容理解算法研发,图像匹配相关模型设计和研发。
1. 研发面向游戏平台场景的多模态大模型,包括文本、图像、视频、音频等多模态数据的理解与生成; 2. 构建与优化游戏内容理解算法,涵盖游戏玩法解析、类型识别、特色标签生成、玩家评论分析、剧情/世界观理解等; 3. 参与 TapTap 风格的视频与广告素材生成方案,支持用户增长团队等多模态素材生成的训练需求; 4. 支持游戏搜索与发现,利用多模态大模型进行精准匹配、语义搜索、跨模态检索(文本→视频、视频→游戏等); 5. 跟进并引入最新的多模态大模型研究成果,探索其在游戏行业的新应用场景; 6. 有预研的空间,进行学术研究与论文发表,推动顶会/顶刊产出,并结合业务进行技术落地; 7. 优化大模型的训练与推理性能,保障在海量游戏内容和用户数据上的高效运行。