蚂蚁金服蚂蚁集团-多模态理解/AIGC算法专家-AIRS
任职要求
1. 计算机、数学、人工智能相关专业,具有计算机视觉、NLP、多模态预训练等领域相关专业知识,在大模型方向有一定经验; 2. 在内容机审/内容结构化/商品理解/服务理解等领域有2年左右的工作经验优先 3. 出色的问题分析和解决能力,…
工作职责
团队介绍: 我们是支付宝供给理解团队,长期深耕计算机视觉(CV)、自然语言处理(NLP)、多模态大模型人工智能领域,专注于短视频、商品、服务等供给的结构化理解。利用大模型技术,通过供给的智能化理解,赋能搜索/广告/推荐业务效率的提升。如果你对大模型、多模态技术充满热情,并希望在真实业务场景中推动技术创新落地,欢迎加入我们! 职位描述 1. 改进并实践多模态大模型理解技术,构建数十亿供给的理解标签/Embedding/SenmanticID等其他特征,应用到支付宝搜索/短视频推荐/商品推荐等各业务场景 2. 基于CV/NLP/Audio/多模态技术,通过结构化的理解体系设计,实现支付宝全域供给的语义对齐,支持全用用户行为建模。 3. 跟踪探索大模型前沿技术Pretrain、SFT、RAG、AI Agent、强化学习、模型蒸馏等,结合业务场景进行技术选型、方案设计,实现技术价值与业务效果的双重突破。
1.生成模型研发: 负责高质量图像与视频生成模型的选型、训练与调优(如Stable Diffusion、DiT、Video Generation Models),针对业务需求开发可控生成方案(ControlNet、LoRA、Adapter),实现广告素材自动化生成、商品图智能设计等。 2.多模态理解与检索: 构建高性能的多模态理解与表征模型(CLIP、BLIP、MLLM),优化跨模态检索(Text-to-Image/Video Retrieval)和内容打标能力,赋能搜索相关性提升及推荐系统的多模态召回与排序。 3.业务场景落地: 深入理解搜推广业务,设计AIGC在广告创意优化、搜索结果增强(Generative Search)、短视频内容重组等场景的应用链路;建立A/B实验体系,对AIGC生成内容的点击率(CTR)、转化率(CVR)及用户留存负责。 4.数据与系统优化: 构建大规模高质量的图文/视频训练数据集与美学评分体系;与Infra团队配合,优化生成模型的推理延迟与吞吐(如Distillation、Quantization),确保在线服务的高并发稳定性。
1、生成模型研发: 负责高质量图像与视频生成模型、图像可控编辑模型的选型、训练与调优(如Stable Diffusion、DiT、Video Generation Models),针对业务需求开发可控生成方案(ControlNet、LoRA、Adapter),实现素材自动化生成、商品图智能设计等; 2、多模态理解与检索: 构建高性能的多模态理解与表征模型(CLIP、BLIP、MLLM),优化跨模态检索(Text-to-Image/Video Retrieval)和内容打标能力,赋能搜索相关性提升及推荐系统的多模态召回与排序; 3、业务场景落地: 深入理解搜广推业务,设计AIGC在广告创意优化、搜索结果增强(Generative Search)、短视频内容重组等场景的应用链路;建立A/B实验体系,对AIGC生成内容的点击率(CTR)、转化率(CVR)及用户留存负责; 4、在线Reward:通过创意在线投放的实时反馈作为reward,优化生成模型; 5、数据与系统优化: 构建大规模高质量的图文/视频训练数据集与美学评分体系;与Infra团队配合,优化生成模型的推理延迟与吞吐(如Distillation、Quantization),确保在线服务的高并发稳定性。
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责计算机视觉以及机器学习领域的前沿研究开发,尤其是AIGC领域(如图像、视频或3D生成); 2、向字节跳动内部产品提供基础模型支持; 3、探索以人工智能技术为核心的新产品。