拼多多AIGC算法专家/工程师(图像/视频/多模态方向)
任职要求
1、计算机、人工智能、数学等相关专业,硕士及以上学历优先; 2、2年以上CV或AIGC相关算法经验,深入理解生成式模型原理,熟悉Diffusion Models (DDPM/LDM)、GAN、VAE以及Transformer (ViT) 架构; 3、熟练掌握PyTorch,熟悉Diffusers、Accelerate、DeepSpeed等主流训练与推理框架; 4、熟悉Sora、Emu Video、SVD等视频生成架构,有时空注意力机制(Space-Time Attention…
工作职责
1、生成模型研发: 负责高质量图像与视频生成模型、图像可控编辑模型的选型、训练与调优(如Stable Diffusion、DiT、Video Generation Models),针对业务需求开发可控生成方案(ControlNet、LoRA、Adapter),实现素材自动化生成、商品图智能设计等; 2、多模态理解与检索: 构建高性能的多模态理解与表征模型(CLIP、BLIP、MLLM),优化跨模态检索(Text-to-Image/Video Retrieval)和内容打标能力,赋能搜索相关性提升及推荐系统的多模态召回与排序; 3、业务场景落地: 深入理解搜广推业务,设计AIGC在广告创意优化、搜索结果增强(Generative Search)、短视频内容重组等场景的应用链路;建立A/B实验体系,对AIGC生成内容的点击率(CTR)、转化率(CVR)及用户留存负责; 4、在线Reward:通过创意在线投放的实时反馈作为reward,优化生成模型; 5、数据与系统优化: 构建大规模高质量的图文/视频训练数据集与美学评分体系;与Infra团队配合,优化生成模型的推理延迟与吞吐(如Distillation、Quantization),确保在线服务的高并发稳定性。
1.生成模型研发: 负责高质量图像与视频生成模型的选型、训练与调优(如Stable Diffusion、DiT、Video Generation Models),针对业务需求开发可控生成方案(ControlNet、LoRA、Adapter),实现广告素材自动化生成、商品图智能设计等。 2.多模态理解与检索: 构建高性能的多模态理解与表征模型(CLIP、BLIP、MLLM),优化跨模态检索(Text-to-Image/Video Retrieval)和内容打标能力,赋能搜索相关性提升及推荐系统的多模态召回与排序。 3.业务场景落地: 深入理解搜推广业务,设计AIGC在广告创意优化、搜索结果增强(Generative Search)、短视频内容重组等场景的应用链路;建立A/B实验体系,对AIGC生成内容的点击率(CTR)、转化率(CVR)及用户留存负责。 4.数据与系统优化: 构建大规模高质量的图文/视频训练数据集与美学评分体系;与Infra团队配合,优化生成模型的推理延迟与吞吐(如Distillation、Quantization),确保在线服务的高并发稳定性。
1、研发行业领先且实用的AIGC视觉生成大模型技术,包括AIGC视觉生成大模型、文生图、图生图、保ID的可控编辑、图文/视频多模态理解及生成技术落地; 2、构建完整的AIGC视觉生成系统链路,推动在快手创作/消费/搜索/商业化/AI生产工具等场景的规模应用,实现AIGC关键技术突破、极致打磨效果体验,在各业务场景创作用户价值; 3、负责AIGC技术及产品效果创新,持续打造业界的技术口碑及影响力。
1、研发行业领先且实用的AIGC视觉生成大模型技术,包括AIGC视觉生成大模型、文生图、图生图、保ID的可控编辑、图文/视频多模态理解及生成技术落地; 2、构建完整的AIGC视觉生成系统链路,推动在快手创作/消费/搜索/商业化/AI生产工具等场景的规模应用,实现AIGC关键技术突破、极致打磨效果体验,在各业务场景创作用户价值; 3、负责AIGC技术及产品效果创新,持续打造业界的技术口碑及影响力。