拼多多AIGC算法专家/工程师(图像/视频/多模态方向)
任职要求
1. 计算机、人工智能、数学等相关专业,硕士及以上学历; 2. 2年以上CV或AIGC相关算法经验,深入理解生成式模型原理,熟悉Diffusion Models (DDPM/LDM)、GAN、VAE以及Transformer (ViT) 架构; 3. 熟练掌握PyTorch,熟悉Diffusers、Accelerate、DeepSpeed等主流训练与推理框架; 4. 熟悉Sora、Emu Video、SVD等视频生成架构,有时空注意力机制(Space-Time Attention)、DiT(Diffusion Transformer)训练调优经验者优先; 5. 对业务数据敏感,有搜推广(搜…
工作职责
1.生成模型研发: 负责高质量图像与视频生成模型的选型、训练与调优(如Stable Diffusion、DiT、Video Generation Models),针对业务需求开发可控生成方案(ControlNet、LoRA、Adapter),实现广告素材自动化生成、商品图智能设计等。 2.多模态理解与检索: 构建高性能的多模态理解与表征模型(CLIP、BLIP、MLLM),优化跨模态检索(Text-to-Image/Video Retrieval)和内容打标能力,赋能搜索相关性提升及推荐系统的多模态召回与排序。 3.业务场景落地: 深入理解搜推广业务,设计AIGC在广告创意优化、搜索结果增强(Generative Search)、短视频内容重组等场景的应用链路;建立A/B实验体系,对AIGC生成内容的点击率(CTR)、转化率(CVR)及用户留存负责。 4.数据与系统优化: 构建大规模高质量的图文/视频训练数据集与美学评分体系;与Infra团队配合,优化生成模型的推理延迟与吞吐(如Distillation、Quantization),确保在线服务的高并发稳定性。
1、生成模型研发: 负责高质量图像与视频生成模型、图像可控编辑模型的选型、训练与调优(如Stable Diffusion、DiT、Video Generation Models),针对业务需求开发可控生成方案(ControlNet、LoRA、Adapter),实现素材自动化生成、商品图智能设计等; 2、多模态理解与检索: 构建高性能的多模态理解与表征模型(CLIP、BLIP、MLLM),优化跨模态检索(Text-to-Image/Video Retrieval)和内容打标能力,赋能搜索相关性提升及推荐系统的多模态召回与排序; 3、业务场景落地: 深入理解搜广推业务,设计AIGC在广告创意优化、搜索结果增强(Generative Search)、短视频内容重组等场景的应用链路;建立A/B实验体系,对AIGC生成内容的点击率(CTR)、转化率(CVR)及用户留存负责; 4、在线Reward:通过创意在线投放的实时反馈作为reward,优化生成模型; 5、数据与系统优化: 构建大规模高质量的图文/视频训练数据集与美学评分体系;与Infra团队配合,优化生成模型的推理延迟与吞吐(如Distillation、Quantization),确保在线服务的高并发稳定性。
团队介绍: 高德地图机器学习研发部是公司AI核心技术引擎,聚焦多模态大模型、视频生成与理解、图像编辑与生成等前沿领域。团队深耕人工智能技术落地,支撑亿级用户产品,同时长期投入前沿探索,在NeurIPS/ICLR/CVPR/ACL等顶会发表多篇论文,多项成果入选“最有影响力论文”榜单。我们拥有海量数据与算力资源,鼓励创新突破,诚邀你与顶尖算法专家并肩,共同定义AI的未来!如果你渴望挑战多模态与生成式AI的技术巅峰,在视频、图像、大模型的交叉领域实现突破,欢迎加入我们!团队的github页面是:https://github.com/AMAP-ML/ 我们提供 • 参与亿级用户产品的AI核心算法研发,见证技术直接赋能业务; • 与学术大牛和工业界专家共事,持续提升技术视野; • 顶配算力资源+开放创新氛围,支持前沿探索与顶会论文发表。 具体职责包含但不限于: 1. 视觉理解任务的技术探索,要求对视觉基础任务有深入的理解,做好在商品理解、详情页的文图内容、开放图片识别等公司核心业务上的落地; 2. 多模态大模型的技术探索,要求对多模态大模型训练、文图跨模态对齐等有深入实践,做好多模态大模型的能力构建和应用; 3. 追踪领域前沿工作,沉淀技术,投稿领域顶级会议。
我们是谁? 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现厘米级高精地图、实时三维重建、多模态感知等核心技术的引擎,持续突破自动驾驶、AR导航、智慧交通等领域的技术边界。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 挑战世界级技术难题,追求智能上限 用AI驱动国民级APP的产品迭代和颠覆式创新 岗位职责: 1、负责研发空间智能核心技术,进行室内/室外/航拍/卫片等全场景高质量空间理解、重建与生成,包括但不限于基于图像、视频、点云、Mesh和3DGS等多种模态数据的空间智能基座与应用; 2、负责多模态大模型和视频生成大模型的预训练、微调等工作,包括但不限于数字人、生成式重建及空间生成等应用方向; 3、负责大规模多模态数据集的构建、清洗与管理,搭建高效数据流水线,保障算法训练与评估; 4、负责结合具体需求,抽象出关键算法进行研发,并持续保持及引领相关技术指标。