logo of antgroup

蚂蚁金服蚂蚁集团-图像 / 视频生成算法工程师-AIGC方向

社招全职3年以上技术类-算法地点:北京 | 杭州状态:招聘

任职要求


1. 计算机、人工智能、数学、电子工程等相关专业,本科及以上学历,硕博优先。  
2. 精通深度学习理论,熟悉常用框架(如 PyTorchTensorFlow),能够独立实现和调优深度生成模型。  
3. 有 Diffusion Models、GAN、VAE 等生成式建模经验,熟悉 Stable Diffusion、Imagen、DALL·E 或相关开源项目。  
4. 熟悉 Transformer 在视觉、视频任务中的应用,如 Vision Transformer、Video Transformer、Latent Diffusion 等。  
5. 有多模态任务经验(如文本转图像、文本转视频、视频到视频),掌握 CLIP、BLIP、align 模型等跨模态技术。  
6. 具备模型可控性技术经验,例如 ControlNet,LoRA,DreamBooth,条件生成等。  
7. 熟悉数据处理与增强方法,能够…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责深度学习、生成式模型在图像与视频生成领域的研发与优化,包括文本生成图像(text-to-image)、文本生成视频(text-to-video)、图像/视频编辑等。  
2. 研究并实现前沿的生成模型架构(如 Diffusion Models、GAN、Transformer、NeRF 等)以及多模态融合技术(文本、音频、视频、图像)。  
3. 结合业务需求,设计和训练高质量的生成模型,提升生成结果的真实感、美学质量、语义一致性和可控性。  
4. 建立数据采集与清洗流程,构建高质量的训练、微调和评估数据集(涵盖图像、视频、多模态)。  
5. 设计、实现并维护模型推理服务,包括模型部署、性能优化、成本控制和稳定性保障。  
6. 对生成模型的评测指标进行研究和完善,包括自动化评分、用户反馈收集、强化学习奖励函数等。  
7. 跟进计算机视觉、生成式AI、多模态领域业界及学术新技术,并快速验证和落地。
包括英文材料
学历+
深度学习+
PyTorch+
TensorFlow+
Stable Diffusion+
Transformer+
ONNX+
TensorRT+
Docker+
还有更多 •••
相关职位

logo of meituan
社招3年以上核心本地商业-业

​AI搜索和智能体产品后端系统研发: 1. 设计并实现AI搜索Agent应用,包括Query理解、记忆存储、环境感知等模块的集成与优化。 2. 负责Agentic Search(搜索智能体)技术探索和架构研发,支持多模态(文本、图像、视频)检索与应用创新。 3. 抽象并开发企业级别的AI应用平台,支持Agent相关应用的接入与扩展,确保平台的高可用性和可扩展性。 4. 实现平台的模块化设计,支持快速迭代与功能扩展,满足AI时代本地生活服务领域智能体应用快速发展需求。 5. 与业务部门(如产品、运营团队)协作,将AI搜索能力嵌入现有工作流(如智能问答、个性化推荐)。 6. 负责AI系统的日常运维,包括异常监控、接口优化及用户培训,确保生产环境高效运行。

更新于 2025-04-03北京
logo of amap
社招3年以上技术类-质量保证

1.为导航规划、地图渲染、高精度定位和地图数据编译等高德核心服务端系统进行全面的质量保障和测试体系建设; 2.设计并执行综合测试方案,确保高复杂度地图业务系统的质量和可靠性; 3.通过多种创新技术手段(如LLM、图像识别等)实现高度自动化的测试方法,通过持续集成/持续交付体系建设实现高效率、高质量的产品研发和交付流程。

更新于 2025-04-03北京
logo of amap
社招3年以上技术类-算法

团队介绍: 高德地图机器学习研发部是公司AI核心技术引擎,聚焦多模态大模型、视频生成与理解、图像编辑与生成等前沿领域。团队深耕人工智能技术落地,支撑亿级用户产品,同时长期投入前沿探索,在NeurIPS/ICLR/CVPR/ACL等顶会发表多篇论文,多项成果入选“最有影响力论文”榜单。我们拥有海量数据与算力资源,鼓励创新突破,诚邀你与顶尖算法专家并肩,共同定义AI的未来!如果你渴望挑战多模态与生成式AI的技术巅峰,在视频、图像、大模型的交叉领域实现突破,欢迎加入我们!团队的github页面是:https://github.com/AMAP-ML/ 我们提供 • 参与亿级用户产品的AI核心算法研发,见证技术直接赋能业务; • 与学术大牛和工业界专家共事,持续提升技术视野; • 顶配算力资源+开放创新氛围,支持前沿探索与顶会论文发表。 具体职责包括但不限于: 1. 视频生成:负责视频生成技术的前沿技术的研究,对AIGC的diffusion和auto-regressive技术有深入了解,在T2I/AIGCT2V/I2V上面有一定的研究,图文对齐,长视频生成等有一定的研究,做好视频生成在高德业务(广告,POI详情页等)中的进行落地。 2. 视频理解:能够使用和优化多模态大模型对用户上传的视频进行质量理解,标签,densecaption,视频summary等生成,作用到视频的搜索,广告,推荐等业务的落地。 3. 世界模型: 参与世界模型的构建,能够使用最新的视频生成技术,3D技术等构建符合人类物理规律的统一的世界模型,在高德的业务进行落地。 4. 紧跟技术前沿和技术沉淀,形成顶会论文和专利。

更新于 2026-01-23北京
logo of amap
社招5年以上技术类-开发

● 负责高德大云图业务中心-二三维时空底座的算法工程化相关研发工作,实现算法落地、提升业务效率; ● 负责设计及开发在线服务系统,对外输出二三维时空底座能力; ● 负责设计及开发算力调度系统,实现大规模集群算力调度、分配及管理,提升资源利用率、提升系统吞吐能力; ● 负责搭建和运维算力平台,实现平台各节点的监控及自动运维能力,提升平台的稳定性以及可靠性; ● 为团队引入创新的技术、解决方案,解决当前难题,不断优化系统与架构;

更新于 2025-11-25北京