阿里巴巴业务技术-视觉AIGC实习生
任职要求
【必备项】 1、本科及以上学历,计算机、人工智能、电子与通信等相关专业; 2、熟悉计算机视觉、机器学习、图像分析与处理等相关领域技术和应用,有图文多模或者AIGC图像生成编辑相关经验者优先; 3、具备较强的工程实现能力,熟练掌握Python,熟悉pytorch开发; 4、学习能力强,对新事物有好奇心,对所在领域有热情,善于独立思考并反思总结; 5、良好的沟通能力和团队协同能力,善于合作,乐于分享; 6、可实习6个月以上。 【加分项】 1、在校园内或互联网公司有相关实习或项目经历; 2、在ICCV、CVPR等国际顶级会议、期刊上发表论文,或在相关学术会议组织的权威比赛中获奖。
工作职责
● 前沿技术研发与落地负责扩散模型(Diffusion Models)的微调与优化工作,融合图文多模态技术(Vision-Language Models, MLLM)、生成式AI(AIGC)等前沿技术,打造下一代通用图像理解与编辑工具。涵盖但不限于以下方向: ● 通用图像生成编辑:构建智能化的通用图像编辑生成能力,支持多样化场景下的自动化编辑需求, 实现类似GPT4O的基于文本的通用图像编辑能力; ● 多信息注入生成:探索基于多条件约束的高质量图像生成技术,实现精准可控的内容创作; ● 虚拟试穿(Virtual Try-On):研发高效、逼真的虚拟试穿解决方案,推动时尚与零售行业的数字化转型; ● 视频生成与编辑:突破静态图像限制,开发动态内容生成与编辑能力,赋能多媒体创作生态; ● 技术创新与业务赋能密切跟踪AIGC(AI-Generated Content)领域的最新研究成果与技术趋势,深入解析顶级会议论文(如NeurIPS、ICLR、CVPR等),并快速将前沿理论转化为实际业务应用。通过技术创新驱动产品升级,为公司打造领先的AI内容生成能力。 关键亮点: ● 技术成长与学习机会:通过参与扩散模型、多模态技术和 AIGC 等前沿领域的研发,快速提升你的技术能力;接触到行业最热门的技术方向(如虚拟试穿、视频生成等),积累宝贵的实战经验; ● 顶尖资源支持:依托淘天集团海量的数据资源和强大的计算能力,为你的研发工作提供坚实保障; ● 开放协作的团队文化:加入一个聪明、包容且乐于分享的团队,在跨领域合作中拓宽视野、提升沟通能力;在团队中获得导师指导,帮助你快速适应工作节奏并实现个人成长。
我们是国内使用量最大的电商AIGC平台之一。 你将参与到:基于淘宝海量商品数据,打造技术先进的电商多模态大模型,支撑发布、比货、导购等多种电商业务场景,并面向商家和消费者探索 AIGC 等创新业务应用。
如果你渴望投身于AI技术驱动的未来,并希望通过算法与系统研发改变亿级用户的内容体验,那么这里将是你实现梦想的最佳舞台!在淘天集团,我们正在构建一个基于海量图像/视频数据的智能生态,覆盖内容理解、匹配分发、生成等多个核心方向。作为团队的一员,你将参与以下前沿领域的探索与实践: ● AIGC(AI-Generated Content)创新:探索扩散模型(SD、flux系列)、自回归生成(AR)、强化学习、多模态生成技术等前沿方法,打造下一代智能化内容生成工具,赋能电商、娱乐、广告等多个场景。 ● 跨领域联合创新:结合计算机图形学、物理仿真和大语言模型等技术,推动虚拟试穿、3D内容生成、基于文本描述的通用图像编辑、动态视频生成编辑等应用落地,开创视觉技术的新格局。 在这里,你不仅能够接触到行业最顶尖的数据资源,还能与一群聪明、皮实、乐观、自省、追求卓越的伙伴一起,探索未知、突破边界,共同定义视觉技术的未来! 为什么选择我们? ● 海量数据与真实场景:依托淘天集团丰富的业务场景,你将有机会在亿级图像/视频数据上验证你的算法,并看到它们如何直接影响用户的生活。 ● 前沿技术与创新氛围:我们鼓励大胆尝试、快速迭代,支持你在机器学习、深度学习、计算机视觉、AIGC等领域的深入研究。 ● 成长与发展机会:无论你是希望深耕技术成为领域专家,还是逐步转型为技术管理者,我们都会为你量身定制适合的成长计划。 ● 顶级资源支持:无论是计算资源、数据资源,还是与行业顶尖专家的合作机会,我们都将全力支持你的成长。
1、研究和探索可控的视觉内容生成技术,负责视觉内容生成模型等相关算法的研发和落地,结合公司业务场景进行相关策略迭代; 2、探索时空内容可控生成技术,包括图片/视频风格迁移、镜头控制、空间一致性控制等; 3、持续跟踪图像和视频生成领域的最新技术动态,评估并实施前沿技术,推动技术在公司产品中的应用与创新。
1.前沿算法研发 •主导计算机视觉与AIGC核心算法研发(检测/分割/生成/多模态等),推动超分、修复、美化等技术在业务场景落地,实现效果与效率双优化。 •探索Stable Diffusion等生成式模型的应用创新,结合业务需求优化图像生成、智能编辑(如文本驱动编辑、语义修复)等关键技术。 2.工程化落地 •完成算法从原型到产品的全链路开发,解决模型压缩(量化/剪枝)、推理加速(TensorRT/MNN部署)、跨平台适配等工程挑战。 •构建高精度、低延迟的CV pipeline,覆盖图像矫正、去噪、OCR等实际需求。 3.技术前瞻性研究 •跟踪CVPR/ICML等顶会技术动态,针对性研发Diffusion Models、Vision Transformer等前沿模型,建立技术壁垒。