阿里巴巴阿里妈妈-AIGC视觉生成算法-杭州/北京
任职要求
1.计算机、数学或统计学相关专业硕士及以上学历; 2.熟练掌握Java/C++/Python中至少一门语言,有扎实的数据结构和算法基础; 3.熟悉常用的机器学习算法, 熟练使用tensorflow/Pytorch等深度学习开发平台 4.2年及以上图像理解,图像生成等领域相关经验,熟悉检测、分割、分类等模型与应用场景; 5. 熟悉掌握StableDiffusion, Controlnet,Dreambooth, Lora, Inpainting,GAN,VAE,多模态等一项或多项相关工作,具有综合使用各类算法实现特定功能的能力; 6.具备优秀的分析和解决问题的能力,良好的沟通协作能力;对使用AIGC能力创造新事物有热情; 7.有数据挖掘、机器学习、强化学习、信息检索、自然语言理解、推荐系统、计算广告学及算法博弈论相关领域研究和实践经验,在以上领域的国际会议(CVPR/ECCV/NIPS/MM)或者期刊上发表过论文者更佳; 8.参加过ACM或数据挖掘&机器学习类竞赛(天池大奖赛、Kaggle)并取得好名次者更佳; 9.参与过机器学习开源项目并有突出贡献者更佳。
工作职责
我们是阿里妈妈智能创作与AI应用团队, 长期从事利用CV NLP等多模态和多媒体技术进行内容创作、内容理解的算法工作,团队耕耘技术多年,在电商创意素材生成领域 有广泛的业界影响力,研发出阿里妈妈创意中心、万相实验室等产品以及阿里妈妈智能图片制作(Auto Poster)、阿里妈妈视频生成(AtomoVideo)等技术,研究成果发表在 CVPR、ICCV、AAAI、ACM MM 、WWW、ACL 等学术顶会。 我们诚挚欢迎你加入团队,工作内容为下列之一: 1. AIGC 算法研发,包括图像和视频基础生成模型研发(T2I,I2I, T2V,TI2V)、控制条件生成算法的研发、生成效果调优,用于产品级的可控AIGC 图像和视频生成。 2. 图片和视频创意生成, 结合广告主需求、设计师设计以及高速发展的AIGC技术,制作出丰富、美观、高效的广告创意。 3. 原生多模态模型研发,训练业界领先的理解生成一体的原生多模态模型,用于电商场景的图像和视频编辑。
1、跟进并实现视觉生成相关核心模块算法研发,并在可控场景下设计并实现业务生成方案与生成逻辑 2、解决文本生图、文本生视频的生成稳定性、一致性、可控性等核心问题 3、解决图像识别理解、图像审核、图像分类、图像分割等应用场景业务问题
团队介绍: 近年来,以大模型为核心的生成式人工智能技术发展取得了突破性进展,视觉内容创作领域展现出前所未有的技术潜力与广泛的应用前景。我们在数字人、视觉理解、2D/3D生成&编辑、人机交互等领域深耕多年,拥有丰富的学术积累与工程实践经验。过去几年,团队在顶级会议发表论文50余篇,相关成果已在阿里集团内外如教育、培训、客服、社交等多场景落地,在多家主流手机厂商中实现深度集成,也成功服务于奥运会、亚运会、春晚等盛会,累计数亿次调用。 如果你对研发规模化的AIGC解决方案感兴趣,期望在计算机视觉、图形学与机器学习领域持续创新,推动图像、视频与3D内容创作的普惠化和产业化发展,欢迎加入我们共同探索生成式AI在视觉内容创作中的无限可能。 岗位职责具体职责包括但不限于: 1.负责视觉生成模型的核心理论与前沿进展相关研究,通过算法创新与性能优化,提升多模态内容的生成质量、多样性与可控性。 2.负责图像/视频生成、编辑与理解等的核心算法研发、系统研发和产品开发,包括文生图/视频、图生图/视频、图像/视频修复、图像/视频编辑、风格迁移等。 3.负责2D/3D数字人核心算法研发、系统研发和产 品开发,包括基于2D/3D数字人重建、2D/3D数字人生成、姿态估计、表情驱动、语音驱动等。 4.负责面向场景的空间智能算法研究、产品开发,包括子弹时间系统、4D体积视频、3D感知、空间定位等。 5.探索理解生成统一的新范式,以及更加高效的多模态生成Scaling方法,包括但不限于高效attention设计、人类反馈和强化学习、模型蒸馏、训练/推理优化、多模态Tokenizer研究。
拍立淘是阿里电商核心视觉搜索算法团队,致力于为淘宝搜索核心业务打造行业领先的计算机视觉创新技术,应用于多种电商场景(如拍照搜同款、电商创意AIGC、电商大模型),堪称国内最大的视觉算法应用场景之一。我们紧随技术潮流,不断进行商业和技术创新,期待有志之士的加入,让算法发挥价值,让技术更有影响力。 【招聘方向】 1. AIGC视觉生成(包括但不限于可控图像/视频生成、图像/视频编辑、图像驱动、定制化、试衣等); 2.多模态大模型(包括但不限于大模型预训练、垂域微调SFT、RLHF、数据治理飞轮、训练部署加速等); 3.图像/多模态理解(包括商品多模态理解VG、目标检测、OCR、图像/多模态表征等),其他任何感兴趣/有价值的方向欢迎交流讨论。 【实习工作环境】 1. 充裕的GPU资源,近千张A100/V100 海量业务数据和基础能力积累,帮助高效产出; 2. 来自国内外top学校的师兄/师姐的倾力指导充分尊重实习生个人意见,自由度高; 3. 产研结合,支持鼓励实习生投递顶会论文。