优酷优酷-AIGC多模态算法工程师-杭州/北京
任职要求
在职要求: 1、计算机、自动化、数学等相关专业硕士、博士,有机器学习和深度学习相关经验,具有优秀的理解力与执行力 2、有匹配的CV算法工作经验,熟悉检测、分割、分类、生成等模型与应用场景 3、熟悉Linux系统,熟练使用Java/C++/Python其中任一编程语言,以及TensorFlow/Pytorch等深度学习开发平台 4、有较好的数理基础和逻辑思维能力,热爱算法,热爱思考,较好的主动性和沟通协作能力。 加分项: 1、在CVPR、ICCV、ECCV、NeurIPS等视觉顶会发表论文者优先 2、有业界SOTA计算机视觉预训练模型、大语言模型预训练经验和强化学习经验优先 3、有项目主导经验优先
工作职责
1、跟进并实现视觉生成相关核心模块算法研发,并在可控场景下设计并实现业务生成方案与生成逻辑 2、解决文本生图、文本生视频的生成稳定性、一致性、可控性等核心问题 3、解决图像识别理解、图像审核、图像分类、图像分割等应用场景业务问题
团队介绍: 近年来,以大模型为核心的生成式人工智能技术发展取得了突破性进展,视觉内容创作领域展现出前所未有的技术潜力与广泛的应用前景。我们在数字人、视觉理解、2D/3D生成&编辑、人机交互等领域深耕多年,拥有丰富的学术积累与工程实践经验。过去几年,团队在顶级会议发表论文50余篇,相关成果已在阿里集团内外如教育、培训、客服、社交等多场景落地,在多家主流手机厂商中实现深度集成,也成功服务于奥运会、亚运会、春晚等盛会,累计数亿次调用。 如果你对研发规模化的AIGC解决方案感兴趣,期望在计算机视觉、图形学与机器学习领域持续创新,推动图像、视频与3D内容创作的普惠化和产业化发展,欢迎加入我们共同探索生成式AI在视觉内容创作中的无限可能。 岗位职责具体职责包括但不限于: 1.负责视觉生成模型的核心理论与前沿进展相关研究,通过算法创新与性能优化,提升多模态内容的生成质量、多样性与可控性。 2.负责图像/视频生成、编辑与理解等的核心算法研发、系统研发和产品开发,包括文生图/视频、图生图/视频、图像/视频修复、图像/视频编辑、风格迁移等。 3.负责2D/3D数字人核心算法研发、系统研发和产 品开发,包括基于2D/3D数字人重建、2D/3D数字人生成、姿态估计、表情驱动、语音驱动等。 4.负责面向场景的空间智能算法研究、产品开发,包括子弹时间系统、4D体积视频、3D感知、空间定位等。 5.探索理解生成统一的新范式,以及更加高效的多模态生成Scaling方法,包括但不限于高效attention设计、人类反馈和强化学习、模型蒸馏、训练/推理优化、多模态Tokenizer研究。
1. 负责大模型(LLM/MLLM)核心技术研发,包括预训练、垂域SFT、RLHF等,持续追踪和应用领域最新技术进展; 2. 负责大模型性能优化:研发模型加速技术,如量化、剪枝与知识蒸馏;优化数据特征与调度策略;构建高效推理链路、提升运行速度及降低成本; 3. 基于淘天用户丰富的消费行为,打造技术先进的电商用户理解大模型,提升对用户的异构行为本质的认知能力,支撑用户个性化的搜索、商详、互动等多种电商业务场景; 4. 基于淘天海量商品数据,打造技术先进的电商多模态大模型,提升对多模态异构的商品数据(图、文、视频等)的理解能力和结构化能力,输出底层算法能力和高质量结构化数据,支撑多种电商业务场景,并面向商家和消费者探索AIGC等创新业务应用; 5. 持续跟踪、探索大模型/多模态大模型方向的前沿技术,将各方向的SOTA能力集成到模型底座上,提升下游任务的效果,打造团队的技术先进性。
我们是阿里妈妈搜索广告算法团队,负责淘宝搜索场景广告技术变现的算法设计和优化,包括并不限于: 1. 负责研究多模态大模型在淘宝海量图文、视频物料理解上的运用; 2. 负责研究生成式大模型/AIGC算法在广告投放物料挖掘上的运用; 3. 负责研究多模态大模型和生成式大模型在搜索广告中的全链路运用和升级; 4. 负责研究搜索广告场景下多物料投放算法的设计和优化,包含商品、直播、短视频等; 5. 负责研究超大规模多模态大模型的训练和推理加速; 6. 负责研究经典CV/多模态任务的设计和优化,包括分类、检测、OCR、度量学习等。