优酷优酷-AIGC多模态算法工程师-杭州/北京
任职要求
在职要求: 1、计算机、自动化、数学等相关专业硕士、博士,有机器学习和深度学习相关经验,具有优秀的理解力与执行力 2、有匹配的CV算法工作经验,熟悉检测、分割、分类、生成等模型与应用场景 3、熟悉Linux系统,熟练使用Java/C++/Python其中任一编程语言,以及TensorFlow/Pyto…
工作职责
1、跟进并实现视觉生成相关核心模块算法研发,并在可控场景下设计并实现业务生成方案与生成逻辑 2、解决文本生图、文本生视频的生成稳定性、一致性、可控性等核心问题 3、解决图像识别理解、图像审核、图像分类、图像分割等应用场景业务问题
加入千问/夸克APP的核心团队,共同打造下一代AI智能助理的“推荐大脑”。包括但不限于:对话推荐、AI内容创作、内容消费,负责推荐系统的算法设计、优化及落地,通过精准的算法策略提升对话体验与内容分发效率,带动千问/夸克APP的DAU、AI生成内容(AIGC)、创作者生态等核心业务的增长。 1.算法设计与优化:利用前沿技术优化千问/夸克APP的对话推荐、消费和创作模块,全链路地优化包括召回模型、排序模型、多模态推荐、多目标、冷启动,探索等推荐算法和模块; 2.数据驱动迭代:基于用户行为数据、内容特征数据等,构建算法评估体系,通过AB测试等方式验证算法效果,持续迭代优化推荐策略,解决冷启动、多样性不足等实际业务问题。 3.特征工程与模型搭建:利用大模型构建千问/夸克用户的画像,参与内容特征、用户特征的挖掘与构建,结合场景需求选择或改进合适的推荐模型,提升模型预测精度与泛化能力。 4.系统协同与落地:与工程、产品、数据等团队协作,将算法方案转化为可落地的技术实现,保障推荐系统的高可用性、低延迟与稳定性,适配各场景的动态变化需求。 5.技术探索与沉淀:跟踪推荐算法、AI大模型在内容领域的应用动态,探索大模型与推荐系统结合的创新方向,沉淀算法研发经验与技术方案。
团队介绍: 近年来,以大模型为核心的生成式人工智能技术发展取得了突破性进展,视觉内容创作领域展现出前所未有的技术潜力与广泛的应用前景。我们在数字人、视觉理解、2D/3D生成&编辑、人机交互等领域深耕多年,拥有丰富的学术积累与工程实践经验。过去几年,团队在顶级会议发表论文50余篇,相关成果已在阿里集团内外如教育、培训、客服、社交等多场景落地,在多家主流手机厂商中实现深度集成,也成功服务于奥运会、亚运会、春晚等盛会,累计数亿次调用。 如果你对研发规模化的AIGC解决方案感兴趣,期望在计算机视觉、图形学与机器学习领域持续创新,推动图像、视频与3D内容创作的普惠化和产业化发展,欢迎加入我们共同探索生成式AI在视觉内容创作中的无限可能。 岗位职责具体职责包括但不限于: 1.负责视觉生成模型的核心理论与前沿进展相关研究,通过算法创新与性能优化,提升多模态内容的生成质量、多样性与可控性。 2.负责图像/视频生成、编辑与理解等的核心算法研发、系统研发和产品开发,包括文生图/视频、图生图/视频、图像/视频修复、图像/视频编辑、风格迁移等。 3.负责2D/3D数字人核心算法研发、系统研发和产 品开发,包括基于2D/3D数字人重建、2D/3D数字人生成、姿态估计、表情驱动、语音驱动等。 4.负责面向场景的空间智能算法研究、产品开发,包括子弹时间系统、4D体积视频、3D感知、空间定位等。 5.探索理解生成统一的新范式,以及更加高效的多模态生成Scaling方法,包括但不限于高效attention设计、人类反馈和强化学习、模型蒸馏、训练/推理优化、多模态Tokenizer研究。
1. 负责大模型(LLM/MLLM)核心技术研发,包括预训练、垂域SFT、RLHF等,持续追踪和应用领域最新技术进展; 2. 负责大模型性能优化:研发模型加速技术,如量化、剪枝与知识蒸馏;优化数据特征与调度策略;构建高效推理链路、提升运行速度及降低成本; 3. 基于淘天用户丰富的消费行为,打造技术先进的电商用户理解大模型,提升对用户的异构行为本质的认知能力,支撑用户个性化的搜索、商详、互动等多种电商业务场景; 4. 基于淘天海量商品数据,打造技术先进的电商多模态大模型,提升对多模态异构的商品数据(图、文、视频等)的理解能力和结构化能力,输出底层算法能力和高质量结构化数据,支撑多种电商业务场景,并面向商家和消费者探索AIGC等创新业务应用; 5. 持续跟踪、探索大模型/多模态大模型方向的前沿技术,将各方向的SOTA能力集成到模型底座上,提升下游任务的效果,打造团队的技术先进性。