阿里巴巴研究型实习生-智能算法产品事业部-多模态算法实习生
任职要求
1. 计算机、人工智能、数学等相关专业在读硕士或博士。 2. 扎实的机器学习与深度学习理论基础,熟练掌握Python,精通PyTorch等主流框架。 3. 有多模态领域、大模型等领域有相关实践者优先。 4. 在C…
工作职责
1.多模态大模型应用研发:基于多模态大模型(MLLM)强大的世界知识与推理能力,研发复杂场景下的主体识别算法,精准定位视频/图文中的核心主体(如开箱商品、主推款),解决遮挡、多实例干扰等难题。 2.细粒度语义对齐与表征学习: 构建统一的多模态表征空间,负责封面、视频、商品图文之间的细粒度语义对齐,提升跨模态检索与粗筛的召回率。 3.判别模型设计: 设计具备“Thinking with Images”能力的判别式大模型,实现对“挂错品”、“封面党”等高阶语义偏差的精细化验证,并探索模型的可解释性(输出决策依据)。 4.模型蒸馏与落地: 参与大模型到轻量化小模型的知识蒸馏(Model Distillation)工作,设计表征-判别联合蒸馏框架,在保障算法精度的同时满足线上业务的高吞吐与低延时需求。 5.前沿技术探索: 跟踪CV、NLP及多模态领域的SOTA技术,结合业务场景进行创新,有机会将成果发表在CVPR、ICCV、ECCV等顶级会议上。
随着大语言模型(LLM)在搜推广领域的深入应用,如何高效地将海量商品/内容信息与世界知识结合,成为突破推荐算法上限的关键。 本岗位重点探索生成式推荐中的核心基础设施——语义ID(Semantic ID)的构建。致力于解决现有ID体系维度单一、表达受限的问题,探索语义ID更丰富的兴趣表达。 具体职责: 1. 前沿跟进:研究生成式推荐前沿技术,快速跟进RecSys/KDD/SIGIR/ACL等顶会最新论文,探索语义ID与LLM的更佳的应用范式,并且在实际业务数据上验证。 2. 多兴趣表征:深入研究协同&多模态语义协作机制,探索多兴趣表征构建,,解决多维兴趣样本在训练过程中的Loss拉扯问题,探索基于图或对比学习等改进方案,构建更稳健的Item-to-Token映射机制。 3. 多兴趣语义ID:突破现有层级化方案(如RQ-VAE/RQ-Kmeans)仅能进行单一维度(如类目或单兴趣)表达的局限,将多兴趣表征进行量化。 4. 生成式LLM赋能:将构建的多兴趣语义ID应用于推荐场景的生成式大模型(LLM)训练中,降低训练/推理成本,提升模型对用户复杂行为序列的理解与生成能力。 5. 技术沉淀:负责实验数据的分析与整理,撰写技术报告;若产出具有创新性的研究成果,支持以第一作者身份发表顶级会议论文或申请专利。
我们是阿里妈妈搜索广告算法团队,负责淘宝搜索场景广告技术变现的算法设计和优化,包括并不限于: 1. 负责研究多模态大模型在淘宝海量图文、视频物料理解上的运用; 2. 负责研究生成式大模型/AIGC算法在广告投放物料挖掘上的运用; 3. 负责研究多模态大模型和生成式大模型在搜索广告中的全链路运用和升级; 4. 负责研究搜索广告场景下多物料投放算法的设计和优化,包含商品、直播、短视频等; 5. 负责研究超大规模多模态大模型的训练和推理加速; 6. 负责研究经典CV/多模态任务的设计和优化,包括分类、检测、OCR、度量学习等。
依托淘宝、天猫超大规模商业场景,我们致力于通过最前沿的多模态大模型技术驱动万亿级交易额的增长。在这里你将面对业界最复杂的电商图文、视频语境,与顶尖团队一起探索 AIGC 与多模态技术在搜索广告全链路(召回、排序、创意生成)的深度融合与变现。包括并不限于: 1. 负责电商多模态统一表征: 构建面向海量商品、直播、短视频的超大规模预训练模型(VLM),解决多模态语义对齐、细粒度特征提取及跨模态检索难题。 2. 负责生成式广告物料(AIGC): 探索 Diffusion Model、LLM 在广告创意自动生成(文案、头图、视频步进)中的应用,提升物料投放质量与点击转化率。 3. 负责多模态驱动的商业决策: 将多模态感知能力深度注入广告全链路(从搜索词理解到广告 CTR/CVR 预估),实现从“看懂图片”到“理解意图”的决策升级。 4. 负责全链路多物料优化: 针对商品、直播间、短视频等多类型物料,设计统一的跨模态排序算法,优化搜索场景下的多元流量分配效率。 5. 负责视觉底层技术创新: 针对电商复杂场景,优化 OCR、商品检测、度量学习及视觉搜索等经典任务,建立行业领先的视觉基座。