阿里巴巴算法技术-多模态算法实习生
任职要求
1. 计算机视觉、自然语言处理、机器学习、数据挖掘、人工智能等相关专业的全日制在读硕士/博士; 2. 熟练掌握Tensorflow、Pytorch等深度学习框架,扎实的编程基础,具备独立的算法实现能力; 3. CV、NLP、ML等基本功底,有MLLM实操经验,参与过大模型预训练,SFT,RLHF等项目者优先; 4. 良好的逻辑分析能力和数理基础,对算法原理及应用有较深入的理解,在人工智能顶级会议/期刊中发表论文者优先; 5. 能长时期线下实习者优先。 【加分项】 1. 在高影响力的开源项目中,做出过核心贡献; 2. 在国际竞赛(如:ACM ICPC, Kaggle, KDD Cup, SemEval等)中获得过优异成绩。
工作职责
1. 研发多模态大模型(MLLM)预训练对齐表征、垂域SFT、RLHF 等技术; 2. 探索多模态大模型(MLLM)垂域应用,如数据飞轮治理、训测蒸馏加速、开放词汇理解 等技术; 3. 研发基于大模型的图文搜索、检索增强RAG、Agent 等技术; 4. 结合以上方向的探索和研究,撰写、发表论文,和业界、学术界保持良好的交流。
1. 掌握和跟进LLM、MLLM、aigc等前沿技术的发展动态; 2. 结合业务需求,深入研究aigc细节生成技术,构建攻防算法系统; 3. 结合业务需求,探索细粒度多模态表征技术,以及局部检索技术; 4. 结合以上方向的探索和研究,撰写发表论文,和业界、学术界保持良好的交流。
团队介绍:抖音内容理解团队负责抖音集团内容算法工作,业务覆盖抖音、今日头条、西瓜视频、剪映等业务,承接业务在内容理解、LLM应用、新业务方向探索等方向的工作。技术上涵盖了CV,NLP,音频,LLM等算法方向。团队承载业务需求同时还负责底层基础算法技术,推动如基础预训练模型、视频生成等学术和专利相关工作,负责为抖音各个技术方向提供长期有深度的技术支撑。得益于抖音集团业务数量庞大的多模态业务数据和业务需求,团队能够有资源和机会去做出行业领先的技术创新,用最新的技术去改变影响用户和改变行业格局。 1、课题背景:随着大模型技术在多模态内容理解领域的突破,内容特征已逐渐替代传统ID特征成为推荐系统的核心驱动力。然而当前系统面临三重挑战:(1)内容深度解析需求:短视频、直播、评论等场景需要同时处理文本、图像、音频等多模态数据,且需建模用户长短期兴趣与跨领域行为;(2)动态安全威胁:评论区涌现多模态越狱攻击(如隐晦图文组合提示词),传统单模态审核无法应对复杂对抗场景;(3)跨域迁移瓶颈:用户娱乐内容兴趣与电商消费需求间存在语义鸿沟,需建立可解释的跨域映射机制。 2、课题挑战:(1)多模态复杂性:用户行为涉及多模态交互(如视频+评论+购物),需统一框架实现内容理解与用户意图推理;(2)社区生态动态性:自然作者、各种机构、黑灰产等群体会互相交互产生大量复杂的多模态行为,要求算法能够快速准确的理解内容和交互的语义;(3)生态协同需求:DAU-GMV转化率存在成倍提升空间,需突破"娱乐到消费"的跨域兴趣建模技术;(4)技术整合价值:联合优化推荐、安全、跨域三大模块,可降低算力消耗并提升端到端效果。 3、研究方向:大语言模型、多模态大模型、内容理解、推荐系统。
团队介绍:抖音内容理解团队负责抖音集团内容算法工作,业务覆盖抖音、今日头条、西瓜视频、剪映等业务,承接业务在内容理解、LLM应用、新业务方向探索等方向的工作。技术上涵盖了CV,NLP,音频,LLM等算法方向。团队承载业务需求同时还负责底层基础算法技术,推动如基础预训练模型、视频生成等学术和专利相关工作,负责为抖音各个技术方向提供长期有深度的技术支撑。得益于抖音集团业务数量庞大的多模态业务数据和业务需求,团队能够有资源和机会去做出行业领先的技术创新,用最新的技术去改变影响用户和改变行业格局。 1、课题背景:随着大模型技术在多模态内容理解领域的突破,内容特征已逐渐替代传统ID特征成为推荐系统的核心驱动力。然而当前系统面临三重挑战:(1)内容深度解析需求:短视频、直播、评论等场景需要同时处理文本、图像、音频等多模态数据,且需建模用户长短期兴趣与跨领域行为;(2)动态安全威胁:评论区涌现多模态越狱攻击(如隐晦图文组合提示词),传统单模态审核无法应对复杂对抗场景;(3)跨域迁移瓶颈:用户娱乐内容兴趣与电商消费需求间存在语义鸿沟,需建立可解释的跨域映射机制。 2、课题挑战:(1)多模态复杂性:用户行为涉及多模态交互(如视频+评论+购物),需统一框架实现内容理解与用户意图推理;(2)社区生态动态性:自然作者、各种机构、黑灰产等群体会互相交互产生大量复杂的多模态行为,要求算法能够快速准确的理解内容和交互的语义;(3)生态协同需求:DAU-GMV转化率存在成倍提升空间,需突破"娱乐到消费"的跨域兴趣建模技术;(4)技术整合价值:联合优化推荐、安全、跨域三大模块,可降低算力消耗并提升端到端效果。 3、研究方向:大语言模型、多模态大模型、内容理解、推荐系统。