logo of alibaba

阿里巴巴算法技术-多模态算法实习生

实习兼职淘天集团研究型实习生地点:杭州状态:招聘

任职要求


1. 计算机视觉自然语言处理机器学习数据挖掘、人工智能等相关专业的全日制在读硕士/博士; 
2. 熟练掌握TensorflowPytorch深度学习框架,扎实的编程基础,具备独立的算法实现能力; 
3. CV、NLP、ML等基本功底,有MLLM实操经验,参与过大模型预训练,SFT,RLHF等项目者优先; 
4. 良好的逻辑分析能力和数理基础,对算法原理及应用有较深入的理解,在人工智能顶级会议/期刊中发表论文者优先;
5. 能长时期线下实习者优先。 
【加分项】 
1. 在高影响力的开源项目中,做出过核心贡献; 
2. 在国际竞赛(如:ACM ICPC, Kaggle, KDD Cup, SemEval等)中获得过优异成绩。

工作职责


1. 研发多模态大模型(MLLM)预训练对齐表征、垂域SFT、RLHF 等技术;
2. 探索多模态大模型(MLLM)垂域应用,如数据飞轮治理、训测蒸馏加速、开放词汇理解 等技术;
3. 研发基于大模型的图文搜索、检索增强RAG、Agent 等技术;
4. 结合以上方向的探索和研究,撰写、发表论文,和业界、学术界保持良好的交流。
包括英文材料
OpenCV+
NLP+
机器学习+
数据挖掘+
TensorFlow+
PyTorch+
深度学习+
算法+
大模型+
SFT+
Kaggle+
相关职位

logo of alibaba
实习淘天集团研究型实

1. 掌握和跟进LLM、MLLM、aigc等前沿技术的发展动态; 2. 结合业务需求,深入研究aigc细节生成技术,构建攻防算法系统; 3. 结合业务需求,探索细粒度多模态表征技术,以及局部检索技术; 4. 结合以上方向的探索和研究,撰写发表论文,和业界、学术界保持良好的交流。

更新于 2025-05-06
logo of bytedance
实习A38538

团队介绍:抖音内容理解团队负责抖音集团内容算法工作,业务覆盖抖音、今日头条、西瓜视频、剪映等业务,承接业务在内容理解、LLM应用、新业务方向探索等方向的工作。技术上涵盖了CV,NLP,音频,LLM等算法方向。团队承载业务需求同时还负责底层基础算法技术,推动如基础预训练模型、视频生成等学术和专利相关工作,负责为抖音各个技术方向提供长期有深度的技术支撑。得益于抖音集团业务数量庞大的多模态业务数据和业务需求,团队能够有资源和机会去做出行业领先的技术创新,用最新的技术去改变影响用户和改变行业格局。 1、课题背景:随着大模型技术在多模态内容理解领域的突破,内容特征已逐渐替代传统ID特征成为推荐系统的核心驱动力。然而当前系统面临三重挑战:(1)内容深度解析需求:短视频、直播、评论等场景需要同时处理文本、图像、音频等多模态数据,且需建模用户长短期兴趣与跨领域行为;(2)动态安全威胁:评论区涌现多模态越狱攻击(如隐晦图文组合提示词),传统单模态审核无法应对复杂对抗场景;(3)跨域迁移瓶颈:用户娱乐内容兴趣与电商消费需求间存在语义鸿沟,需建立可解释的跨域映射机制。 2、课题挑战:(1)多模态复杂性:用户行为涉及多模态交互(如视频+评论+购物),需统一框架实现内容理解与用户意图推理;(2)社区生态动态性:自然作者、各种机构、黑灰产等群体会互相交互产生大量复杂的多模态行为,要求算法能够快速准确的理解内容和交互的语义;(3)生态协同需求:DAU-GMV转化率存在成倍提升空间,需突破"娱乐到消费"的跨域兴趣建模技术;(4)技术整合价值:联合优化推荐、安全、跨域三大模块,可降低算力消耗并提升端到端效果。 3、研究方向:大语言模型、多模态大模型、内容理解、推荐系统。

更新于 2025-03-05
logo of bytedance
实习A241186

团队介绍:抖音内容理解团队负责抖音集团内容算法工作,业务覆盖抖音、今日头条、西瓜视频、剪映等业务,承接业务在内容理解、LLM应用、新业务方向探索等方向的工作。技术上涵盖了CV,NLP,音频,LLM等算法方向。团队承载业务需求同时还负责底层基础算法技术,推动如基础预训练模型、视频生成等学术和专利相关工作,负责为抖音各个技术方向提供长期有深度的技术支撑。得益于抖音集团业务数量庞大的多模态业务数据和业务需求,团队能够有资源和机会去做出行业领先的技术创新,用最新的技术去改变影响用户和改变行业格局。 1、课题背景:随着大模型技术在多模态内容理解领域的突破,内容特征已逐渐替代传统ID特征成为推荐系统的核心驱动力。然而当前系统面临三重挑战:(1)内容深度解析需求:短视频、直播、评论等场景需要同时处理文本、图像、音频等多模态数据,且需建模用户长短期兴趣与跨领域行为;(2)动态安全威胁:评论区涌现多模态越狱攻击(如隐晦图文组合提示词),传统单模态审核无法应对复杂对抗场景;(3)跨域迁移瓶颈:用户娱乐内容兴趣与电商消费需求间存在语义鸿沟,需建立可解释的跨域映射机制。 2、课题挑战:(1)多模态复杂性:用户行为涉及多模态交互(如视频+评论+购物),需统一框架实现内容理解与用户意图推理;(2)社区生态动态性:自然作者、各种机构、黑灰产等群体会互相交互产生大量复杂的多模态行为,要求算法能够快速准确的理解内容和交互的语义;(3)生态协同需求:DAU-GMV转化率存在成倍提升空间,需突破"娱乐到消费"的跨域兴趣建模技术;(4)技术整合价值:联合优化推荐、安全、跨域三大模块,可降低算力消耗并提升端到端效果。 3、研究方向:大语言模型、多模态大模型、内容理解、推荐系统。

更新于 2025-03-05
logo of alibaba
实习淘天集团研究型实

1. 掌握和跟进LLM、MLLM、多模态基座等前沿技术的发展动态; 2. 结合业务需求,深入研究多模态意图定位技术,比如visual/text意图实现商品/卖点信息定位,赋能业务内容/商品理解; 3. 结合业务需求,结合最新的大模型技术,探索更强的多模态语义表征,构建更强检索能力; 4. 结合以上方向的探索和研究,撰写发表论文,和业界、学术界保持良好的交流。

更新于 2025-05-06