logo of bytedance

字节跳动智能审核多模态大模型实习生-电商-筋斗云人才计划

实习兼职A143587地点:上海状态:招聘

任职要求


1、2026届及之后毕业,博士在读,人工智能、计算机、数学相关专业者优先;
2、具备扎实的编码能力、数据结构和基础算法功底,熟练运用各种算法框架与工程框架;
3、在国际会议或期刊发表论文者(包括但不限于ACL、EMNLP、N…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


团队介绍:Data-电商-平台治理算法团队,通过优化算法,和业务团队协作,对字节旗下的电商产品进行全方位的质量和生态的治理,既包括风险、违规和低质问题的打击,也包括健康电商生态的建设和优化,在最大程度的优化平台治理的效果的同时提升治理的工作效率,降低成本。另外一方面,平台治理算法团队致力于攻坚前沿的AI技术,以技术驱动推动业务的变革和发展,领域涉及广泛,包括但不限于NLP/CV/多模态/大模型/图算法/序列算法等。

课题介绍:
背景:电商智能审核业务比较复杂,随着审核技术的不断演进,各个领域面临着新的风险问题和对抗形式,这对大模型的应用提出了新的挑战。例如,在电商审核业务中,涉及审核PBR变更、长文本、长时序、多语言、少样本和AIGC生成对抗等问题时,现有的开源大模型表现往往不尽人意。因此,针对这些挑战,我们亟需研发专门针对电商智能审核的大模型,以提升其在电商治理中的有效性和适应性。特别的,针对电商业务特点,我们需要探索高质量的数据自动生成、高效的MOE Embedding、Auto-Prompt生成、高质量 COT输出、大模型知识蒸馏等。此外,该模型应能够满足电商审核业务的需求,实现高准确率的自主决策和可解释性的COT生成,显著减少误判。针对动态变化的审核PBR变更,它能够通过RAG模块自动检索类似的审核案例,将复杂的审核PBR分解为简单的原子任务,自动拆分出驳回和豁免原子任务,并自动调用相应的Tools来解决这些任务,从而建立“知道拒绝并且知道为何拒绝”的业内领先智能审核系统。最终,大模型智能审核系统的审核效果需要接近或者超过人工审核,往全机审的路线上演进。
研究方向:模态融合能力:提升文本、音频、图像、视频和直播等多模态的细粒度理解能力,实现高准确率的自主决策和可解释性的COT生成;Few-Shot能力:探索电商多语言、长时序和少样本问题,增强Few-Shot和Zero-Shot能力,针对多变的业务规则具备复杂指令和Auto-Prompt生成能力;攻防对抗能力:研究AIGC图像视频的判别,增强审核大模型对隐晦、抽象的生成式内容的攻防对抗能力;Agent能力:具备调用RAG模块,使用Tools,和Auto-planning能力;提升大模型的动态推理和反思能力。

1、深入理解电商治理业务,探索基于大模型、多模态模型,持续提升商家/达人在准入、发品、售后等各个业务场景的风险识别效果;
2、提升商品治理审核智能化水平,迭代优化治理大模型,提升大模型对治理规则和商品信息的理解,实现高准高召的问题识别和自动处置;
3、负责强化电商治理场景下,大模型推理和反思能力,通过商品业务域SFT、高质量Cot、强化学习、数据合成等技术方案,提升商品治理大模型底座能力;
4、参与构建挖掘电商直播、商品、商家和带货主播等多种实体的数据,对大规模网络/海量特征序列进行建模,支撑商家、达人分类/风险团伙挖掘等业务场景解决问题,并为商家/达人治理提供支持;
5、参与构建大规模的图存储和图学习平台,完善电商社区内商家/商品/达人/视频内容的关系建设,构建电商实体通用表征能力,赋能治理业务;
6、建设售后服务MLLM基座大模型,并利用RAG/Agent/RL等技术,解决复杂场景下对体验问题的理解能力。
包括英文材料
数据结构+
算法+
NeurIPS+
ICML+
还有更多 •••
相关职位

logo of bytedance
实习A38538

团队介绍:抖音内容理解团队负责抖音集团内容算法工作,业务覆盖抖音、今日头条、西瓜视频、剪映等业务,承接业务在内容理解、LLM应用、新业务方向探索等方向的工作。技术上涵盖了CV,NLP,音频,LLM等算法方向。团队承载业务需求同时还负责底层基础算法技术,推动如基础预训练模型、视频生成等学术和专利相关工作,负责为抖音各个技术方向提供长期有深度的技术支撑。得益于抖音集团业务数量庞大的多模态业务数据和业务需求,团队能够有资源和机会去做出行业领先的技术创新,用最新的技术去改变影响用户和改变行业格局。 1、课题背景:随着大模型技术在多模态内容理解领域的突破,内容特征已逐渐替代传统ID特征成为推荐系统的核心驱动力。然而当前系统面临三重挑战:(1)内容深度解析需求:短视频、直播、评论等场景需要同时处理文本、图像、音频等多模态数据,且需建模用户长短期兴趣与跨领域行为;(2)动态安全威胁:评论区涌现多模态越狱攻击(如隐晦图文组合提示词),传统单模态审核无法应对复杂对抗场景;(3)跨域迁移瓶颈:用户娱乐内容兴趣与电商消费需求间存在语义鸿沟,需建立可解释的跨域映射机制。 2、课题挑战:(1)多模态复杂性:用户行为涉及多模态交互(如视频+评论+购物),需统一框架实现内容理解与用户意图推理;(2)社区生态动态性:自然作者、各种机构、黑灰产等群体会互相交互产生大量复杂的多模态行为,要求算法能够快速准确的理解内容和交互的语义;(3)生态协同需求:DAU-GMV转化率存在成倍提升空间,需突破"娱乐到消费"的跨域兴趣建模技术;(4)技术整合价值:联合优化推荐、安全、跨域三大模块,可降低算力消耗并提升端到端效果。 3、研究方向:大语言模型、多模态大模型、内容理解、推荐系统。

更新于 2025-03-05北京
logo of bytedance
实习A201245

团队介绍:Data-电商-平台治理算法团队,通过优化算法,和业务团队协作,对字节旗下的电商产品进行全方位的质量和生态的治理,既包括风险、违规和低质问题的打击,也包括健康电商生态的建设和优化,在最大程度的优化平台治理的效果的同时提升治理的工作效率,降低成本。另外一方面,平台治理算法团队致力于攻坚前沿的AI技术,以技术驱动推动业务的变革和发展,领域涉及广泛,包括但不限于NLP/CV/多模态/大模型/图算法/序列算法等。 课题介绍: 背景:电商智能审核业务比较复杂,随着审核技术的不断演进,各个领域面临着新的风险问题和对抗形式,这对大模型的应用提出了新的挑战。例如,在电商审核业务中,涉及审核PBR变更、长文本、长时序、多语言、少样本和AIGC生成对抗等问题时,现有的开源大模型表现往往不尽人意。因此,针对这些挑战,我们亟需研发专门针对电商智能审核的大模型,以提升其在电商治理中的有效性和适应性。特别的,针对电商业务特点,我们需要探索高质量的数据自动生成、高效的MOE Embedding、Auto-Prompt生成、高质量 COT输出、大模型知识蒸馏等。此外,该模型应能够满足电商审核业务的需求,实现高准确率的自主决策和可解释性的COT生成,显著减少误判。针对动态变化的审核PBR变更,它能够通过RAG模块自动检索类似的审核案例,将复杂的审核PBR分解为简单的原子任务,自动拆分出驳回和豁免原子任务,并自动调用相应的Tools来解决这些任务,从而建立“知道拒绝并且知道为何拒绝”的业内领先智能审核系统。最终,大模型智能审核系统的审核效果需要接近或者超过人工审核,往全机审的路线上演进。 研究方向:模态融合能力:提升文本、音频、图像、视频和直播等多模态的细粒度理解能力,实现高准确率的自主决策和可解释性的COT生成;Few-Shot能力:探索电商多语言、长时序和少样本问题,增强Few-Shot和Zero-Shot能力,针对多变的业务规则具备复杂指令和Auto-Prompt生成能力;攻防对抗能力:研究AIGC图像视频的判别,增强审核大模型对隐晦、抽象的生成式内容的攻防对抗能力;Agent能力:具备调用RAG模块,使用Tools,和Auto-planning能力;提升大模型的动态推理和反思能力。 1、深入理解电商治理业务,探索基于大模型、多模态模型,持续提升商家/达人在准入、发品、售后等各个业务场景的风险识别效果; 2、提升商品治理审核智能化水平,迭代优化治理大模型,提升大模型对治理规则和商品信息的理解,实现高准高召的问题识别和自动处置; 3、负责强化电商治理场景下,大模型推理和反思能力,通过商品业务域SFT、高质量Cot、强化学习、数据合成等技术方案,提升商品治理大模型底座能力; 4、参与构建挖掘电商直播、商品、商家和带货主播等多种实体的数据,对大规模网络/海量特征序列进行建模,支撑商家、达人分类/风险团伙挖掘等业务场景解决问题,并为商家/达人治理提供支持; 5、参与构建大规模的图存储和图学习平台,完善电商社区内商家/商品/达人/视频内容的关系建设,构建电商实体通用表征能力,赋能治理业务; 6、建设售后服务MLLM基座大模型,并利用RAG/Agent/RL等技术,解决复杂场景下对体验问题的理解能力。

更新于 2025-03-04北京
logo of bytedance
实习A241186

团队介绍:抖音内容理解团队负责抖音集团内容算法工作,业务覆盖抖音、今日头条、西瓜视频、剪映等业务,承接业务在内容理解、LLM应用、新业务方向探索等方向的工作。技术上涵盖了CV,NLP,音频,LLM等算法方向。团队承载业务需求同时还负责底层基础算法技术,推动如基础预训练模型、视频生成等学术和专利相关工作,负责为抖音各个技术方向提供长期有深度的技术支撑。得益于抖音集团业务数量庞大的多模态业务数据和业务需求,团队能够有资源和机会去做出行业领先的技术创新,用最新的技术去改变影响用户和改变行业格局。 1、课题背景:随着大模型技术在多模态内容理解领域的突破,内容特征已逐渐替代传统ID特征成为推荐系统的核心驱动力。然而当前系统面临三重挑战:(1)内容深度解析需求:短视频、直播、评论等场景需要同时处理文本、图像、音频等多模态数据,且需建模用户长短期兴趣与跨领域行为;(2)动态安全威胁:评论区涌现多模态越狱攻击(如隐晦图文组合提示词),传统单模态审核无法应对复杂对抗场景;(3)跨域迁移瓶颈:用户娱乐内容兴趣与电商消费需求间存在语义鸿沟,需建立可解释的跨域映射机制。 2、课题挑战:(1)多模态复杂性:用户行为涉及多模态交互(如视频+评论+购物),需统一框架实现内容理解与用户意图推理;(2)社区生态动态性:自然作者、各种机构、黑灰产等群体会互相交互产生大量复杂的多模态行为,要求算法能够快速准确的理解内容和交互的语义;(3)生态协同需求:DAU-GMV转化率存在成倍提升空间,需突破"娱乐到消费"的跨域兴趣建模技术;(4)技术整合价值:联合优化推荐、安全、跨域三大模块,可降低算力消耗并提升端到端效果。 3、研究方向:大语言模型、多模态大模型、内容理解、推荐系统。

更新于 2025-03-05上海
logo of didi
社招技术

算法工程师 1.基于滴滴交通出行业务,构建完整的打车智能化运营策略解决方案,包括但不限于增长策略、定价策略、供需预测、资源分配策略等各类丰富场景; 2.承担网约车业务核心业务指标,使用运筹优化、机器学习、因果推断等技术持续优化超大规模动态双边市场的交易效率。 计算机/应用数学/计量经济学/统计学相关专业,研究生/本科,2023年毕业 编程基础扎实,至少熟悉python/scala/R等编程语言之一 熟悉常用的机器学习与数据挖掘方法 熟悉常用统计理论与分析方法,数理逻辑好,具有一定的数据分析能力 有较强的学习能力和好奇心,自驱性强,具备良好的团队合作和沟通能力 加分项: 1. 有计量经济学/因果推断方向相关背景优先 2. 有运筹优化/收益管理相关背景优先 3. 有深度学习相关背景优先 4. 有SQL、Hadoop、Spark、Hive、TensorFlow相关经验优先

更新于 2025-04-01北京