字节跳动【实习】抖音多业务场景的大模型训练与应用-抖音直播(北京/上海/深圳/杭州)
任职要求
1、2027届及以后毕业,博士在读,人工智能、自然语言处理、计算机视觉、计算机图形学相关专业优先; 2、具有优秀的编程能力,熟练使用PyTorch深度学习框架和相关高性能计算框架; 3、具有丰富的自然语言处理、计算机视觉、计算机图形学、强化学习相关研究经验,在SIGGRAPH/CVPR/ICCV/ECCV/ACL/ICL…
工作职责
团队介绍:直播团队负责为抖音集团旗下产品提供直播服务。团队负责直播平台技术和直播业务研发,打造灵活稳定的直播服务平台,为用户提供优质直播体验,支持电商、本地生活、游戏、节目、多人互动等不同类型的业务场景。直播业务发展迅猛,处于行业头部地位,业务发展空间巨大。现在加入我们,和优秀的人一起做有挑战的事,你的技术与创意将影响亿级用户,激发创意和丰富生活。 课题介绍: 抖音研发团队,负责抖音短视频、直播、中长视频、搜索、图文、音乐、社交通讯、医疗等业务技术开发,以及字节跳动旗下产品的客服平台、业务安全、用户增长、用户体验、抖音账号、AI技术研究与赋能等中台团队的研发工作。本次课题共涉及5个方向: 1、用户体验:抖音场景下的端侧大模型架构与推理加速体系研究; 2、抖音直播:迭代3D生成大模型,优化数据、编码和模型架构,提升3D资产生成效率和品质; 3、汽水音乐:聚焦音乐生成大模型的核心算法研究与优化,旨在攻克上述技术瓶颈,提升AI音乐创作的质量、可控性与创新性,赋能短视频配乐、虚拟偶像等多元应用场景; 4、AI技术研究与赋能:随着大模型在代码生成与软件开发中的应用不断深化,构建端到端AI Coding模型已成为提升研发效率的关键方向。本课题聚焦从数据构建、模型训练(SFT/RL)、到推理部署的全链路优化,探索从需求理解,代码生成与修复,与功能上线的一体化建模方法。重点解决领域知识注入、大规模SFT训练、Agentic RL等问题,推动AI在抖音等真实业务研发场景中的规模化落地; 5、小荷健康:围绕问诊、工具调用、科普与病例分析,提升医疗大模型任务规划与推理能力,保证结果准确稳定可用。 课题挑战: 1、资源约束极强,需兼顾算力、内存与功耗;通用性要求高,需支撑多业务场景高精度处理;面向差异化设备,实现任务复杂度的弹性适配; 2、高质量3D数据严重稀缺,3D几何与纹理表征复杂,生成质量与美术水准比仍有差距,当前链路冗长效率偏低; 3、音乐审美偏好的量化建模问题、长序列高品质音乐生成问题、多风格泛化与创新生成问题、推理增强方法的迁移应用问题; 4、抖音研发大模型需高效的业务知识注入,复杂且超长的上下文管理,解决高质量训练数据稀缺,Agentic RL的持续训练; 5、小荷健康围绕医疗场景基座模型 ,Agent Foundation构建与评测体系,强化模型复杂知识检索、任务分解及长链路执行能力。通过优化 SFT、RL、OPD等后训练方法的组合策略,兼顾模型效果、稳定性与泛化性。同时探究线上用户体验与基座模型训练间的关联,实现医疗大模型能力与实际应用效果的协同提升。 课题价值: 1、技术价值:等参数量级下,可大规模落地的业界领先模型;业务价值:提升抖音用户和业务接入的覆盖面,获得用户和营收价值; 2、技术上提升3D表征与生成能力,迭代3D生成大模型;业务上支撑直播和社交应用,产出丰富3D资产,满足海量用户的个性化需求; 3、技术上突破音乐生成在审美建模、长序列连贯性等核心瓶颈,引领AI音乐生成技术前沿;业务上提升抖音/汽水音乐的AI创作能力,降低音乐创作门槛,丰富内容生态,提供音乐内容供给; 4、技术上探索前沿模型训练策略,构建字节内部真实环境下的数据飞轮,提高业务研发效率,提升代码质量与性能; 5、技术上提升医疗大模型Agent与Post-Training方向的关键技术突破,提升问诊、科普、病例分析等核心场景业务效果,沉淀可复用的数据、训练与评测方法,支撑长期模型演进。
1、负责抖音、直播、开放平台等相关系统和产品功能服务端研发工作,构建内容安全平台,保证系统的稳定性并提升安全策略的实施效率,保障短视频及海量直播间的内容安全,包括但不限于:规则引擎、策略平台、特征平台、审核流系统、审核操作平台、劳动力管理平台、风险感知、风控数据、处置中心等等系统建设; 2、深入发掘和分析业务需求和产品一起寻找业务问题的解决方案; 3、根据业务实际情况优化现有系统的技术架构,降低各系统模块间的耦合,提升需求开发与系统迭代的效率,建设面向亿级日投稿+亿级日活的高并发、高稳定性系统。
团队介绍:抖音内容理解团队负责抖音集团内容算法工作,业务覆盖抖音、今日头条、西瓜视频、剪映等业务,承接业务在内容理解、LLM应用、新业务方向探索等方向的工作。技术上涵盖了CV,NLP,音频,LLM等算法方向。团队承载业务需求同时还负责底层基础算法技术,推动如基础预训练模型、视频生成等学术和专利相关工作,负责为抖音各个技术方向提供长期有深度的技术支撑。得益于抖音集团业务数量庞大的多模态业务数据和业务需求,团队能够有资源和机会去做出行业领先的技术创新,用最新的技术去改变影响用户和改变行业格局。 1、课题背景:随着大模型技术在多模态内容理解领域的突破,内容特征已逐渐替代传统ID特征成为推荐系统的核心驱动力。然而当前系统面临三重挑战:(1)内容深度解析需求:短视频、直播、评论等场景需要同时处理文本、图像、音频等多模态数据,且需建模用户长短期兴趣与跨领域行为;(2)动态安全威胁:评论区涌现多模态越狱攻击(如隐晦图文组合提示词),传统单模态审核无法应对复杂对抗场景;(3)跨域迁移瓶颈:用户娱乐内容兴趣与电商消费需求间存在语义鸿沟,需建立可解释的跨域映射机制。 2、课题挑战:(1)多模态复杂性:用户行为涉及多模态交互(如视频+评论+购物),需统一框架实现内容理解与用户意图推理;(2)社区生态动态性:自然作者、各种机构、黑灰产等群体会互相交互产生大量复杂的多模态行为,要求算法能够快速准确的理解内容和交互的语义;(3)生态协同需求:DAU-GMV转化率存在成倍提升空间,需突破"娱乐到消费"的跨域兴趣建模技术;(4)技术整合价值:联合优化推荐、安全、跨域三大模块,可降低算力消耗并提升端到端效果。 3、研究方向:大语言模型、多模态大模型、内容理解、推荐系统。
团队介绍:Data-抖音团队,负责抖音APP的推荐算法、内容算法、对话算法及大数据工作,对接各场景业务(短视频,直播,图文,电商,社交,生态,投稿,消息,同城,生活服务,音乐,评论,内容理解&安全、智能对话等)。我们的工作涉及大规模推荐算法的优化、复杂约束的优化问题的解决、内容理解、LLM应用以及新业务方向探索、CV/NLP等多个学术领域的算法改进工作、对多种场景的推荐架构的设计和实现和对产品数据的复杂深入的分析工作。在这里,你可以深入钻研机器学习算法的改进和优化,探索工业界最领先的推荐系统架构和推荐大模型算法、可以通过使用最新的大模型等技术支持抖音的数字人、智能客服、AI工具等创新探索;可以通过对产品的深度理解和思考,将算法应用到业务中去;也可以通过对产品和内容生态的深度分析,影响产品未来的发展方向。 课题介绍: 抖音作为全球领先的综合性内容平台,拥有庞大的用户群体和多元化的业务生态。在设计如此大规模的推荐系统时,面临社交网络复杂、电商用户兴趣跨域迁移困难、内容与用户冷启动样本稀疏、直播推荐多目标融合效能不足、兴趣重复密集探索不足等多重挑战。 具体表现为:用户社交网络规模达万亿级,传统图算法难以高效地建模动态社交行为与内容消费的耦合关系;用户从内容兴趣到电商兴趣的迁移依赖跨域多模态理解与动态映射,现有方法难以捕捉潜在电商转化信号;新内容和新低活用户冷启动阶段样本量少,传统协同过滤与内容推荐方法泛化能力弱;直播推荐需实时融合点击、互动、消费等多目标信号,但启发式规则难以平衡用户长期体验与短期价值;兴趣密集追打问题严重,新兴趣探索效率不高。 研究方向: 1、社交网络增强的跨域兴趣建模:结合图神经网络(GNN)与大语言模型(LLM),构建用户全生命周期行为图谱,融合社交关系、内容互动与电商行为,挖掘社交网络中的社团结构与跨域兴趣传播路径; 2、兴趣迁移与转化信号捕捉:通过跨域对比学习与对抗生成技术,构建内容兴趣到电商兴趣的隐式映射网络,结合强化学习动态调控探索与利用,兼顾推荐精准性与多样性; 3、多模态小样本冷启动优化:利用LLM的Few-shot推理能力,通过内容语义理解与外部知识增强,设计元学习框架实现新ID特征与泛化特征的联合表征,缓解冷启动数据稀疏问题; 4、多目标融合与长短期价值平衡:基于大模型的泛化能力与长上下文感知,统一建模直播多目标(点击、时长、打赏等)的分布偏差与动态权重,设计个性化融合策略,替代传统多阶段漏斗架构,提升实时推荐效率; 5、兴趣密集与兴趣探索:通过用户兴趣画像建模与强化学习技术,实时捕捉用户消费与兴趣变化,缓解兴趣密集问题,为用户探索新的兴趣。
团队介绍:抖音内容理解团队负责抖音集团内容算法工作,业务覆盖抖音、今日头条、西瓜视频、剪映等业务,承接业务在内容理解、LLM应用、新业务方向探索等方向的工作。技术上涵盖了CV,NLP,音频,LLM等算法方向。团队承载业务需求同时还负责底层基础算法技术,推动如基础预训练模型、视频生成等学术和专利相关工作,负责为抖音各个技术方向提供长期有深度的技术支撑。得益于抖音集团业务数量庞大的多模态业务数据和业务需求,团队能够有资源和机会去做出行业领先的技术创新,用最新的技术去改变影响用户和改变行业格局。 1、课题背景:随着多模态大模型效果的提升,现已变成了多个业务和技术方向的核心算法能力。随着业务在内容理解、推荐系统、内容治理、客服、创新业务等方向的广泛应用,对于多模态大模型也带来了新的算法能力需求:(1)内容理解:团队涉及了包括视频、直播、评论、图文等等不同的内容体裁和业务形态,集团公司所覆盖的活跃用户每天会产生数量巨大品类丰富的多模态内容,在提供了独一无二内容数据的同时,也衍生出来了独特的业务和技术需求;(2)多模态对话能力:作为大模型技术最直接的应用场景对话场景,团队在客服、AI分身等领域快速推进相关技术的落地应用。对应方向的多模态内容理解和挖掘、多模态对话能力是支撑该场景的重要基础技术,需要建设作者profile抽取、业务多模态文档挖掘、多模态对话模型等技术建设;(3)业务和技术创新:MLLM技术对于包括推荐、内容理解、社交等业务方向和算法技术都造成了巨大的冲击,多模态模型技术作为核心技术正在重构每一个重要的方向,会在下一代推荐系统、新业务形态、内部流程架构重构上扮演关键角色。 2、课题挑战:(1)高标准的算法要求:推荐系统、内容治理等方向内容理解的复杂度远高于公开评测集,团队需要在海量内容的业务真实场景下探索高效率、高标准的多模态算法解法,帮助团队迭代新一代的推荐系统、内容理解系统;(2)复杂的多模态生态交互:内容作者、内容消费者、社交交互、评论交互等不同角色在平台形成复杂的多模态交互,由此衍生出新的内容交互语义、生态互动逻辑,对多模态大模型算法提出了独特的算法挑战;(3)业务创新:大模型在多个领域都展现出来了卓越的理解和交互能力,如何应用新技术创造出新的业务方向,如何公司内部用新技术替代掉老的系统和流程,要求算法团队在有足够扎实技术能力的同时对业务和技术有足够深入的思考。 3、研究方向:大语言模型、多模态大模型、内容理解、推荐系统。