字节跳动多模态算法实习生-抖音内容理解-筋斗云人才计划
任职要求
1、2026届及之后毕业,博士在读,计算机/人工智能/数学相关专业优先; 2、具备扎实的编码能力、数据结构和基础算法功底,熟练运用各种算法框架与工程框架; 3、在国际会议或期刊发表论文者(包括但不限于ACL、EMNLP…
工作职责
团队介绍:抖音内容理解团队负责抖音集团内容算法工作,业务覆盖抖音、今日头条、西瓜视频、剪映等业务,承接业务在内容理解、LLM应用、新业务方向探索等方向的工作。技术上涵盖了CV,NLP,音频,LLM等算法方向。团队承载业务需求同时还负责底层基础算法技术,推动如基础预训练模型、视频生成等学术和专利相关工作,负责为抖音各个技术方向提供长期有深度的技术支撑。得益于抖音集团业务数量庞大的多模态业务数据和业务需求,团队能够有资源和机会去做出行业领先的技术创新,用最新的技术去改变影响用户和改变行业格局。 课题背景:随着多模态大模型效果的提升,现已变成了多个业务和技术方向的核心算法能力。随着业务在内容理解、推荐系统、内容治理、客服、创新业务等方向的广泛应用,对于多模态大模型也带来了新的算法能力需求: 1)内容理解:团队涉及了包括视频、直播、评论、图文等等不同的内容体裁和业务形态,集团公司所覆盖的活跃用户每天会产生数量巨大品类丰富的多模态内容,在提供了独一无二内容数据的同时,也衍生出来了独特的业务和技术需求; 2)多模态对话能力:作为大模型技术最直接的应用场景对话场景,团队在客服、AI分身等领域快速推进相关技术的落地应用。对应方向的多模态内容理解和挖掘、多模态对话能力是支撑该场景的重要基础技术,需要建设作者profile抽取、业务多模态文档挖掘、多模态对话模型等技术建设; 3)业务和技术创新:MLLM技术对于包括推荐、内容理解、社交等业务方向和算法技术都造成了巨大的冲击,多模态模型技术作为核心技术正在重构每一个重要的方向,会在下一代推荐系统、新业务形态、内部流程架构重构上扮演关键角色。 课题挑战: 1)高标准的算法要求:推荐系统、内容治理等方向内容理解的复杂度远高于公开评测集,团队需要在海量内容的业务真实场景下探索高效率、高标准的多模态算法解法,帮助团队迭代新一代的推荐系统、内容理解系统; 2)复杂的多模态生态交互:内容作者、内容消费者、社交交互、评论交互等不同角色在平台形成复杂的多模态交互,由此衍生出新的内容交互语义、生态互动逻辑,对多模态大模型算法提出了独特的算法挑战; 3)业务创新:大模型在多个领域都展现出来了卓越的理解和交互能力,如何应用新技术创造出新的业务方向,如何公司内部用新技术替代掉老的系统和流程,要求算法团队在有足够扎实技术能力的同时对业务和技术有足够深入的思考; 研究方向:大语言模型、多模态大模型、内容理解、推荐系统。
团队介绍:字节跳动Stone-Cross Platform团队成立于2023年,致力于开发业界前沿的应用框架,构建AI模型驱动的前沿系统和基础设施,提升开发者和用户体验。 课题介绍: 课题背景:随着AI大模型研究的不断发展,文本生成、多模态理解以及Agent规划能力有了巨大的提升和突破,以豆包多模态交互、UI-TARS和Operator等GUI Agent、Deepseek-R1推理模型为典型案例,应用的构建以及交互方式迎来了巨大的机遇和变革。我们希望结合AI模型的多模态理解和生成、深度思考,深入AI Agent所需的交互和基础设施,探索大模型在AI应用构建效率和为智能交互体验上的创新。 研究方向: 本课题旨在利用大模型技术开发智能应用交互框架,研究内容包括:围绕大模型设计应用框架,利用大模型提升应用构建效率,如UI理解及代码生成等;使用大模型来理解应用的多模态context及用户意图,进行意图规划及推理执行,完成用户交互;优化编程语言的设计,使其容易被大语言模型理解,自动验证和实现编程语言的自动生成,和编程语言之间的相互转译,从而加速新编程语言生态的构建;通过该课题的研究,我们希望实现更加智能、便捷和高效的应用框架,推动AI驱动的应用交互的普及与发展。 1、参与大模型在应用框架中的算法研究,探索和优化模型对应用的理解和生成能力、AI Agent等技术; 2、研究和开发智能UI交互技术,提升GUI Agent的智能水平、UI的智能化交互和个性化水平; 3、设计跨平台、高性能、大模型便于理解和生成的编程语言; 4、建设和优化应用中Agent Context、Planning、Tool using等能力,提升应用的理解和响应水平; 5、探索多模态数据融合技术,解决复杂场景下的精准推理与决策问题; 6、整理研究数据,撰写技术报告和发表研究论文。
团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok研发团队,旨在实现TikTok业务的研发工作,搭建及维护业界领先的产品。加入我们,你能接触到包括用户增长、社交、直播、电商C端、内容创造、内容消费等核心业务场景,支持产品在全球赛道上高速发展;也能接触到包括服务架构、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 在这里, 有大牛带队与大家一同不断探索前沿, 突破想象空间。 在这里,你的每一行代码都将服务亿万用户。在这里,团队专业且纯粹,合作氛围平等且轻松。目前在北京,上海,杭州、广州、深圳分别开放多个岗位机会。 课题介绍: 多模态模型能帮助提取视频的多模态内容信息,单用户对内容的注意力是个性化的,所以基于对比学习或者生成式学习得到的内容信息无法能和推荐系统相匹配,如何将基于纯内容信号得到的多模态信息用到推荐系统里目前是一个开放的话题我们希望通过多模态模型和推荐系统联合建模的方式来个性化的提取用户 - 内容的联合信号,并能实现内容建模和个性化建模的双重提升。 1、探索多模态模型,包括多模态预训练,多模态LLM; 2、将多模态模型应用于图像/视频的生成创作、逻辑推理、深层语义理解、视频语义压缩、视频高光判断等; 3、探索LLM、多模态等的高效Finetuning技术和推理技术,保证模型在业务场景中的快速适配和高效调用; 4、主要研究方向包括:多模态预训练、图片和视频的生成、图片和视频风格迁移、跨模态检索、大模型多标签分类、半监督学习、自监督学习。
团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok AI创新中心,是致力于AI基础设施建设和创新研究的部门,探索行业领先的人工智能技术,包括大语言模型,多模态大模型等研究方向。我们希望研发能够处理多语言和海量视频内容理解的模型算法,为用户带来更好的内容消费体验。在Code AI方向,我们利用大语言模型强大的代码理解与推理能力,提升程序性能与研发效率。 课题介绍:多模态基础大模型VLM 是行业的研究热点,也是TikTok业务场景应用的关键技术,2024年TikTok AI创新中心研发了面向TikTok业务场景的多模态大模型VFM V1,在公开测试集上能够与最好的开源模型 Qwen VL持平,同时在 TikTok 业务测试集上,能够大幅领先所有其它基础模型。未来,我们希望持续研发具有高效感知和推理思考能力的基础模型,能够处理多语言和海量视频内容理解的模型算法,为用户带来更好的内容消费体验。 1、探索和研发大规模、多模态的基础模型(Foundational models),致力于构建能够统一理解和生成文本、视觉、代码等多模态信息,并具备通用智能的系统,力求达到或超越行业领先水平(如Gemini,Claude,GPT等); 2、深入研究多模态/代码预训练、指令微调、基于人类反馈的强化学习(RLHF)和其他对齐技术,以及模型压缩,以提升模型在复杂任务和跨领域泛化上的表现; 3、推动模型在多场景的落地应用,包括但不限于视频内容理解与生成、个性化推荐、代码效率优化、以及统一多模态交互系统等; 4、深入研究并与海内外一流大学的研究人员进行学术合作,共同探索AI的统一理论与前沿架构。
团队介绍:Data-抖音团队,负责抖音APP的推荐算法、内容算法、对话算法及大数据工作,对接各场景业务(短视频,直播,图文,电商,社交,生态,投稿,消息,同城,生活服务,音乐,评论,内容理解&安全、智能对话等)。我们的工作涉及大规模推荐算法的优化、复杂约束的优化问题的解决、内容理解、LLM应用以及新业务方向探索、CV/NLP等多个学术领域的算法改进工作、对多种场景的推荐架构的设计和实现和对产品数据的复杂深入的分析工作。在这里,你可以深入钻研机器学习算法的改进和优化,探索工业界最领先的推荐系统架构和推荐大模型算法、可以通过使用最新的大模型等技术支持抖音的数字人、智能客服、AI工具等创新探索;可以通过对产品的深度理解和思考,将算法应用到业务中去;也可以通过对产品和内容生态的深度分析,影响产品未来的发展方向。 抖音作为全球领先的综合性内容平台,拥有庞大的用户群体和多元化的业务生态。在设计如此大规模的推荐系统时,面临社交网络复杂、电商用户兴趣跨域迁移困难、内容与用户冷启动样本稀疏、直播推荐多目标融合效能不足、兴趣重复密集探索不足等多重挑战。 具体表现为:用户社交网络规模达万亿级,传统图算法难以高效地建模动态社交行为与内容消费的耦合关系;用户从内容兴趣到电商兴趣的迁移依赖跨域多模态理解与动态映射,现有方法难以捕捉潜在电商转化信号;新内容和新低活用户冷启动阶段样本量少,传统协同过滤与内容推荐方法泛化能力弱;直播推荐需实时融合点击、互动、消费等多目标信号,但启发式规则难以平衡用户长期体验与短期价值;兴趣密集追打问题严重,新兴趣探索效率不高。 1、社交网络增强的跨域兴趣建模:结合图神经网络(GNN)与大语言模型(LLM),构建用户全生命周期行为图谱,融合社交关系、内容互动与电商行为,挖掘社交网络中的社团结构与跨域兴趣传播路径; 2、兴趣迁移与转化信号捕捉:通过跨域对比学习与对抗生成技术,构建内容兴趣到电商兴趣的隐式映射网络,结合强化学习动态调控探索与利用,兼顾推荐精准性与多样性; 3、多模态小样本冷启动优化:利用LLM的Few-shot推理能力,通过内容语义理解与外部知识增强,设计元学习框架实现新ID特征与泛化特征的联合表征,缓解冷启动数据稀疏问题; 4、多目标融合与长短期价值平衡:基于大模型的泛化能力与长上下文感知,统一建模直播多目标(点击、时长、打赏等)的分布偏差与动态权重,设计个性化融合策略,替代传统多阶段漏斗架构,提升实时推荐效率; 5、兴趣密集与兴趣探索:通过用户兴趣画像建模与强化学习技术,实时捕捉用户消费与兴趣变化,缓解兴趣密集问题,为用户探索新的兴趣。