字节跳动推荐大模型算法实习生-生活服务-筋斗云人才计划(北京/上海/成都)
任职要求
1、2026届及之后毕业,博士在读,计算机/数学等相关专业优先; 2、具有扎实的机器学习基础和编码能力,在机器学习、NLP、CV等有较深入的研究经验,熟练掌握主要的算法和数据结构; 3、在搜索、广告、推荐和大模型领域,有参与或者主导过关键项目的优先; 4、在国际会议发表论文者优先,包括但不限于KDD、SIGIR、RecSys、ACL、NeurIPS等; 5、具备较好的问题分析和解决能力,对技术有热情,热衷于推动和解决各种挑战。
工作职责
团队介绍:生活服务业务依托于抖音、抖音极速版等平台,致力于促进用户与本地服务的连接。过去一年,生活服务业务开创了全新的视频种草和交易体验,让更多用户通过抖音发现线下好去处,也帮助众多本地商家拓展了新的经营阵地。我们期待你的加入,一同为亿万用户创造更美好的生活。 课题介绍:推荐算法是生活服务场景交易增长的核心驱动力,我们希望借鉴LLM的成功思路,结合生活服务场景的时空特点,探索在生活服务场景推荐算法和架构的颠覆性创新,解锁更大的算法效果提升空间。 重点探索以下方向: 1、基于类Transformer结构的生成式推荐大模型技术,验证生活服务推荐场景的Scaling Law,探索面向大模型的推荐算法建模范式; 2、算法和工程协同设计与优化,提升海量数据、超大参数背景下的训练与推理的效率; 3、多体裁多模态表征学习和推荐模型结合; 4、结合生活服务场景特有的时空属性,进行时间和空间感知的算法建模。 1、负责生活服务场景推荐大模型的算法优化,引入生成式AI技术,优化建模方案、模型结构、特征和样本等,提升场景交易效率; 2、验证生活服务场景的推荐大模型Scaling Law,应对大模型训练中的新挑战; 3、算法和工程协同设计与优化,提升海量数据、超大参数背景下的训练与推理效率; 4、多体裁多模态表征学习和推荐大模型结合; 5、结合生活服务场景特有的时空属性,进行时间和空间感知的算法建模。
团队介绍:生活服务业务依托于抖音、抖音极速版等平台,致力于促进用户与本地服务的连接。过去一年,生活服务业务开创了全新的视频种草和交易体验,让更多用户通过抖音发现线下好去处,也帮助众多本地商家拓展了新的经营阵地。我们期待你的加入,一同为亿万用户创造更美好的生活。 课题介绍: 随着大模型技术的显著进展,智能体所能参与的场景想象力不断扩大。然而,现有智能体在面对复杂多变的实际应用场景时,仍存在诸多不足。一方面,用户对于交互的多样性和便捷性提出了更高要求,期望能够实现语音、图像、文本等多模态信息的自然交互;另一方面,面对复杂且陌生的问题,缺少泛化且置信的推理和规划能力,难以提供全面且精准的解答。同时,在知识获取方面,挖掘优质内容或主动咨询用户以满足用户的多样化需求,也成为亟待解决的问题。因此,开展对多模态交互、深度思考、规划调度、降低幻觉以及内容挖掘方向的研究,对于提升智能体的性能和用户体验具有重要的现实意义。 课题方向: 1、多模态交互方向:深入研究语音、图像、文本等多模态信息的融合与交互技术,使智能体能够准确理解不同模态输入的含义,并根据用户需求以不同模态进行输出,实现自然流畅的交互体验; 2、深度思考方向:利用大模型的深度推理机制,提升智能体的逻辑推理、反思和问题解决能力。引入知识图谱等技术,增强智能体对知识的理解和运用能力,使其能够在面对复杂问题时,进行深度思考和分析,挖掘问题的本质,提供更具逻辑性和准确性的回答; 3、规划调度方向:构建智能工具调度系统,使智能体能够根据用户问题的类型和需求,自动识别并调用合适的内外部MCP工具,并自行设计工具调度的串并行顺序; 4、降低幻觉方向:大模型的幻觉会带来指令遵循能力差、回复生成质量低、执行流程错误等致命问题,严重影响用户对于智能体的信赖程度,需要被系统性地通过模型、架构、解决方案等多个层面去解决; 5、优质内容挖掘方向:研发高效的内容挖掘算法,从字节跳动站内外的海量的文本、图像、视频等数据中筛选出优质、有价值的信息。对内容进行分类、标注和评估,建立优质内容数据库。通过与智能体的交互,根据用户的兴趣和需求,定向挖掘优质内容,满足用户对高质量信息的获取需求。
团队介绍:Data-抖音团队,负责抖音APP的推荐算法、内容算法、对话算法及大数据工作,对接各场景业务(短视频,直播,图文,电商,社交,生态,投稿,消息,同城,生活服务,音乐,评论,内容理解&安全、智能对话等)。我们的工作涉及大规模推荐算法的优化、复杂约束的优化问题的解决、内容理解、LLM应用以及新业务方向探索、CV/NLP等多个学术领域的算法改进工作、对多种场景的推荐架构的设计和实现和对产品数据的复杂深入的分析工作。在这里,你可以深入钻研机器学习算法的改进和优化,探索工业界最领先的推荐系统架构和推荐大模型算法、可以通过使用最新的大模型等技术支持抖音的数字人、智能客服、AI工具等创新探索;可以通过对产品的深度理解和思考,将算法应用到业务中去;也可以通过对产品和内容生态的深度分析,影响产品未来的发展方向。 课题介绍: 自然语言领域LLM的出现,效果在众多垂直任务上都好于sota模型,从推荐领域看过去工业级推荐系统在较长的时间没有大幅的变化过。本项目旨在探索推荐领域下的大模型方案,改变现在持续了较长时间的推荐模型结构和Infra的基本范式,且效果大幅好于现在的模型,在抖音短视频/直播等多个业务场景上得到应用。但是怎么做好推荐领域的大模型也是一个比较有挑战的事情,推荐对工程效率的要求更高,且用户的推荐体验上是个性化的,以及如何短视频、直播等体裁上做号内容的表征也是需要被解决的问题,这里会从模型参数scaling up、内容和用户的表征学习、内容理解多模态、超长序列建模、生成式推荐模型等多个方向来做深入的研究,对推荐场景的模型做系统性的升级。 研究方向: 跨模态的对齐和统一表征学习(推荐、内容多模态、自然语言); 推荐模型参数和算力scaling up; 超长序列建模; 生成式推荐模型。
团队介绍:Data-抖音团队,负责抖音APP的推荐算法、内容算法、对话算法及大数据工作,对接各场景业务(短视频,直播,图文,电商,社交,生态,投稿,消息,同城,生活服务,音乐,评论,内容理解&安全、智能对话等)。我们的工作涉及大规模推荐算法的优化、复杂约束的优化问题的解决、内容理解、LLM应用以及新业务方向探索、CV/NLP等多个学术领域的算法改进工作、对多种场景的推荐架构的设计和实现和对产品数据的复杂深入的分析工作。在这里,你可以深入钻研机器学习算法的改进和优化,探索工业界最领先的推荐系统架构和推荐大模型算法、可以通过使用最新的大模型等技术支持抖音的数字人、智能客服、AI工具等创新探索;可以通过对产品的深度理解和思考,将算法应用到业务中去;也可以通过对产品和内容生态的深度分析,影响产品未来的发展方向。 课题介绍: 自然语言领域LLM的出现,效果在众多垂直任务上都好于sota模型,从推荐领域看过去工业级推荐系统在较长的时间没有大幅的变化过。本项目旨在探索推荐领域下的大模型方案,改变现在持续了较长时间的推荐模型结构和Infra的基本范式,且效果大幅好于现在的模型,在抖音短视频/直播等多个业务场景上得到应用。但是怎么做好推荐领域的大模型也是一个比较有挑战的事情,推荐对工程效率的要求更高,且用户的推荐体验上是个性化的,以及如何短视频、直播等体裁上做号内容的表征也是需要被解决的问题,这里会从模型参数scaling up、内容和用户的表征学习、内容理解多模态、超长序列建模、生成式推荐模型等多个方向来做深入的研究,对推荐场景的模型做系统性的升级。 研究方向: 跨模态的对齐和统一表征学习(推荐、内容多模态、自然语言); 推荐模型参数和算力scaling up; 超长序列建模; 生成式推荐模型。
团队介绍:Data-抖音团队,负责抖音APP的推荐算法、内容算法、对话算法及大数据工作,对接各场景业务(短视频,直播,图文,电商,社交,生态,投稿,消息,同城,生活服务,音乐,评论,内容理解&安全、智能对话等)。我们的工作涉及大规模推荐算法的优化、复杂约束的优化问题的解决、内容理解、LLM应用以及新业务方向探索、CV/NLP等多个学术领域的算法改进工作、对多种场景的推荐架构的设计和实现和对产品数据的复杂深入的分析工作。在这里,你可以深入钻研机器学习算法的改进和优化,探索工业界最领先的推荐系统架构和推荐大模型算法、可以通过使用最新的大模型等技术支持抖音的数字人、智能客服、AI工具等创新探索;可以通过对产品的深度理解和思考,将算法应用到业务中去;也可以通过对产品和内容生态的深度分析,影响产品未来的发展方向。 课题介绍: 抖音作为全球领先的综合性内容平台,拥有庞大的用户群体和多元化的业务生态。在设计如此大规模的推荐系统时,面临社交网络复杂、电商用户兴趣跨域迁移困难、内容与用户冷启动样本稀疏、直播推荐多目标融合效能不足、兴趣重复密集探索不足等多重挑战。 具体表现为:用户社交网络规模达万亿级,传统图算法难以高效地建模动态社交行为与内容消费的耦合关系;用户从内容兴趣到电商兴趣的迁移依赖跨域多模态理解与动态映射,现有方法难以捕捉潜在电商转化信号;新内容和新低活用户冷启动阶段样本量少,传统协同过滤与内容推荐方法泛化能力弱;直播推荐需实时融合点击、互动、消费等多目标信号,但启发式规则难以平衡用户长期体验与短期价值;兴趣密集追打问题严重,新兴趣探索效率不高。 研究方向: 1、社交网络增强的跨域兴趣建模:结合图神经网络(GNN)与大语言模型(LLM),构建用户全生命周期行为图谱,融合社交关系、内容互动与电商行为,挖掘社交网络中的社团结构与跨域兴趣传播路径; 2、兴趣迁移与转化信号捕捉:通过跨域对比学习与对抗生成技术,构建内容兴趣到电商兴趣的隐式映射网络,结合强化学习动态调控探索与利用,兼顾推荐精准性与多样性; 3、多模态小样本冷启动优化:利用LLM的Few-shot推理能力,通过内容语义理解与外部知识增强,设计元学习框架实现新ID特征与泛化特征的联合表征,缓解冷启动数据稀疏问题; 4、多目标融合与长短期价值平衡:基于大模型的泛化能力与长上下文感知,统一建模直播多目标(点击、时长、打赏等)的分布偏差与动态权重,设计个性化融合策略,替代传统多阶段漏斗架构,提升实时推荐效率; 5、兴趣密集与兴趣探索:通过用户兴趣画像建模与强化学习技术,实时捕捉用户消费与兴趣变化,缓解兴趣密集问题,为用户探索新的兴趣。