字节跳动推荐大模型算法工程师-生活服务-筋斗云人才计划(北京/上海/成都)
任职要求
1、获得博士学位,计算机科学、人工智能、自然语言处理、计算机视觉等相关专业优先; 2、扎实的机器学习基础和编码能力,在机器学习、NLP、CV等有较深入的研究经验,熟练掌握主要的算法和数据结构; 3、在搜索、广告、推荐和大…
工作职责
团队介绍:生活服务业务依托于抖音、抖音极速版等平台,致力于促进用户与本地服务的连接。过去一年,生活服务业务开创了全新的视频种草和交易体验,让更多用户通过抖音发现线下好去处,也帮助众多本地商家拓展了新的经营阵地。我们期待你的加入,一同为亿万用户创造更美好的生活。 课题介绍:推荐算法是生活服务场景交易增长的核心驱动力,我们希望借鉴LLM的成功思路,结合生活服务场景的时空特点,探索在生活服务场景推荐算法和架构的颠覆性创新,解锁更大的算法效果提升空间。 重点探索以下方向: 1、基于类Transformer结构的生成式推荐大模型技术,验证生活服务推荐场景的Scaling Law,探索面向大模型的推荐算法建模范式; 2、算法和工程协同设计与优化,提升海量数据、超大参数背景下的训练与推理的效率; 3、多体裁多模态表征学习和推荐模型结合; 4、结合生活服务场景特有的时空属性,进行时间和空间感知的算法建模。 1、负责生活服务场景推荐大模型的算法优化,引入生成式AI技术,优化建模方案、模型结构、特征和样本等,提升场景交易效率; 2、验证生活服务场景的推荐大模型Scaling Law,应对大模型训练中的新挑战; 3、算法和工程协同设计与优化,提升海量数据、超大参数背景下的训练与推理效率; 4、多体裁多模态表征学习和推荐大模型结合; 5、结合生活服务场景特有的时空属性,进行时间和空间感知的算法建模。
团队介绍:字节跳动搜索团队主要负责抖音、国际化短视频、今日头条、西瓜视频等产品以及电商、生活服务等业务的搜索算法创新和架构研发工作。我们使用前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。主要工作方向包括:1、探索前沿的NLP技术:从基础的分词、NER,文本、多模态预训练,到业务上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战;2、跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,实现多模态视频搜索强大的语义理解和检索能力;3、大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你;4、千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务的方方面面都有深入研究和创新;5、推荐技术:基于超大规模机器学习技术,构建业界领先的搜索推荐系统,对搜索推荐技术进行探索和创新。 课题介绍:随着大模型技术的快速发展,智能搜索领域迎来了新的机遇和挑战。传统搜索技术在面对海量数据、多模态信息以及用户复杂需求时,逐渐暴露出模型容量不足、语义理解能力有限、资源利用率低等问题。基于大模型的智能搜索构建旨在通过引入大模型技术,提升搜索系统的智能化水平,优化用户体验,并解决超大规模检索、复杂语义理解、资源高效利用等核心问题。具体目标包括: 1、探索大模型与排序算法的结合,提升个性化排序的精度和用户体验; 2、研究生成式检索算法,解决百亿乃至千亿级别候选库的超大规模检索问题; 3、利用大语言模型(LLM)提升复杂多义Query的搜索满意度。 1、参与搜索引擎(策略、模型)研发工作,支持抖音/今日头条/电商/番茄小说/红果短剧等具有数亿用户的产品,致力于为数亿用户提供数千亿精准搜索结果,打造极致的搜索体验; 2、探索前沿技术,探索大模型等创新技术在AI搜索场景的落地,参与搜索引擎、搜索大模型的改进,包括而不限于: 1)NLP、大模型:构建大规模高质量数据(数据建设、数据抓取与解析、数据合成等)、分词、NER,文本、多模态预训练、Query分析、基础相关性等,全链路结合应用机器学习/深度学习模型,探索搜索引擎与大模型、LLM、MLLM、多模态、机器学习、强化学习等前沿技术的结合,实现搜索引擎全链路革新并进行极致的系统优化,探索提升AI搜索引擎的能力,包含而不限于相关性、权威性、时效性、意图理解能力等;探索新的自然语言处理算法、信息检索技术、LLM适性索引、LLM相关性、生成式召回、排序大模型等,提高搜索引擎的准确性和智能化程度; 2)召回与排序:借助语义理解、个性化预估、机制设计等技术,解决超大规模的视频、商品、直播、POI等搜索业务下的召回、排序、重混排模型; 3)多模态、跨模态匹配技术:基于海量网页图文、抖音视频数据的大规模多模态预训练和视频分析技术,提升视觉搜索的使用体验;在搜索中结合CV+NLP深度学习技术,实现多模态、视频搜索、强大的语义理解和检索能力; 4)页面分析和摘要:从千亿视频/网页中提取最有价值的信息,进行结构化字段提取、智能摘要生成、转码等工作来优化搜索体验; 5)链接分析:从万亿链接中找出最有价值的网页,优化链接质量、索引质量、垃圾作弊识别、调度策略等。
团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok研发团队,旨在实现TikTok业务的研发工作,搭建及维护业界领先的产品。加入我们,你能接触到包括用户增长、社交、直播、电商C端、内容创造、内容消费等核心业务场景,支持产品在全球赛道上高速发展;也能接触到包括服务架构、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 在这里, 有大牛带队与大家一同不断探索前沿, 突破想象空间。 在这里,你的每一行代码都将服务亿万用户。在这里,团队专业且纯粹,合作氛围平等且轻松。目前在北京,上海,杭州、广州、深圳分别开放多个岗位机会。 课题介绍: 多模态模型能帮助提取视频的多模态内容信息,单用户对内容的注意力是个性化的,所以基于对比学习或者生成式学习得到的内容信息无法能和推荐系统相匹配,如何将基于纯内容信号得到的多模态信息用到推荐系统里目前是一个开放的话题我们希望通过多模态模型和推荐系统联合建模的方式来个性化的提取用户 - 内容的联合信号,并能实现内容建模和个性化建模的双重提升。 1、探索多模态模型,包括多模态预训练,多模态LLM; 2、将多模态模型应用于图像/视频的生成创作、逻辑推理、深层语义理解、视频语义压缩、视频高光判断等; 3、探索LLM、多模态等的高效Finetuning技术和推理技术,保证模型在业务场景中的快速适配和高效调用; 4、主要研究方向包括:多模态预训练、图片和视频的生成、图片和视频风格迁移、跨模态检索、大模型多标签分类、半监督学习、自监督学习。
团队介绍:Data-抖音团队,负责抖音APP的推荐算法、内容算法、对话算法及大数据工作,对接各场景业务(短视频,直播,图文,电商,社交,生态,投稿,消息,同城,生活服务,音乐,评论,内容理解&安全、智能对话等)。我们的工作涉及大规模推荐算法的优化、复杂约束的优化问题的解决、内容理解、LLM应用以及新业务方向探索、CV/NLP等多个学术领域的算法改进工作、对多种场景的推荐架构的设计和实现和对产品数据的复杂深入的分析工作。在这里,你可以深入钻研机器学习算法的改进和优化,探索工业界最领先的推荐系统架构和推荐大模型算法、可以通过使用最新的大模型等技术支持抖音的数字人、智能客服、AI工具等创新探索;可以通过对产品的深度理解和思考,将算法应用到业务中去;也可以通过对产品和内容生态的深度分析,影响产品未来的发展方向。 抖音作为全球领先的综合性内容平台,拥有庞大的用户群体和多元化的业务生态。在设计如此大规模的推荐系统时,面临社交网络复杂、电商用户兴趣跨域迁移困难、内容与用户冷启动样本稀疏、直播推荐多目标融合效能不足、兴趣重复密集探索不足等多重挑战。 具体表现为:用户社交网络规模达万亿级,传统图算法难以高效地建模动态社交行为与内容消费的耦合关系;用户从内容兴趣到电商兴趣的迁移依赖跨域多模态理解与动态映射,现有方法难以捕捉潜在电商转化信号;新内容和新低活用户冷启动阶段样本量少,传统协同过滤与内容推荐方法泛化能力弱;直播推荐需实时融合点击、互动、消费等多目标信号,但启发式规则难以平衡用户长期体验与短期价值;兴趣密集追打问题严重,新兴趣探索效率不高。 1、社交网络增强的跨域兴趣建模:结合图神经网络(GNN)与大语言模型(LLM),构建用户全生命周期行为图谱,融合社交关系、内容互动与电商行为,挖掘社交网络中的社团结构与跨域兴趣传播路径; 2、兴趣迁移与转化信号捕捉:通过跨域对比学习与对抗生成技术,构建内容兴趣到电商兴趣的隐式映射网络,结合强化学习动态调控探索与利用,兼顾推荐精准性与多样性; 3、多模态小样本冷启动优化:利用LLM的Few-shot推理能力,通过内容语义理解与外部知识增强,设计元学习框架实现新ID特征与泛化特征的联合表征,缓解冷启动数据稀疏问题; 4、多目标融合与长短期价值平衡:基于大模型的泛化能力与长上下文感知,统一建模直播多目标(点击、时长、打赏等)的分布偏差与动态权重,设计个性化融合策略,替代传统多阶段漏斗架构,提升实时推荐效率; 5、兴趣密集与兴趣探索:通过用户兴趣画像建模与强化学习技术,实时捕捉用户消费与兴趣变化,缓解兴趣密集问题,为用户探索新的兴趣。
团队介绍:字节跳动搜索团队主要负责抖音、国际化短视频、今日头条、西瓜视频等产品以及电商、生活服务等业务的搜索算法创新和架构研发工作。我们使用前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。主要工作方向包括:1、探索前沿的NLP技术:从基础的分词、NER,文本、多模态预训练,到业务上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战;2、跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,实现多模态视频搜索强大的语义理解和检索能力;3、大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你;4、千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务的方方面面都有深入研究和创新;5、推荐技术:基于超大规模机器学习技术,构建业界领先的搜索推荐系统,对搜索推荐技术进行探索和创新。 课题介绍:随着大模型技术的快速发展,智能搜索领域迎来了新的机遇和挑战。传统搜索技术在面对海量数据、多模态信息以及用户复杂需求时,逐渐暴露出模型容量不足、语义理解能力有限、资源利用率低等问题。基于大模型的智能搜索构建旨在通过引入大模型技术,提升搜索系统的智能化水平,优化用户体验,并解决超大规模检索、复杂语义理解、资源高效利用等核心问题。具体目标包括: 1、探索大模型与排序算法的结合,提升个性化排序的精度和用户体验; 2、研究生成式检索算法,解决百亿乃至千亿级别候选库的超大规模检索问题; 3、利用大语言模型(LLM)提升复杂多义Query的搜索满意度。 1、参与搜索引擎(策略、模型)研发工作,支持抖音/今日头条/电商/番茄小说/红果短剧等具有数亿用户的产品,致力于为数亿用户提供数千亿精准搜索结果,打造极致的搜索体验; 2、探索前沿技术,探索大模型等创新技术在AI搜索场景的落地,参与搜索引擎、搜索大模型的改进,包括而不限于: 1)NLP、大模型:构建大规模高质量数据(数据建设、数据抓取与解析、数据合成等)、分词、NER,文本、多模态预训练、Query分析、基础相关性等,全链路结合应用机器学习/深度学习模型,探索搜索引擎与大模型、LLM、MLLM、多模态、机器学习、强化学习等前沿技术的结合,实现搜索引擎全链路革新并进行极致的系统优化,探索提升AI搜索引擎的能力,包含而不限于相关性、权威性、时效性、意图理解能力等;探索新的自然语言处理算法、信息检索技术、LLM适性索引、LLM相关性、生成式召回、排序大模型等,提高搜索引擎的准确性和智能化程度; 2)召回与排序:借助语义理解、个性化预估、机制设计等技术,解决超大规模的视频、商品、直播、POI等搜索业务下的召回、排序、重混排模型; 3)多模态、跨模态匹配技术:基于海量网页图文、抖音视频数据的大规模多模态预训练和视频分析技术,提升视觉搜索的使用体验;在搜索中结合CV+NLP深度学习技术,实现多模态、视频搜索、强大的语义理解和检索能力; 4)页面分析和摘要:从千亿视频/网页中提取最有价值的信息,进行结构化字段提取、智能摘要生成、转码等工作来优化搜索体验; 5)链接分析:从万亿链接中找出最有价值的网页,优化链接质量、索引质量、垃圾作弊识别、调度策略等。