logo of bytedance

字节跳动大模型算法工程师(搜索大模型)-搜索-筋斗云人才计划(北京/上海/杭州/珠海)

社招全职A112962地点:杭州状态:招聘

任职要求


1、获得博士学位,计算机、电子、自动化、软件工程、数学等相关专业优先;
2、在搜索、推荐、广告、自然语言处理NLP、自然语言理解NLU、多模态、机器学习深度学习等一个或多个领域有较深入的研究者优先;
3、熟悉Linux开发环境,熟练使用C++Python语言;
4、具有良好的问题分析解决能力,沟通协作能力,工作积极主动,能够与团队融洽合作,一起探索新技术,推进技术进步。

加分项:
1、具有优秀的基础算法、扎实的机器学习/深度学习基础,熟悉NLP、RL、ML等领域的技术,在…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


团队介绍:字节跳动搜索团队主要负责抖音、国际化短视频、今日头条、西瓜视频等产品以及电商、生活服务等业务的搜索算法创新和架构研发工作。我们使用前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。主要工作方向包括:1、探索前沿的NLP技术:从基础的分词、NER,文本、多模态预训练,到业务上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战;2、跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,实现多模态视频搜索强大的语义理解和检索能力;3、大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你;4、千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务的方方面面都有深入研究和创新;5、推荐技术:基于超大规模机器学习技术,构建业界领先的搜索推荐系统,对搜索推荐技术进行探索和创新。

课题介绍:随着大模型技术的快速发展,智能搜索领域迎来了新的机遇和挑战。传统搜索技术在面对海量数据、多模态信息以及用户复杂需求时,逐渐暴露出模型容量不足、语义理解能力有限、资源利用率低等问题。基于大模型的智能搜索构建旨在通过引入大模型技术,提升搜索系统的智能化水平,优化用户体验,并解决超大规模检索、复杂语义理解、资源高效利用等核心问题。具体目标包括:
1、探索大模型与排序算法的结合,提升个性化排序的精度和用户体验;
2、研究生成式检索算法,解决百亿乃至千亿级别候选库的超大规模检索问题;
3、利用大语言模型(LLM)提升复杂多义Query的搜索满意度。

1、参与搜索引擎(策略、模型)研发工作,支持抖音/今日头条/电商/番茄小说/红果短剧等具有数亿用户的产品,致力于为数亿用户提供数千亿精准搜索结果,打造极致的搜索体验;
2、探索前沿技术,探索大模型等创新技术在AI搜索场景的落地,参与搜索引擎、搜索大模型的改进,包括而不限于:
1)NLP、大模型:构建大规模高质量数据(数据建设、数据抓取与解析、数据合成等)、分词、NER,文本、多模态预训练、Query分析、基础相关性等,全链路结合应用机器学习/深度学习模型,探索搜索引擎与大模型、LLM、MLLM、多模态、机器学习、强化学习等前沿技术的结合,实现搜索引擎全链路革新并进行极致的系统优化,探索提升AI搜索引擎的能力,包含而不限于相关性、权威性、时效性、意图理解能力等;探索新的自然语言处理算法、信息检索技术、LLM适性索引、LLM相关性、生成式召回、排序大模型等,提高搜索引擎的准确性和智能化程度;
2)召回与排序:借助语义理解、个性化预估、机制设计等技术,解决超大规模的视频、商品、直播、POI等搜索业务下的召回、排序、重混排模型;
3)多模态、跨模态匹配技术:基于海量网页图文、抖音视频数据的大规模多模态预训练和视频分析技术,提升视觉搜索的使用体验;在搜索中结合CV+NLP深度学习技术,实现多模态、视频搜索、强大的语义理解和检索能力;
4)页面分析和摘要:从千亿视频/网页中提取最有价值的信息,进行结构化字段提取、智能摘要生成、转码等工作来优化搜索体验;
5)链接分析:从万亿链接中找出最有价值的网页,优化链接质量、索引质量、垃圾作弊识别、调度策略等。
包括英文材料
学历+
NLP+
机器学习+
深度学习+
Linux+
C+++
Python+
算法+
ICML+
还有更多 •••
相关职位

logo of bytedance
社招A219775

团队介绍:字节跳动搜索团队主要负责抖音、国际化短视频、今日头条、西瓜视频等产品以及电商、生活服务等业务的搜索算法创新和架构研发工作。我们使用前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。主要工作方向包括:1、探索前沿的NLP技术:从基础的分词、NER,文本、多模态预训练,到业务上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战;2、跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,实现多模态视频搜索强大的语义理解和检索能力;3、大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你;4、千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务的方方面面都有深入研究和创新;5、推荐技术:基于超大规模机器学习技术,构建业界领先的搜索推荐系统,对搜索推荐技术进行探索和创新。 课题介绍:随着大模型技术的快速发展,智能搜索领域迎来了新的机遇和挑战。传统搜索技术在面对海量数据、多模态信息以及用户复杂需求时,逐渐暴露出模型容量不足、语义理解能力有限、资源利用率低等问题。基于大模型的智能搜索构建旨在通过引入大模型技术,提升搜索系统的智能化水平,优化用户体验,并解决超大规模检索、复杂语义理解、资源高效利用等核心问题。具体目标包括: 1、探索大模型与排序算法的结合,提升个性化排序的精度和用户体验; 2、研究生成式检索算法,解决百亿乃至千亿级别候选库的超大规模检索问题; 3、利用大语言模型(LLM)提升复杂多义Query的搜索满意度。 1、参与搜索引擎(策略、模型)研发工作,支持抖音/今日头条/电商/番茄小说/红果短剧等具有数亿用户的产品,致力于为数亿用户提供数千亿精准搜索结果,打造极致的搜索体验; 2、探索前沿技术,探索大模型等创新技术在AI搜索场景的落地,参与搜索引擎、搜索大模型的改进,包括而不限于: 1)NLP、大模型:构建大规模高质量数据(数据建设、数据抓取与解析、数据合成等)、分词、NER,文本、多模态预训练、Query分析、基础相关性等,全链路结合应用机器学习/深度学习模型,探索搜索引擎与大模型、LLM、MLLM、多模态、机器学习、强化学习等前沿技术的结合,实现搜索引擎全链路革新并进行极致的系统优化,探索提升AI搜索引擎的能力,包含而不限于相关性、权威性、时效性、意图理解能力等;探索新的自然语言处理算法、信息检索技术、LLM适性索引、LLM相关性、生成式召回、排序大模型等,提高搜索引擎的准确性和智能化程度; 2)召回与排序:借助语义理解、个性化预估、机制设计等技术,解决超大规模的视频、商品、直播、POI等搜索业务下的召回、排序、重混排模型; 3)多模态、跨模态匹配技术:基于海量网页图文、抖音视频数据的大规模多模态预训练和视频分析技术,提升视觉搜索的使用体验;在搜索中结合CV+NLP深度学习技术,实现多模态、视频搜索、强大的语义理解和检索能力; 4)页面分析和摘要:从千亿视频/网页中提取最有价值的信息,进行结构化字段提取、智能摘要生成、转码等工作来优化搜索体验; 5)链接分析:从万亿链接中找出最有价值的网页,优化链接质量、索引质量、垃圾作弊识别、调度策略等。

更新于 2025-06-09北京
logo of bytedance
社招A249260A

团队介绍:我们是支持抖音集团广告业务算法技术中台团队Ads Core,致力于研发全球领先的在线广告优化算法,营造健康、互惠的广告生态,持续提升用户和客户体验,引领并推动行业算法的变革与创新。我们承担了抖音集团产品广告变现业务的基础算法策略和机制的改进与研究,涵盖抖音、今日头条、番茄小说等场景的商业化技术的支撑。 课题介绍:自动化投放,是在客户给定的营销诉求约束和素材商品资产下,平台通过感知投放状态信息(state)对投放6 要素做实时决策(action),和投放系统交互获得效果反馈(reward),来最大化客户投放效果。 过去自动化已经初步完成单Action model based 决策,在素材/出价/创编/探索预算等均有落地,但仍有以下问题:1)对历史序列建模 不够;2)仅对未来短期做决策,缺乏未来长周期action planning,不是长期最优; 3)多 action 之间缺乏组合,带来互相干扰和 label 收集不准等问题。 多客户投放竞价时,平台提供一套激励兼容且更高效的拍卖机制很重要,目前混排已经升级到 Generator-Evaluator 架构,但 G 阶段生成序列时还以暴力搜索和启发式规则为主,限制了搜索空间和效果上限,效率比较低。随着生成式模型发展,生成式对长序列建模和序列 planning生成 有显著优势,因此探索 将自动化投放和拍卖机制继续升级到生成式范式, 提升效果。

更新于 2025-05-28上海
logo of bytedance
社招A26865A

团队介绍:生活服务业务依托于抖音、抖音极速版等平台,致力于促进用户与本地服务的连接。过去一年,生活服务业务开创了全新的视频种草和交易体验,让更多用户通过抖音发现线下好去处,也帮助众多本地商家拓展了新的经营阵地。我们期待你的加入,一同为亿万用户创造更美好的生活。 课题介绍:推荐算法是生活服务场景交易增长的核心驱动力,我们希望借鉴LLM的成功思路,结合生活服务场景的时空特点,探索在生活服务场景推荐算法和架构的颠覆性创新,解锁更大的算法效果提升空间。 重点探索以下方向: 1、基于类Transformer结构的生成式推荐大模型技术,验证生活服务推荐场景的Scaling Law,探索面向大模型的推荐算法建模范式; 2、算法和工程协同设计与优化,提升海量数据、超大参数背景下的训练与推理的效率; 3、多体裁多模态表征学习和推荐模型结合; 4、结合生活服务场景特有的时空属性,进行时间和空间感知的算法建模。 1、负责生活服务场景推荐大模型的算法优化,引入生成式AI技术,优化建模方案、模型结构、特征和样本等,提升场景交易效率; 2、验证生活服务场景的推荐大模型Scaling Law,应对大模型训练中的新挑战; 3、算法和工程协同设计与优化,提升海量数据、超大参数背景下的训练与推理效率; 4、多体裁多模态表征学习和推荐大模型结合; 5、结合生活服务场景特有的时空属性,进行时间和空间感知的算法建模。

更新于 2025-05-27北京
logo of bytedance
社招A126832A

团队介绍:短视频平台算法团队,负责国际化短视频产品的基础推荐算法,加入我们,你能接触到包括用户增长、社交、直播、电商C端、内容创造、内容消费等核心业务场景,直接为核心用户体验负责,支持产品在全球赛道上高速发展。我们的工作内容包括大规模推荐算法的优化、复杂约束的优化问题的解决、多模态大模型的落地探索,推荐大模型的应用研究等多个学术领域的算法改进以及对多种场景的推荐架构的设计和对产品数据的复杂深入的分析。在这里,你可以深入钻研机器学习算法的改进和优化,探索前沿的技术;可以跟来自全球不同国家的团队合作, 感受不同文化的碰撞, 激发认知;可以通过对产品和内容生态的深度分析,影响产品未来的发展方向。 课题介绍: TikTok作为全球领先的短视频平台,面临新用户数据稀疏导致的个性化推荐不足、直播推荐时效性要求高、用户兴趣多样性维护困难以及电商推荐系统链路复杂等多重挑战。传统推荐方法依赖历史行为建模,难以解决新用户冷启动问题,且直播推荐需在极短窗口期内(通常30分钟内)实时捕捉内容动态变化(如主播互动、流量波动),这对系统的实时感知与快速决策能力提出更高要求。此外,单列沉浸式场景放大了多样性问题,需平衡多峰兴趣学习与探索引发的内容穿越风险。当前电商推荐系统采用多阶段漏斗架构(召回-排序-混排),存在链路不一致、维护成本高、过度依赖短期价值预测等问题,导致用户易陷入内容同质化疲劳。 针对上述痛点,项目提出结合大语言模型(LLM)和大模型技术实现突破:一方面利用LLM的海量知识储备与Few-shot推理能力,通过注册信息与外部知识推理新用户潜在意图,缓解冷启动问题;另一方面,在社交偏好建模中融合GNN与用户全生命周期行为序列,提升兴趣预测精准度。同时,探索大模型的泛化能力、长上下文感知及端到端建模优势,简化电商推荐链路,增强实时动态适应性与兴趣探索能力,最终实现系统更简洁、推荐更精准、用户体验与留存双提升的目标,推动业务可持续增长。 1、负责TikTok的业务推荐算法工作,与来自国内外顶级名校、有丰富业界经验的同学合作,共同搭建行业顶尖的推荐系统,为用户提供一流的产品体验; 2、将最前沿的机器学习技术应用到TikTok的场景业务,包括混排/排序/多目标/召回/冷启动/探索/多样性/内容理解等等场景,不断优化用户体验,促进业务发展; 3、研究方向包含且不局限于:深度学习、图神经网络、多任务学习、Learning to Rank、模型压缩和加速、多模态技术等,结合业务的实际问题来做好技术的探索和研究; 4、和产品、运营团队紧密合作,通过对产品和用户的深入理解和分析,制定算法策略促进短视频生态的长期繁荣发展。

更新于 2025-05-27北京