logo of bytedance

字节跳动分布式系统开发工程师-搜索架构

社招全职A251060地点:北京状态:招聘

任职要求


1、熟练使用C/C++;
2、Linux系统知识扎实,精通任意一种语言的多线程编程、网络编程;
3、掌握分布式存储、分布式计算关键技术并有实战经验;
4、熟练使用常用开发调试工具。

加分项:
1、开源社区活跃贡献者优先;
2、熟读过ROCKSDB/REDIS/HBASE/ETCD/ES/XAPIAN任一源代码优先;
3、熟悉PAXOS、RAFT等一致性协议者优先。

工作职责


团队介绍:负责抖音、今日头条等产品的搜索算法创新和架构研发工作。我们使用前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,以及应用RAG技术,使得AI对数亿抖音用户的潜在价值得以实现。充分给同学们提供成长自我的机会。
1、探索前沿的检索技术:横跨视频、直播、图文、团购等众多体裁,从基础的NLP技术,到基于多模态理解、用户行为理解、EMBED DING相似性等的召回;
2、探索大规模的排序技术:在原有BERT、大规模稀疏模型的基础上,探索和落地超大规模自回归模型SCALING LAW;
3、探索超大规模的AI搜索RAG引擎:充分挖掘抖音海量流量的潜在价值,建设超大规模、多AGENT协同的AI搜整体架构,满足潜在的用户价值;
4、大规模流式机器学习技术:超高吞吐实时数据流,流式大规模机器学习,让更个性化的搜索更加懂你;
5、千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务的方方面面都有深入研究和创新。

1、为字节跳动搜索业务定制分布式系统底座,支撑抖音、今日头条、番茄小说等产品搜索业务的快速构建与持续发展;
2、参与搜索新一代分布式检索系统、特征存储系统的开发和维护,持续优化性能、成本、稳定性,加强其扩展定制能力。
包括英文材料
C+
C+++
Linux+
多线程+
网络编程+
etcd+
ElasticSearch+
Raft+
相关职位

logo of bytedance
社招A102381

团队介绍:负责抖音、今日头条等产品的搜索算法创新和架构研发工作。我们使用前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,以及应用RAG技术,使得AI对数亿抖音用户的潜在价值得以实现。充分给同学们提供成长自我的机会。 1、探索前沿的检索技术:横跨视频、直播、图文、团购等众多体裁,从基础的NLP技术,到基于多模态理解、用户行为理解、EMBED DING相似性等的召回; 2、探索大规模的排序技术:在原有BERT、大规模稀疏模型的基础上,探索和落地超大规模自回归模型SCALING LAW; 3、探索超大规模的AI搜索RAG引擎:充分挖掘抖音海量流量的潜在价值,建设超大规模、多AGENT协同的AI搜整体架构,满足潜在的用户价值; 4、大规模流式机器学习技术:超高吞吐实时数据流,流式大规模机器学习,让更个性化的搜索更加懂你; 5、千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务的方方面面都有深入研究和创新。 1、为字节跳动搜索业务定制分布式系统底座,支撑抖音、今日头条、番茄小说等产品搜索业务的快速构建与持续发展; 2、参与搜索新一代分布式检索系统、特征存储系统的开发和维护,持续优化性能、成本、稳定性,加强其扩展定制能力。

更新于 2025-02-20
logo of bytedance
校招A225995

团队介绍: 字节跳动搜索团队主要负责抖音、国际化短视频、今日头条、西瓜视频等产品以及电商、生活服务等业务的搜索算法创新和架构研发工作。我们使用前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。 主要工作方向包括: 1、探索前沿的NLP技术:从基础的分词、NER,文本、多模态预训练,到业务上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战; 2、跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,实现多模态视频搜索强大的语义理解和检索能力; 3、大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你; 4、千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务的方方面面都有深入研究和创新; 5、推荐技术:基于超大规模机器学习技术,构建业界领先的搜索推荐系统,对搜索推荐技术进行探索和创新。 课题介绍: 1、课题背景:随着互联网数据规模的爆炸式增长和用户对搜索体验需求的不断提升,传统搜索引擎基于关键词匹配和规则推理的局限性日益凸显。例如,用户意图的复杂性、自然语言的歧义性、多模态数据(文本、图像、视频等)的融合检索需求,以及长尾查询的精准响应等问题,均对搜索系统的智能化提出了更高要求。 近年来,大模型技术(如GPT、BERT、多模态大模型等)在自然语言理解、知识推理和生成任务中展现出强大能力,为智能搜索的语义理解、意图识别和个性化推荐提供了新的技术路径。同时,数据库技术在高效数据存储、索引优化和实时检索方面的持续演进,为构建支持大模型推理的高性能搜索系统奠定了基础。 2、研究方向:本课题旨在结合大模型技术与数据库技术,探索新一代智能搜索系统的核心架构与关键技术,突破传统搜索的语义理解瓶颈,构建更高效、精准且可扩展的智能搜索服务,满足复杂场景下的用户需求。

更新于 2025-05-26
logo of bytedance
校招A65235

团队介绍: 字节跳动搜索团队主要负责抖音、国际化短视频、今日头条、西瓜视频等产品以及电商、生活服务等业务的搜索算法创新和架构研发工作。我们使用前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。 主要工作方向包括: 1、探索前沿的NLP技术:从基础的分词、NER,文本、多模态预训练,到业务上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战; 2、跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,实现多模态视频搜索强大的语义理解和检索能力; 3、大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你; 4、千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务的方方面面都有深入研究和创新; 5、推荐技术:基于超大规模机器学习技术,构建业界领先的搜索推荐系统,对搜索推荐技术进行探索和创新。 课题介绍: 1、课题背景:随着互联网数据规模的爆炸式增长和用户对搜索体验需求的不断提升,传统搜索引擎基于关键词匹配和规则推理的局限性日益凸显。例如,用户意图的复杂性、自然语言的歧义性、多模态数据(文本、图像、视频等)的融合检索需求,以及长尾查询的精准响应等问题,均对搜索系统的智能化提出了更高要求。 近年来,大模型技术(如GPT、BERT、多模态大模型等)在自然语言理解、知识推理和生成任务中展现出强大能力,为智能搜索的语义理解、意图识别和个性化推荐提供了新的技术路径。同时,数据库技术在高效数据存储、索引优化和实时检索方面的持续演进,为构建支持大模型推理的高性能搜索系统奠定了基础。 2、研究方向:本课题旨在结合大模型技术与数据库技术,探索新一代智能搜索系统的核心架构与关键技术,突破传统搜索的语义理解瓶颈,构建更高效、精准且可扩展的智能搜索服务,满足复杂场景下的用户需求。

更新于 2025-05-26
logo of antgroup
社招3年以上技术类-开发

1、主导钱包搜索全链路技术,包括搜索建议,Query理解、粗排,精排、干预等环节的工程优化,能和算法一起提升搜索效果。 2、设计高可靠、高扩展的搜索架构,主导大数据量的数据索引、向量检索、分布式实时计算等系统的研发与优化。 3、各种离线挖掘工作,包括同义词,知识图谱等 4、持续全链路性能优化,实现低延迟、高吞吐的搜索服务,支撑万级QPS场景。 5、理解和掌握蚂蚁集团的常用架构设计、性能优化、高可用保障理念,并能灵活运用于核心链路系统的优化;

更新于 2025-06-19