美团检索与存储引擎工程师(搜索推荐方向)
任职要求
1、本科及以上学历,3年以上工作经验,对技术充满热情,敢于尝试不同的技术; 2、C++基础扎实,熟悉常用的数据结构和算法设计; 3、具备大规模高性能服务开发经验,具有优秀的问题分析和解决能力; 4、责任心强、积极主动、有良好的沟通能力和团队合作能力; 具备以下条件优先 1、熟悉分布式存储系统,理解关键问题和架构设计; 2、熟悉搜索、推荐或者广告等领域的检索系统或相关开源组件如HA3、ES等;
工作职责
1、负责搜索和推荐等场景的一站式检索平台设计和开发; 2、支撑搜推统一的检索和存储引擎,包括正倒排、向量、KV等存储和检索能力; 3、负责日常的服务稳定性维护,以及引擎核心能力优化; 4、持续跟踪业界新技术,帮助团队成员成长;
Team Introduction: The Search Team is primarily responsible for the innovation of search algorithm and architecture research and development (R&D) for products such as Douyin, Toutiao, and Xigua Video, as well as businesses like E-commerce and Local Services. We leverage cutting-edge machine learning technologies for end-to-end modeling and continuously push for breakthroughs. We also focus on the construction and performance optimization of distributed and machine learning systems — ranging from memory and disk optimization to innovations in index compression and exploration of recall and ranking algorithms — providing students with ample opportunities to grow and develop themselves. The main areas of work include: 1. Exploring Cutting-Edge NLP Technologies: From basic tasks like word segmentation and Named Entity Recognition (NER) to advanced business functions like text and multimodal pre-training, query analysis, and fundamental relevance modeling, we apply deep learning models throughout the pipeline where every detail presents a challenge. 2. Cross-Modal Matching Technologies: Applying deep learning techniques that combine Computer Vision (CV) and Natural Language Processing (NLP) in search, we aim to achieve powerful semantic understanding and retrieval capabilities for multimodal video search. 3. Large-Scale Streaming Machine Learning Technologies: Utilising large-scale machine learning to address recommendation challenges in search, making the search more personalized and intuitive in understanding user needs. 4. Architecture for data at the scale of hundreds of billions: Conducting in-depth research and innovation in all aspects, from large-scale offline computing and performance and scheduling optimization of distributed systems to building high-availability, high-throughput, and low-latency online services. 5. Recommendation Technologies: Leveraging ultra-large-scale machine learning to build industry-leading search recommendation systems and continuously explore and innovate in search recommendation technologies. 团队介绍: 字节跳动搜索团队主要负责抖音、今日头条、西瓜视频等产品以及电商、生活服务等业务的搜索算法创新和架构研发工作。我们使用前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。 主要工作方向包括: 1、探索前沿的NLP技术:从基础的分词、NER,文本、多模态预训练,到业务上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战; 2、跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,实现多模态视频搜索强大的语义理解和检索能力; 3、大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你; 4、千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务的方方面面都有深入研究和创新; 5、推荐技术:基于超大规模机器学习技术,构建业界领先的搜索推荐系统,对搜索推荐技术进行探索和创新。 课题背景/目标: 随着大模型技术的快速发展,智能搜索领域迎来了新的机遇和挑战。传统搜索技术在面对海量数据、多模态信息以及用户复杂需求时,逐渐暴露出模型容量不足、语义理解能力有限、资源利用率低等问题。基于大模型的智能搜索构建旨在通过引入大模型技术,提升搜索系统的智能化水平,优化用户体验,并解决超大规模检索、复杂语义理解、资源高效利用等核心问题。具体目标包括: 1、探索大模型与排序算法的结合,提升个性化排序的精度和用户体验; 2、研究生成式检索算法,解决百亿乃至千亿级别候选库的超大规模检索问题; 3、利用大语言模型(LLM)提升复杂多义query的搜索满意度; 4、构建高性能、低资源消耗的大规模批流一体检索和计算系统,提升资源利用率。 课题挑战/必要性: 1、个性化排序的挑战:传统排序算法难以充分利用多模态信息(如文本、图像、视频等),且模型复杂度有限,无法满足用户对精准化和个性化搜索的需求; 2、超大规模检索的挑战:传统判别式模型在千亿级别候选库的检索中,面临模型容量不足、索引效率低下等问题,亟需新一代检索算法; 3、复杂query理解的挑战:用户搜索需求日益复杂,传统搜索引擎难以准确理解长难句、多义query的语义,导致搜索结果满意度低; 4、资源利用率的挑战:搜索系统存储和计算分离的架构导致资源利用率低,如何在保证性能的同时优化资源使用成为关键问题; 5、基于大模型的智能搜索构建是解决上述挑战的必要途径。通过引入大模型技术,可以显著提升搜索系统的语义理解能力、检索效率和资源利用率,从而为用户提供更精准、更高效的搜索体验。 课题内容: 1、个性化排序大模型研究; 2、超大规模生成式检索算法研究; 3、基于LLM提升复杂多义query的搜索满意度; 4、高性能大规模批流一体检索和计算系统。 涉及的研究方向:排序大模型、生成式检索与跨模态融合、大语言模型(LLM)与复杂query理解、高性能计算与存储架构。
1. 主导与参与搜索、推荐相关业务和算法系统的设计与开发; 2. 通过架构抽象和优化,提升工程、算法、产品的迭代效率; 3. 通过合理的技术选型和实践,优化计算和存储资源效率; 4. 深入理解搜索或推荐业务,与产品及算法合作推动产品探索和前沿算法落地。
团队介绍: 字节跳动搜索团队主要负责抖音、国际化短视频、今日头条、西瓜视频等产品以及电商、生活服务等业务的搜索算法创新和架构研发工作。我们使用前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。 主要工作方向包括: 1、探索前沿的NLP技术:从基础的分词、NER,文本、多模态预训练,到业务上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战; 2、跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,实现多模态视频搜索强大的语义理解和检索能力; 3、大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你; 4、千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务的方方面面都有深入研究和创新; 5、推荐技术:基于超大规模机器学习技术,构建业界领先的搜索推荐系统,对搜索推荐技术进行探索和创新。 课题介绍: 1、课题背景:随着互联网数据规模的爆炸式增长和用户对搜索体验需求的不断提升,传统搜索引擎基于关键词匹配和规则推理的局限性日益凸显。例如,用户意图的复杂性、自然语言的歧义性、多模态数据(文本、图像、视频等)的融合检索需求,以及长尾查询的精准响应等问题,均对搜索系统的智能化提出了更高要求。 近年来,大模型技术(如GPT、BERT、多模态大模型等)在自然语言理解、知识推理和生成任务中展现出强大能力,为智能搜索的语义理解、意图识别和个性化推荐提供了新的技术路径。同时,数据库技术在高效数据存储、索引优化和实时检索方面的持续演进,为构建支持大模型推理的高性能搜索系统奠定了基础。 2、研究方向:本课题旨在结合大模型技术与数据库技术,探索新一代智能搜索系统的核心架构与关键技术,突破传统搜索的语义理解瓶颈,构建更高效、精准且可扩展的智能搜索服务,满足复杂场景下的用户需求。
团队介绍: 字节跳动搜索团队主要负责抖音、国际化短视频、今日头条、西瓜视频等产品以及电商、生活服务等业务的搜索算法创新和架构研发工作。我们使用前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。 主要工作方向包括: 1、探索前沿的NLP技术:从基础的分词、NER,文本、多模态预训练,到业务上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战; 2、跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,实现多模态视频搜索强大的语义理解和检索能力; 3、大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你; 4、千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务的方方面面都有深入研究和创新; 5、推荐技术:基于超大规模机器学习技术,构建业界领先的搜索推荐系统,对搜索推荐技术进行探索和创新。 课题介绍: 1、课题背景:随着互联网数据规模的爆炸式增长和用户对搜索体验需求的不断提升,传统搜索引擎基于关键词匹配和规则推理的局限性日益凸显。例如,用户意图的复杂性、自然语言的歧义性、多模态数据(文本、图像、视频等)的融合检索需求,以及长尾查询的精准响应等问题,均对搜索系统的智能化提出了更高要求。 近年来,大模型技术(如GPT、BERT、多模态大模型等)在自然语言理解、知识推理和生成任务中展现出强大能力,为智能搜索的语义理解、意图识别和个性化推荐提供了新的技术路径。同时,数据库技术在高效数据存储、索引优化和实时检索方面的持续演进,为构建支持大模型推理的高性能搜索系统奠定了基础。 2、研究方向:本课题旨在结合大模型技术与数据库技术,探索新一代智能搜索系统的核心架构与关键技术,突破传统搜索的语义理解瓶颈,构建更高效、精准且可扩展的智能搜索服务,满足复杂场景下的用户需求。