字节跳动搜索数据架构工程师
社招全职A17093A地点:北京状态:招聘
任职要求
1、熟悉Java、C++、Scala、Python等编程语言,有出色的编码和Trouble-Shooting能力; 2、出色的分析问题、解决问题能力,对挑战技术难题充满激情; 3、对批式计算系统有深入的了解,有大规模Spark计算系统开发经验,深入掌握Spark Core、SparkSQL等模块; 4、对流式计算系统有深入的了解,有大规模Flink实时计算系统开发经验,深入掌握Flink DataStream、FlinkSQL、Flink Checkpoint、Flink State等模块; 5、熟悉常见消息队列原理和应用调优,有Kafka、Plu…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
团队介绍:负责抖音、今日头条等产品的搜索算法创新和架构研发工作。我们使用前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,以及应用RAG技术,使得AI对数亿抖音用户的潜在价值得以实现。充分给同学们提供成长自我的机会。 1、探索前沿的检索技术:横跨视频、直播、图文、团购等众多体裁,从基础的NLP技术,到基于多模态理解、用户行为理解、EMBED DING相似性等的召回; 2、探索大规模的排序技术:在原有BERT、大规模稀疏模型的基础上,探索和落地超大规模自回归模型SCALING LAW; 3、探索超大规模的AI搜索RAG引擎:充分挖掘抖音海量流量的潜在价值,建设超大规模、多AGENT协同的AI搜整体架构,满足潜在的用户价值; 4、大规模流式机器学习技术:超高吞吐实时数据流,流式大规模机器学习,让更个性化的搜索更加懂你; 5、千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务的方方面面都有深入研究和创新。 1、为大规模搜索系统设计并实现合理的批式、流式计算数据系统; 2、设计开发千亿级网页搜索的数据流、分布式建库、在线检索系统; 3、设计面向视频、图文、电商等不同体裁的大规模数据处理平台,研发搜索建库系统; 4、跟进业界技术趋势,推动新技术、新方法在建库、特征生产、样本工程应用落地。
包括英文材料
Java+
https://www.youtube.com/watch?v=eIrMbAQSU34
Master Java – a must-have language for software development, Android apps, and more! ☕️ This beginner-friendly course takes you from basics to real coding skills.
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
Scala+
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
Spark+
[英文] Learning Spark Book
https://pages.databricks.com/rs/094-YMS-629/images/LearningSpark2.0.pdf
This new edition has been updated to reflect Apache Spark’s evolution through Spark 2.x and Spark 3.0, including its expanded ecosystem of built-in and external data sources, machine learning, and streaming technologies with which Spark is tightly integrated.
Flink+
https://nightlies.apache.org/flink/flink-docs-release-2.0/docs/learn-flink/overview/
This training presents an introduction to Apache Flink that includes just enough to get you started writing scalable streaming ETL, analytics, and event-driven applications, while leaving out a lot of (ultimately important) details.
https://www.youtube.com/watch?v=WajYe9iA2Uk&list=PLa7VYi0yPIH2GTo3vRtX8w9tgNTTyYSux
Today’s businesses are increasingly software-defined, and their business processes are being automated. Whether it’s orders and shipments, or downloads and clicks, business events can always be streamed. Flink can be used to manipulate, process, and react to these streaming events as they occur.
消息队列+
https://www.youtube.com/watch?v=xErwDaOc-Gs
还有更多 •••
相关职位
社招MEG
-负责搜索在线架构,包括文本搜索、视频搜索、图片搜索、语音检索、视觉检索、资讯/热议等各类搜索系统的架构研发工作 -负责服务治理与重构、云原生架构改造、搜索性能优化,保证搜索系统的可扩展性与可持续发展 -负责高并发架构机制、稳定性工程、检索延时优化、数据流系统研发,保证搜索系统全面可用性 -负责机器学习应用落地与智能化语义检索,提升搜索的智能化水平 -负责基础检索、排序架构、展现架构机制革新,支持用户体验、内容生态的革新
更新于 2025-06-10北京
社招MEG
-负责搜索在线架构,包括文本搜索、视频搜索、图片搜索、语音检索、视觉检索、资讯/热议等各类搜索系统的架构研发工作 -负责服务治理与重构、云原生架构改造、搜索性能优化,保证搜索系统的可扩展性与可持续发展 -负责高并发架构机制、稳定性工程、检索延时优化、数据流系统研发,保证搜索系统全面可用性 -负责AI大模型 和 机器学习应用落地与智能化语义检索,提升搜索的智能化水平 -负责基础检索、排序架构、展现架构机制革新,支持用户体验、内容生态的革新
更新于 2025-09-23北京
社招核心本地商业-点
建设面向多场景的数据平台能力,支持业务的高效迭代,包括但不限于: 1. 构建用户基础画像、行为序列等离在线的数据系统和平台; 2. 优化搜推索引数据架构,提升索引数据时效性与平台能力; 3. 构建大规模机器学习特征和样本系统,开发适合大规模搜索、推荐场景的平台能力,优化离在线特征样本处理的能力; 4. 调研业界前沿技术发展动态,结合业务实际情况,实现在业务的落地。
更新于 2025-05-12北京|上海