logo of bytedance

字节跳动推荐特征工程师-Data-抖音/直播/电商/剪映-筋斗云人才计划

校招全职A21204地点:上海状态:招聘

任职要求


1、获得博士学位,人工智能、计算机、数学相关专业优先;
2、具备优秀的代码能力、数据结构和基础算法功底,根据方向要求:计算面需熟练Java/Scala/C++,数据面需熟练C/C++,智能编码方向需具备扎实的机器学习基础,在SIGMOD/VLDB/ICDE等顶级期刊会议上发表论文者优先;
3、向标准组织提出过提案并参与标准会议经验者优先;
4、具备出色的问题分析和解决能力,具备自主探索解决方案的主动性;具备良好的沟通协作能力,能与团队协作探索新技术并推进技术进步;具备出色的心理素质与应变能力,面对挑战勇于迎难而上,复杂局面中保持冷静与灵活性。

工作职责


团队介绍:推荐架构团队支撑字节跳动旗下多款APP产品,如抖音、今日头条、番茄小说、西瓜视频、剪映等推荐系统架构的设计和开发,保障系统的稳定和高可用,致力于抽象系统通用组件和服务,建设推荐中台、数据中台;关于在线服务,在这里你有机会参与大规模机器学习在线预估框架的研发与优化,也有机会参与模型训练与调度等相关问题的研究与突破,解决系统瓶颈,降低成本开销;如你对大数据感兴趣,在这里也有机会参与通用实时计算系统的开发、构建统一的推荐特征中台,为推荐业务实现先进的消重、计数、特征服务等;我们期待热爱技术的你加入,一起创造更多可能。

课题介绍:
1、课题背景
在人工智能技术高速发展的背景下,推荐系统作为信息过滤与个性化服务的核心,面临多重挑战:
(1)数据爆炸与模型复杂化
用户行为序列数据量呈指数级增长(百亿至千亿级/日),存储需求从单用户长序列扩展至多模态数据(文本、视频、Embedding等),传统存储架构面临读写性能瓶颈与成本压力;推荐大模型对数据质量敏感度提升,数据分布异常可能导致模型效果显著下降,亟需系统性数据质量评估与改进方法。
(2)异构计算与多模态处理需求
随着生成式AI(GenAI)的普及,多模态特征处理成为刚需,传统基于CPU的大数据框架(如Spark/Hadoop)难以高效处理非结构化数据,GPU/DPU等异构计算资源利用率不足;数据处理流程与模型训练脱节,ETL环节耗时长,CPU-GPU协同效率低下,导致算法迭代周期延长。
在此背景下,以数据为中心的人工智能(DCAI)与异构计算技术成为破局关键:
-DCAI 强调通过数据质量优化与自动化处理链路提升模型性能,而非单纯依赖模型改进;
-异构计算 通过统一调度CPU、GPU、DPU等资源,加速多模态数据处理与模型训练,实现降本增效。

2、课题目标
(1)构建支持多模态数据的低成本高性能存储引擎:支持百亿级用户行为序列与多模态数据混合存储,实现读写延时与存储量解耦,满足PB级数据天级回溯需求;
(2)设计自适应数据演化的Schema管理机制:动态兼容特征增删改,确保训推一致性,降低模型迭代中的数据迁移成本;
(3)研发多模态数据异构计算框架:实现CPU-GPU-DPU协同计算,加速ETL、特征处理与模型训练,提升资源利用率30%以上;
(4)建立数据质量与模型性能的量化评估体系:开发自动化工具链,通过强化学习优化数据清洗、增强与异常检测流程;
(5)打造以Python为核心的开发者生态:提供灵活API与可视化工具,支持快速接入多模态数据处理与DCAI优化链路。

3、研究内容
(1)多模态存储引擎与编码优化
- 混合存储架构
   - 分层设计:行为序列采用时间分区+LSM-Tree存储,多模态数据(如图像/文本)采用对象存储+元数据索引,结合CXL内存池化技术降低访问延迟;
   - 编码优化:针对用户行为序列设计变长Delta编码,多模态数据采用深度学习压缩模型(如VAE),压缩比提升50%以上。
-Schema动态演化
   - 开发基于Protobuf的版本化Schema语言,支持特征字段热更新,兼容历史数据回溯训练。
(2)异构计算框架与资源调度
- 计算引擎整合
   - 基于Ray构建统一数据湖,实现Spark/GPU算子混合编排,数据从ETL到训练Tensor化零拷贝传输;
   - 设计DPU加速层,将哈希计算、特征编码等操作卸载至智能网卡,释放CPU/GPU算力。
- 多模态处理优化
   - 文本/视频数据采用GPU流水线预处理,利用NVIDIA RAPIDS加速特征提取;
   - Embedding数据通过量化感知训练(QAT) 减少显存占用,支持FP16/INT8混合精度计算。
(3)数据质量与DCAI自动化链路
- 质量评估体系
   - 定义多维度指标:时空一致性(行为时序异常检测)、模态对齐度(图文匹配校验)、噪声容忍阈值(基于模型鲁棒性反推)。
   - 自动化优化工具
      - 开发强化学习代理,根据模型反馈自动选择数据清洗策略(如GAN-based数据增强 vs. 规则过滤);
      - 构建因果推理模块,定位数据分布偏移对模型AUC下降的贡献度,生成根因分析报告。
(4)开发者生态与效能提升
- Python原生接口
   - 提供声明式数据处理DSL,支持通过Python装饰器定义GPU加速算子(如@gpu_map);
   - 集成Jupyter可视化工具,实时展示数据质量热力图与模型性能关联分析。
- 效能监控体系
   - 建立资源-质量-效果三维监控看板,跟踪存储成本、数据处理吞吐量、模型AUC等核心指标。
包括英文材料
学历+
数据结构+
算法+
Java+
Scala+
C+++
C+
机器学习+
相关职位

logo of bytedance
校招A192513

团队介绍:推荐架构团队支撑字节跳动旗下多款APP产品,如抖音、今日头条、番茄小说、西瓜视频、剪映等推荐系统架构的设计和开发,保障系统的稳定和高可用,致力于抽象系统通用组件和服务,建设推荐中台、数据中台;关于在线服务,在这里你有机会参与大规模机器学习在线预估框架的研发与优化,也有机会参与模型训练与调度等相关问题的研究与突破,解决系统瓶颈,降低成本开销;如你对大数据感兴趣,在这里也有机会参与通用实时计算系统的开发、构建统一的推荐特征中台,为推荐业务实现先进的消重、计数、特征服务等;我们期待热爱技术的你加入,一起创造更多可能。 课题介绍: 1、课题背景 在人工智能技术高速发展的背景下,推荐系统作为信息过滤与个性化服务的核心,面临多重挑战: (1)数据爆炸与模型复杂化 用户行为序列数据量呈指数级增长(百亿至千亿级/日),存储需求从单用户长序列扩展至多模态数据(文本、视频、Embedding等),传统存储架构面临读写性能瓶颈与成本压力;推荐大模型对数据质量敏感度提升,数据分布异常可能导致模型效果显著下降,亟需系统性数据质量评估与改进方法。 (2)异构计算与多模态处理需求 随着生成式AI(GenAI)的普及,多模态特征处理成为刚需,传统基于CPU的大数据框架(如Spark/Hadoop)难以高效处理非结构化数据,GPU/DPU等异构计算资源利用率不足;数据处理流程与模型训练脱节,ETL环节耗时长,CPU-GPU协同效率低下,导致算法迭代周期延长。 在此背景下,以数据为中心的人工智能(DCAI)与异构计算技术成为破局关键: -DCAI 强调通过数据质量优化与自动化处理链路提升模型性能,而非单纯依赖模型改进; -异构计算 通过统一调度CPU、GPU、DPU等资源,加速多模态数据处理与模型训练,实现降本增效。 2、课题目标 (1)构建支持多模态数据的低成本高性能存储引擎:支持百亿级用户行为序列与多模态数据混合存储,实现读写延时与存储量解耦,满足PB级数据天级回溯需求; (2)设计自适应数据演化的Schema管理机制:动态兼容特征增删改,确保训推一致性,降低模型迭代中的数据迁移成本; (3)研发多模态数据异构计算框架:实现CPU-GPU-DPU协同计算,加速ETL、特征处理与模型训练,提升资源利用率30%以上; (4)建立数据质量与模型性能的量化评估体系:开发自动化工具链,通过强化学习优化数据清洗、增强与异常检测流程; (5)打造以Python为核心的开发者生态:提供灵活API与可视化工具,支持快速接入多模态数据处理与DCAI优化链路。 3、研究内容 (1)多模态存储引擎与编码优化 - 混合存储架构 - 分层设计:行为序列采用时间分区+LSM-Tree存储,多模态数据(如图像/文本)采用对象存储+元数据索引,结合CXL内存池化技术降低访问延迟; - 编码优化:针对用户行为序列设计变长Delta编码,多模态数据采用深度学习压缩模型(如VAE),压缩比提升50%以上。 -Schema动态演化 - 开发基于Protobuf的版本化Schema语言,支持特征字段热更新,兼容历史数据回溯训练。 (2)异构计算框架与资源调度 - 计算引擎整合 - 基于Ray构建统一数据湖,实现Spark/GPU算子混合编排,数据从ETL到训练Tensor化零拷贝传输; - 设计DPU加速层,将哈希计算、特征编码等操作卸载至智能网卡,释放CPU/GPU算力。 - 多模态处理优化 - 文本/视频数据采用GPU流水线预处理,利用NVIDIA RAPIDS加速特征提取; - Embedding数据通过量化感知训练(QAT) 减少显存占用,支持FP16/INT8混合精度计算。 (3)数据质量与DCAI自动化链路 - 质量评估体系 - 定义多维度指标:时空一致性(行为时序异常检测)、模态对齐度(图文匹配校验)、噪声容忍阈值(基于模型鲁棒性反推)。 - 自动化优化工具 - 开发强化学习代理,根据模型反馈自动选择数据清洗策略(如GAN-based数据增强 vs. 规则过滤); - 构建因果推理模块,定位数据分布偏移对模型AUC下降的贡献度,生成根因分析报告。 (4)开发者生态与效能提升 - Python原生接口 - 提供声明式数据处理DSL,支持通过Python装饰器定义GPU加速算子(如@gpu_map); - 集成Jupyter可视化工具,实时展示数据质量热力图与模型性能关联分析。 - 效能监控体系 - 建立资源-质量-效果三维监控看板,跟踪存储成本、数据处理吞吐量、模型AUC等核心指标。

更新于 2025-05-19
logo of bytedance
校招A212367A

团队介绍:推荐架构团队支撑字节跳动旗下多款APP产品,如抖音、今日头条、番茄小说、西瓜视频、剪映等推荐系统架构的设计和开发,保障系统的稳定和高可用,致力于抽象系统通用组件和服务,建设推荐中台、数据中台;关于在线服务,在这里你有机会参与大规模机器学习在线预估框架的研发与优化,也有机会参与模型训练与调度等相关问题的研究与突破,解决系统瓶颈,降低成本开销;如你对大数据感兴趣,在这里也有机会参与通用实时计算系统的开发、构建统一的推荐特征中台,为推荐业务实现先进的消重、计数、特征服务等;我们期待热爱技术的你加入,一起创造更多可能。 课题介绍: 在人工智能技术高速发展的背景下,推荐系统作为信息过滤与个性化服务的核心,面临多重挑战: 一方面,推荐系统自身的复杂性急剧增加。大量推荐策略不断演进迭代、且系统状态动态变化,但缺乏有效手段自动跟踪评估策略有效性并下线低 ROI 策略,导致系统存在较多低效策略。同时,推荐系统依赖多种基础组件,其复杂负载模型给底层组件参数配置和性能调优带来巨大困难,日常开发迭代中的问题排查等工作消耗大量人力,亟需提升开发效率、降低人力成本。 另一方面,随着电商行业等领域的激烈竞争,传统推荐系统在多样性、创新性和个性化方面的短板愈发凸显,难以满足用户日益增长的多元需求。生成式人工智能技术虽带来新突破,但在实际应用中面临成本效率、全域数据协同、数据隐私与安全以及技术变革应对等诸多难题。 课题内容: 1、策略管理与优化:构建一套智能化系统,实现推荐策略的规范化定义、长期及离线评估、无效策略自动识别与下线,以及相关代码配置的下线; 2、自适应调优与故障诊断:针对推荐系统多样化业务负载,利用大模型能力完成系统及底层组件的参数和配置调优,并探索自适应故障诊断方案,提供全局视角的故障追踪、定位和分析能力; 3、成本与效率平衡:在推荐系统应用生成式技术时,解决模型训练和运行的高成本问题,平衡成本与效率,在有限资源下实现高效推荐; 4、全域数据处理:应对电商等横向全域场景下海量异构数据,提升和保障数据质量与准确性,标准化供给数据给全域推荐模型,并实现低成本跨端服务,同时,确保数据隐私与安全,合规使用数据; 5、多模态数据表征和 RAG 应用系统:应对推荐、检索、问答、创作场景的多模态数据需求,提供数据理解、预处理、索引、召回环节的完整解决方案,提供知识、记忆服务能力,并针对各类大小模型负载进行系统优化,最大化信息处理效率和精度。

更新于 2025-05-19
logo of bytedance
校招A124004A

团队介绍:推荐架构团队支撑字节跳动旗下多款APP产品,如抖音、今日头条、番茄小说、西瓜视频、剪映等推荐系统架构的设计和开发,保障系统的稳定和高可用,致力于抽象系统通用组件和服务,建设推荐中台、数据中台;关于在线服务,在这里你有机会参与大规模机器学习在线预估框架的研发与优化,也有机会参与模型训练与调度等相关问题的研究与突破,解决系统瓶颈,降低成本开销;如你对大数据感兴趣,在这里也有机会参与通用实时计算系统的开发、构建统一的推荐特征中台,为推荐业务实现先进的消重、计数、特征服务等;我们期待热爱技术的你加入,一起创造更多可能。 课题介绍: 在人工智能技术高速发展的背景下,推荐系统作为信息过滤与个性化服务的核心,面临多重挑战: 一方面,推荐系统自身的复杂性急剧增加。大量推荐策略不断演进迭代、且系统状态动态变化,但缺乏有效手段自动跟踪评估策略有效性并下线低 ROI 策略,导致系统存在较多低效策略。同时,推荐系统依赖多种基础组件,其复杂负载模型给底层组件参数配置和性能调优带来巨大困难,日常开发迭代中的问题排查等工作消耗大量人力,亟需提升开发效率、降低人力成本。 另一方面,随着电商行业等领域的激烈竞争,传统推荐系统在多样性、创新性和个性化方面的短板愈发凸显,难以满足用户日益增长的多元需求。生成式人工智能技术虽带来新突破,但在实际应用中面临成本效率、全域数据协同、数据隐私与安全以及技术变革应对等诸多难题。 课题内容: 1、策略管理与优化:构建一套智能化系统,实现推荐策略的规范化定义、长期及离线评估、无效策略自动识别与下线,以及相关代码配置的下线; 2、自适应调优与故障诊断:针对推荐系统多样化业务负载,利用大模型能力完成系统及底层组件的参数和配置调优,并探索自适应故障诊断方案,提供全局视角的故障追踪、定位和分析能力; 3、成本与效率平衡:在推荐系统应用生成式技术时,解决模型训练和运行的高成本问题,平衡成本与效率,在有限资源下实现高效推荐; 4、全域数据处理:应对电商等横向全域场景下海量异构数据,提升和保障数据质量与准确性,标准化供给数据给全域推荐模型,并实现低成本跨端服务,同时,确保数据隐私与安全,合规使用数据; 5、多模态数据表征和 RAG 应用系统:应对推荐、检索、问答、创作场景的多模态数据需求,提供数据理解、预处理、索引、召回环节的完整解决方案,提供知识、记忆服务能力,并针对各类大小模型负载进行系统优化,最大化信息处理效率和精度。

更新于 2025-05-19
logo of bytedance
社招A39578

团队介绍:Data-电商团队,负责电商创新项目的算法和大数据工作。依托于字节跳动产品,帮助用户发现并获得好物,享受美好生活。在这个团队,我们不仅要通过推荐和搜索算法帮助用户买到感兴趣的好东西,也要通过风控算法和智能平台治理算法去甄别违规行为,保护用户的购物体验;我们还要建设智能客服技术、大规模商品知识图谱来提升各个交易环节的效率;我们也要结合机器学习和运筹算法,来优化供应链和物流的效率和成本,并进一步提升用户体验;另外我们还会用人工智能来帮助商家提升经营能力。我们的使命:没有难卖的优价好物,让美好生活触手可得。 课题介绍: 背景:本项目旨在探索推荐领域下的大模型新范式,突破现在持续了较长时间的推荐模型结构和Infra的方案,且效果大幅好于现在的基线模型,在抖音短视频/直播/电商/头条/剪映等多个业务场景上得到应用。推荐领域的大模型是比较有挑战的事情,推荐对工程效率的要求更高,且用户的推荐体验上是个性化的,本课题会以下多个方向来做深入的研究,探索和建设推荐场景的大模型方案,大幅提升推荐模型的天花板。 1、在电商推荐海量用户与商品的数据下,探索大模型、大算力与推荐系统的结合; 2、探索多模态大模型等技术,提升相关类场景效果与用户体验; 3、探索LLM和推荐系统的结合、生成式推荐等方向,进一步提升信息匹配的效率。

更新于 2025-05-27