【字节跳动】推荐架构工程师-Data-抖音/直播/电商/剪映

校招A21204

团队介绍：推荐架构团队支撑字节跳动旗下多款APP产品，如抖音、今日头条、番茄小说、西瓜视频、剪映等推荐系统架构的设计和开发，保障系统的稳定和高可用，致力于抽象系统通用组件和服务，建设推荐中台、数据中台；关于在线服务，在这里你有机会参与大规模机器学习在线预估框架的研发与优化，也有机会参与模型训练与调度等相关问题的研究与突破，解决系统瓶颈，降低成本开销；如你对大数据感兴趣，在这里也有机会参与通用实时计算系统的开发、构建统一的推荐特征中台，为推荐业务实现先进的消重、计数、特征服务等；我们期待热爱技术的你加入，一起创造更多可能。课题介绍： 1、课题背景在人工智能技术高速发展的背景下，推荐系统作为信息过滤与个性化服务的核心，面临多重挑战：（1）数据爆炸与模型复杂化用户行为序列数据量呈指数级增长（百亿至千亿级/日），存储需求从单用户长序列扩展至多模态数据（文本、视频、Embedding等），传统存储架构面临读写性能瓶颈与成本压力；推荐大模型对数据质量敏感度提升，数据分布异常可能导致模型效果显著下降，亟需系统性数据质量评估与改进方法。（2）异构计算与多模态处理需求随着生成式AI（GenAI）的普及，多模态特征处理成为刚需，传统基于CPU的大数据框架（如Spark/Hadoop）难以高效处理非结构化数据，GPU/DPU等异构计算资源利用率不足；数据处理流程与模型训练脱节，ETL环节耗时长，CPU-GPU协同效率低下，导致算法迭代周期延长。在此背景下，以数据为中心的人工智能（DCAI）与异构计算技术成为破局关键： -DCAI 强调通过数据质量优化与自动化处理链路提升模型性能，而非单纯依赖模型改进； -异构计算通过统一调度CPU、GPU、DPU等资源，加速多模态数据处理与模型训练，实现降本增效。 2、课题目标（1）构建支持多模态数据的低成本高性能存储引擎：支持百亿级用户行为序列与多模态数据混合存储，实现读写延时与存储量解耦，满足PB级数据天级回溯需求；（2）设计自适应数据演化的Schema管理机制：动态兼容特征增删改，确保训推一致性，降低模型迭代中的数据迁移成本；（3）研发多模态数据异构计算框架：实现CPU-GPU-DPU协同计算，加速ETL、特征处理与模型训练，提升资源利用率30%以上；（4）建立数据质量与模型性能的量化评估体系：开发自动化工具链，通过强化学习优化数据清洗、增强与异常检测流程；（5）打造以Python为核心的开发者生态：提供灵活API与可视化工具，支持快速接入多模态数据处理与DCAI优化链路。 3、研究内容（1）多模态存储引擎与编码优化 - 混合存储架构 - 分层设计：行为序列采用时间分区+LSM-Tree存储，多模态数据（如图像/文本）采用对象存储+元数据索引，结合CXL内存池化技术降低访问延迟； - 编码优化：针对用户行为序列设计变长Delta编码，多模态数据采用深度学习压缩模型（如VAE），压缩比提升50%以上。 -Schema动态演化 - 开发基于Protobuf的版本化Schema语言，支持特征字段热更新，兼容历史数据回溯训练。（2）异构计算框架与资源调度 - 计算引擎整合 - 基于Ray构建统一数据湖，实现Spark/GPU算子混合编排，数据从ETL到训练Tensor化零拷贝传输； - 设计DPU加速层，将哈希计算、特征编码等操作卸载至智能网卡，释放CPU/GPU算力。 - 多模态处理优化 - 文本/视频数据采用GPU流水线预处理，利用NVIDIA RAPIDS加速特征提取； - Embedding数据通过量化感知训练（QAT）减少显存占用，支持FP16/INT8混合精度计算。（3）数据质量与DCAI自动化链路 - 质量评估体系 - 定义多维度指标：时空一致性（行为时序异常检测）、模态对齐度（图文匹配校验）、噪声容忍阈值（基于模型鲁棒性反推）。 - 自动化优化工具 - 开发强化学习代理，根据模型反馈自动选择数据清洗策略（如GAN-based数据增强 vs. 规则过滤）； - 构建因果推理模块，定位数据分布偏移对模型AUC下降的贡献度，生成根因分析报告。（4）开发者生态与效能提升 - Python原生接口 - 提供声明式数据处理DSL，支持通过Python装饰器定义GPU加速算子（如@gpu_map）； - 集成Jupyter可视化工具，实时展示数据质量热力图与模型性能关联分析。 - 效能监控体系 - 建立资源-质量-效果三维监控看板，跟踪存储成本、数据处理吞吐量、模型AUC等核心指标。

更新于 2025-05-19上海

推荐特征工程师-Data-抖音/直播/电商/剪映-筋斗云人才计划

校招A192513

团队介绍：推荐架构团队支撑字节跳动旗下多款APP产品，如抖音、今日头条、番茄小说、西瓜视频、剪映等推荐系统架构的设计和开发，保障系统的稳定和高可用，致力于抽象系统通用组件和服务，建设推荐中台、数据中台；关于在线服务，在这里你有机会参与大规模机器学习在线预估框架的研发与优化，也有机会参与模型训练与调度等相关问题的研究与突破，解决系统瓶颈，降低成本开销；如你对大数据感兴趣，在这里也有机会参与通用实时计算系统的开发、构建统一的推荐特征中台，为推荐业务实现先进的消重、计数、特征服务等；我们期待热爱技术的你加入，一起创造更多可能。课题介绍： 1、课题背景在人工智能技术高速发展的背景下，推荐系统作为信息过滤与个性化服务的核心，面临多重挑战：（1）数据爆炸与模型复杂化用户行为序列数据量呈指数级增长（百亿至千亿级/日），存储需求从单用户长序列扩展至多模态数据（文本、视频、Embedding等），传统存储架构面临读写性能瓶颈与成本压力；推荐大模型对数据质量敏感度提升，数据分布异常可能导致模型效果显著下降，亟需系统性数据质量评估与改进方法。（2）异构计算与多模态处理需求随着生成式AI（GenAI）的普及，多模态特征处理成为刚需，传统基于CPU的大数据框架（如Spark/Hadoop）难以高效处理非结构化数据，GPU/DPU等异构计算资源利用率不足；数据处理流程与模型训练脱节，ETL环节耗时长，CPU-GPU协同效率低下，导致算法迭代周期延长。在此背景下，以数据为中心的人工智能（DCAI）与异构计算技术成为破局关键： -DCAI 强调通过数据质量优化与自动化处理链路提升模型性能，而非单纯依赖模型改进； -异构计算通过统一调度CPU、GPU、DPU等资源，加速多模态数据处理与模型训练，实现降本增效。 2、课题目标（1）构建支持多模态数据的低成本高性能存储引擎：支持百亿级用户行为序列与多模态数据混合存储，实现读写延时与存储量解耦，满足PB级数据天级回溯需求；（2）设计自适应数据演化的Schema管理机制：动态兼容特征增删改，确保训推一致性，降低模型迭代中的数据迁移成本；（3）研发多模态数据异构计算框架：实现CPU-GPU-DPU协同计算，加速ETL、特征处理与模型训练，提升资源利用率30%以上；（4）建立数据质量与模型性能的量化评估体系：开发自动化工具链，通过强化学习优化数据清洗、增强与异常检测流程；（5）打造以Python为核心的开发者生态：提供灵活API与可视化工具，支持快速接入多模态数据处理与DCAI优化链路。 3、研究内容（1）多模态存储引擎与编码优化 - 混合存储架构 - 分层设计：行为序列采用时间分区+LSM-Tree存储，多模态数据（如图像/文本）采用对象存储+元数据索引，结合CXL内存池化技术降低访问延迟； - 编码优化：针对用户行为序列设计变长Delta编码，多模态数据采用深度学习压缩模型（如VAE），压缩比提升50%以上。 -Schema动态演化 - 开发基于Protobuf的版本化Schema语言，支持特征字段热更新，兼容历史数据回溯训练。（2）异构计算框架与资源调度 - 计算引擎整合 - 基于Ray构建统一数据湖，实现Spark/GPU算子混合编排，数据从ETL到训练Tensor化零拷贝传输； - 设计DPU加速层，将哈希计算、特征编码等操作卸载至智能网卡，释放CPU/GPU算力。 - 多模态处理优化 - 文本/视频数据采用GPU流水线预处理，利用NVIDIA RAPIDS加速特征提取； - Embedding数据通过量化感知训练（QAT）减少显存占用，支持FP16/INT8混合精度计算。（3）数据质量与DCAI自动化链路 - 质量评估体系 - 定义多维度指标：时空一致性（行为时序异常检测）、模态对齐度（图文匹配校验）、噪声容忍阈值（基于模型鲁棒性反推）。 - 自动化优化工具 - 开发强化学习代理，根据模型反馈自动选择数据清洗策略（如GAN-based数据增强 vs. 规则过滤）； - 构建因果推理模块，定位数据分布偏移对模型AUC下降的贡献度，生成根因分析报告。（4）开发者生态与效能提升 - Python原生接口 - 提供声明式数据处理DSL，支持通过Python装饰器定义GPU加速算子（如@gpu_map）； - 集成Jupyter可视化工具，实时展示数据质量热力图与模型性能关联分析。 - 效能监控体系 - 建立资源-质量-效果三维监控看板，跟踪存储成本、数据处理吞吐量、模型AUC等核心指标。

更新于 2025-05-19北京

机器学习系统研发工程师-Data-抖音/直播/电商/剪映

校招A203402

团队介绍：推荐架构团队支撑字节跳动旗下多款APP产品，如抖音、今日头条、番茄小说、西瓜视频、剪映等推荐系统架构的设计和开发，保障系统的稳定和高可用，致力于抽象系统通用组件和服务，建设推荐中台、数据中台；关于在线服务，在这里你有机会参与大规模机器学习在线预估框架的研发与优化，也有机会参与模型训练与调度等相关问题的研究与突破，解决系统瓶颈，降低成本开销；如你对大数据感兴趣，在这里也有机会参与通用实时计算系统的开发、构建统一的推荐特征中台，为推荐业务实现先进的消重、计数、特征服务等；我们期待热爱技术的你加入，一起创造更多可能。 1、针对抖音的精粗排、召回等模型场景，提供高效、稳定且高性能的模型工程统一解决方案； 2、通过极致的软硬件结合方案，优化在线推理和离线训练性能，助力复杂网络结构落地； 3、基于业界前沿的训练和推理范式，探索异构加速卡、多机多卡并行、分级存储等优化技术； 4、致力于从样本、特征、推理、训练端到端视角，突破现有算力限制，提升全链路漏斗效率； 5、与推荐算法同学紧密合作，Co-design的方式打破工程与算法边界，加速抖音业务发展。

更新于 2025-08-11上海

校招A212367A

团队介绍：推荐架构团队支撑字节跳动旗下多款APP产品，如抖音、今日头条、番茄小说、西瓜视频、剪映等推荐系统架构的设计和开发，保障系统的稳定和高可用，致力于抽象系统通用组件和服务，建设推荐中台、数据中台；关于在线服务，在这里你有机会参与大规模机器学习在线预估框架的研发与优化，也有机会参与模型训练与调度等相关问题的研究与突破，解决系统瓶颈，降低成本开销；如你对大数据感兴趣，在这里也有机会参与通用实时计算系统的开发、构建统一的推荐特征中台，为推荐业务实现先进的消重、计数、特征服务等；我们期待热爱技术的你加入，一起创造更多可能。课题介绍：在人工智能技术高速发展的背景下，推荐系统作为信息过滤与个性化服务的核心，面临多重挑战：一方面，推荐系统自身的复杂性急剧增加。大量推荐策略不断演进迭代、且系统状态动态变化，但缺乏有效手段自动跟踪评估策略有效性并下线低 ROI 策略，导致系统存在较多低效策略。同时，推荐系统依赖多种基础组件，其复杂负载模型给底层组件参数配置和性能调优带来巨大困难，日常开发迭代中的问题排查等工作消耗大量人力，亟需提升开发效率、降低人力成本。另一方面，随着电商行业等领域的激烈竞争，传统推荐系统在多样性、创新性和个性化方面的短板愈发凸显，难以满足用户日益增长的多元需求。生成式人工智能技术虽带来新突破，但在实际应用中面临成本效率、全域数据协同、数据隐私与安全以及技术变革应对等诸多难题。课题内容： 1、策略管理与优化：构建一套智能化系统，实现推荐策略的规范化定义、长期及离线评估、无效策略自动识别与下线，以及相关代码配置的下线； 2、自适应调优与故障诊断：针对推荐系统多样化业务负载，利用大模型能力完成系统及底层组件的参数和配置调优，并探索自适应故障诊断方案，提供全局视角的故障追踪、定位和分析能力； 3、成本与效率平衡：在推荐系统应用生成式技术时，解决模型训练和运行的高成本问题，平衡成本与效率，在有限资源下实现高效推荐； 4、全域数据处理：应对电商等横向全域场景下海量异构数据，提升和保障数据质量与准确性，标准化供给数据给全域推荐模型，并实现低成本跨端服务，同时，确保数据隐私与安全，合规使用数据； 5、多模态数据表征和 RAG 应用系统：应对推荐、检索、问答、创作场景的多模态数据需求，提供数据理解、预处理、索引、召回环节的完整解决方案，提供知识、记忆服务能力，并针对各类大小模型负载进行系统优化，最大化信息处理效率和精度。

更新于 2025-05-19上海

字节跳动推荐架构工程师-Data-抖音/直播/电商/剪映

任职要求

工作职责