logo of bytedance

字节跳动推荐特征工程师-Data-抖音/直播/电商/剪映-筋斗云人才计划

校招全职A21204地点:上海状态:招聘

任职要求


1、获得博士学位,人工智能、计算机、数学相关专业优先;
2、具备优秀的代码能力、数据结构和基础算法功底,根据方向要求:计算面需熟练Java/Scala/C++,数据面需熟练C/C++,智能编码方向需具备扎实的机器学习基础,在SIGMOD/VLDB/ICDE等顶级期刊会议上发…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


团队介绍:推荐架构团队支撑字节跳动旗下多款APP产品,如抖音、今日头条、番茄小说、西瓜视频、剪映等推荐系统架构的设计和开发,保障系统的稳定和高可用,致力于抽象系统通用组件和服务,建设推荐中台、数据中台;关于在线服务,在这里你有机会参与大规模机器学习在线预估框架的研发与优化,也有机会参与模型训练与调度等相关问题的研究与突破,解决系统瓶颈,降低成本开销;如你对大数据感兴趣,在这里也有机会参与通用实时计算系统的开发、构建统一的推荐特征中台,为推荐业务实现先进的消重、计数、特征服务等;我们期待热爱技术的你加入,一起创造更多可能。

课题介绍:
1、课题背景
在人工智能技术高速发展的背景下,推荐系统作为信息过滤与个性化服务的核心,面临多重挑战:
(1)数据爆炸与模型复杂化
用户行为序列数据量呈指数级增长(百亿至千亿级/日),存储需求从单用户长序列扩展至多模态数据(文本、视频、Embedding等),传统存储架构面临读写性能瓶颈与成本压力;推荐大模型对数据质量敏感度提升,数据分布异常可能导致模型效果显著下降,亟需系统性数据质量评估与改进方法。
(2)异构计算与多模态处理需求
随着生成式AI(GenAI)的普及,多模态特征处理成为刚需,传统基于CPU的大数据框架(如Spark/Hadoop)难以高效处理非结构化数据,GPU/DPU等异构计算资源利用率不足;数据处理流程与模型训练脱节,ETL环节耗时长,CPU-GPU协同效率低下,导致算法迭代周期延长。
在此背景下,以数据为中心的人工智能(DCAI)与异构计算技术成为破局关键:
-DCAI 强调通过数据质量优化与自动化处理链路提升模型性能,而非单纯依赖模型改进;
-异构计算 通过统一调度CPU、GPU、DPU等资源,加速多模态数据处理与模型训练,实现降本增效。

2、课题目标
(1)构建支持多模态数据的低成本高性能存储引擎:支持百亿级用户行为序列与多模态数据混合存储,实现读写延时与存储量解耦,满足PB级数据天级回溯需求;
(2)设计自适应数据演化的Schema管理机制:动态兼容特征增删改,确保训推一致性,降低模型迭代中的数据迁移成本;
(3)研发多模态数据异构计算框架:实现CPU-GPU-DPU协同计算,加速ETL、特征处理与模型训练,提升资源利用率30%以上;
(4)建立数据质量与模型性能的量化评估体系:开发自动化工具链,通过强化学习优化数据清洗、增强与异常检测流程;
(5)打造以Python为核心的开发者生态:提供灵活API与可视化工具,支持快速接入多模态数据处理与DCAI优化链路。

3、研究内容
(1)多模态存储引擎与编码优化
- 混合存储架构
   - 分层设计:行为序列采用时间分区+LSM-Tree存储,多模态数据(如图像/文本)采用对象存储+元数据索引,结合CXL内存池化技术降低访问延迟;
   - 编码优化:针对用户行为序列设计变长Delta编码,多模态数据采用深度学习压缩模型(如VAE),压缩比提升50%以上。
-Schema动态演化
   - 开发基于Protobuf的版本化Schema语言,支持特征字段热更新,兼容历史数据回溯训练。
(2)异构计算框架与资源调度
- 计算引擎整合
   - 基于Ray构建统一数据湖,实现Spark/GPU算子混合编排,数据从ETL到训练Tensor化零拷贝传输;
   - 设计DPU加速层,将哈希计算、特征编码等操作卸载至智能网卡,释放CPU/GPU算力。
- 多模态处理优化
   - 文本/视频数据采用GPU流水线预处理,利用NVIDIA RAPIDS加速特征提取;
   - Embedding数据通过量化感知训练(QAT) 减少显存占用,支持FP16/INT8混合精度计算。
(3)数据质量与DCAI自动化链路
- 质量评估体系
   - 定义多维度指标:时空一致性(行为时序异常检测)、模态对齐度(图文匹配校验)、噪声容忍阈值(基于模型鲁棒性反推)。
   - 自动化优化工具
      - 开发强化学习代理,根据模型反馈自动选择数据清洗策略(如GAN-based数据增强 vs. 规则过滤);
      - 构建因果推理模块,定位数据分布偏移对模型AUC下降的贡献度,生成根因分析报告。
(4)开发者生态与效能提升
- Python原生接口
   - 提供声明式数据处理DSL,支持通过Python装饰器定义GPU加速算子(如@gpu_map);
   - 集成Jupyter可视化工具,实时展示数据质量热力图与模型性能关联分析。
- 效能监控体系
   - 建立资源-质量-效果三维监控看板,跟踪存储成本、数据处理吞吐量、模型AUC等核心指标。
包括英文材料
学历+
数据结构+
算法+
Java+
还有更多 •••
相关职位

logo of bytedance
社招3年以上A85984

1、配合电路设计工程师完成相应BLOCK的版图工作; 2、可以独立完成相应版图的DRC/LVS/ERC的验证工作; 3、优化版图并减少寄生,优化EMIR; 4、与电路设计工程师充分沟通,确保版图符合设计者的要求。

更新于 2025-03-10北京
logo of kuaishou
社招1年以上D4899

1、负责搭建快手NLP技术体系,包括但不限于文本分类、知识图谱、翻译、对话等; 2、与业务部门进行沟通与协作,交付满足产品需求的核心算法模型与能力。

更新于 2025-04-11北京
logo of kuaishou
社招D4899

1、负责AI小快智能助理机器人的研究和开发; 2、优化基础模型,并采用RAG、Agent等大模型衍生框架,来提升相关业务指标; 3、持续跟进并深入调研大模型前沿技术、开源方案,跟踪业内大模型领域的最新进展并推进相关研究,探寻将最新技术应用到AI小快的可能性。

更新于 2025-04-11北京
logo of meituan
社招3年以上Keeta

1. 营销策划与执行:负责平台站内营销活动/大促的策略输出、创意策划和落地执行,包括但不限于节日节点。根据目标用户群体、营销主题与市场需求,设计站内+站外创意活动方案,提升平台新客获取和老客留存,推动平台交易增长。 2. 跨部门协调与合作:与市场、产品等团队紧密合作,组织跨部门会议,推动活动进展与关键节点的按时落地。 3. 数据分析与优化:跟踪活动的效果,分析流量、转化、补贴等数据,及时优化营销策略。基于数据结果提出优化方案,确保活动持续提升平台效益。 4. 活动Communication:设计传播策略和传播节奏,通过站内渠道和站外媒体推广活动内容,确保物料符合主题氛围并激发用户参与兴趣。 1. Marketing Planning & Execution: Responsible for the strategy, creative planning, and execution of on-platform marketing activities and major promotions, including but not limited to holiday campaigns. Design on-platform and off-platform creative activity plans based on target user groups, marketing themes, and market demand to enhance user acquisition, retention, and drive platform transaction growth. 2. Cross-Department Coordination & Collaboration: Work closely with teams such as Marketing, Product, and others. Organize cross-department meetings to drive the progress of activities and ensure key milestones are met on time. 3. Data Analysis & Optimization: Track and analyze the effectiveness of campaigns, including metrics such as traffic, conversion, and subsidies. Continuously optimize marketing strategies based on data insights and propose improvement plans to ensure sustained platform benefits. 4. Campaign Communication: Design communication strategies and timing for campaign promotion through on-platform channels and external media. Ensure that marketing materials align with the campaign theme and generate user interest and participation.

更新于 2026-03-24圣保罗