字节跳动Data+AI资深专家/TechLead(大模型数据方向)-Data
任职要求
1、3年及以上数据/AI方向的工作经验,本科及以上学历,博士优先; 2、熟悉Spark、Ray、Iceberg、Lance等引擎,有丰富的开源社区贡献,主导过开源项目者优先; 3、熟练使用常见开源大模型(如DeepSeek)、商业大模型产品、MaaS产品者优先; 4、有敏锐的创新思维,擅长思考规划,有较好的推动力,有一定的团队管理经验者优先。
工作职责
1、负责Data+AI方向的ToB产品的演进规划、竞争力建设和研发,打造业内领先的产品; 2、负责计算和存储引擎内核的深度优化,领先开源社区和行业,给客户提供增量价值; 3、负责大模型数据处理框架的研发、数据处理算子的研发,引领市场需求; 4、与火山引擎方舟、机器学习平台等产品深度生态对接,打造AI全链路组合竞争力; 5、支撑客户的预训练、后训练、模型蒸馏、AI搜索、RAG、Agent等场景的数据需求。
以数据库引擎PolarDB/ADB/Lindorm为数据存储和计算底座,基于此构建in-DB的数据库垂类AI服务. 具体围绕: A. 数据库AI算子的开发。算法研发方向重点为自然语言技术在数据库上的应用。围绕自然语言转SQL/NL2SQL,基于RAG和行业知识的推理逻辑加强,图/知识库自动构建,实体与关系的分析挖掘,和基于Model Context Protocol的数据库AI agent能力。 尤其是在DATA+AI方向具有显著行业数据计算属性的量化金融的国内数据库市场,优化AI推理和针对交易数据的in-DB智能高性能计算算子,以增强阿里云数据库引擎产品在国内量化金融市场的影响力, 并支持数据库引擎团队打下新市场。 B. 适合数据库相对资源受限计算情况下的复杂AI算子推理加速, 并对传统数据库执行计划在新置AI算子的新情境下进行性能联合优化。 围绕transformer架构的推理加速(KVCache, SGlang, vLLM和)等关键AI推理框架的系统底层优化,开发数据库在量化金融市场中的高性能计算和系统框架, 支持AI高性能算子并提供丰富的量化金融算法包。 C. 在数据库和人工智能顶级会议上发表研究论文, 推高阿里云在这两个关键研究领域的影响力。
项目进度及风险管理: 负责AI数据相关项目的全生命周期管理(数据获取、清洗、交付等),确按时保质交付; 制定项目计划,拆解关键路径,跟踪进度、识别风险并制定应对策略; 管理多个并行项目,协调跨部门资源(算法、采购、标注、数据、产研团队等)高效协作; 能有有效的识别风险,并积极推进风险的解决; 能使用科学的方式追踪数据管线的产能情况,识别产能瓶颈,分析原因并推动扩产能方案的落地; 需求管理与流程建设: 搭建和优化数据项目管理流程、需求管理机制、交付规范等基础体系; 与算法团队对接数据需求,理解数据价值与目标,保障需求转化为可落地任务; 团队与资源协调: 协调内部数据团队及外部供应商资源,识别交付瓶颈,提升整体资源利用率; 管理pipeline 各环节交付质量,优化数据生产关系; 基于业务目标,有效的推动跨部门的合作。
1.构建全球发行数据指标体系,监控整体流量趋势、LTV、用户生命周期价值等核心指标,定期输出健康度报告; 2.设计全球化数据预警机制,识别跨区域风险(如渠道流量衰减、付费结构失衡)并提出应对策略 3.主导跨区域数据联动分析(如新兴市场增长潜力评估、成熟市场渗透策略);开发预测模型(如用户留存预测、收入预测),支持长期业务规划 4.虚线管理区域数据分析师,制定标准化分析框架并推动执行;推动数据工具与平台的全球化升级(如统一数据埋点规范、BI系统优化)
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:抖音集团内容质量与数据服务平台(DOUYIN GROUP CONTENT QUALITY AND DATA SERVICE,简称CQC)是负责抖音集团今日头条、抖音、西瓜等产品内容安全与质量工作的团队,在各产品运营增长方面开展支持工作,为产品线提供数据服务的基础支持。平台下设内容质量中心、数据中心及运营支持中心,在全国10余个城市有业务分布。 1、联网模型迭代闭环:推动从数据定义到模型效果评估的执行,包括但不限于SFT、RM数据标注和生产、模型输出效果评测等; 2、联网模型产品运营:与算法团队、产品团队等密切协作,深度理解AI探索项目的特点,协助设计数据生产方案,提供策略优化建议; 3、联网模型数据运营:基于主流模型训练方法进行模型效果调优,通过Workflow、Agent自动化等手段为模型训练提供高精准数据,以提升模型表现。