字节跳动Data+AI资深专家/TechLead(大模型数据方向)-Data
任职要求
1、3年及以上数据/AI方向的工作经验,本科及以上学历,博士优先; 2、熟悉Spark、Ray、Iceberg、Lance等引擎,有丰富的开源社区贡献,主导过开源项目者优先…
工作职责
1、负责Data+AI方向的ToB产品的演进规划、竞争力建设和研发,打造业内领先的产品; 2、负责计算和存储引擎内核的深度优化,领先开源社区和行业,给客户提供增量价值; 3、负责大模型数据处理框架的研发、数据处理算子的研发,引领市场需求; 4、与火山引擎方舟、机器学习平台等产品深度生态对接,打造AI全链路组合竞争力; 5、支撑客户的预训练、后训练、模型蒸馏、AI搜索、RAG、Agent等场景的数据需求。
以数据库引擎PolarDB/ADB/Lindorm为数据存储和计算底座,基于此构建in-DB的数据库垂类AI服务. 具体围绕: A. 数据库AI算子的开发。算法研发方向重点为自然语言技术在数据库上的应用。围绕自然语言转SQL/NL2SQL,基于RAG和行业知识的推理逻辑加强,图/知识库自动构建,实体与关系的分析挖掘,和基于Model Context Protocol的数据库AI agent能力。 尤其是在DATA+AI方向具有显著行业数据计算属性的量化金融的国内数据库市场,优化AI推理和针对交易数据的in-DB智能高性能计算算子,以增强阿里云数据库引擎产品在国内量化金融市场的影响力, 并支持数据库引擎团队打下新市场。 B. 适合数据库相对资源受限计算情况下的复杂AI算子推理加速, 并对传统数据库执行计划在新置AI算子的新情境下进行性能联合优化。 围绕transformer架构的推理加速(KVCache, SGlang, vLLM和)等关键AI推理框架的系统底层优化,开发数据库在量化金融市场中的高性能计算和系统框架, 支持AI高性能算子并提供丰富的量化金融算法包。 C. 在数据库和人工智能顶级会议上发表研究论文, 推高阿里云在这两个关键研究领域的影响力。
项目进度及风险管理: 负责AI数据相关项目的全生命周期管理(数据获取、清洗、交付等),确按时保质交付; 制定项目计划,拆解关键路径,跟踪进度、识别风险并制定应对策略; 管理多个并行项目,协调跨部门资源(算法、采购、标注、数据、产研团队等)高效协作; 能有有效的识别风险,并积极推进风险的解决; 能使用科学的方式追踪数据管线的产能情况,识别产能瓶颈,分析原因并推动扩产能方案的落地; 需求管理与流程建设: 搭建和优化数据项目管理流程、需求管理机制、交付规范等基础体系; 与算法团队对接数据需求,理解数据价值与目标,保障需求转化为可落地任务; 团队与资源协调: 协调内部数据团队及外部供应商资源,识别交付瓶颈,提升整体资源利用率; 管理pipeline 各环节交付质量,优化数据生产关系; 基于业务目标,有效的推动跨部门的合作。
1. 负责滴滴数据应用平台AI产品的规划、设计、落地及推广工作,将Data Agent应用到各业务线数据分析场景,产品领域涵盖BI分析、AI应用等; 2. 深入一线业务,能跨部门沟通对接,敏锐洞见客户痛点,了解运营、分析师等各类用户日常数据分析痛点和问题,输出Agent数据解决方案和产品功能设计; 3. 负责和撰写产品MRD、PRD文档等,推动和参与AI方案、UI设计、需求评审和产品管理整个产品生命周期; 4. 准确把控项目目标和节奏,沟通和协调研发、测试、前端、算法等合作团队,推动项目顺利进行,并持续优化和改进产品能力和体验;