
MomentaData Infra Tech Lead
任职要求
核心职责: 架构设计:设计大模型数据生产基建,支撑VLM / 多模态 / 视频训练的高性能、可扩展架构 多模态产线:负责图像、视频、3D、传感器等数据的全链路处理、标注、合成 数据治理:数据版本、元数据、血缘、质量监控、可追溯体系 AI 工程化:用大模型优化数据寻源、筛选、合…
工作职责
无

负责自动驾驶 & 通用大模型双赛道的数据底层基建全链路架构设计与研发,搭建支撑VLM 大模型、视频生成、自动驾驶世界模型、端到端智驾模型训练的高性能、高可扩展数据生产平台。打通图像、视频、激光雷达点云、多传感器时序数据全生命周期链路,构建行业领先的数据治理体系,用 AI 工程化能力反哺数据生产全流程,持续驱动模型迭代效率与数据质量上限。
参与多模态数据生产相关的模型推理系统研发工作,工作内容包括: 1、构建高可用、高吞吐的数据算法服务框架,支持多模态模型服务的高效部署和迭代; 2、通过各种技术手段持续优化性能,降低推理成本,包括但不限于:算子/编译优化、异构推理、模型量化&蒸馏、分布式并行等。
1. 负责统一数据平台的架构设计与模块开发,涵盖批处理、流处理、交互式查询与服务化计算能力,构建高效、灵活、智能的大规模数据处理基础设施。 2. 构建高效、灵活、智能的大规模数据处理基础设施,支持 PB 级的非结构化数据处理,跟踪数据技术趋势(如 Lakehouse、流批一体、云原生架构),构建高可用、易扩展的数据存储体系,支持数据湖等新型数据架构演进。

1、负责自动驾驶数据闭环核心系统的设计与开发,构建从车端数据采集到云端模型迭代的全链路自动化体系 2、优化车端影子模式(Shadow Mode)系统,设计高效的触发式数据采集策略,精准捕获有价值的 Hard Event 数据 3、开发智能数据筛选器(Filter),通过规则引擎与 AI 模型相结合的方式,从海量路测数据中高效筛选高价值训练样本 4、搭建云端自动化数据挖掘平台,实现异常场景、算法失效案例的自动发现与聚类分析 5、推动自动标注系统的迭代优化,自动化评估驾驶行为质量,自动化清洗坏行为数据,提升标注效率与质量 6、与EBM团队深度协作,将数据闭环产出转化为模型性能的持续提升 7、构建数据质量评估体系,确保训练数据的准确性、多样性与代表性