字节跳动大模型数据服务专家(数据采集方向)-DMC
任职要求
1、本科及以上学历,3年以上互联网产品或运营经验,理工科专业背景,计算机相关专业优先; 2、对大模型、数据领域有深刻的理解和认知,具备大模型应用落地相关工作经验,有Agent搭建经验优先; 3、…
工作职责
1、对接各业务的算法、产品、运营业务,根据模型迭代方向提供高质量数据; 2、负责大模型数据生产全流程,负责数据集标准设计、自动化链路搭建、数据集评估和质量把控,并对接外包资源,对最终数据交付负责; 3、通过LLM应用、工具和链路迭代,提升数据生产的效率,并持续跟踪大模型技术进展,持续探索智能高效的数据生产模式。
1、与顶尖算法团队紧密协作,深入理解VLA模型训练方法,负责具身智能数据采集、清洗、标注、评估生产管理全流程,包括视觉、敏锐度、运动等多模态数据,提供数据支持和建议; 2、定义并规划数据采集、标注标准与高效执行流程,主导采标平台设计和优化,确保数据处理的高效性和稳定性; 3、引入主动学习、自动标注、仿真数据合成等技术手段,大幅提升数据采集标注效率与数据价值密度,为模型训练提供高质量数据支撑。
工程岗位的职责包括以下至少一个或多个方向: 1. 具身机器人应用解决方案研发 (1)参与多模态/具身智能机器人在真实场景中的应用方案设计、系统集成与验证。 (2)搭建端到端具身机器人任务pipeline,包括感知、理解、规划、控制、执行等模块的工程化实现。 (3)推动具身智能大模型能力在机器人实际任务中的落地优化(如操作、导航、交互等)。 2. 具身大模型数据采集与处理 (1)负责机器人数据采集系统搭建,包括传感器标定、采集流程、数据质量控制与自动化工具链。 (2)建设具身大模型训练数据pipeline:数据清洗、切分、标注、同步、增强、格式转换等工程化流程。 (3)参与构建多模态数据集(视频、RGB-D、触觉、关节状态、语言指令等)。 3. 具身大模型云端训练与推理优化 (1)基于GPU/加速器的训练平台优化具身大模型训练性能(并行策略、数据流优化、算子优化)。 (2)负责推理引擎优化,包括模型裁剪、编译器优化、图优化、缓存管理、多线程并发调度等。 (3) 参与构建具身智能模型的训练与推理服务基础设施(MLOps、分布式训练、数据版本管理等)。 4. 端侧模型量化部署与优化 (1)主导端侧模型的压缩、量化(INT8/FP8/混合精度等)、剪枝、蒸馏等部署优化工作。 (2)熟悉ONNXRuntime、TensorRT、TFLite、NPU/DSP编译工具链,进行端侧加加速与算子调优。 (3)推动具身大模型在机器人嵌入式/边缘计算平台上的高效部署。 5. 机器人操作系统与系统优化 (1)优化机器人操作系统(ROS2、RTOS、Linux)性能,包括实时性、通信延迟、资源调度、驱动层稳定性等。 (2)推动机器人软硬件协同优化,包括传感器驱动、控制链路优化、系统级profiling/debugging。 (3)支撑机器人任务的稳定运行与系统级可靠性优化。
核心招聘方向 1. 平台开发专家(Java/Golang) 方向:销售平台/商家平台/商品平台/内容平台/营销交易平台 职责:主导高并发、高可用系统的架构设计,优化核心业务流程,推动平台技术升级。 要求:5年以上Java/Golang开发经验,熟悉微服务、分布式系统,具备复杂业务场景落地能力。 2. AI与算法专家 方向:AI搜索/AI广告/大模型应用/搜推引擎 职责:研究前沿AI技术,设计算法模型并落地到搜索、推荐、广告等业务场景。 要求:精通机器学习/深度学习,熟悉NLP或推荐系统领域,有大模型应用经验者优先。 3. 数据工程专家 方向:数据仓库/数据建模 职责:构建企业级数据平台,设计数据采集、存储、分析体系,支持业务决策。 要求:精通大数据技术(Hadoop/Spark/Flink),有海量数据处理经验。
- AI能力研发:基于钉钉智能财务与智能差旅的产品场景(如发票OCR识别、费用分类、预算预测、差旅行程推荐等),设计并实现AI算法模型,实现应用场景落地,提升智能化水平。 - 服务端架构开发:构建高并发、高可用的服务端系统,支持AI模型的在线推理与实时响应,保障企业级业务稳定性。 - 数据与算法工程化:完成从数据采集、清洗、建模到部署的全流程闭环,推动AI模型在生产环境中的落地与迭代优化。 - 跨团队协作:与产品经理、前端工程师、算法专家协同,将AI能力深度集成到钉钉智能财务与差旅产品中,实现业务价值。 - AI工具链建设:探索qwen等大模型的应用场景,通过提示词工程、模型微调等技术优化用户体验。