logo of bytedance

字节跳动大模型数据服务专家(数据采集方向)-DMC

社招全职3年以上A158694地点:北京状态:招聘

任职要求


1、本科及以上学历,3年以上互联网产品或运营经验,理工科专业背景,计算机相关专业优先;
2、对大模型、数据领域有深刻的理解和认知,具备大模型应用落地相关工作经验,有Agent搭建经验优先;
3、…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、对接各业务的算法、产品、运营业务,根据模型迭代方向提供高质量数据;
2、负责大模型数据生产全流程,负责数据集标准设计、自动化链路搭建、数据集评估和质量把控,并对接外包资源,对最终数据交付负责;
3、通过LLM应用、工具和链路迭代,提升数据生产的效率,并持续跟踪大模型技术进展,持续探索智能高效的数据生产模式。
包括英文材料
学历+
还有更多 •••
相关职位

logo of bytedance
社招A201420

1、与顶尖算法团队紧密协作,深入理解VLA模型训练方法,负责具身智能数据采集、清洗、标注、评估生产管理全流程,包括视觉、敏锐度、运动等多模态数据,提供数据支持和建议; 2、定义并规划数据采集、标注标准与高效执行流程,主导采标平台设计和优化,确保数据处理的高效性和稳定性; 3、引入主动学习、自动标注、仿真数据合成等技术手段,大幅提升数据采集标注效率与数据价值密度,为模型训练提供高质量数据支撑。

更新于 2025-12-17北京
logo of bytedance
实习A108141

ByteIntern:面向2027届毕业生(2026年9月-2027年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:AI数据与安全团队为Seed基座模型及AI原生应用提供跨模态数据服务,覆盖数据生产全流程,包含模型评估标准的制定、数据规模化生产、数据飞轮搭建,不断提升数据质量,支持模型快速迭代。 团队由产品经理、数据工程、数据运营等跨职能人才组成,并通过与Seed研究员、行业专家、全球顶尖数据供应商紧密合作,从真实场景中收集反馈并分析模型表现数据,解决AI前沿突破过程中的复杂数据问题,推动模型性能与用户体验的双重提升。我们既是帮助模型技术迭代的一线贡献者,也是模型和AI产品的一手用户。 1、深入理解AI大模型视频通话场景,负责多模态对话、联网、Function Call等方向的数据采集、标注、质检与策略运营工作; 2、与产品研发团队紧密配合,快速沉淀多模态大模型数据理想态和标准,积极为模型后训提供数据策略和建议; 3、针对模型突出问题进行专项攻坚,通过设计PE策略、Workflow工作流等,探索更高效的数据生产方式。

更新于 2026-04-15北京
logo of tongyi
社招5年以上技术类-算法

工程岗位的职责包括以下至少一个或多个方向: 1. 具身机器人应用解决方案研发 (1)参与多模态/具身智能机器人在真实场景中的应用方案设计、系统集成与验证。 (2)搭建端到端具身机器人任务pipeline,包括感知、理解、规划、控制、执行等模块的工程化实现。 (3)推动具身智能大模型能力在机器人实际任务中的落地优化(如操作、导航、交互等)。 2. 具身大模型数据采集与处理 (1)负责机器人数据采集系统搭建,包括传感器标定、采集流程、数据质量控制与自动化工具链。 (2)建设具身大模型训练数据pipeline:数据清洗、切分、标注、同步、增强、格式转换等工程化流程。 (3)参与构建多模态数据集(视频、RGB-D、触觉、关节状态、语言指令等)。 3. 具身大模型云端训练与推理优化 (1)基于GPU/加速器的训练平台优化具身大模型训练性能(并行策略、数据流优化、算子优化)。 (2)负责推理引擎优化,包括模型裁剪、编译器优化、图优化、缓存管理、多线程并发调度等。 (3) 参与构建具身智能模型的训练与推理服务基础设施(MLOps、分布式训练、数据版本管理等)。 4. 端侧模型量化部署与优化 (1)主导端侧模型的压缩、量化(INT8/FP8/混合精度等)、剪枝、蒸馏等部署优化工作。 (2)熟悉ONNXRuntime、TensorRT、TFLite、NPU/DSP编译工具链,进行端侧加加速与算子调优。 (3)推动具身大模型在机器人嵌入式/边缘计算平台上的高效部署。 5. 机器人操作系统与系统优化 (1)优化机器人操作系统(ROS2、RTOS、Linux)性能,包括实时性、通信延迟、资源调度、驱动层稳定性等。 (2)推动机器人软硬件协同优化,包括传感器驱动、控制链路优化、系统级profiling/debugging。 (3)支撑机器人任务的稳定运行与系统级可靠性优化。

更新于 2026-03-26北京|杭州
logo of aligenie
社招5年以上技术类-算法

工程岗位的职责包括以下至少一个或多个方向: 1. 具身机器人应用解决方案研发 (1)参与多模态/具身智能机器人在真实场景中的应用方案设计、系统集成与验证。 (2)搭建端到端具身机器人任务pipeline,包括感知、理解、规划、控制、执行等模块的工程化实现。 (3)推动具身智能大模型能力在机器人实际任务中的落地优化(如操作、导航、交互等)。 2. 具身大模型数据采集与处理 (1)负责机器人数据采集系统搭建,包括传感器标定、采集流程、数据质量控制与自动化工具链。 (2)建设具身大模型训练数据pipeline:数据清洗、切分、标注、同步、增强、格式转换等工程化流程。 (3)参与构建多模态数据集(视频、RGB-D、触觉、关节状态、语言指令等)。 3. 具身大模型云端训练与推理优化 (1)基于GPU/加速器的训练平台优化具身大模型训练性能(并行策略、数据流优化、算子优化)。 (2)负责推理引擎优化,包括模型裁剪、编译器优化、图优化、缓存管理、多线程并发调度等。 (3) 参与构建具身智能模型的训练与推理服务基础设施(MLOps、分布式训练、数据版本管理等)。 4. 端侧模型量化部署与优化 (1)主导端侧模型的压缩、量化(INT8/FP8/混合精度等)、剪枝、蒸馏等部署优化工作。 (2)熟悉ONNXRuntime、TensorRT、TFLite、NPU/DSP编译工具链,进行端侧加加速与算子调优。 (3)推动具身大模型在机器人嵌入式/边缘计算平台上的高效部署。 5. 机器人操作系统与系统优化 (1)优化机器人操作系统(ROS2、RTOS、Linux)性能,包括实时性、通信延迟、资源调度、驱动层稳定性等。 (2)推动机器人软硬件协同优化,包括传感器驱动、控制链路优化、系统级profiling/debugging。 (3)支撑机器人任务的稳定运行与系统级可靠性优化。

更新于 2026-04-02北京|杭州