快手【快Star-X】多模态数据生产引擎研发工程师
任职要求
1、硕士及以上学历,计算机、电子、自动化等专业优先; 2、熟悉掌握Java/Python/C++语言中的一种,有扎实的算法与数据结构基础; 3、有较强的自驱力和学习力,有严谨的科研思维,沟通良好擅长与人合作。 加分…
工作职责
1、参与多模态模型、视频生成模型等大模型的全链路数据生产流水线搭建; 2、参与多模态数据处理所需的LLM/VLM模型推理、跨模态检索、跨模态对齐等工程系统的建设; 3、基于各类分布式数据处理以及推理优化技术,持续优化超大规模多模态数据处理的推理、存储以及检索效率。

负责搭建并管理面向具身智能模型的全链路数据体系,包括数据采集、清洗、标注、仿真生成及质量评估。作为算法团队与数据采集团队的核心桥梁,确保高质量、多样化的物理交互数据供给,直接支撑模仿学习、强化学习及 VLA模型的训练需求。你将参与定义下一代智能机器人数据标准的机会,与顶尖具身智能算法团队紧密协作,以数据直接驱动模型迭代,参与建设覆盖真机集群与大规模仿真算力的数据基础设施。 岗位主要内容包括以下: 1. 数据战略与体系搭建:设计并落地具身智能的数据金字塔架构(基础技能数据→复杂任务数据→长程规划数据);制定真机数据采集与仿真数据生成的混合策略;构建多模态数据标准:视觉、关节状态、力触觉、动作轨迹的时序对齐规范 2. 数据采集与标注管理:搭建真机数据采集流水线:管理遥操作团队或动作捕捉外包,建立人机协作的高效采集 SOP;设计自动化标注工具链:开发/引入基于 SLAM、关键点检测、自动分段(Segmentation)的半自动标注方案,降低人工标注成本;建立数据因果一致性校验机制:确保动作-视觉-语言指令的时序对齐与物理合理性 3. 仿真数据生态构建:主导高保真仿真环境的数据生成 pipeline;设计程序化生成方案:自动创建多样化场景、物体姿态、物理参数(摩擦、质量)的仿真数据;建立 Sim2Real Gap 评估体系,通过域适应技术提升仿真数据利用率 4. 数据质量与合规:制定数据质量评估指标体系:覆盖率、多样性、动作平滑度、物理可行性;建立数据版本管理(与血缘追踪,支持模型训练的可复现性;确保数据采集的隐私合规(如室内场景脱敏、人体数据伦理审查) 5. 团队建设与管理:组建并管理数据采集团队(含外包标注团队、遥操作员、仿真工程师);建立与算法团队的数据需求对接机制:将模型训练需求转化为采集任务;持续优化数据生产的 ROI,降低单位数据的采集与标注成本。
1.参与具身智能平台的系统架构设计和模块研发工作,支持将实验室算法和数据的能力开放,提供稳定高效和安全的服务; 2.参与建设具身智能仿真平台,支持多模态感知、决策规划、运动操作、人机交互等相关算法能力的迭代优化; 3.参与构建云边协同体系,安全防护体系,以及资源的调配优化能力; 4.参与建设机器人社区生态,包括开发者工具套件、技术论坛、资源共享中心等。
1. 负责大众点评信息流推荐、内容搜索、内容创作场景的内容理解、多模态大模型、内容x搜推交叉相关算法研发,包括不限于内容打标、embedding、话题推荐、标题生成、描述生成、视觉问答、内容x行为联合建模等。 2. 负责将上述技术在大众点评信息流推荐、内容搜索、内容创作等场景的落地,与产运研团队紧密协作,降低内容生产成本、提升内容分发效率,解决内容生产、分发、展示等环节的实际问题。 3. 紧密跟进生成式内容理解、多模态大模型、内容x搜推交叉等领域的前沿进展,并负责在信息流推荐、内容搜索、内容创作等业务场景的落地应用。
1、数据特征算法方案制定与效果优化:针对不同模态、多种类目的数据,设计自动化筛选方案;对多模态数据涉及的前沿特征算法(如物体跟踪、ID 重识别、音频分离)进行场景化效果优化。与算法工程师协作,制定数据调整与扩展策略,提升模型在真实场景中的生成能力; 2、数据 pipeline 建设:负责多模态大模型训练数据的构建与管理,参与数据筛选、标注及质量评估工作。分析和挖掘现有数据资源,设计有效的数据分布策略,支持模型持续迭代; 3、数据分布分析:对模型训练数据分布进行详细分析,识别数据偏差、不均衡及潜在问题。提供可视化报告及改进建议,确保训练数据覆盖目标场景并满足多样性需求,最终通过数据驱动方法优化视频生成大模型效果。