logo of aligenie

智能互联数据技术及产品部-Fluss高级研发工程师/专家-多模态数据湖

社招全职3年以上技术类-开发地点:北京 | 杭州状态:招聘

任职要求


1. Fluss 相关:
    - 熟悉 Fluss 架构设计,理解其行存(KV)+ 列存(Log)双引擎模型
    - 了解 Fluss 的 Primary Key 表、Append 表的数据模型与使用场景
    - 有 Fluss 源码阅读或实际开发经验者优先
2. Paimon 相关:
    - 熟悉 Apache Paimon 的核心概念:表类型(主键表/Append表)、Compaction 机制、Snapshot 管理、Manifest 文件结构
    - 了解 Paimon 与 Hive Metastore / DLF 的元数据对接方式
    - 有 Paimon 生…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


负责阿里巴巴多模态数据湖 ALake 体系中 Fluss 流式存储引擎的研发,构建面向实时数仓与流批一体场景的下一代存储底座。

1. Fluss 引擎研发:参与 Fluss 流式存储核心模块的设计与开发,包括行存/列存引擎、数据 Compaction、Checkpoint、故障恢复等
2. 湖仓联动:设计和实现 Fluss 与 Paimon 的数据联动机制,支撑 CDC 数据实时入湖、流批一体消费等场景
3. 引擎集成:推进 Fluss 与 Flink、Spark、StarRocks 等计算引擎的 Connector 开发与性能优化
4. 性能调优:端到端优化数据写入延迟、吞吐、小文件治理,解决线上大规模场景下的稳定性问题
5. 技术方案设计:参与 Fluss 架构演进,输出技术设计文档,推动开源社区建设
包括英文材料
系统设计+
Apache+
Hive+
Java+
分布式系统+
Raft+
Paxos+
还有更多 •••
相关职位

logo of aligenie
社招3年以上技术类-开发

1. 建设多源异构数据统一管线:覆盖真机采集数据(跨本体、多传感器)与仿真数据的接入、清洗、转换、质检、存储和分发,实现不同来源数据的标准化汇聚 2. 负责多模态机器人数据的Schema设计与标准化:覆盖图像、深度图、点云、IMU、关节角、轨迹、动作、语义标注、传感器参数等,兼容统一/自有格式规范,支持对接开源数据集 3. 设计并搭建分布式仿真调度系统:支持大规模环境实例跨多GPU/多节点的调度、监控与弹性扩缩 4. 构建数据质量过滤与异常检测模块和建设数据版本管理与血缘追踪体系 5. 搭建数据导出与训练对接服务:按训练需求灵活导出真机+仿真混合数据子集,支持增量更新与数据混合策略(如Sim2Real增广比例调配) 6. 与仿真引擎、算法训练、机器人本体和平台工程团队协作,打通数据从采集/生成到训练、评测、分析和可视化平台的完整链路

更新于 2026-06-16杭州
logo of aligenie
社招5年以上技术类-数据

负责搭建并管理面向具身智能模型的全链路数据体系,包括数据采集、清洗、标注、仿真生成及质量评估。作为算法团队与数据采集团队的核心桥梁,确保高质量、多样化的物理交互数据供给,直接支撑模仿学习、强化学习及 VLA模型的训练需求。你将参与定义下一代智能机器人数据标准的机会,与顶尖具身智能算法团队紧密协作,以数据直接驱动模型迭代,参与建设覆盖真机集群与大规模仿真算力的数据基础设施。 岗位主要内容包括以下: 1. 数据战略与体系搭建:设计并落地具身智能的数据金字塔架构(基础技能数据→复杂任务数据→长程规划数据);制定真机数据采集与仿真数据生成的混合策略;构建多模态数据标准:视觉、关节状态、力触觉、动作轨迹的时序对齐规范 2. 数据采集与标注管理:搭建真机数据采集流水线:管理遥操作团队或动作捕捉外包,建立人机协作的高效采集 SOP;设计自动化标注工具链:开发/引入基于 SLAM、关键点检测、自动分段(Segmentation)的半自动标注方案,降低人工标注成本;建立数据因果一致性校验机制:确保动作-视觉-语言指令的时序对齐与物理合理性 3. 仿真数据生态构建:主导高保真仿真环境的数据生成 pipeline;设计程序化生成方案:自动创建多样化场景、物体姿态、物理参数(摩擦、质量)的仿真数据;建立 Sim2Real Gap 评估体系,通过域适应技术提升仿真数据利用率 4. 数据质量与合规:制定数据质量评估指标体系:覆盖率、多样性、动作平滑度、物理可行性;建立数据版本管理(与血缘追踪,支持模型训练的可复现性;确保数据采集的隐私合规(如室内场景脱敏、人体数据伦理审查) 5. 团队建设与管理:组建并管理数据采集团队(含外包标注团队、遥操作员、仿真工程师);建立与算法团队的数据需求对接机制:将模型训练需求转化为采集任务;持续优化数据生产的 ROI,降低单位数据的采集与标注成本。

更新于 2026-04-08北京|杭州
logo of aligenie
社招5年以上技术类-数据

负责搭建并管理面向多模态视频领域大模型的全链路数据体系,包括数据评测、加工、合成与标注。作为模型算法团队与数据采集团队的核心桥梁,确保高质量、多样化数据供给。主要工作包括以下: 1. 评测体系构建:主导多模态视频领域大模型的评测标准制定,建立涵盖理解、生成、对齐、安全四大维度的评估框架,设计人工评测与自动评测相结合的混合评估方案,搭建评测数据集、生产管线,建立与SOTA模型(GPT-4V、Claude、Gemini等)的对比评测机制,输出专业评测报告。 2. 数据链路架构:构建大规模多模态训练数据的全生命周期处理链路:采集→清洗→去重→质量筛选→格式标准化→安全过滤,搭建数据质量监控体系,建立数据价值评估模型,确保高信息密度数据的持续供给; 3. 标注规范与质量体系:制定细粒度多模态标注规范:图像详细描述、视频时序标注、跨模态对齐、复杂推理链标注等;建立分层质检机制:机器预检→人工抽检→专家终审,确保标注的质量;设计标注人员培训体系与能力认证标准,搭建领域专家标注团队。

更新于 2026-04-03北京|杭州
logo of aligenie
社招5年以上技术类-数据

负责搭建并管理面向语音领域大模型的全链路数据体系,包括数据评测、加工、合成与标注。作为模型算法团队与数据采集团队的核心桥梁,确保高质量、多样化数据供给。主要包括以下: 1. 评测体系构建:主导音频领域大模型的评测标准制定,建立涵盖理解、生成、对齐、安全四大维度的评估框架,设计人工评测与自动评测相结合的混合评估方案,搭建评测数据集、生产管线,建立与SOTA模型的对比评测机制,输出专业评测报告。 2. 数据链路架构:构建大规模语音训练数据的全生命周期处理链路:采集→清洗→去重→质量筛选→格式标准化→安全过滤,搭建数据质量监控体系,建立数据价值评估模型,确保高信息密度数据的持续供给; 3. 标注规范与质量体系:制定细粒度多模态标注规范;建立分层质检机制确保标注的质量;设计标注人员培训体系与能力认证标准,搭建领域专家标注团队。

更新于 2026-04-03北京|杭州