京东大模型数据开发工程师
任职要求
职位要求: 1.熟练掌握CV、音频、NLP中一个或多个领域,持续关注行业动态和最新技术; 2.具备良好的编程能力,熟练掌握Python编程语言及pyTorch框架; 3.具备优秀的数据洞察力、逻辑思维和沟通表达…
工作职责
岗位职责: 1.负责多语言、多模态大模型训练所需的数据质检、理解算子,通过构建完整的数据体系,为大模型的训练数据质量负责; 2.负责大模型预训练数据获取和清洗系统性方法研究,通过质量/覆盖/多样性评估等方法清洗出高质量数据,提升基座模型训练效果; 3.不断跟进业界前沿数据算法,提高数据算法效果和效率,持续提升模型训练效果。
1.面向3D大模型的预训练与后训练数据管线,参与设计和实现高性能、可扩展的分布式大数据处理平台,支撑海量数据的清洗、标注、归一化等预处理操作,确保数据质量与处理效率; 2.基于Kubernetes(K8S)体系构建并优化大规模任务处理系统,负责GPU、CPU等异构资源的编排与调度,通过资源配额、负载均衡、节点亲和性等策略提升资源利用率和系统稳定性; 3.与算法工程师紧密协作,深入理解3D大模型研发流程(包括数据收集、模型训练、评估调优等),参与前沿模型中3D数据解决方案的设计、开发与维护,持续提升平台的数据生产效率、易用性及系统健壮性;
1、端到端数据流水线设计:负责设计、构建与优化面向大模型训练的超大规模多模态数据端到端处理流水线,覆盖数据获取、清洗、标注、质量验证到最终训练集生成的全过程。 2、高性能数据算子库开发:抽象和封装多模态数据(文本、图像、视频、音频)的通用处理逻辑,设计并实现高性能、可复用的数据算子库(如:图像解帧、语音识别、文本分词、质量过滤、数据增强等)。 3、训练数据Dataloader研发:深入跟进模型训练阶段,基于处理好的高质量数据集,研发与优化与PyTorch等训练框架无缝集成的高性Dataloader,确保训练过程中数据读取与加载的效率,解决I/O瓶颈,极大提升GPU利用率。 4、流水线编排与效率提升:研发灵活的配置化流水线引擎,支持原子算子的快速编排,并持续优化全链路的数据处理速度和资源效率,快速响应算法团队的数据需求。 5、质量与评估体系:建立数据质量监控与评估体系,确保输出数据集的洁净度、一致性与有效性,并能量化数据质量对最终模型效果的影响。

商汤大装置部门目前在寻找一个可以将人工智能训练、推理数据高效处理能力工程化的人,这个人需要能理解AII大模型研究员开发的一些工具,主要focus在数据清洗、处理以及生产等,并将这些工具有机结合起来工程化为一个产品体系。 1、基于公司在人工智能大模型数据体系的积累,将现有产品、内部工具和技术能力梳理融合,形成标准解决方案对外赋能 2、和客户高效沟通,挖掘客户在数据方面的需求以及技术关键点,结合标准方案和研发技术创新,设计技术方案并推动落地 3、带领技术团队,完成标准解决方案的开发和项目的交付工作