logo of mihoyo

米哈游大模型数据开发工程师

社招全职3年以上程序&技术类地点:上海状态:招聘

任职要求


1.3年及以上数据工程或AI基础设施方向的工作经验,本科及以上学历,计算机或相关专业背景优先;
2.3年以上分布式系统研发或基础架构经验,熟练掌握 ​​C/C++/Python​​,具备扎实的编程和系统设计能力;
3.熟悉分布式数据处理框架(如​​Spark​​/​​Ray​​/​​KubeRay​​等),了解数据分片、任务调度、容错机制等核心原理;
4.具备分布式系统性能优化经验,能够针对计算、存储、网络等瓶颈问题提出解决方…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.面向3D大模型的预训练与后训练数据管线,参与设计和实现​​高性能、可扩展的分布式大数据处理平台​​,支撑海量数据的清洗、标注、归一化等预处理操作,确保数据质量与处理效率;
2.基于​​Kubernetes(K8S)体系​​构建并优化大规模任务处理系统,负责GPU、CPU等异构资源的编排与调度,通过资源配额、负载均衡、节点亲和性等策略提升资源利用率和系统稳定性;
3.与算法工程师紧密协作,深入理解3D大模型研发流程(包括数据收集、模型训练、评估调优等),参与前沿模型中3D数据解决方案的设计、开发与维护,持续提升平台的数据生产效率、易用性及系统健壮性;
包括英文材料
学历+
分布式系统+
C+
C+++
Python+
系统设计+
Spark+
Ray+
还有更多 •••
相关职位

logo of jd
社招算法开发岗

岗位职责: 1.负责多语言、多模态大模型训练所需的数据质检、理解算子,通过构建完整的数据体系,为大模型的训练数据质量负责; 2.负责大模型预训练数据获取和清洗系统性方法研究,通过质量/覆盖/多样性评估等方法清洗出高质量数据,提升基座模型训练效果; 3.不断跟进业界前沿数据算法,提高数据算法效果和效率,持续提升模型训练效果。

更新于 2025-08-18北京
logo of bilibili
社招3年以上技术类

1、端到端数据流水线设计:负责设计、构建与优化面向大模型训练的超大规模多模态数据端到端处理流水线,覆盖数据获取、清洗、标注、质量验证到最终训练集生成的全过程。 2、高性能数据算子库开发:抽象和封装多模态数据(文本、图像、视频、音频)的通用处理逻辑,设计并实现高性能、可复用的数据算子库(如:图像解帧、语音识别、文本分词、质量过滤、数据增强等)。 3、训练数据Dataloader研发:深入跟进模型训练阶段,基于处理好的高质量数据集,研发与优化与PyTorch等训练框架无缝集成的高性Dataloader,确保训练过程中数据读取与加载的效率,解决I/O瓶颈,极大提升GPU利用率。 4、流水线编排与效率提升:研发灵活的配置化流水线引擎,支持原子算子的快速编排,并持续优化全链路的数据处理速度和资源效率,快速响应算法团队的数据需求。 5、质量与评估体系:建立数据质量监控与评估体系,确保输出数据集的洁净度、一致性与有效性,并能量化数据质量对最终模型效果的影响。

更新于 2026-04-02上海
logo of sensetime
社招5年以上系统开发

商汤大装置部门目前在寻找一个可以将人工智能训练、推理数据高效处理能力工程化的人,这个人需要能理解AII大模型研究员开发的一些工具,主要focus在数据清洗、处理以及生产等,并将这些工具有机结合起来工程化为一个产品体系。 1、基于公司在人工智能大模型数据体系的积累,将现有产品、内部工具和技术能力梳理融合,形成标准解决方案对外赋能 2、和客户高效沟通,挖掘客户在数据方面的需求以及技术关键点,结合标准方案和研发技术创新,设计技术方案并推动落地 3、带领技术团队,完成标准解决方案的开发和项目的交付工作

更新于 2025-04-17上海
logo of tencent
社招3年以上TEG技术

1.负责多种模态数据(文本/图像/视频/3D模型)采集方案设计与实施; 2.通过爬虫技术获取各类数据,开发分布式采集系统,优化效率与质量; 3.联合算法团队制定数据标准,建立数据治理体系,提升训练数据可用性。

更新于 2025-05-30深圳