哔哩哔哩大模型数据开发工程师
社招全职3年以上技术类地点:上海状态:招聘
任职要求
1、计算机科学、软件工程、大数据或相关专业本科及以上学历,有3年以上数据开发或算法工程经验。 2、精通Python,熟练使用Pandas、PyTorch等数据处理和深度学习框架,必须具备构建或优化训练数据Dataloader的实际经验。 3、深入理解多模态数据的特性及处…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1、端到端数据流水线设计:负责设计、构建与优化面向大模型训练的超大规模多模态数据端到端处理流水线,覆盖数据获取、清洗、标注、质量验证到最终训练集生成的全过程。 2、高性能数据算子库开发:抽象和封装多模态数据(文本、图像、视频、音频)的通用处理逻辑,设计并实现高性能、可复用的数据算子库(如:图像解帧、语音识别、文本分词、质量过滤、数据增强等)。 3、训练数据Dataloader研发:深入跟进模型训练阶段,基于处理好的高质量数据集,研发与优化与PyTorch等训练框架无缝集成的高性Dataloader,确保训练过程中数据读取与加载的效率,解决I/O瓶颈,极大提升GPU利用率。 4、流水线编排与效率提升:研发灵活的配置化流水线引擎,支持原子算子的快速编排,并持续优化全链路的数据处理速度和资源效率,快速响应算法团队的数据需求。 5、质量与评估体系:建立数据质量监控与评估体系,确保输出数据集的洁净度、一致性与有效性,并能量化数据质量对最终模型效果的影响。
包括英文材料
大数据+
https://www.youtube.com/watch?v=bAyrObl7TYE
https://www.youtube.com/watch?v=H4bf_uuMC-g
With all this talk of Big Data, we got Rebecca Tickle to explain just what makes data into Big Data.
学历+
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
还有更多 •••
相关职位
社招算法开发岗
岗位职责: 1.负责多语言、多模态大模型训练所需的数据质检、理解算子,通过构建完整的数据体系,为大模型的训练数据质量负责; 2.负责大模型预训练数据获取和清洗系统性方法研究,通过质量/覆盖/多样性评估等方法清洗出高质量数据,提升基座模型训练效果; 3.不断跟进业界前沿数据算法,提高数据算法效果和效率,持续提升模型训练效果。
更新于 2025-08-18北京
社招3年以上程序&技术类
1.面向3D大模型的预训练与后训练数据管线,参与设计和实现高性能、可扩展的分布式大数据处理平台,支撑海量数据的清洗、标注、归一化等预处理操作,确保数据质量与处理效率; 2.基于Kubernetes(K8S)体系构建并优化大规模任务处理系统,负责GPU、CPU等异构资源的编排与调度,通过资源配额、负载均衡、节点亲和性等策略提升资源利用率和系统稳定性; 3.与算法工程师紧密协作,深入理解3D大模型研发流程(包括数据收集、模型训练、评估调优等),参与前沿模型中3D数据解决方案的设计、开发与维护,持续提升平台的数据生产效率、易用性及系统健壮性;
上海

社招5年以上系统开发
商汤大装置部门目前在寻找一个可以将人工智能训练、推理数据高效处理能力工程化的人,这个人需要能理解AII大模型研究员开发的一些工具,主要focus在数据清洗、处理以及生产等,并将这些工具有机结合起来工程化为一个产品体系。 1、基于公司在人工智能大模型数据体系的积累,将现有产品、内部工具和技术能力梳理融合,形成标准解决方案对外赋能 2、和客户高效沟通,挖掘客户在数据方面的需求以及技术关键点,结合标准方案和研发技术创新,设计技术方案并推动落地 3、带领技术团队,完成标准解决方案的开发和项目的交付工作
更新于 2025-04-17上海