logo of bilibili

哔哩哔哩大模型平台研发工程师 - 训练方向

社招全职3年以上技术类地点:上海状态:招聘

任职要求


1.计算机科学、软件工程、人工智能或相关专业本科及以上学历,3年以上AI平台相关经验;
2.具备良好编码能力与扎实的算法功底,熟练掌握Python/Go/C++等至少一种主流编程语言,能高效完成模块开发与调试;
3.熟悉至少一种主流深度学习框架(PyTorch优先),了解其核心原理与分布式训练机制;
3.具备扎实的机器学习/深度学习基础,熟悉Transformer等核心算法,了解大模型训练逻辑与行业应用方向。

加分项:
1.参与过大模型训练平台…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.参与B站大模型训练平台建设,配合团队完成训练平台的架构细化与技术落地,参与训练任务调度、数据加载、模型checkpoint管理等核心模块的开发与迭代,保障训练平台基础功能稳定可靠;
2.参与大模型主流训练范式(预训练/后训练)的平台化集成工作,协助完成训练流程的标准化、自动化落地,降低算法团队训练门槛;
3.大模型训练全链路可观测性,参与设计并落地训练过程中的核心监控指标,为训练效率提升与问题定位提供数据支撑;
4.参与训练链路问题排查,配合算法与框架团队,跟踪大模型训练全链路,参与定位并解决训练过程中出现的平台层技术问题,如数据传输瓶颈、分布式训练通信异常等,保障训练任务顺利推进。
包括英文材料
学历+
算法+
Python+
Go+
C+++
深度学习+
还有更多 •••
相关职位

logo of xiaohongshu
社招3年以上机器学习平台

1、负责模型训练平台核心功能开发和架构设计,包括传统CN/NLP/SD/LLM等多场景支持 2、负责大模型后训练工具平台化建设,包括后预训练、微调、对齐等技术落地 3、设计和实现高性能分布式训练系统,打造端到端训练解决方案 4、优化训练调度和资源管理,提升集群利用率和训练效率 5、开发模型训练监控诊断工具,建设可观测性体系

北京|上海|深圳
logo of bilibili
社招5年以上技术类

1.大模型训练&推理资源调度系统的设计与开发,服务于各算法方向的大模型训练、模型评估和模型推理场景; 2.优化大规模分布式异构计算集群编排调度,实现潮汐调度、混部调度能力,提升GPU资源利用率; 3.与算法和数据团队协作,制定资源优化策略,支持平台对大模型和多模态模型任务的高效处理;

更新于 2026-03-23上海
logo of bytedance
社招A00188

1、负责火山方舟大模型平台的架构设计和工程研发,例如持续训练、对齐(比如Finetune)、模型评估、推理等; 2、深度参与深度学习大模型算法调优,工程优化和应用过程中的新技术探索; 3、与合作团队(产品、行解、销售、市场等)紧密合作,共同应对深度学习应用落地过程中的具体挑战,站在解决问题的第一线; 4、不断精进、研究和实现深度学习架构/平台方面的新技术。

更新于 2023-12-18杭州
logo of bytedance
社招A109658

1、负责方舟大模型平台的架构设计和工程研发,例如持续训练、对齐(比如Finetune)、模型评估、推理等; 2、深度参与深度学习大模型算法调优,工程优化和应用过程中的新技术探索; 3、与合作团队(产品、行解、销售、市场等)紧密合作,共同应对深度学习应用落地过程中的具体挑战,站在解决问题的第一线; 4、不断精进、研究和实现深度学习架构/平台方面的新技术。

更新于 2023-12-18上海