logo of bilibili

哔哩哔哩大模型平台研发工程师 - 调度方向

社招全职5年以上技术类地点:上海状态:招聘

任职要求


1.计算机科学、软件工程、人工智能或相关专业本科及以上学历,5年以上分布式系统、资源调度或大规模计算相关经验;
2.精通Python/Go/Java/C++至少一种主流编程语言,具有良好的代码风格和开发习惯;
3.熟悉Kubernetes架构和生态,熟悉Docker/Containerd/Kata/Podman等容器技术,有丰富的机器学习系统实践和开发经验;
4.熟悉常见的机器学习和深度学习框架,如TensorFlow、PyTorch、XGBoost等;
5.具备优秀的沟通能力和团队协作精神,能够有效地与跨职能团队合作,推…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.大模型训练&推理资源调度系统的设计与开发,服务于各算法方向的大模型训练、模型评估和模型推理场景;
2.优化大规模分布式异构计算集群编排调度,实现潮汐调度、混部调度能力,提升GPU资源利用率;
3.与算法和数据团队协作,制定资源优化策略,支持平台对大模型和多模态模型任务的高效处理;
包括英文材料
学历+
分布式系统+
Python+
Go+
Java+
C+++
Kubernetes+
Docker+
containerd+
Podman+
机器学习+
还有更多 •••
相关职位

logo of kuaishou
社招D11722

1、负责快手内部推荐、大模型模型训练、大模型推理的云原生平台、负责训练与推理的二层调度、大规模GPU、CPU集群管理和资源优化,做深度学习框架与资源调度相结合的资源管理与优化; 2、业内AI资源管理平台前沿技术进展跟进与调研、落地。

更新于 2025-05-16北京
logo of bytedance
社招A199302

1、负责火山引擎-方舟大模型平台的研发,研究大模型在千行百业应用落地的系统化解决方案,大幅降低大模型应用的IT成本,满足用户不断增长的智能交互需求,全面提升用户在未来世界的生活和交流方式; 2、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、模型训练、模型推理、数据管理、工作流编排等。

更新于 2023-11-01杭州
logo of bytedance
社招A96161

1、负责火山引擎-方舟大模型平台的研发,研究大模型在千行百业应用落地的系统化解决方案,大幅降低大模型应用的IT成本,满足用户不断增长的智能交互需求,全面提升用户在未来世界的生活和交流方式; 2、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、模型训练、模型推理、数据管理、工作流编排等。

更新于 2023-11-01北京
logo of bytedance
社招A189998

1、负责火山引擎-方舟大模型平台的研发,研究大模型在千行百业应用落地的系统化解决方案,大幅降低大模型应用的IT成本,满足用户不断增长的智能交互需求,全面提升用户在未来世界的生活和交流方式; 2、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、模型训练、模型推理、数据管理、工作流编排等。

更新于 2023-11-01上海