哔哩哔哩大模型平台研发工程师 - 调度方向
任职要求
1.计算机科学、软件工程、人工智能或相关专业本科及以上学历,5年以上分布式系统、资源调度或大规模计算相关经验; 2.精通Python/Go/Java/C++至少一种主流编程语言,具有良好的代码风格和开发习惯; 3.熟悉Kubernetes架构和生态,熟悉Docker/Containerd/Kata/Podman等容器技术,有丰富的机器学习系统实践和开发经验; 4.熟悉常见的机器学习和深度学习框架,如TensorFlow、PyTorch、XGBoost等; 5.具备优秀的沟通能力和团队协作精神,能够有效地与跨职能团队合作,推…
工作职责
1.大模型训练&推理资源调度系统的设计与开发,服务于各算法方向的大模型训练、模型评估和模型推理场景; 2.优化大规模分布式异构计算集群编排调度,实现潮汐调度、混部调度能力,提升GPU资源利用率; 3.与算法和数据团队协作,制定资源优化策略,支持平台对大模型和多模态模型任务的高效处理;
1.参与B站大模型训练平台建设,配合团队完成训练平台的架构细化与技术落地,参与训练任务调度、数据加载、模型checkpoint管理等核心模块的开发与迭代,保障训练平台基础功能稳定可靠; 2.参与大模型主流训练范式(预训练/后训练)的平台化集成工作,协助完成训练流程的标准化、自动化落地,降低算法团队训练门槛; 3.大模型训练全链路可观测性,参与设计并落地训练过程中的核心监控指标,为训练效率提升与问题定位提供数据支撑; 4.参与训练链路问题排查,配合算法与框架团队,跟踪大模型训练全链路,参与定位并解决训练过程中出现的平台层技术问题,如数据传输瓶颈、分布式训练通信异常等,保障训练任务顺利推进。
1.主导 B 站机器学习平台的 Agent 核心技术研发,负责 Multi-Agent 协作框架、智能记忆(Memory)机制、任务规划与调度等基础能力的设计与落地,构建高可用、可扩展的 Agent 技术底座; 2.设计端到端的 Agent 技术链路与模型方案,推动 Agent 技术在复杂场景的突破性落地,持续优化系统效果与运行性能; 3.构建 B 站专属的 Agent 评估体系,探索面向复杂场景的 Agent 能力评估方法,输出行业领先的评估标准与实践方案; 4.设计开发易用、高效的 Agent 开发套件(SDK / 工具链),降低开发者的 Agent 技术使用门槛,赋能平台生态快速拓展; 5.跟踪 Agent 领域前沿技术动态与学术进展,探索创新型 Agent 范式(如多模态协作、复杂任务拆解等),主导核心技术攻关,引领平台技术竞争力; 6.构建 B 站专属的 Agent 评估体系,探索面向复杂场景的 Agent 能力评估方法,输出行业领先的评估标准与实践方案。
1、负责快手内部推荐、大模型模型训练、大模型推理的云原生平台、负责训练与推理的二层调度、大规模GPU、CPU集群管理和资源优化,做深度学习框架与资源调度相结合的资源管理与优化; 2、业内AI资源管理平台前沿技术进展跟进与调研、落地。
Bravo 102是由阿里国际技术全团队共同发起的全球顶尖技术人才孵化计划,打破传统人才选拔及培养框架,为有志于走向AI未来的技术新锐们,提供“你行你上+我要我来”的双向奔赴式的实习机会选择。 在这里,“我”将不被岗位定义,以能力选择业务战场,与全球顶尖团队并肩作战,沉浸式体验全球多元化业务战场与亿级流量高并发系统。 加入我们,成为AIDC首批102位Bravo Talent,一起掌舵AI,为我们的未来Bravo! 关于我们: 阿里国际技术专注于提供卓越的数字零售技术服务,致力于服务全球消费者,并触达全球中小企业买家。我们希望利用AI技术让每个人都能够轻松、便捷地享受全球优质的商品和服务,推动商业活动更加高效、可持续,为社会未来的发展带来更多可能性。 我们提供涵盖商品智能、商家服务、供应链优化、跨境物流、搜索推荐引擎、用户增长、金融服务、客户体验、AI 基础设施、企业数智化、全球云及高可用架构、研发效能等技术领域,实习生可跨多个技术域实践,深度参与多场景技术攻坚,探索你想选择的职业发展方向; 在这里,你将和我们一起,采用领先的数字化及人工智能等技术持续解决商业活动中的现实问题,创造技术价值,为消费者带来更加美好的体验!欢迎加入我们! 职位描述: 1、负责大语言模型、图像模型、多模态等深度学习模型的在线推理、离线训练优化工作; 2、负责AI 生态内基础引擎系统能力的建设,包括信息检索、AI 记忆、流程调度等。 3、负责 AI 算法服务能力建设,针对业务场景的真实需求,设计合理的技术方案和路线