logo of kuaishou

快手大模型调度研发工程师

社招全职D13917地点:北京状态:招聘

任职要求


1、精通Golang编程,精通Linux环境的使用,精通Shell/python脚本编写;
2、熟悉Kubernetes架构和生态,熟悉Docker/Containerd等容器技术,有丰富的机器学习系统实践和开发经验;
3、掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护,有较好的系统抽象能力;
4、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,能够快速的响应和行动;
5、有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。

工作职责


1、负责快手大语言/多模态大模型/推荐大模型 机器学习系统资源调度的设计和开发,包括模型训练、模型推理、模型评测;
2、负责计算资源、高速网络资源、存储资源的最优调度算法、  及平台上异构资源(GPU、CPU、其他异构硬件)的最优化编排和精细化配额管理,充分发挥集群的硬件计算能力;
3、负责多AZ、多地域的资源混合部署及联邦调度;
4、探索大模型调度及训推/调度结合的业界前沿课题,在国际顶级会议上发表相关论文。
包括英文材料
Go+
Linux+
Bash+
Python+
脚本+
Kubernetes+
Docker+
机器学习+
分布式系统+
相关职位

logo of tencent
社招TEG技术

1.参与腾讯太极统一GPU调度平台开发,负责万卡GPU集群配额管理、任务排队、弹性任务、跨集群等功能和性能优化; 2.优化异构AI芯片在多种任务作业之间的全局最优匹配,实现全局最佳利用率; 3.支持腾讯混元大模型、广告、视频号等众多业务场景的离线、在线GPU作业,保障平台高性能高稳定运行。

更新于 2025-05-15
logo of xiaohongshu
社招引擎

大模型具备很强的泛化及理解世界能力,在小红书内的众多生产场景遍地开花,大模型的训练和部署已成为许多算法工程师的日常。在多团队、多业务频繁使用的大规模GPU集群上,如何能够通过高效的GPU调度策略,使大家不仅能丝滑地完成训练及部署任务,同时也能充分激发大规模GPU集群的效能,是行业公认的关键挑战。在这里,你可以聚焦LLM场景,接触到超大规模GPU集群,并使用真实负载数据进行深入分析及技术探索。欢迎加入我们,一起探索领先技术改变世界! 工作职责: 1、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、集群调度、GPU虚拟化、故障快速恢复、存储&网络加速等手段,提升大规模GPU集群的整体使用效率。 2、负责构建面向大模型训练、微调、推理、部署全流程LLMOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地。 3、持续关注业界最新的GPU资源调度相关技术动态,探索建设业界领先的资源调度策略及方法,构建下一代大规模AI资源调度系统。

logo of baidu
社招ACG

-负责百度核心产品功能和架构开发 -负责核心技术算法的研究、实现和优化 -负责前瞻技术的跟踪调研和产品创新 -负责大模型开发工具链的研发

更新于 2025-09-16
logo of tencent
社招2年以上微信读书技术

1.负责多模态内容理解、多模态生成等算法技术在视频剪辑、多模态理解和生成业务上的落地工作:; 2.参与图像、视频、语音等多模态内容理解及生成相关算法的工程化落地; 3.参与多模态业务核心功能设计、开发及维护,包括但不限于服务性能调优、技术难点攻坚、指标自动化监控、异构大模型调度等; 4.参与维护后台服务,保证线上稳定性,以及搭建自动化分析系统,提升工程效率; 5.参与新技术调研以及探索,以及项目特定方向的重点、难点开发工作。

更新于 2025-09-15