快手大模型调度研发工程师

社招全职D139172025-07-04地点：北京状态：招聘

扫码手机上打开

任职要求

1、精通Golang编程，精通Linux环境的使用，精通Shell/python脚本编写；
2、熟悉Kubernetes架构和生态，熟悉Docker/Containerd等容器技术，有丰富的机器学习系统实践和开发经验；
3、掌握…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责快手大语言/多模态大模型/推荐大模型 机器学习系统资源调度的设计和开发，包括模型训练、模型推理、模型评测;
2、负责计算资源、高速网络资源、存储资源的最优调度算法、  及平台上异构资源（GPU、CPU、其他异构硬件）的最优化编排和精细化配额管理，充分发挥集群的硬件计算能力;
3、负责多AZ、多地域的资源混合部署及联邦调度;
4、探索大模型调度及训推/调度结合的业界前沿课题，在国际顶级会议上发表相关论文。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Go+

Linux+

Bash+

Python+

脚本+

还有更多 •••

登录查看完整学习资料

相关职位

混元机器学习平台GPU调度研发工程师(深圳/北京）

社招TEG技术

1.参与腾讯太极统一GPU调度平台开发，负责万卡GPU集群配额管理、任务排队、弹性任务、跨集群等功能和性能优化； 2.优化异构AI芯片在多种任务作业之间的全局最优匹配，实现全局最佳利用率； 3.支持腾讯混元大模型、广告、视频号等众多业务场景的离线、在线GPU作业，保障平台高性能高稳定运行。

更新于 2025-05-15深圳

业务技术-大模型推理与调度研发工程师-AI infra

社招2年以上

立足 AI Agent 业务的研发运维全链路视角，从稳定、体验、效率和成本这四个方面持续优化模型推理服务，支持好 AI Agent 业务。 ● 异构算力调度与算力池化（核心）：负责 GPU / CPU / 其他异构算力的统一调度与算力池化。设计并实现弹性伸缩、资源混布、潮汐资源盘活、Quota 管理等能力，提升整体资源利用率。 ● 推理调度策略与性能优化：构建并优化推理调度与运行策略（如 KV Cache 管理、并发与队列控制、资源隔离），保障高峰流量下的低延迟与稳定性。 ● 资源编排与多云治理：构建多机房、多地域、多云环境下的统一调度策略，实现跨地域容灾与就近访问。 ● 推理框架与系统优化：协同底层网络 / 存储团队，优化 RDMA、高速网络、缓存 / 存储路径，充分释放大规模集群算力。 ● 平台稳定性与问题治理： ○ 负责推理平台的稳定性建设：治理推理服务常见稳定性问题，建设推理平台的可观测与稳定性体系、压测与容量规划、问题定位与根因分析等能力，并持续降低 MTTR。 ○ 在多异构资源（GPU、CPU、NPU 等）、多云环境、复杂网络场景下，实现快速问题诊断、隔离与恢复。

更新于 2025-12-29杭州

GPU调度研发工程师

社招5-10年引擎

大模型具备很强的泛化及理解世界能力，在小红书内的众多生产场景遍地开花，大模型的训练和部署已成为许多算法工程师的日常。在多团队、多业务频繁使用的大规模GPU集群上，如何能够通过高效的GPU调度策略，使大家不仅能丝滑地完成训练及部署任务，同时也能充分激发大规模GPU集群的效能，是行业公认的关键挑战。在这里，你可以聚焦LLM场景，接触到超大规模GPU集群，并使用真实负载数据进行深入分析及技术探索。欢迎加入我们，一起探索领先技术改变世界！工作职责： 1、负责万卡规模GPU集群效能分析及优化，通过调度策略优化、在离线混部、集群调度、GPU虚拟化、故障快速恢复、存储&网络加速等手段，提升大规模GPU集群的整体使用效率。 2、负责构建面向大模型训练、微调、推理、部署全流程LLMOps，与下游云原生平台深度融合，支撑大模型在公司内各业务生产链路稳定高效地落地。 3、持续关注业界最新的GPU资源调度相关技术动态，探索建设业界领先的资源调度策略及方法，构建下一代大规模AI资源调度系统。

更新于 2025-10-25北京

推理流量调度研发工程师-Data AML

校招A77447A

团队介绍：Data AML是字节跳动的机器学习中台，为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力，并在这些业务的问题上研究一些具有通用性和创新性的算法。同时，也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外，AML还在AI for Science，科学计算等领域做一些前沿研究。 1、参与AML方舟推理千亿级TPM流量调度核心架构的开发、优化与迭代，共同打造国内领先的AI MaaS平台； 2、在公有云&云原生（Kubernetes）环境下，深入设计和实现大模型推理服务的关键子系统； 3、探索并实现智能流量路由、精细化服务治理策略，保障平台在超大规模负载下的超高可用性（99.99%+）与极致性能； 4、持续优化平台在资源调度效率、服务稳定性、成本效益等方面的表现； 5、与团队一起攻克大规模分布式系统带来的复杂挑战，确保平台能够弹性扩展，支撑业务的飞速增长。

更新于 2025-07-29上海