logo of kuaishou

快手AI Infra 研发工程师

校招全职J1020地点:杭州 | 北京状态:招聘

任职要求


1、本科及以上学历,计算机相关专业;
2、掌握常用数据结构算法,具备扎实的编程基础和良好的编码习惯;
3、熟悉至少一种编程语言(如 GolangJavaPython 等);
4、有 Docker、Kubernetes、vLLM、SGLang、RouteLLM 等技术的学习或实践经验者优先,参与过开源项目更佳;  
5、积极主动,自驱力强,具备良好的团…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责分布式大语言模型 (LLM) 推理系统的底层基础设施研究与探索,包括 GPU 和 RDMA 等,提升 GPU 环境下的稳定性和计算效率;
2、负责大规模模型训练场景优化工作,通过建设全面的异常发现、故障自愈机制,提升平台训练 MFU,降低训练成本;
3、基于容器以及 Kubernetes 技术,负责对机器学习领域中的资源调度、模型训练、模型推理、数据管理等多个子方向的成本效率优化工作;
4、持续关注并跟进业界技术发展,比如超长上下文、思维链、多模态方向。
包括英文材料
学历+
数据结构+
算法+
编程规范+
Go+
Java+
Python+
还有更多 •••
相关职位

logo of netease
社招网易有道

1. 结合HPC和AI前沿技术,设计和优化大模型训练和推理框架,负责模型优化、算子优化、图优化、分布式优化等,提升计算效率; 2. 负责云侧或端侧大模型和小模型推理服务开发、性能优化、上线等工作。

更新于 2025-05-23北京
logo of antgroup
社招1年以上技术类-开发

负责 AI Agent Infra 建设,提升 AI Agent 产品创新效率,探索生成式 AI 在数字世界的实际应用。 1. 建设 Agent SWE Infra 工程,提升 Agent 相关代码的个性化构建和发布效率; 2. 建设 Sandbox Infra 工程,为各类 Agentic 场景提供高效、稳定、大规模的模拟器、多工具、图形交互的沙箱环境; 3. 建设 Serving Infra 工程,为生产提供通用的 Agent 服务化框架,优化 LLM 和 Agent 性能,保障高可用运行。

更新于 2026-01-16北京|杭州
logo of tencent
社招3年以上腾讯云技术

1.负责 deepseek 等AI大模型在 K8s 上的推理部署方案研发,深度对接客户场景; 2.负责AI Infra相关能力在TKE的落地,如AI 相关工作负载的设计与研发,降低用户使用成本; 3.通过优化 AI 部署的计算、网络、存储相关资源,提升训练及推理效率; 4.负责推理稳定性、亲和性调度、推理框架优化、GPU池化等相关工作,降低推理成本,提升推理效率。

更新于 2026-01-14深圳
logo of kuaishou
实习J1020

1. 负责分布式大语言模型 (LLM) 推理系统的底层基础设施研究与探索,包括 GPU 和 RDMA 等,提升 GPU 环境下的稳定性和计算效率; 2. 负责大规模模型训练场景优化工作,通过建设全面的异常发现、故障自愈机制,提升平台训练 MFU,降低训练成本; 3. 基于容器以及 Kubernetes 技术,负责对机器学习领域中的资源调度、模型训练、模型推理、数据管理等多个子方向的成本效率优化工作; 4. 持续关注并跟进业界技术发展,比如超长上下文、思维链、多模态方向;

更新于 2025-03-31杭州