快手（大模型专项）机器学习平台研发工程师（云原生及资源调度方向）

社招全职D117222025-05-16地点：北京状态：招聘

扫码手机上打开

任职要求

1、计算机基础知识与编程基本功扎实，熟悉Go/Python/C++/Bash至少一种；
2、 有云原生相关平台的开发与管理经验，有CPU、GPU集群的资源管理 与调度平台开发经验；
3、良好的沟通能力和团队…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责快手内部推荐、大模型模型训练、大模型推理的云原生平台、负责训练与推理的二层调度、大规模GPU、CPU集群管理和资源优化，做深度学习框架与资源调度相结合的资源管理与优化；
2、业内AI资源管理平台前沿技术进展跟进与调研、落地。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Go+

Python+

C+++

Bash+

还有更多 •••

登录查看完整学习资料

相关职位

AI平台高级研发工程师（大模型专项）

社招3年以上机器学习平台

【业务介绍】我们是小红书内稠密类模型（LLM/MLLM/SD/CV/NLP）统一的AI平台QuickSilver，负责调度公司内所有稠密类模型训练与推理资源，基于自建的训推引擎，为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务；包括数据管理，模型管理，模型训练、压缩、推理、部署，服务管理，资源调度等一系列能力。工作职责： 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程，包括模型fine-tuning、推理服务化等 3、构建云原生架构，设计高可用、高性能的微服务体系 4、优化平台性能，提升系统稳定性和可扩展性

北京|上海|深圳

AI平台高级研发工程师（大模型专项）

社招3-5年大模型

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！ 1、负责大模型平台的架构设计和核心功能研发，构建云原生架构，设计高可用、高性能的微服务体系； 2、负责构建面向大模型全流程的DevOps，与下游云原生平台深度融合，支撑大模型在公司内各业务生产链路稳定高效地落地； 3、负责万卡规模GPU集群效能分析及优化，通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段，提升GPU集群使用效率； 4、将平台和框架结合，通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率，涉及k8s/kubeflow、网络通信、分布式训练等； 5、优化各AI平台性能，提升系统稳定性和可扩展性，保障大规模并发场景下的服务质量与用户体验； 6、持续研究分析业内创新AI平台产品，优化技术方案，改进产品功能，提升创新能力与产品体验。

更新于 2025-10-23北京|上海|杭州

视觉后端研发工程师-智能创作（北/上/深/广）

社招JLYE1

1、负责AIGC创作平台（MaaS）开发，包括但不限于：模型体验、Comfy推理引擎、AI自动工程化、智能运维与流量治理等，与团队共同打造AI全生命周期的技术中台。 2、负责高质量的设计和编码及系统稳定性优化； 3、参与系统瓶颈问题专项治理，解决系统高并发、大数据等问题，提高系统稳定性； 4、参与新技术的调研和落地。

更新于 2020-12-03北京

资深测试开发工程师-机器学习平台方向

社招3年以上A99863

1、深度参与大模型平台产品，协同产品和研发团队高质量交付产品； 2、通过测试技术，提升测试效率及测试覆盖度； 3、负责开发测试工具，推进系统的稳定性建设； 4、根据系统特性，探索测试手段，参与专项的质量建设。

更新于 2024-02-28北京