logo of kuaishou

快手机器学习平台工程师-算法引擎部

社招全职3-5年J0012地点:北京状态:招聘

任职要求


1. 具有Golang/Java/C++等至少一种高级语言开发经验;
2. 熟悉Kubernetes工作原理,熟悉调度器、资源扩展机制、容器运行时,有Kubernetes开发和维护经验;
3. 有机器学习平台研发经验, 有大规模训练任务和推理服务的编排、在离线混部及资源调度…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 参与设计与研发快手公司级机器学习平台,赋能深度学习及大模型等核心AI的模型迭代;
2. 打造业界领先的机器学习自动化架构,支持模型开发、评估、部署、监控全链路智能闭环,集成模型版本控制、元数据管理等功能,支撑模型全生命周期管理,驱动核心业务指标持续突破;
3. 构建大模型分布式推理编排系统,实现多机角色调度,支持千亿级参数模型的分布式训练与推理任务拆分及协同计算;
4. 深度参与云原生AI基础设施的技术演进,研发包括:面向AI负载的预测式弹性伸缩系统,GPU资源调度与混部,高性能存储加速引擎等方向,持续推动云原生与AI技术的深度融合创新。
包括英文材料
Go+
Java+
C+++
还有更多 •••
相关职位

logo of kuaishou
社招3-5年J0012

1、参与设计与研发快手服务亿级用户的端到端机器学习平台,构建高性能、分布式、可扩展的AI数据计算/存储引擎,通过数据驱动模型生产,支撑包括推荐、广告、搜索、大模型等核心AI算法业务的高效迭代; 2、打造业界领先的AI数据引擎,包括高性能实时/离线分布式计算系统、流批一体化的AI数据湖存储系统、SQL化DSL描述的下一代数据处理平台,为百万核规模、EB级数据的高效计算、存储、迭代提供易用可靠的基础设施; 3、与算法工程师、研究员团队紧密配合,深刻理解端到端的AI模型研发流程,探索业界前沿的Data4AI技术,负责模型研究中数据工程方案的架构设计、实现、持续迭代和稳定性维护。

更新于 2025-08-28北京
logo of kuaishou
社招3年以上J0011

1. 为快手打造大模型AI云原生K8s 基础设施建设,具备万卡以上规模的CPU/GPU调度能力,支撑包括 可灵大模型、搜推广 等核心模型的训练与推理调度; 2. 支撑数据、训练、推理等全场景AI负载生命周期管理,构建训推一体的统一调度架构,落地统一的配额和算力管理机制,实现负载高效协同与资源精准管控; 3. 深耕 GPU 调度与性能优化,落地 GPU 拓扑感知、优先级、抢占、QoS 感知等调度能力,支撑万卡级大规模 AI 任务高效运行; 4. 聚焦大模型云原生基础设施建设,负责高性能网络与存储加速、多云部署与调度能力,解决大模型训推理在通信、调度上的关键挑战,持续推动云原生与 AI 技术深度融合与架构创新。

更新于 2026-03-18北京
logo of xiaohongshu
社招3年以上机器学习平台

【业务介绍】 我们是小红书内稠密类模型(LLM/MLLM/SD/CV/NLP)统一的AI平台QuickSilver,负责调度公司内所有稠密类模型训练与推理资源,基于自建的训推引擎,为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务;包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力。 工作职责: 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程,包括模型fine-tuning、推理服务化等 3、构建云原生架构,设计高可用、高性能的微服务体系 4、优化平台性能,提升系统稳定性和可扩展性

北京|上海|深圳
logo of xiaohongshu
社招后端开发

【职位描述】 1、设计和实现机器学习平台业务系统, 包括工具链/组件等AI基础设施, 落地业务功能需求; 2、高效优化和部署 计算机视觉、语音识别、语音合成、自然语言处理 等业务模型; 3、与公司各算法部门深度合作, 分析业务性能瓶颈和系统架构特征, 软硬件结合优化, 实现极致性能。

北京|上海