快手机器学习平台工程师-算法引擎部
社招全职3-5年J0012地点:北京状态:招聘
任职要求
1. 具有Golang/Java/C++等至少一种高级语言开发经验; 2. 熟悉Kubernetes工作原理,熟悉调度器、资源扩展机制、容器运行时,有Kubernetes开发和维护经验; 3. 有机器学习平台研发经验, 有大规模训练任务和推理服务的编排、在离线混部及资源调度…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 参与设计与研发快手公司级机器学习平台,赋能深度学习及大模型等核心AI的模型迭代; 2. 打造业界领先的机器学习自动化架构,支持模型开发、评估、部署、监控全链路智能闭环,集成模型版本控制、元数据管理等功能,支撑模型全生命周期管理,驱动核心业务指标持续突破; 3. 构建大模型分布式推理编排系统,实现多机角色调度,支持千亿级参数模型的分布式训练与推理任务拆分及协同计算; 4. 深度参与云原生AI基础设施的技术演进,研发包括:面向AI负载的预测式弹性伸缩系统,GPU资源调度与混部,高性能存储加速引擎等方向,持续推动云原生与AI技术的深度融合创新。
包括英文材料
Go+
https://www.youtube.com/watch?v=8uiZC0l4Ajw
学习Golang的完整教程!从开始到结束不到一个小时,包括如何在Go中构建API的完整演示。没有多余的内容,只有你需要知道的知识。
Java+
https://www.youtube.com/watch?v=eIrMbAQSU34
Master Java – a must-have language for software development, Android apps, and more! ☕️ This beginner-friendly course takes you from basics to real coding skills.
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
还有更多 •••
相关职位
社招3-5年J0012
1、参与设计与研发快手服务亿级用户的端到端机器学习平台,构建高性能、分布式、可扩展的AI数据计算/存储引擎,通过数据驱动模型生产,支撑包括推荐、广告、搜索、大模型等核心AI算法业务的高效迭代; 2、打造业界领先的AI数据引擎,包括高性能实时/离线分布式计算系统、流批一体化的AI数据湖存储系统、SQL化DSL描述的下一代数据处理平台,为百万核规模、EB级数据的高效计算、存储、迭代提供易用可靠的基础设施; 3、与算法工程师、研究员团队紧密配合,深刻理解端到端的AI模型研发流程,探索业界前沿的Data4AI技术,负责模型研究中数据工程方案的架构设计、实现、持续迭代和稳定性维护。
更新于 2025-08-28北京
社招3年以上J0011
1. 为快手打造大模型AI云原生K8s 基础设施建设,具备万卡以上规模的CPU/GPU调度能力,支撑包括 可灵大模型、搜推广 等核心模型的训练与推理调度; 2. 支撑数据、训练、推理等全场景AI负载生命周期管理,构建训推一体的统一调度架构,落地统一的配额和算力管理机制,实现负载高效协同与资源精准管控; 3. 深耕 GPU 调度与性能优化,落地 GPU 拓扑感知、优先级、抢占、QoS 感知等调度能力,支撑万卡级大规模 AI 任务高效运行; 4. 聚焦大模型云原生基础设施建设,负责高性能网络与存储加速、多云部署与调度能力,解决大模型训推理在通信、调度上的关键挑战,持续推动云原生与 AI 技术深度融合与架构创新。
更新于 2026-03-18北京
社招J0011
1、设计与搭建服务海外多国家的个性化推荐策略框架,优化性能,提升稳定性和迭代效率; 2、参与大规模分布式推荐策略服务的搭建和优化; 3、参与大规模分布式在线机器学习平台(模型训练和预估)的搭建; 4、参与分布式存储平台(用户画像、分布式索引)的开发。
更新于 2025-08-26北京|杭州