logo of kuaishou

快手(大模型专项)机器学习平台研发工程师(云原生及资源调度方向)

社招全职D11722地点:北京状态:招聘

任职要求


1、计算机基础知识与编程基本功扎实,熟悉Go/Python/C++/Bash至少一种;
2、 有云原生相关平台的开发与管理经验,有CPU、GPU集群的资源管理 与调度平台开发经验;
3、良好的沟通能力和团队协作精神,严谨的工作态度与高质量意识 ;
4、善于学习新的知识,动手能力强,有进取心。

加分项:
1、了解分布式系统、调度、容器相关领域技术,熟悉Kubernetes/docker/Yarn等原理与实现。

工作职责


1、负责快手内部推荐、大模型模型训练、大模型推理的云原生平台、负责训练与推理的二层调度、大规模GPU、CPU集群管理和资源优化,做深度学习框架与资源调度相结合的资源管理与优化;
2、业内AI资源管理平台前沿技术进展跟进与调研、落地。
包括英文材料
Go+
Python+
C+++
Bash+
分布式系统+
Kubernetes+
Docker+
Yarn+
相关职位

logo of xiaohongshu
社招3年以上机器学习平台

【业务介绍】 我们是小红书内稠密类模型(LLM/MLLM/SD/CV/NLP)统一的AI平台QuickSilver,负责调度公司内所有稠密类模型训练与推理资源,基于自建的训推引擎,为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务;包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力。 工作职责: 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程,包括模型fine-tuning、推理服务化等 3、构建云原生架构,设计高可用、高性能的微服务体系 4、优化平台性能,提升系统稳定性和可扩展性

logo of xiaohongshu
社招3-5年大模型

我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。

更新于 2025-10-18
logo of bytedance
社招JLYE1

1、负责AIGC创作平台(MaaS)开发,包括但不限于:模型体验、Comfy推理引擎、AI自动工程化、智能运维与流量治理等,与团队共同打造AI全生命周期的技术中台。 2、负责高质量的设计和编码及系统稳定性优化; 3、参与系统瓶颈问题专项治理,解决系统高并发、大数据等问题,提高系统稳定性; 4、参与新技术的调研和落地。

更新于 2020-12-03
logo of bytedance
社招3年以上A99863

1、深度参与大模型平台产品,协同产品和研发团队高质量交付产品; 2、通过测试技术,提升测试效率及测试覆盖度; 3、负责开发测试工具,推进系统的稳定性建设; 4、根据系统特性,探索测试手段,参与专项的质量建设。

更新于 2024-02-28