logo of kuaishou

快手【留用实习】机器学习平台研发工程师

实习兼职J1020地点:北京状态:招聘

任职要求


1、本科及以上学历;
2、计算机基础知识与编程基本功扎实,熟悉Go/Python/C++/Bash至少一种;
3、了解分布式系统HPC或AI训练推理等相关知识;
4、良好的沟通能力和团队协作精神,严谨的工作态度与高质量意识;
5、善于学习新的知识,动手能力强,有进取心。

加分项:
1、了解至少一种深度学习编程框架(TensorFlow/PyTorch/MxNet等),有调优经验更好;
2、了解分布式系统、调度、容器相关领域技术,熟悉Kubernetes/Docker/Yarn等原理与实现;
3、熟悉计算机体系结构和Linux操作系统,了解GPU架构、Cuda编程;
4、有顶会论文、国家或国际奖项和专利获得者优先考虑。

工作职责


1、负责快手一站式机器学习平台的设计研发与迭代改进,为业务提供稳定易用、高性能、高性价比的AI中台解决方案;
2、业内机器学习系统与平台前沿技术进展跟进与调研、落地。
包括英文材料
学历+
Go+
Python+
C+++
Bash+
分布式系统+
HPC+
深度学习+
TensorFlow+
PyTorch+
Kubernetes+
Docker+
Yarn+
Linux+
CUDA+
相关职位

logo of kuaishou
实习J1020

1、研发业界领先的推广搜深度学习训练框架,提供面向大规模稀疏数据的解决方案,服务于快手内部所有推荐类业务场景,包括 短视频、海外、广告、电商、直播等; 2、多样的业务形态和庞大的业务规模使得框架的开发与优化极富挑战性:万量级 GPU 卡,千亿量级样本,万亿量级参数,PB 量级训练数据。

更新于 2025-05-16
logo of kuaishou
实习J1014

1、参与快手大规模深度学习推理引擎、大模型训练解决方案的研发与优化,包括大模型推理、模型训练框架、微调平台等; 2、参与底层算子的优化、通过优化访存pattern、计算提升推理性能,与算法部门合作,为公司大模型定制训练方案,探索RLHF、MoE、多模态、longcontext等前沿方向,提升训练性能; 3、优化推理框架上层调度策略,通过机内、机间的计算任务调度和通讯优化提升引擎性能;优化现有大语言模型相关工具和平台,提高模型训练、维护效率,降低成本,提升训练服务稳定性。

更新于 2025-05-23
logo of kuaishou
实习J1020

1、负责研发快手的机器学习平台,作为公司级的平台,支撑了包括推荐、广告、搜索等核心业务的算法迭代; 2、通过自研大数据引擎,构建特征工程领域的高性能计算存储框架和统一开发平台,支持算法团队的研发效率; 3、重点研究海量数据的存储与传输格式,分布式计算框架,算法DSL语言,TaskFlow 等技术,不断优化模型工程的系统效率。

更新于 2025-05-20
logo of kuaishou
实习J1020

1. 负责分布式大语言模型 (LLM) 推理系统的底层基础设施研究与探索,包括 GPU 和 RDMA 等,提升 GPU 环境下的稳定性和计算效率; 2. 负责大规模模型训练场景优化工作,通过建设全面的异常发现、故障自愈机制,提升平台训练 MFU,降低训练成本; 3. 基于容器以及 Kubernetes 技术,负责对机器学习领域中的资源调度、模型训练、模型推理、数据管理等多个子方向的成本效率优化工作; 4. 持续关注并跟进业界技术发展,比如超长上下文、思维链、多模态方向;

更新于 2025-03-31