logo of kuaishou

快手AI Infra 研发工程师

校招全职J1020地点:杭州 | 北京状态:招聘

任职要求


1、本科及以上学历,计算机相关专业;
2、掌握常用数据结构算法,具备扎实的编程基础和良好的编码习惯;
3、熟悉至少一种编程语言(如 GolangJavaPython 等);
4、有 DockerKubernetesvLLMSGLang、RouteLLM 等技术的学习或实践经验者优先,参与过开源项目更佳;  
5、积极主动,自驱力强,具备良好的团队合作精神和解决问题的能力;  
6、对如下一个或多个领域有浓厚的兴趣,并愿意付出自己的时间进行深入研究和探索:
a. 机器学习框架:PyTorchTensorFlow机器学习框架、GPU等异构计算芯片及优化、MLOps、CV/NLP/搜广推等领域模型算法等;
b. 云原生:Kubernetes及容器系统、大规模训练任务和推理服务编排和调度、镜像加速等。

工作职责


1、负责分布式大语言模型 (LLM) 推理系统的底层基础设施研究与探索,包括 GPU 和 RDMA 等,提升 GPU 环境下的稳定性和计算效率;
2、负责大规模模型训练场景优化工作,通过建设全面的异常发现、故障自愈机制,提升平台训练 MFU,降低训练成本;
3、基于容器以及 Kubernetes 技术,负责对机器学习领域中的资源调度、模型训练、模型推理、数据管理等多个子方向的成本效率优化工作;
4、持续关注并跟进业界技术发展,比如超长上下文、思维链、多模态方向。
包括英文材料
学历+
数据结构+
算法+
编程规范+
Go+
Java+
Python+
Docker+
Kubernetes+
vLLM+
SGLang+
机器学习+
PyTorch+
TensorFlow+
NLP+
相关职位

logo of netease
社招网易有道

1. 结合HPC和AI前沿技术,设计和优化大模型训练和推理框架,负责模型优化、算子优化、图优化、分布式优化等,提升计算效率; 2. 负责云侧或端侧大模型和小模型推理服务开发、性能优化、上线等工作。

更新于 2025-05-23
logo of tencent
社招5年以上CSIG技术

1.负责 deepseek 等AI大模型在 K8s 上的推理部署方案研发,深度对接客户场景; 2.负责AI Infra相关能力在TKE的落地,如AI 相关工作负载的设计与研发,降低用户使用成本; 3.通过优化 AI 部署的计算、网络、存储相关资源,提升训练及推理效率; 4.负责推理稳定性、亲和性调度、推理框架优化、GPU池化等相关工作,降低推理成本,提升推理效率。

更新于 2025-06-05
logo of kuaishou
实习J1020

1. 负责分布式大语言模型 (LLM) 推理系统的底层基础设施研究与探索,包括 GPU 和 RDMA 等,提升 GPU 环境下的稳定性和计算效率; 2. 负责大规模模型训练场景优化工作,通过建设全面的异常发现、故障自愈机制,提升平台训练 MFU,降低训练成本; 3. 基于容器以及 Kubernetes 技术,负责对机器学习领域中的资源调度、模型训练、模型推理、数据管理等多个子方向的成本效率优化工作; 4. 持续关注并跟进业界技术发展,比如超长上下文、思维链、多模态方向;

更新于 2025-03-31
logo of mi
校招

1. 负责视觉算法在手机平台上的实现和落地; 2. 负责模型优化、模型量化和模型压缩相关研发工作; 3. 负责端侧异构计算框架和AI推理引擎的设计和开发。 【课题名称】 ai infra研发 【课题内容】 1. 端侧ai infra技术研发,包括cpu/gpu/dsp异构处理器开发,端侧异构计算框架设计和开发; 2. AI推理引擎的设计和开发; 3. 模型压缩/量化技术研究和开发。

更新于 2025-06-25