logo of kuaishou

快手AI 性能优化工程师(北京/杭州/深圳)

社招全职D7198地点:北京状态:招聘

任职要求


1.在图优化、量化、算子优化等技术方向其中一项有深入研究;
2.熟练掌握Python等编程语言,具备扎实的数据结构算法能力;
3.熟悉vLLM、SGlang、Torch.compile、XLA、Triton、TensorRTTensorRT-LLM等技术之一,并有相应开发经验者优先;
4.熟悉GPU(Nvidia/AMD)平台的高性能计算优化技术,对GPU硬件有深入理解,熟悉并行计算优化、访存优化和低比特计算等,熟悉Nsight System/ Nsight Compute 工具的使用及性能分析;
5.了解深度学习算法基本原理,熟悉神经网络基本架构及其算子计算方式,了解至少一种深度学习训练框架及其模型文件解析,如PytorchTensorFlow;
6.有使用GPU做AI算法加速相关经历,熟悉CUDA编程,具备较好开发能力,熟悉triton、cutlass、有算子库开发经验者优先;
7.熟悉LLM infer 相关技术栈,熟悉TP/PP/DP等分布式通信原理等优先;
8.具有独立解决问题的能力,能够对业务逻辑进行合理的抽象和拆分,具备良好的团队合作精神。

工作职责


1.参与AI与GPU相关项目的性能优化与研发,通过利用并行计算优化、架构优化、量化优化和异构调度等高性能优化技术,研发行业领先的高性能异构AI优化技术与编译优化技术;
2.针对搜广推、音视频以及大模型场景,优化大模型训练和推理场景的性能;
3.与公司各算法部门深度合作,对重点项目进行算法与系统的联合优化。
包括英文材料
Python+
数据结构+
算法+
大模型+
vLLM+
TensorRT+
Nsight+
深度学习+
PyTorch+
TensorFlow+
CUDA+
相关职位

logo of kuaishou
校招J1020

1.参与AI与GPU相关项目的性能优化与研发,通过利用CPU、GPU的并行计算优化、架构优化、量化优化和异构调度等高性能优化技术,研发行业领先的高性能异构AI优化技术与编译优化技术; 2.针对搜索、推荐、广告、音视频以及大模型场景,优化模型训练和推理场景的性能; 3.与公司各算法部门深度合作,对重点项目进行算法与系统的联合优化。

更新于 2025-07-30
logo of bytedance
社招2年以上A207604A

1、参与抖音研发效能平台能力的建设,负责系统设计和核心代码开发; 2、支撑抖音业务工程提效、红蓝攻防、风险治理等方向智能化建设; 3、对前端工程化体系建设、开发规范、组件化、测试有深入认识和实践; 4、对产品的稳定性和性能极致的追求,深入理解并致力于优化和重构,确保系统高效、稳定运作; 5、关注AI领域的最新动态和趋势,结合开发者的实际需求,为我们提供高性能、适应性强的技术解决方案。

更新于 2024-09-14
logo of bytedance
社招A171311A

1、设计和实现基于LLM的智能体架构,包括任务规划、对话管理、意图识别、流程工程等; 2、设计和实现多模态Agent,支持文本、语音、图像等多种输入/输出形式的处理; 3、推动AI Agent在架构和性能上的持续优化,提升Agent对用户理解能力和响应的准确性; 4、开发和维护智能体的后端服务,确保系统的稳定性和可扩展性; 5、跟踪并研究行业前沿AI算法,持续提升AI Agent的技术水平; 6、编写必要的技术文档,包括API接口说明、核心算法设计与代码开发。

更新于 2025-01-08
logo of kuaishou
校招J1020

1、参与大模型推理/训练优化。通过研发业界领先的AI Compiler 技术,支撑搜推场景在GPU上的训练计算性能优化;支持大模型推理优化技术在异构硬件上的落地; 2、参与各种大模型推理所需的功能性开发任务;相关编译优化功能开发,以图优化、算子融合、GPU高性能算子开发及自动Codegen等技术手段不断推高在不同卡型上的计算性能极限; 3、参与支持日常的大模型推理服务部署,参与内部日常提效工具的研发。

更新于 2025-08-11