logo of xiaohongshu

小红书深度学习推理优化-AI编译器方向

社招全职3年以上引擎地点:北京 | 上海状态:招聘

任职要求


1. 计算机及相关专业本科以上学历,3年以上AI编译器研发经验。
2. 精通C/C++,具备扎实的系统底层能力(内存、并发、网络)。
3. 熟悉XLA/LLVM/MLIR/TVM/IREE/Triton/Torch Inductor/TileLang等AI编译基础设施和相关工具链。
4. 熟悉TensorFlow Serving、TensorRT、OpenXLA、ONNX Runtime…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


【部门介绍】引擎架构部提供小红书搜广推,CV和NLP业务的深度学习模型高性能推理服务。主导SOTA推理引擎的架构设计与核心模块开发,支撑搜广推业务在长序列建模、生成式推荐、Agent等前沿场景在GPU,XPU等异构计算部件上规模落地。

1. 参与推理引擎的架构设计与核心模块的开发,参与AI编译器前后端的设计与实现,优化IR Compile模式下DSL特征处理引擎和AI推理引擎的性能。
2. 分析I/O性能瓶颈、优化编译耗时和codegen性能,改进编译优化算法,不断优化编译器,解决编译部署问题。
3. 优化IR Compile模式下搜广推、长序列、多模态、MoE等深度学习模型的推理效率。
4. 针对GPU/NPU等异构计算芯片,探索基于IR编译优化的片内多部件并行流水线等前沿技术,构建业界影响力。
包括英文材料
学历+
C+
C+++
LLVM+
Triton Inference Server+
TensorFlow+
TensorRT+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

你将加入PAI平台团队,负责面向各类AI应用场景的模型训练与推理性能优化工作。该岗位聚焦于AI计算性能与系统效率的极致提升,以多层次优化手段,持续提升模型训练与推理的速度、稳定性与资源利用率,具体工作内容包含但不限于: ● 分析客户模型在不同硬件(GPU、NPU、CPU 等)和集群环境中的性能瓶颈,制定优化方案; ● 对主流深度学习框架(如 PyTorch、TensorFlow、JAX 等)进行算子、内核或图优化; ● 深入理解分布式训练架构(如数据并行、模型并行、流水并行等),优化通信与调度性能; ● 在推理端负责模型性能瓶颈分析,并进行量化、剪枝、融合、TensorRT/ONNX Runtime 等优化; ● 与平台团队协作,优化训练任务调度、算力利用、容器化运行效率以及多租户资源隔离; ● 支持重点客户模型性能调优,提供端到端性能优化方案与技术支持。

更新于 2025-11-17北京|杭州|上海
logo of xd
社招技术大类

1.负责 TapTap 离线训练、在线推理框架的优化与开发,服务于公司各个业务线,如搜索、推荐、广告、AI 等业务; 2.与公司各算法部门深度合作,分析业务性能瓶颈和系统架构特征,软硬件结合优化,实现极致性能; 3.设计和实现机器学习相关的基础设施/算法框架/工具链等,并推动落地到业务中; 4.探索业界前沿的机器学习相关技术,持续提升平台能力,降低算法使用成本。

更新于 2025-11-19上海
logo of tencent
社招2年以上大数据(数据计算

1.针对各类推理场景,负责GPU/AI芯片底层性能优化与调优; 2.优化和扩展vLLM、SGLang、PyTorch等框架的核心模块,提升计算效率与资源利用率; 3.深入分析GPU/AI芯片的硬件架构特性,设计并实现高性能算子、算法和特性使能组件; 4.探索前沿技术方向(如混合专家模型MOE、动态计算图编译优化等)。

更新于 2026-03-26北京
logo of xpeng
社招

-我们正在寻找一名机器学习高级工程师-AI推理方向。理想的候选人需要拥有深厚的ML推理知识和强烈的热情来 优化我们的模型,以最高效的利用我们的AI加速器的每一个FLOP和每一个字节的内存。 -我们的使命是解决自动驾驶难题。您将与才华横溢的软件工程师、机器学习工程师和研究科学家团队合作,推动最先进的自动驾驶人工智能。 1、为深度学习模型在小鹏定制的AI加速器上的部署做优化。 2、为小鹏的AI加速器编开发内核。 3、为关键内核的性能估计建立数学模型。

更新于 2024-11-28上海|北京