希音大模型训推系统工程师（C++/python）

社招全职信息技术类2025-12-18地点：深圳状态：招聘

扫码手机上打开

任职要求

1、熟练掌握Linux环境下的C/C++与Python语言，有大规模机器学习系统或搜广推推荐系统相关经验； 
2、熟悉至少一种机器学习框架（Tensorflow/PyTorch/MxNet或其他自研框架）； 
3、熟悉至少一种大模型训练/推理框架，包括但不限于：LLM、TensorRT-LLM、SGLang、Megatron-LM等； 
4、具有独立解决问…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

【】
1、负责大模型训练和推理系统的研发与性能优化，包括但不限于：模型计算性能优化、训练集群调优、分布式大模型推理系统、大规模推理流量调度等； 
2、负责解决系统高并发、高可靠性、高可扩展性等技术难关； 
3、负责大模型训练和推理前瞻性技术架构的调研和引入，技术方案不限于子图匹配、编译优化、模型量化等； 
4、负责异构硬件的引入与训练推理框架的集成，包括但不限于GPU、NPU、TPU等； 
5、算法部门深度合作，进行算法与系统的联合优化。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Linux+

C+

C+++

Python+

机器学习+

推荐系统+

TensorFlow+

PyTorch+

还有更多 •••

登录查看完整学习资料

相关职位

AI平台高级研发工程师（大模型专项）

社招3年以上机器学习平台

【业务介绍】我们是小红书内稠密类模型（LLM/MLLM/SD/CV/NLP）统一的AI平台QuickSilver，负责调度公司内所有稠密类模型训练与推理资源，基于自建的训推引擎，为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务；包括数据管理，模型管理，模型训练、压缩、推理、部署，服务管理，资源调度等一系列能力。工作职责： 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程，包括模型fine-tuning、推理服务化等 3、构建云原生架构，设计高可用、高性能的微服务体系 4、优化平台性能，提升系统稳定性和可扩展性

北京|上海|深圳

混合云异构计算工程师（J85179）

社招ACG

-建设业界领先的AI异构算力容器平台，提供高性能、高稳定性、高易用性的百舸产品，支持AIGC、智算中心、金融、 -结合 SOTA 模型训练推理优化原理，深入模型结构与设计思路，将训练推理优化手段工程实践化，为客户提供系统性加速方案，提升训推效率 -在自研芯片上适配常见大模型，结合深度学习训推框架特性，开发或调优相关算子，提升模型在芯片上的性能和精度表现，辅助客户进行芯片选型和应用 -针对大规模异构集群场景下，探索训推任务管理、异构资源调度、虚拟化混布、容器存储、高性能网络、分布式训练和推理等技术的创新和应用 -探索业界最新技术方向，参与机器学习框架等开源社区，提升百度混合云AI核心竞争力

更新于 2025-05-15北京

资深异构计算架构师（J84309）

社招ACG

-负责建设业界领先的AI异构算力容器平台，提供高性能、高稳定性、高易用性的混合云产品，支持AIGC、智算中心、智驾、金融能源等客户AI应用高效部署 -负责云原生AI容器相关产品的架构设计和产品研发，引入开源社区先进的AI框架、AI调度、AI工作流和AI可观测能力组件构建全栈AI应用云原生解决方案 -结合 SOTA 模型训练推理优化原理，深入模型结构与设计思路，将训练推理优化手段工程实践化，为客户提供系统性加速方案，提升训推效率 -针对大规模异构集群场景下，探索训推任务管理、异构资源调度、虚拟化混布、容器存储、高性能网络、分布式训练和推理等技术的创新和应用 -探索业界最新技术方向，参与机器学习框架等开源社区，提升百度混合云AI核心竞争力，提升团队技术影响力

更新于 2025-04-09北京

大模型推理服务(MaaS)研发工程师/专家

社招引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！ DirectLLM是小红书内部面向各业务场景建设的大模型API服务产品，通过标准化API接口提供LLM/MLLM等大模型推理服务，致力于为AI应用开发者提供品类丰富、数量众多的模型选择，并通过API接口为其提供开箱即用、能力卓越、成本经济的模型服务，各领域模型的能力均可通过统一的API和SDK来实现被不同业务系统集成。核心职责 1. 参与小红书万亿级Token量推理系统构建，包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向，共同打造国内领先的大模型MaaS服务； 2. 探索负载感知的推理系统流量调度算法，如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等，持续提升MaaS系统的稳定性、成本效益； 3. 探索并跟进业界开源SOTA模型，如Qwen系列、DeepSeek系列，多维度评估模型效果并建立相关的准入体系，及时上架到MaaS系统； 4. 参与MaaS系统的国产卡适配与异构算力统一调度体系，如华为910C、阿里PPU、昆仑芯P800； 5. 参与攻克大规模分布式推理系统带来的复杂挑战，通过弹性调度、容量规划、链路压测等手段提升系统健壮性，确保平台能够弹性扩展，支撑业务的飞速增长。

更新于 2026-03-20北京|上海