小红书机器学习平台研发工程师-调度方向-AI技术部

社招全职机器学习平台地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

【岗位要求】
1、计算机相关专业，精通至少一门语言，Golang/C++/Python；
2、具有扎实的代码功底和实战能力；
3、熟练掌握k8s，有k8s或kubeflow的丰富实战经验；
4、熟悉了解深度学习框架/分布式训练…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

【业务介绍】
作为公司统一的机器学习平台团队，负责调度公司所有模型训练与推理资源；基于自建的训推引擎，构建公司统一的机器学习平台，为公司所有算法同学（稀疏 & 稠密，含 LLM） 模型迭代提供端到端的一站式服务；包括 数据生产，模型训练，模型上线，特征管理，模型测试，资源管控等一系列能力。
【岗位职责】
1、负责小红书大规模机器学习平台的后台系统设计和开发工作；
2、将平台和框架结合，通过任务调度、弹性容灾、性能优化等措施端到端提升深度学习的训练效率，涉及k8s/kubeflow、网络通信、分布式训练等；
3、设计和构建 K8S 场景下的资源调度系统，参与底层GPU训练资源的调度优化与管理；
4、研究分析业内AI平台产品，优化技术方案，改进产品功能，完善产品体验。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Go+

C+++

Python+

还有更多 •••

登录查看完整学习资料

相关职位

基础平台研发工程师

实习阿里云2026届

阿里云持续推进AI技术深化战略布局，围绕AI 和云计算的基础设施建设、AI基础模型平台、企业级AI应用方向构建核心场景。为此，我们正积极招募优秀人才：负责云计算和大数据基础技术研发，包括不限于以下方向： 1、云基础设施技术，包括研发面向百万级服务器的网络（如RDMA、可编程芯片）、服务器（如异构计算）、数据中心，以及构建超大规模的基础设施智能化运维体系（如AIOps）； 2、虚拟化技术，包括XEN、KVM等开源技术的改进，以及也包括我们自研的SDN、VPC等网络虚拟化、存储虚拟化技术，还包括Docker等轻量级的容器方案； 3、MySQL、PostgreSQL、MongoDB、Redis、HBase等开源数据库内核的改进； 4、包含单集群上万个节点，多地多集群的超大规模分布式存储系统(文件系统，KVstore，BigTable等等）、分布式计算系（MapReduce，DAG，MPI并行计算、Batch、类Hive/spark的计算系统包括离线，分布式开发语言，分布式开发IDE，查询优化，流式实时计算，图计算，MPP等等）、弹性分布式资源管理和调度（海量多维度的多目标的调度系统，多个资源维度资源隔离技术等等）、机器学习平台（包括Paratemter Server，深度学习，逻辑回归等等）、异构等新型硬件上计算（包括CPU，GPU，FPGA，RDMA等等）； 5、大数据在线引擎体系的目标是集广告、搜索、推荐的投放三位于一体，在近百毫秒周期内，从服务端跨越至移动端上智能，支撑总体近TB级的模型，完成知识推理向量匹配等各种召回，以及其它深度学习的排序和预测算法，参与计算的数十亿商品保持实时更新，支持数百位算法工程师面向众多场景展开测试，在算子流图化的抽象之下，引擎内的模型和数据可随时调整布局满足迭代所需； 6、参与大规模高并发场景下的开发者工具如IDE、SDK、CLI的开发工作，toB相关认证、权限、审计平台合规等相关工具平台的研发工作。

更新于 2025-04-29北京|成都|杭州

大模型机器学习平台研发工程师-TikTok AI创新中心（北京/上海）

社招2年以上A241222

团队介绍：TikTok是一个覆盖150个国家和地区的国际短视频平台，我们希望通过TikTok发现真实、有趣的瞬间，让生活更美好。TikTok 在全球各地设有办公室，全球总部位于洛杉矶和新加坡，办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok AI创新中心，是致力于AI基础设施建设和创新研究的部门，探索行业领先的人工智能技术，包括大语言模型，多模态大模型等研究方向。我们希望研发能够处理多语言和海量视频内容理解的模型算法，为用户带来更好的内容消费体验。在Code AI方向，我们利用大语言模型强大的代码理解与推理能力，提升程序性能与研发效率。 1、参与设计并实现高可用、可扩展、分布式大模型机器学习平台，支撑国际化短视频大模型研发与高效迭代； 2、探索业界前沿的大模型工程研发（LLMOps）相关技术，覆盖数据、训练、推理服务、评测、自动化编排、Prompt工程、资源调度等方向; 3、构建高性能大模型推理服务架构，降低推理成本，保障服务高可用运行。

更新于 2024-03-25北京

（大模型专项）机器学习平台研发工程师（云原生及资源调度方向）

社招D11722

1、负责快手内部推荐、大模型模型训练、大模型推理的云原生平台、负责训练与推理的二层调度、大规模GPU、CPU集群管理和资源优化，做深度学习框架与资源调度相结合的资源管理与优化； 2、业内AI资源管理平台前沿技术进展跟进与调研、落地。

更新于 2025-05-16北京

AI平台高级研发工程师（大模型专项）

社招3-5年大模型

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！ 1、负责大模型平台的架构设计和核心功能研发，构建云原生架构，设计高可用、高性能的微服务体系； 2、负责构建面向大模型全流程的DevOps，与下游云原生平台深度融合，支撑大模型在公司内各业务生产链路稳定高效地落地； 3、负责万卡规模GPU集群效能分析及优化，通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段，提升GPU集群使用效率； 4、将平台和框架结合，通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率，涉及k8s/kubeflow、网络通信、分布式训练等； 5、优化各AI平台性能，提升系统稳定性和可扩展性，保障大规模并发场景下的服务质量与用户体验； 6、持续研究分析业内创新AI平台产品，优化技术方案，改进产品功能，提升创新能力与产品体验。

更新于 2025-10-23北京|上海|杭州