logo of xiaohongshu

小红书机器学习平台研发工程师-调度方向-AI技术部

社招全职机器学习平台地点:北京 | 上海状态:招聘

任职要求


【岗位要求】
1、计算机相关专业,精通至少一门语言,Golang/C++/Python;
2、具有扎实的代码功底和实战能力;
3、熟练掌握k8s,有k8s或kubeflow的丰富实战经验;
4、熟悉了解深度学习框架/分布式训练…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


【业务介绍】
作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。
【岗位职责】
1、负责小红书大规模机器学习平台的后台系统设计和开发工作;
2、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升深度学习的训练效率,涉及k8s/kubeflow、网络通信、分布式训练等;
3、设计和构建 K8S 场景下的资源调度系统,参与底层GPU训练资源的调度优化与管理;
4、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。
包括英文材料
Go+
C+++
Python+
还有更多 •••
相关职位

logo of bytedance
社招2年以上A241222

团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok AI创新中心,是致力于AI基础设施建设和创新研究的部门,探索行业领先的人工智能技术,包括大语言模型,多模态大模型等研究方向。我们希望研发能够处理多语言和海量视频内容理解的模型算法,为用户带来更好的内容消费体验。在Code AI方向,我们利用大语言模型强大的代码理解与推理能力,提升程序性能与研发效率。 1、参与设计并实现高可用、可扩展、分布式大模型机器学习平台,支撑国际化短视频大模型研发与高效迭代; 2、探索业界前沿的大模型工程研发(LLMOps)相关技术,覆盖数据、训练、推理服务、评测、自动化编排、Prompt工程、资源调度等方向; 3、构建高性能大模型推理服务架构,降低推理成本,保障服务高可用运行。

更新于 2024-03-25北京
logo of aliyun
实习阿里云2026届

阿里云持续推进AI技术深化战略布局,围绕AI 和云计算的基础设施建设、AI基础模型平台、企业级AI应用方向构建核心场景。为此,我们正积极招募优秀人才: 负责云计算和大数据基础技术研发,包括不限于以下方向: 1、云基础设施技术,包括研发面向百万级服务器的网络(如RDMA、可编程芯片)、服务器(如异构计算)、数据中心,以及构建超大规模的基础设施智能化运维体系(如AIOps); 2、虚拟化技术,包括XEN、KVM等开源技术的改进,以及也包括我们自研的SDN、VPC等网络虚拟化、存储虚拟化技术,还包括Docker等轻量级的容器方案; 3、MySQL、PostgreSQL、MongoDB、Redis、HBase等开源数据库内核的改进; 4、包含单集群上万个节点,多地多集群的超大规模分布式存储系统(文件系统,KVstore,BigTable等等)、分布式计算系(MapReduce,DAG,MPI并行计算、Batch、类Hive/spark的计算系统包括离线,分布式开发语言,分布式开发IDE,查询优化,流式实时计算,图计算,MPP等等)、弹性分布式资源管理和调度(海量多维度的多目标的调度系统,多个资源维度资源隔离技术等等)、机器学习平台(包括Paratemter Server,深度学习,逻辑回归等等)、异构等新型硬件上计算(包括CPU,GPU,FPGA,RDMA等等); 5、大数据在线引擎体系的目标是集广告、搜索、推荐的投放三位于一体,在近百毫秒周期内,从服务端跨越至移动端上智能,支撑总体近TB级的模型,完成知识推理向量匹配等各种召回,以及其它深度学习的排序和预测算法,参与计算的数十亿商品保持实时更新,支持数百位算法工程师面向众多场景展开测试,在算子流图化的抽象之下,引擎内的模型和数据可随时调整布局满足迭代所需; 6、参与大规模高并发场景下的开发者工具如IDE、SDK、CLI的开发工作,toB相关认证、权限、审计平台合规等相关工具平台的研发工作。

更新于 2025-04-29北京|成都|杭州
logo of xiaohongshu
社招3年以上机器学习平台

1、负责模型训练平台核心功能开发和架构设计,包括传统CN/NLP/SD/LLM等多场景支持 2、负责大模型后训练工具平台化建设,包括后预训练、微调、对齐等技术落地 3、设计和实现高性能分布式训练系统,打造端到端训练解决方案 4、优化训练调度和资源管理,提升集群利用率和训练效率 5、开发模型训练监控诊断工具,建设可观测性体系

北京|上海|深圳
logo of xiaohongshu
社招2年以上机器学习平台

部门介绍: 小红书的AI技术中台目前由AI技术部负责建设,通过标准化的AI技术能力提供支持公司各个业务团队(包括社区,交易,商业化,广告,agi),实现AI能力的共享和复用,提升技术资源的利用率和公司的创新迭代速度,并降低技术成本和稳定性风险。 工作职责: 作为小红书AI技术部 智能调度开发工程师: 1、负责机器学习系统资源智能调度的设计和开发,服务于各方向(搜广推核心场景、LLM场景等)的模型训练、模型评估和模型推理; 2、通过调度技术、引擎技术提升在离线资源分配和利用效率,并提升训练、推理性能,支持公司业务的快速发展。 3、通过对机器学习平台的架构升级和产品迭代,大幅提升算法同学的模型迭代效率。 4、打造具有业界一流水平的机器学习技术,通过开源共建等各类形式,提升团队与个人在业界的影响力。

深圳