小米新业务部-软件架构师(内存/存储方向)
任职要求
1、精通Android内存管理各种技术,包括内存分配、回收、压缩等技术,优化系统内存使用提升内存整体性能;
2、深入理解存储架构,有文件系统优化和防老化经验,了解各个厂商存储器件性能和特点;
3…工作职责
1、负责内存芯片(System Cache、SMMU、DDR)及存储器模块的架构设计、优化和性能提升; 2、负责内存管理以及子系统优化,负责多媒体领域内存管理(包含性能优化、内存容量管理等)和性能优化; 3、负责文件系统、老化等系统分析、设计和优化,提升系统性能; 4、洞察行业内存存储技术,研究软硬件前沿技术,输出领域技术规划,推动软硬件协同设计。
容器方向: 1、Kubernetes架构设计与开发,在深入理解Kubernetes原生架构基础上,参与Kubernetes核心组件开发; 2、参与Kubernetes集群全面性能分析,并优化关键节点、组件和流程,以提升整体系统的稳定性和响应速度; 3、参与Kubernetes集群的稳定部署、监控与维护工作,确保集群在高负载环境下的可靠运行,并完善平台化能力; 4、参与公司容器调度平台的架构设计和核心功能开发,包括容器资源管理、调度优化、应用和资源弹性等; 5、参与公司混部调度方案落地,优化集群资源的整体利用率;研究并改进 Kubernetes 调度算法,提升集群的资源分配效率和稳定性。 系统软件方向: 1、构建及维护操作系统基础环境,负责线上服务器操作系统底层基础模块的稳定运行; 2、优化操作系统、内核、服务器等运行环境,提升小红书整体业务性能; 3、结合软硬件及k8s调度技术,提供体系的解决方案,给上层应用带来稳定性的提升及成本的下降,包括但不限定于混部,超卖等技术; 4、负责构建实时、稳定的全链路跟踪系统,聚焦linux、服务器、交换机等基础设施的故障定界。
容器方向: 1、Kubernetes架构设计与开发,在深入理解Kubernetes原生架构基础上,参与Kubernetes核心组件开发; 2、参与Kubernetes集群全面性能分析,并优化关键节点、组件和流程,以提升整体系统的稳定性和响应速度; 3、参与Kubernetes集群的稳定部署、监控与维护工作,确保集群在高负载环境下的可靠运行,并完善平台化能力; 4、参与公司容器调度平台的架构设计和核心功能开发,包括容器资源管理、调度优化、应用和资源弹性等; 5、参与公司混部调度方案落地,优化集群资源的整体利用率;研究并改进 Kubernetes 调度算法,提升集群的资源分配效率和稳定性。 系统软件方向: 1、构建及维护操作系统基础环境,负责线上服务器操作系统底层基础模块的稳定运行; 2、优化操作系统、内核、服务器等运行环境,提升小红书整体业务性能; 3、结合软硬件及k8s调度技术,提供体系的解决方案,给上层应用带来稳定性的提升及成本的下降,包括但不限定于混部,超卖等技术; 4、负责构建实时、稳定的全链路跟踪系统,聚焦linux、服务器、交换机等基础设施的故障定界。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 工作职责: 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架; 2、参与/负责KV Router、PD分离/EPD分离、KVCache管理、动态PD调整等分布式推理能力建设; 3、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架; 4、参与/负责构建推理框架的系统容错能力,包括但不限于请求迁移、优雅退出、故障检测、自愈等能力建设; 5、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等; 6、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成。
中台稠密引擎组,是小红书负责建设通用深度学习训练推理引擎的团队,面向全公司LLM、多模态LLM、SD、传统CV&NLP等稠密计算型模型训练与推理的业务场景,打造高效、易用、业界领先的训练与推理引擎,为小红书社区、商业化、安全等众多业务方向提供先进的引擎能力,支撑业务持续提升训练推理效率、模型迭代效率与算法研发效率。 1、参与设计和实现深度学习后训练及微调的前沿算法(包括但不限于RFT、RLHF等),以适应多样化的业务场景; 2、结合业务数据和场景,评估选择最适合的微调算法,以支撑业务大语言模型(LLM)微调指标的提升; 3、与数据团队紧密合作,深入理解数据特性,参与设计实现数据提质算法引擎工具,产出高质量数据集提升模型微调效果; 4、与公司内各算法团队深度合作,参与或负责大语言模型、多模态大模型等业务场景的后训练端到端效果提升及落地; 5、密切关注业界 LLM 微调算法和数据提质领域的前沿论文,并整合新技术和算法到训练引擎中,提升框架的领先性;