小红书架构师-大商业化(AI/研效/稳定性/基建)
任职要求
1、本科及以上学历(优先),计算机与科学相关专业,至少3年服务端开发经验,擅长Java; 2、能够对自身做的事情结果负责,有复杂业务系统的建设经营,过程中能够有自己的思考和理解;有稳定性经验和架构升级经验的优先; 3、熟悉常见的数据结构和算法,java基本功扎实;能够业内前沿技术能力解决工作中的问题; 4、熟悉并实施过分布式服务下高可…
工作职责
【团队介绍】 我们是支持小红书电商、广告、本地生活技术团队的架构组,致力于为正在迅猛发展的小红书泛商业化场景提供强大支持并不断提升其水平。我们所面对的业务正在高速增长,涵盖多种多样的业务形态,因此我们面临着高可用性和架构设计方面的巨大挑战。我们需要保证小红书泛商业化业务持续蓬勃发展的轨道上稳定前行,因此正在寻找技术实力雄厚、架构设计经验丰富,并且与我们志同道合的伙伴。 如果你曾经参与过电商、电信、银行、财务等领域的复杂系统设计,并为这些系统提供稳定性保障,那么你就是我们正在寻找的人才。 我们期望你在以往的工作中不仅知道怎么做,还知道为什么这么做,因为我们将为你提供一个广阔的发展舞台,与志同道合的伙伴一起工作。 我们诚邀你加入我们,共同建设业内最具活力的电商平台。让我们一起创造更美好的未来! 【你将负责】 1、学习并了解小红书相关电商、广告等业务及链路,了解应用、系统、基础设施等各层技术的调用关系; 2、保障小红书电商、广告等的大促及重要活动平稳运行; 3、负责设计和落地小红书电商稳定性保障解决方案,包含但不局限于:线上问题管理、全链路的监控管理、线上变更管理、故障容灾演练管控、重大活动管理,线上问题快速恢复平台,线上问题排查平台以及稳定性文化建设,为小红书泛商业化的持续高可用负责; 4、针对小红书泛商业化场景,进行高度抽象和沉淀,通过技术手段保障研发效能持续处于业内领先水平; 5、持续对小红书泛商业化的业务架构,技术架构和基础架构进行升级,保障小红书商业化业务健康稳定快速发展和迭代。
#为什么加入这个团队是可靠的选择? 小红书社区与电商业务处于稳定高速增长阶段,日活与交易规模持续扩大,对客户端性能、研发效率、跨端体验的要求越来越高。 前端架构组负责全公司前端与跨端的技术底座,直接支撑社区、电商、商业化、直播等核心业务团队的日常迭代与大促保障。 我们更注重技术深度、系统稳定性与长期演进,而不是短期噱头。这里适合想沉下来做基建、追求极致工程效率的技术同学。 #你能得到的成长支持 - 能深度参与公司级前端与跨端技术体系建设,系统性地提升架构能力; - 与社区、电商、商业化等核心业务的技术负责人保持常态化对齐,了解一线需求; - 有足够空间探索 AI 在研发提效上的真实落地价值(AI 辅助编码、Review、调试、构建优化等),而不是追概念; - 薪资对标行业一线水平,快速增长的期权为你的收入上个buff,上海/杭州二选一,房补、三餐、补充商保等福利齐全; #你会参与的核心工作(根据经验与兴趣选择1-2个主方向) - 持续优化前端构建链路与 CI/CD 体系,提升全公司研发效率与交付质量; - 推动 React Native 跨端框架在复杂业务场景下的稳定性与性能治理; - 参与 Web/Node 自研框架的演进,保障亿级流量场景下的可靠性; - 建设 AI Coding 相关基建(IDE 插件、Agent 辅助、代码生成/Review 等),让 AI 真正为开发者省时间; - 输出内部技术标准与最佳实践,偶尔也可对外分享;
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! DirectLLM是小红书内部面向各业务场景建设的大模型API服务产品,通过标准化API接口提供LLM/MLLM等大模型推理服务,致力于为AI应用开发者提供品类丰富、数量众多的模型选择,并通过API接口为其提供开箱即用、能力卓越、成本经济的模型服务,各领域模型的能力均可通过统一的API和SDK来实现被不同业务系统集成。 核心职责 1. 参与小红书万亿级Token量推理系统构建,包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向,共同打造国内领先的大模型MaaS服务; 2. 探索负载感知的推理系统流量调度算法,如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等,持续提升MaaS系统的稳定性、成本效益; 3. 探索并跟进业界开源SOTA模型,如Qwen系列、DeepSeek系列,多维度评估模型效果并建立相关的准入体系,及时上架到MaaS系统; 4. 参与MaaS系统的国产卡适配与异构算力统一调度体系,如华为910C、阿里PPU、昆仑芯P800; 5. 参与攻克大规模分布式推理系统带来的复杂挑战,通过弹性调度、容量规划、链路压测等手段提升系统健壮性,确保平台能够弹性扩展,支撑业务的飞速增长。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 工作职责: 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架; 2、参与/负责KV Router、PD分离/EPD分离、KVCache管理、动态PD调整等分布式推理能力建设; 3、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架; 4、参与/负责构建推理框架的系统容错能力,包括但不限于请求迁移、优雅退出、故障检测、自愈等能力建设; 5、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等; 6、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成。