
美图后端研发工程师(Python)|AI算法服务中台
任职要求
1. 本科及以上学历,3 年以上后端开发经验,精通 Python 后端开发,具备扎实的数据结构与系统设计能力 2. 熟悉Python主流 Web 框架(如 FastAPI / Flask / Django 等),理解异步编程模型与协程机制 3. 具备高并发、高可用系统设计经验,理解分布式系统基础(服务注册发现、负载均衡、限流熔断、降级策略等) 4. 熟悉 Linux 开发环境,理解 Docker 原理,具备 K8s 实践经验,理解容器调度与资源管理机制 5. 具备模型服务接入或外部 API 聚合经验,理解推理服务的性能特征、延迟控制与成本优化策略 6. 熟悉 Redis、消息队列(Kafka / RabbitMQ 等)或缓存与异步任务系统设计者优先 ## 加分项 1. 有算法服务中台、技术中台或云原生平台建设经验 2. 有多模型调度、策略引擎或流量分发系统设计经验 3. 熟悉服务网格(Service Mesh)、可观测体系(Prometheus / OpenTelemetry 等) 4. 了解大模型推理架构、GPU 资源调度或推理性能优化 5. 有大规模系统稳定性建设经验(压测、容量规划、故障演练等) ## 我们提供 1. 从 0 到 1 参与 AI 算法服务中台架构设计与核心模块建设 2. 参与多模型能力接入与调度系统建设,解决真实高并发与成本优化问题 3. 技术决策空间充分,鼓励工程质量与系统设计能力提升 4. 入职配备最新款 MacBook Pro,提供 AI 工具支持(如 Cursor 等) 5. 扁平开放的技术氛围,与算法及业务团队深度协作 ## 我们期待这样的你 1. 对系统架构与工程质量有追求,愿意构建可长期演进的技术体系 2. 对 AI 基础设施与模型工程化充满兴趣 3. 希望参与构建一个真正支撑业务规模增长的核心平台系统 欢迎加入我们,一起构建面向 AI 时代的高性能、可扩展的算法服务基础设施。 Backend Software Engineer (Python) | AI Algorithm Services Platform About the Role We are building a next-generation AI Algorithm Services Platform that standardizes the integration, orchestration, and governance of AI models and external algorithm providers. As a Backend Software Engineer, you will play a key role in designing and developing the engineering infrastructure that enables scalable, high-performance, and highly available AI services. You will help create a unified platform for model onboarding, routing, scheduling, observability, and runtime governance, forming the foundation of AI-powered applications at scale. Responsibilities Design and implement engineering frameworks for AI algorithm services, including service packaging, containerization, deployment standards, and runtime governance. Build and enhance a multi-model integration and orchestration platform, supporting model routing, concurrency control, rate limiting, circuit breaking, priority scheduling, and cost optimization strategies. Architect and optimize backend systems for high-concurrency workloads, ensuring scalability, reliability, and fault tolerance under high-QPS and complex dependency scenarios. Develop comprehensive observability capabilities, including logging, metrics, tracing, monitoring, and alerting, to improve system performance and resiliency. Collaborate closely with AI researchers, product managers, and business teams to efficiently deliver AI capabilities and establish reusable engineering best practices. Requirements Bachelor's degree or above in Computer Science, Software Engineering, or a related field. 3+ years of backend development experience with strong proficiency in Python. Solid understanding of data structures, algorithms, software architectu…
工作职责
##
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。
中台稠密引擎组,是小红书负责建设通用深度学习训练推理引擎的团队,面向全公司LLM、多模态LLM、SD、传统CV&NLP等稠密计算型模型训练与推理的业务场景,打造高效、易用、业界领先的训练与推理引擎,为小红书社区、商业化、安全等众多业务方向提供先进的引擎能力,支撑业务持续提升训练推理效率、模型迭代效率与算法研发效率。 1、参与设计和实现深度学习后训练及微调的前沿算法(包括但不限于RFT、RLHF等),以适应多样化的业务场景; 2、结合业务数据和场景,评估选择最适合的微调算法,以支撑业务大语言模型(LLM)微调指标的提升; 3、与数据团队紧密合作,深入理解数据特性,参与设计实现数据提质算法引擎工具,产出高质量数据集提升模型微调效果; 4、与公司内各算法团队深度合作,参与或负责大语言模型、多模态大模型等业务场景的后训练端到端效果提升及落地; 5、密切关注业界 LLM 微调算法和数据提质领域的前沿论文,并整合新技术和算法到训练引擎中,提升框架的领先性;
1、负责模型训练平台核心功能开发和架构设计,包括传统CN/NLP/SD/LLM等多场景支持 2、负责大模型后训练工具平台化建设,包括后预训练、微调、对齐等技术落地 3、设计和实现高性能分布式训练系统,打造端到端训练解决方案 4、优化训练调度和资源管理,提升集群利用率和训练效率 5、开发模型训练监控诊断工具,建设可观测性体系