小红书AI推理服务架构工程师-创作发布
任职要求
1. 对各种AI算法有一定的了解,有丰富的算法工程集成,性能优化和落地经验; 2. 熟悉CUDA编程、CUDNN,TensorRT等工具,有丰富的服务端性能优化经验者优先; 3. 深入了解NCNN、MNN、TNN、TVM、VLLM框架中的一种或多种,熟悉汇编优…
工作职责
小红书智创技术团队负责用户发布工具、增长&商业化业务等多个公司重要业务场景里的创作能力的支持,技术范围广,技术栈深,对技术有着极高的追求。 工作职责: 1. 负责端侧的AI算法的部署和工程化落地,提升端侧的智能化水平,并通过端侧推理架构的优化,提升用户的使用体验; 2. 负责服务端的Diffusion、LLM、VLLM等先进算法的部署和性能优化,提升推理效率,降低成本; 3. 打造具有业界一流水平的大模型推理技术能力,并通过开源共建等各类形式,形成在业界的广泛技术影响力。
日常实习:面向全体在校生,为符合岗位要求的同学提供为期>3个月及以上的项目实践机会。 团队介绍:创作发布团队负责小红书“+”号入口,是全平台用户笔记发布的核心能力模块,承载着内容生成、处理与分发的关键任务。我们希望通过智能化技术,持续提升内容创作效率与用户体验。 在这里,AI 引擎工程师将聚焦于结合小红书内部业务特点,对“端 & 云 AI 推理引擎”进行深度优化,从模型能力构建、框架适配,到端云协同部署,推动算法真正落地业务,构建完整的推理闭环。 你将接触并支持的算法方向包括:AIGC、文本与多模态大语言模型(LLM)、音频处理、基础视觉等多个前沿领域。这些模型往往结构复杂、实时性要求高,对底层推理性能提出了极高挑战。 1、参与海量大模型异构资源的调度编排、算力池化、弹性资源混布、潮汐资源拆借和Quota管理; 2、参与大模型推理服务的多角色、多阶段、PD分图/EP调度,KVCache-centric调度,实现动态、及时、准确的扩缩容管理; 3、参与通过技术手段实现计算资源、RDMA高速网络资源、缓存/存储资源的最优调度,充分发挥大规模分布式集群算力; 4、参与大模型服务的稳定性,通过线上和线下的多系统联动,实现在多种异构资源(GPU、CPU、其他异构硬件)、多云环境、多种网络流量场景的问题定位、诊断、隔离和快速恢复; 5、参与多机房、多地域、多云场景的在离线任务/服务调度,实现负载的合理化分布。
1、负责小红书内容发布侧后端开发,方向包括但不限于:核心发布链路、创作工具、创作者服务等 2、基于对业务的理解,进行系统选型、设计、编码,为系统长期的稳定性及可维护性负责 3、设计合理的架构,保障数据一致性、稳定性、研发效率 4、参与开发人员codereview工作,并能从语言和框架层面提供性能优化、安全性建议
1、负责小红书内容发布侧后端开发,方向包括但不限于:核心发布链路、创作工具、创作者服务等; 2、基于对业务的理解,进行系统选型、设计、编码,为系统长期的稳定性及可维护性负责; 3、设计合理的架构,保障数据一致性、稳定性、研发效率; 4、参与开发人员codereview工作,并能从语言和框架层面提供性能优化、安全性建议。
项目简介 我们在做一套面向创作者与玩家的 AI 驱动 UGC 平台:支持关卡/脚本/素材的在线创作与分发,内置智能生成、审核与协作能力。你将从 0→1 共建核心后端,包括内容存储、实时协作、生成任务编排与审核、安全风控与运营后台等。 负责后端核心模块的架构设计与开发(用户/作品/发布流/评论与审核/计费与权限等); 搭建实时能力:联机协作/作品预览/在线游玩所需的 WebSocket/gRPC/事件流; 建设 UGC 内容安全与审核(文本/图片/音频/脚本):策略配置、人工+AI 联动、申诉流程; 以敏捷迭代面向 MVP:快速拆解需求、度量与回滚、数据驱动优化; 推动工程效率与质量:利用 AI 编程工具进行脚手架生成、重构、单元/集成测试补齐与文档生成; DevOps 与稳定性:CI/CD、可观测性(日志/指标/Tracing)、容量与性能优化、成本管控、基础安全。