logo of xiaohongshu

小红书AI大模型推理系统研发工程师(实习)

实习兼职大模型地点:北京 | 上海状态:招聘

任职要求


1、熟悉业界主流Dense、MOE大模型架构及主要特点,能识别出模型效果及主要使用场景,支持用户大模型的选型和使用需求;
2、了解至少一种大模型服务推理部署框架,如vLLMSGLang、Dynamo等,并有过大模型服务部署的经验;
3、优秀的代码能力、数据结构和基础算法功底,熟悉C++/Python开发,熟悉 Linux/Git 开发环境;
4、有强烈的工作责任心,较好的学习能力、沟通协作能力和自驱力,能和团队一起探索新技术,推进技术进步。
加分项
1、有AI大模型网关相关方向研究或实操经验,如多模型路由、AI负载感知路由等;
2、有大模型推理系统问题排查和优化经验,如推理的RT分析和优化;
3、有国产主力卡型华为910C、阿里PPU性能评测或相关接入经验;

工作职责


1、参与小红书万亿级Token量推理系统构建,包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向,共同打造国内领先的大模型推理系统;
2、探索负载感知的推理系统流量调度算法,如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等,持续提升MaaS系统的稳定性、成本效益;
3、探索并跟进业界开源SOTA模型,如Qwen系列、DeepSeek系列,多维度评估模型效果并建立相关的准入体系,及时上架到MaaS系统;
4、参与MaaS系统的国产卡适配,如华为910C、阿里PPU等;
5、参与攻克大规模分布式推理系统带来的复杂挑战,通过弹性调度、容量规划、链路压测等手段提升系统健壮性,确保平台能够弹性扩展,支撑业务的飞速增长。
包括英文材料
大模型+
vLLM+
SGLang+
数据结构+
算法+
C+++
Python+
Linux+
Git+
相关职位

logo of xiaohongshu
实习大模型

1、参与小红书万亿级Token量MaaS系统构建,包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向,共同打造国内领先的大模型MaaS系统; 2、探索负载感知的推理系统流量调度算法,如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等,持续提升MaaS系统的稳定性、成本效益; 3、探索并跟进业界开源SOTA模型,如Qwen系列、DeepSeek系列,多维度评估模型效果并建立相关的准入体系,及时上架到MaaS系统; 4、参与MaaS系统的国产卡适配,如华为910C、阿里PPU等; 5、参与攻克大规模分布式推理系统带来的复杂挑战,通过弹性调度、容量规划、链路压测等手段提升系统健壮性,确保平台能够弹性扩展,支撑业务的飞速增长。

更新于 2025-08-05
logo of xiaohongshu
实习后端开发

1、参与AI平台大模型推理部署等流程及工具的研发建设,完善平台现有功能。 2、参与AI平台Quota管理模块的开发,实现多机房、多集群环境下的,各种异构计算资源的配额管理功能。 3、参与AI平台联邦调度能力的设计和开发,与下游云原生团队共同实现平台联邦和弹性部署能力。

更新于 2025-08-05
logo of xiaohongshu
实习引擎

核心职责: 参与AI平台大模型推理部署等流程及工具的研发建设,完善平台现有功能。 参与AI平台Quota管理模块的开发,实现多机房、多集群环境下的,各种异构计算资源的配额管理功能。 参与AI平台联邦调度能力的设计和开发,与下游云原生团队共同实现平台联邦和弹性部署能力。

更新于 2025-10-14
logo of meituan
实习核心本地商业-基

1.围绕大模型异构训练集群,尤其是非NV GPU大规模异构硬件集群,面向大模型预训练、Finetune等场景进行新模型使能,系统分析/优化,业务支撑等工作,包括分布式优化框架,AI框架,网络集合通信,算子等方面内容; 2.负责大模型推理引擎的研发和优化,包括推理系统优化、模型量化压缩和模型部署; 3. 熟悉NLP类模型训练场景,有GPT,LlaMa、DeepSeek等相关知识和经验者优先 4. 熟悉视觉类,多模态大模型训练场景,有ViT, Swin Transformer, Stable Diffusion, MoE相关知识和经验者优先 5. 熟悉Megatron, Deepspeed, Colossal AI, FSDP等分布式框架,有相关知识、使用和调优经验者优先 6. 熟悉以下推理框架者优先,如FasterTransformer、vllm、sglang、LMDeploy、TensorRT-LLM等; 7. 熟悉PyTorch分布式场景,有二次开发经验,系统调优知识和经验者优先 8. 熟悉集合通信原理和基本知识,对NCCL有大规模使用,调优经验者优先 9. 熟悉算子开发流程,有CUDA编程知识和相关经验者优先 10. 熟悉NV GPU架构,对其他类型AI芯片有使用经验者优先

更新于 2025-04-07