logo of xiaohongshu

小红书AI平台推理引擎研发工程师

社招全职引擎地点:上海 | 深圳状态:招聘

任职要求


1、优秀的代码能力、数据结构和基础算法功底,熟悉C++开发,理解大规模分布式应用系统和平台;
2、熟悉至少一种主流的深度学习训练或推理框架(TensorFlow / PyTorch / Onnx / TensorRT等)的原理和实现;
3、有参数服务器的经验、具备AI模型性能调优、量化和稀疏化经验者优先;
4、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力;
5、良好的沟通协作能力,能和团队一起探索新技术,推进技术进步。

工作职责


1、参与/负责研发面向大规模稀疏参数机器学习模型的等推理服务框架;
2、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架;
3、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成;
4、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、推荐系统等;
包括英文材料
数据结构+
算法+
C+++
深度学习+
TensorFlow+
PyTorch+
TensorRT+
性能调优+
ONNX+
相关职位

logo of meituan
实习核心本地商业-基

1.负责LLM大语言模型的推理优化; 2.负责机器学习引擎的编译优化工作; 3.负责模型稀疏化和模型量化工作。

更新于 2025-02-26
logo of meituan
实习核心本地商业-基

1.围绕大模型异构训练集群,尤其是非NV GPU大规模异构硬件集群,面向大模型预训练、Finetune等场景进行新模型使能,系统分析/优化,业务支撑等工作,包括分布式优化框架,AI框架,网络集合通信,算子等方面内容; 2.负责大模型推理引擎的研发和优化,包括推理系统优化、模型量化压缩和模型部署; 3. 熟悉NLP类模型训练场景,有GPT,LlaMa、DeepSeek等相关知识和经验者优先 4. 熟悉视觉类,多模态大模型训练场景,有ViT, Swin Transformer, Stable Diffusion, MoE相关知识和经验者优先 5. 熟悉Megatron, Deepspeed, Colossal AI, FSDP等分布式框架,有相关知识、使用和调优经验者优先 6. 熟悉以下推理框架者优先,如FasterTransformer、vllm、sglang、LMDeploy、TensorRT-LLM等; 7. 熟悉PyTorch分布式场景,有二次开发经验,系统调优知识和经验者优先 8. 熟悉集合通信原理和基本知识,对NCCL有大规模使用,调优经验者优先 9. 熟悉算子开发流程,有CUDA编程知识和相关经验者优先 10. 熟悉NV GPU架构,对其他类型AI芯片有使用经验者优先

更新于 2025-04-07
logo of bytedance
社招A234651

1、负责各类AIGC技术在游戏项目中工程落地,需要你对于各类AIGC技术保持热爱和好奇,同时拥有资深的软件工程经验。包括但不限于:负责组内算法的工程落地,确保服务快速搭建、线上稳定、易维护; 2、参与低代码ai工作流平台建设(类Langflow),实现ai算法的便捷调试和快速落地; 3、大模型应用:数据集构造(对话、RLHF等)、高效微调(Lora/P-Tuning/RLHF)、推理部署、应用(Prompt工程、检索增强、LangChain、Langflow等)、新模型探索(LLama/Falcon/miniGPT4); 4、深入transformer、stable diffsion等算法+pytorch、tf原理,研究并行训练、算法工程加速。

更新于 2024-06-04
logo of xiaohongshu
社招引擎

我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! DirectLLM是小红书内部面向各业务场景建设的大模型API服务产品,通过标准化API接口提供LLM/MLLM等大模型推理服务,致力于为AI应用开发者提供品类丰富、数量众多的模型选择,并通过API接口为其提供开箱即用、能力卓越、成本经济的模型服务,各领域模型的能力均可通过统一的API和SDK来实现被不同业务系统集成。 工作职责: 1、参与/负责大模型推理服务平台(MaaS)的架构设计、系统研发、产品研发等工作; 2、深入参与面向大模型场景的请求调度、异构资源调度、引擎优化等核心工作,实现千亿级Token并行推理平台; 3、为内部产品线提供解决方案,协助公司内用户解决大模型应用过程中业务在平台上的使用问题。

更新于 2025-10-18