小红书大模型后训练算法工程师/专家
社招全职引擎地点:上海 | 北京状态:招聘
任职要求
任职资格: 1、在后训练微调领域拥有丰富的项目经验,熟悉LoRA、DPO、PPO、KTO、ReFT等算法原理,具备扎实的数学基础,熟悉线性代数、概率统计、优化算法等。 2、了解至少一种主流深度学习框架(如PyTorch、PaddlePaddle、TensorFlow等)的内部原理与实现,并具备直接开发或二次开发经验。 3、对Megatron-LM、DeepSpeed等分布式框架及LLaMA…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
中台稠密引擎组,是小红书负责建设通用深度学习训练推理引擎的团队,面向全公司LLM、多模态LLM、SD、传统CV&NLP等稠密计算型模型训练与推理的业务场景,打造高效、易用、业界领先的训练与推理引擎,为小红书社区、商业化、安全等众多业务方向提供先进的引擎能力,支撑业务持续提升训练推理效率、模型迭代效率与算法研发效率。 1、参与设计和实现深度学习后训练及微调的前沿算法(包括但不限于RFT、RLHF等),以适应多样化的业务场景; 2、结合业务数据和场景,评估选择最适合的微调算法,以支撑业务大语言模型(LLM)微调指标的提升; 3、与数据团队紧密合作,深入理解数据特性,参与设计实现数据提质算法引擎工具,产出高质量数据集提升模型微调效果; 4、与公司内各算法团队深度合作,参与或负责大语言模型、多模态大模型等业务场景的后训练端到端效果提升及落地; 5、密切关注业界 LLM 微调算法和数据提质领域的前沿论文,并整合新技术和算法到训练引擎中,提升框架的领先性;
包括英文材料
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
TensorFlow+
https://www.youtube.com/watch?v=tpCFfeUEGs8
Ready to learn the fundamentals of TensorFlow and deep learning with Python? Well, you’ve come to the right place.
https://www.youtube.com/watch?v=ZUKz4125WNI
This part continues right where part one left off so get that Google Colab window open and get ready to write plenty more TensorFlow code.
还有更多 •••
相关职位
社招3年以上技术类-算法
1、负责基于扩散模型的世界生成、视频生成等相关场景的算法研发工作,结合实际应用场景攻克技术难题,包括世界生成过程中的可控性、时空一致性、实时性等问题; 2、参与并主导生成式大模型核心算法研发,包括 Diffusion、Autoregressive(AR)、VAE、Transformer 等架构。研发时空视频编码、压缩与生成算法,优化模型在生成任务中的一致性与时序表现。设计并实现从预训练到后训练(SFT、RLHF)的全流程模型优化方案,提升生成质量、可控性和效率; 3、负责生成式大模型的总体技术架构设计,探索多模态融合、跨任务迁移等创新方向,跟踪前沿研究进展,进行技术评估与落地转化,推动团队在行业/学术上的技术领先。
更新于 2025-10-29北京
社招3年以上技术类-算法
1. 参与大语言模型(LLM)后训练全流程优化,包括但不限于通用能力提升、安全对齐等方向。 2. 实现并应用SFT/RLHF/DPO/PPO/GRPO等算法,探索多目标奖励模型、过程监督等前沿技术,提升模型在指令遵循、逻辑推理、多任务泛化等方面的性能。 3. 构建模型效果评估体系,设计自动化评估方案,持续跟踪模型优化效果。 4. 参与技术开源与学术研究,发表顶会论文或贡献核心开源项目。
更新于 2025-11-07北京|杭州
社招核心本地商业-基
1.负责文本、多模态等大模型后训练(微调/强化学习)能力建设,包括:训练框架研发、开源模型适配、训练成本优化、训练效果调优等。 2.协同产运、算法团队,推动后训练技术落地业务。 3.与团队其他成员密切合作,共同解决技术难题,推动团队整体技术提升。
更新于 2025-04-30北京|上海