小红书大模型后训练算法研发工程师（实习）

实习兼职机器学习平台2025-10-14地点：上海 | 北京状态：招聘

扫码手机上打开

任职要求

任职资格
具备较好的编程能力和算法开发能力，熟悉常用的机器学习、深度学习算法
熟悉Llama-Factory、veRL、MS-Swift等框架，有相关项目经验更佳
了解分布式训练框架如DeepSpeed、Megatron-LM等
有较强的…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

模型训练：参与大型语言模型的训练实验，学习如何通过思维链推理提升模型在复杂任务上的表现
算法探索：学习探索前沿强化学习算法，协助团队进行奖励模型的构建和优化
Reasoning技术探索：参与模型监督、自我提升等训练优化探索
训练框架优化：学习使用LLM训练框架，参与协助优化训练流程，提升团队开发效率

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

算法+

机器学习+

深度学习+

Llama+

Swift+

还有更多 •••

登录查看完整学习资料

相关职位

算法工程师-强化学习

校招智能信息秋季20

1. 开展大语言模型、多模态生成/理解大模型复杂推理能力、可信性研究和奖励模型，包括但不限于自然语言处理、视觉理解、多模态生成与理解等； 2. 开展多模态大模型后训练阶段的强化学习算法研发迭代，包括：基于人类、AI、环境反馈的强化学习算法的优化升级，覆盖规则遵循、复杂推理等多个任务的多目标强化学习训练算法研发和调优，设计并实施实验； 3. 关注和学习最新前沿研究，参与学术讨论和技术交流，撰写研究报告、技术文档或论文，鼓励在国际顶级期刊或会议上发表研究成果。

更新于 2025-08-13北京|杭州

【蚂蚁星-Plan A】算法工程师-后训练（实习）

实习蚂蚁星- Pla

作为蚂蚁集团的核心大模型部门，我们专注大语言模型的技术攻坚与创新突破，致力于推动通用人工智能（AGI）技术的实质性进展。团队聚焦LLM后训练方向，包括模型对齐、高阶推理、安全可控等，持续完善智能系统的认知深度与可靠性。目前部门拥有数万张显卡资源，并且仍在持续加大投入，为探索模型能力边界提供坚实的保障。在追求AGI的道路上，我们始终秉持蚂蚁集团的技术务实基因，通过扎实的底层创新推动智能技术的产业落地。 1. 研发万亿参数LLM基模架构：大语言模型（LLM）后训练（post-train）全流程优化，设计高效分布式训练方案，进行十万亿token级别的超大规模训练，包括但不限于通用能力提升、安全对齐等方向； 2. 奥赛级别的LLM各项能力建设，迈向真正的AGI：前沿的高效强化学习算法设计，实现并应用SFT/RLHF/DPO/PPO/GRPO等算法，研发训推一体的大规模强化学习训练框架，探索多目标奖励模型、过程监督等前沿技术，提升模型在指令遵循、逻辑推理、多任务泛化等方面的性能； 3. 扩大工业与学术影响力：开源LLM模型及核心技术，发表顶会论文，贡献核心开源项目。

北京|上海|杭州

大模型算法工程师实习生

实习算法

1. 参与大模型Agent研发工作，覆盖车机界面操作和控制等场景； 2. 参与Agent框架流程设计、多模态和代码大模型训练数据构建，SFT/DPO/GRPO训练。

北京

RAG算法工程师实习生

实习

1. 参与大模型检索增强生成（RAG）技术的研发与优化，包括但不限于： 1.1 文档检索算法（如稠密检索、混合检索）的改进与实现； 1.2 大模型与检索系统的协同优化； 1.3 端侧RAG，agentic RAG等技术路径探索。 2. 构建和评测RAG系统在垂直业务领域的应用效果，设计实验方案并分析结果。 3. 跟进学术界与工业界最新进展，复现论文或开源项目，参与RAG在小米落地应用的相关工作。

更新于 2025-06-09北京