小红书【hi lab】大模型算法工程师-Agent

社招全职3-5年大模型2025-09-16地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1. 具备扎实的机器学习基础，能熟练使用至少一种深度学习框架（e.g. PyTorch、Jax、TensorFlow、MindSpore、PaddlePaddle）。
2. 对监督学习、强化学习、表示学习等机器学习方法有深入理解并具备相关的实践经验。
3. 在 NLP/CV/RL 等至少一个 AI 领域中有过深入的研究经历，或通过机器学习算法解决过复杂业务场景问题。
4. 具备卓越的实验分析与问题解…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

开发研究多模态 LLM 驱动的智能体技术及其应用，包括但不限于：
提升 long context 场景下模型对复杂指令遵循能力；
提升模型的推理规划能力、工具（例如搜索等）使用、记忆管理能力等；
探索多智能体场景下的合作、辩论、对话等应用；

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

深度学习+

PyTorch+

JAX+

TensorFlow+

PaddlePaddle+

强化学习+

还有更多 •••

登录查看完整学习资料

相关职位

【hi lab】大模型预训练算法工程师

社招1-3年大模型

1、建立文本和多模态数据源、数据格式解析(网页，PDF等)、数据策略、模型能力、下游任务的全链路归因能力 2、建立并持续完善的数据质量、多样性、重复度、覆盖率等评估体系，分析和量化每个维度的影响 3、针对模型核心能力进行重点强化，包括不限于数学、推理、Code、Agent、ICL、OCR等 4、探索如何使用更少数据量，达到同样模型能力的策略，持续提升per token的通用能力训练效果 5、探索基于各类策略的高质量数据生成方式，定向优化特定模型能力和为长期Scaling Law解决数据缺失问题

更新于 2025-09-15北京|上海

【hi lab】通用基座大模型算法工程师-Posttrain

社招3-5年大模型

我们相信，通向更高阶智能的路径不止于更大的 LLM。 Post-Training 正在成为模型能力跃迁的关键阶段：从“学会语言”走向“理解世界、优化行为、持续进化”。该岗位将深度参与多模态、强化学习、自进化 Agent 系统等前沿方向，探索超越纯预训练范式的新能力边界，构建可持续学习、可记忆、可进化的智能系统。 1. Post-Training 核心研究与系统构建设计并实现面向推理能力、策略优化和长期表现的后训练方法探索 Reasoning RL Scaling、RLAIF for Fuzzy Task、Self-Play、Scalable Oversight 等在大模型中的新用法将 Post-Training 视为系统级优化问题，而非单次调参或 reward hacking 2. 强化学习与持续进化机制设计基于试错和反馈的训练闭环（例如，Natural Language FeedBack），使模型具备自我修正和能力生长探索 RL 在边缘能力、长尾任务、工具使用和复杂决策中的作用研究长期学习（Lifelong Learning）、稳定性、遗忘控制等关键问题 3. 多模态与“世界建模” 参与多模态模型（尤其是视频、时序感知）的 Post-Training 研究探索从“语言建模”走向“世界建模”的训练目标与评估方式研究感知、行动与决策的联合优化，而非简单模态拼接 4. Agent 与自进化系统构建“可训练的 Agent 系统”，而不仅是工具调用的外壳设计 Agent 的记忆、学习、反思与策略更新机制将 Agent 视为一个持续演化的产品级智能体 5. 新范式与新架构探索对现有 Attention、NTP 等范式保持批判性思考，例如探索全新的探索新架构、新目标函数、新训练范式在 Post-Training 中的可能性参与从模型 → 推理过程 → 自学习环境（System-level Scaling）的演进

更新于 2026-02-05北京|上海|杭州

Alignment RLHF算法工程师-hi lab

社招大模型

岗位职责：利用强化学习方法对多模态大模型进行对齐：解决优化现有多模态大模型 RLHF 中的训练效果、稳定性、Reward Hacking 等问题；探索 RL 阶段 computaiton scaling 对模型能力提升的方法；研究 Multi-Agent、Long-term Objective、Scalable Oversight 等方向下基于强化学习的对齐方法；基于前沿方法对幻觉、推理、工具使用、安全等场景问题进行针对性优化，提升大模型的应用价值。

更新于 2025-08-22北京|上海

Hi lab-Posttrain算法工程师-RLHF

社招1-3年大模型

利用强化学习方法对多模态大模型进行对齐：解决优化现有多模态大模型 RLHF 中的训练效果、稳定性、Reward Hacking 等问题；探索 RL 阶段 computaiton scaling 对模型能力提升的方法；研究 Multi-Agent、Long-term Objective、Scalable Oversight 等方向下基于强化学习的对齐方法；基于前沿方法对幻觉、推理、工具使用、安全等场景问题进行针对性优化，提升大模型的应用价值。

更新于 2025-09-26北京|上海|杭州