小红书【hi lab】通用基座大模型算法工程师-Posttrain
社招全职3-5年大模型地点:北京 | 上海 | 杭州状态:招聘
任职要求
基础要求 扎实的机器学习 / 深度学习基础,对模型训练全流程有深入理解 熟悉至少一个方向: 强化学习(RL Scaling / RLAIF / Online RL 等) 多模态学习(尤其是视频、时序、感知建模) Agent / 多智能体系统 良好的工程能力,能将研究想法落地为稳定系统 …
登录查看完整任职要求
微信扫码,1秒登录
工作职责
我们相信,通向更高阶智能的路径不止于更大的 LLM。 Post-Training 正在成为模型能力跃迁的关键阶段:从“学会语言”走向“理解世界、优化行为、持续进化”。该岗位将深度参与 多模态、强化学习、自进化 Agent 系统 等前沿方向,探索超越纯预训练范式的新能力边界,构建可持续学习、可记忆、可进化的智能系统。 1. Post-Training 核心研究与系统构建 设计并实现面向 推理能力、策略优化和长期表现 的后训练方法 探索 Reasoning RL Scaling、RLAIF for Fuzzy Task、Self-Play、Scalable Oversight 等在大模型中的新用法 将 Post-Training 视为 系统级优化问题,而非单次调参或 reward hacking 2. 强化学习与持续进化机制 设计基于试错和反馈的训练闭环(例如,Natural Language FeedBack),使模型具备自我修正和能力生长 探索 RL 在 边缘能力、长尾任务、工具使用和复杂决策 中的作用 研究长期学习(Lifelong Learning)、稳定性、遗忘控制等关键问题 3. 多模态与“世界建模” 参与多模态模型(尤其是视频、时序感知)的 Post-Training 研究 探索从“语言建模”走向“世界建模”的训练目标与评估方式 研究感知、行动与决策的联合优化,而非简单模态拼接 4. Agent 与自进化系统 构建“可训练的 Agent 系统”,而不仅是工具调用的外壳 设计 Agent 的记忆、学习、反思与策略更新机制 将 Agent 视为一个 持续演化的产品级智能体 5. 新范式与新架构探索 对现有 Attention、NTP 等范式保持批判性思考,例如探索全新的 探索新架构、新目标函数、新训练范式在 Post-Training 中的可能性 参与从模型 → 推理过程 → 自学习环境(System-level Scaling)的演进
包括英文材料
机器学习+
https://www.youtube.com/watch?v=0oyDqO8PjIg
Learn about machine learning and AI with this comprehensive 11-hour course from @LunarTech_ai.
https://www.youtube.com/watch?v=i_LwzRVP7bg
Learn Machine Learning in a way that is accessible to absolute beginners.
https://www.youtube.com/watch?v=NWONeJKn6kc
Learn the theory and practical application of machine learning concepts in this comprehensive course for beginners.
https://www.youtube.com/watch?v=PcbuKRNtCUc
Learn about all the most important concepts and terms related to machine learning and AI.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
强化学习+
https://cloud.google.com/discover/what-is-reinforcement-learning?hl=en
Reinforcement learning (RL) is a type of machine learning where an "agent" learns optimal behavior through interaction with its environment.
https://huggingface.co/learn/deep-rl-course/unit0/introduction
This course will teach you about Deep Reinforcement Learning from beginner to expert. It’s completely free and open-source!
https://www.kaggle.com/learn/intro-to-game-ai-and-reinforcement-learning
Build your own video game bots, using classic and cutting-edge algorithms.
还有更多 •••
相关职位
社招大模型
在算力驱动的 AGI 和人文精神的烟火气交汇之处,我们真诚邀请对 AI 技术有信仰的同学加入,共同打造更具影响力的智能系统。你会成为团队的一员,并和其他同事协作,共同研发 SOTA 的智能技术。期待你以务实和客观的科学态度来推进技术的进展,不被过往经验裹挟、不被主观偏好影响。期待你除了算法外仍然是为出色的工程师。期待你对技术有强烈的好奇心和开放心态,以未来几年 AI 技术的质变突破为目标。 岗位说明:你会负责下述至少一件事情 1.海量的多模态数据处理:定性分析、定量评估数据质量,并给出 scalable 的改进方案,协助搭建多模态的数据流程; 2.搭建多模态的模型架构,在多种技术方案中找到 trade off 的关键,搭建更高效且可扩展的模型框架 3.研究并改进多模态模型的 Scale Law,随着模型的变化给出 Large Scale 上的技术选择(例如参数/数据比、不同超参数设置等)
更新于 2025-11-10北京|上海|广州
实习大模型
本课题的研究目标是增强大模型的通用推理能力,通过研究多模态环境下的推理学习机制、真实世界任务的解决策略、基于强化学习的能力优化,以及构建多样性的奖励系统和训练环境。 研究将聚焦于如何使模型能够在跨领域和复杂场景中综合运用文本、图像、音频等多模态信息进行推理,有效处理现实世界的开放性问题,并通过精心设计的环境反馈机制持续优化模型的决策能力,从而提升AI系统在不同任务下的泛化能力和可靠性。
更新于 2025-08-22上海|北京|杭州
实习大模型
本课题的研究目标是: 1、研究如何充分用好文本、图片、视频等各个模态的有效信息,进行高效的多模态数据表征和联合建模,能够更加高效的从各个模态中学习有效信息; 2、探索多模数据如何才能更高效的学习,多模数据如何对文本智能能力有提升,探索理解和生成的联合建模如何进一步提高多模态模型的能力上限。
更新于 2025-08-22北京|上海|杭州