小红书Hi Lab-多模态通用基础大模型资深算法工程师

社招全职大模型2025-11-10地点：北京 | 上海 | 广州状态：招聘

扫码手机上打开

任职要求

1.良好的 pytorch / python 技术栈，具备熟练的阅读代码和编写代码的能力。
2.在多模态的研…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

在算力驱动的 AGI 和人文精神的烟火气交汇之处，我们真诚邀请对 AI 技术有信仰的同学加入，共同打造更具影响力的智能系统。你会成为团队的一员，并和其他同事协作，共同研发 SOTA 的智能技术。期待你以务实和客观的科学态度来推进技术的进展，不被过往经验裹挟、不被主观偏好影响。期待你除了算法外仍然是为出色的工程师。期待你对技术有强烈的好奇心和开放心态，以未来几年 AI 技术的质变突破为目标。
岗位说明：你会负责下述至少一件事情
1.海量的多模态数据处理：定性分析、定量评估数据质量，并给出 scalable 的改进方案，协助搭建多模态的数据流程；
2.搭建多模态的模型架构，在多种技术方案中找到 trade off 的关键，搭建更高效且可扩展的模型框架
3.研究并改进多模态模型的 Scale Law，随着模型的变化给出 Large Scale 上的技术选择（例如参数/数据比、不同超参数设置等）

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

PyTorch+

Python+

相关职位

Hi Lab-【Ace顶尖实习生】探索多模态大模型的通用能力增强和跨模态能力迁移

实习大模型

本课题的研究目标是： 1、研究如何充分用好文本、图片、视频等各个模态的有效信息，进行高效的多模态数据表征和联合建模，能够更加高效的从各个模态中学习有效信息； 2、探索多模数据如何才能更高效的学习，多模数据如何对文本智能能力有提升，探索理解和生成的联合建模如何进一步提高多模态模型的能力上限。

更新于 2025-08-22北京|上海|杭州

【hi lab】通用基座大模型算法工程师-Posttrain

社招3-5年大模型

我们相信，通向更高阶智能的路径不止于更大的 LLM。 Post-Training 正在成为模型能力跃迁的关键阶段：从“学会语言”走向“理解世界、优化行为、持续进化”。该岗位将深度参与多模态、强化学习、自进化 Agent 系统等前沿方向，探索超越纯预训练范式的新能力边界，构建可持续学习、可记忆、可进化的智能系统。 1. Post-Training 核心研究与系统构建设计并实现面向推理能力、策略优化和长期表现的后训练方法探索 Reasoning RL Scaling、RLAIF for Fuzzy Task、Self-Play、Scalable Oversight 等在大模型中的新用法将 Post-Training 视为系统级优化问题，而非单次调参或 reward hacking 2. 强化学习与持续进化机制设计基于试错和反馈的训练闭环（例如，Natural Language FeedBack），使模型具备自我修正和能力生长探索 RL 在边缘能力、长尾任务、工具使用和复杂决策中的作用研究长期学习（Lifelong Learning）、稳定性、遗忘控制等关键问题 3. 多模态与“世界建模” 参与多模态模型（尤其是视频、时序感知）的 Post-Training 研究探索从“语言建模”走向“世界建模”的训练目标与评估方式研究感知、行动与决策的联合优化，而非简单模态拼接 4. Agent 与自进化系统构建“可训练的 Agent 系统”，而不仅是工具调用的外壳设计 Agent 的记忆、学习、反思与策略更新机制将 Agent 视为一个持续演化的产品级智能体 5. 新范式与新架构探索对现有 Attention、NTP 等范式保持批判性思考，例如探索全新的探索新架构、新目标函数、新训练范式在 Post-Training 中的可能性参与从模型 → 推理过程 → 自学习环境（System-level Scaling）的演进

更新于 2026-02-05北京|上海|杭州

Hi Lab-【Ace顶尖实习生】可泛化的通用推理能力提升方法

实习大模型

本课题的研究目标是增强大模型的通用推理能力，通过研究多模态环境下的推理学习机制、真实世界任务的解决策略、基于强化学习的能力优化，以及构建多样性的奖励系统和训练环境。研究将聚焦于如何使模型能够在跨领域和复杂场景中综合运用文本、图像、音频等多模态信息进行推理，有效处理现实世界的开放性问题，并通过精心设计的环境反馈机制持续优化模型的决策能力，从而提升AI系统在不同任务下的泛化能力和可靠性。

更新于 2025-08-22上海|北京|杭州

【Hi Lab】大模型AI native算法工程师

社招1-3年大模型

1、Post-Training Pipeline 设计与迭代：搭建并持续优化 SFT、RM、RLHF / RLAIF / RLVF 等后训练流水线，支持多模态模型的高效迭代，让千亿级大模型在一次次“后训练”中真正变得聪明、智慧、安全 2、可扩展监督与反馈系统：设计低成本人类 + AI 组合反馈机制，自动化完成偏好采集、对齐传递与数据质量评估，通过 Product-Research co-design 探索构建真实用户反馈的模型迭代机制 3、通用推理与工具使用能力提升：构建跨模态强化学习环境和多样化奖励体系，帮助模型学会调用外部工具、提升模型利用文本-图像-语音跨模态信息进行复杂推理和问题解决能力 4、长期记忆、个性化与终身学习：探索持久记忆与动态偏好建模，使模型能够跨会话记住用户偏好、持续学习而不遗忘核心能力 5、安全评估与价值观对齐：搭建安全对齐机制、红队测试、越狱防御与自动化评测框架，量化模型幻觉、稳定性及价值观一致性，制定风险缓解策略，确保模型在开放场景中始终行为可控 6、跨职能落地：与产品、设计、人文训练师及数据团队，把研究成果迅速推向真实场景，打造小红书下一代战略级 AI native 应用产品

更新于 2025-10-23上海|北京|杭州