logo of xiaohongshu

小红书【Ace顶尖实习生】基础大模型Agent能力研究

校招全职大模型地点:北京 | 上海 | 杭州状态:招聘

任职要求


1、不限年级,本科及以上在读,计算机/人工智能/软件工程等相关专业优先;
2、扎实的编程能力和算法功底,熟练掌握Python/C++/Java等至少一种编程语言;
3、扎实的机器学习/深度学习理论基础,有大规模推荐系统、计算广告、搜索引擎等核心算法项目经验;
3、有LLM/MLLM等多模态理解技术背景,…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


我们致力于构建可持续进化的 Agent 系统:让 Agent 在真实环境中通过交互、学习与数据闭环,不断提升复杂任务能力。

围绕“数据 → 学习 → 自进化”三位一体展开:
- Agent 自进化:
基于真实任务轨迹与反思机制,提升 Agent 在长期交互中的自主学习能力,解决反馈建模、策略泛化与错误累积问题。
- RL for Agent Systems:
将强化学习引入 Agent 全链路(规划-执行-反馈),研究 trajectory-level reward、credit assignment 及 offline/online 混合训练。
- Agentic Data Construction:
构建由 Agent 主导的数据生产与筛选机制,形成“生成 → 评估 → 反哺”的数据闭环,持续放大模型能力。
包括英文材料
算法+
Python+
C+++
Java+
机器学习+
深度学习+
推荐系统+
还有更多 •••
相关职位

logo of xiaohongshu
校招策略算法

传统的AI搜索依然基于RAG框架,少有的几个Agent框架也只涉及QueryPlanning,距离真实解决搜索中的实际问题还相距很远,例如做旅游攻略、做行业研究报告等等。我们判断,虽然当下LLM已经大范围的用于搜索领域,但是下一代的搜索技术变革一定是基于Agent的。本课题旨在研究基于Agent框架的基座模型。

更新于 2026-03-24北京|杭州|上海
logo of xiaohongshu
校招大模型

传统审核大模型通常采用SFT的方式逼近人审对审核规则的识别精度,此时人工执行质量和规则合理性则成为机审体系性能上限。 本课题通过RLVR和Multi-Agent的方式,构造机审判别Agent与规则生成Agent的博弈学习,以对抗上升的方式不断提升审核规则的完备性以及相应机审识别的准召,使得机审可以突破人工上限,实现大模型智能在审核象限的涌现和“Aha moment”。

更新于 2025-12-19北京|上海|杭州
logo of xiaohongshu
校招测试开发

大模型如 GPT 系列等,凭借其强大的语言理解和生成能力,为编程带来了新的变革。在大模型编程的实际应用里,涌现出诸多极具价值的落地场景,像代码问题的精准发现与高质量修复、代码的智能补全与生成等,这些场景切实提高了编程工作的效率与质量。 当前也普遍面临一系列亟待解决的问题与挑战: 1、怎样精准识别代码中潜藏的高质量问题,并迅速且有效地完成修复; 2、如何借助 RAG 技术等手段,精准召回相似的代码问题; 3、怎样构建更完善的评测体系,对整个编程系统以及各个应用场景进行全面且高质量的评估。 这些问题在行业内具有广泛的共性,极具研究价值。通过合作研究探寻解决方案,有望推动大模型编程领域迈向新的高度。

更新于 2026-03-24北京|上海|杭州
logo of xiaohongshu
校招大模型

关注如何将RL引入工业级Agent平台系统,直接对“规划—执行—反馈”的完整轨迹进行优化。 研究重点包括:如何构建trajectory-level reward、如何在工具调用与多步推理中进行credit assignment,以及如何在高成本环境下进行高效的offline/online混合训练。平台提供真实任务环境与多样化Agent执行数据,使研究从离线benchmark走向真实交互场景。该方向有望推动RL从模型对齐走向复杂任务能力学习,形成新一代Agent优化范式。

更新于 2026-04-06北京|上海|杭州