logo of xiaohongshu

小红书【Ace顶尖实习生】Large Scale Agentic RL Training

校招全职大模型地点:北京 | 上海 | 杭州状态:招聘

任职要求


1、不限年级,本科及以上在读,计算机/人工智能/软件工程等相关专业优先;
2、熟悉Linux/Unix平台上的C++编程,熟悉网络编程-多线程编程,有良好的编程习惯;
3、熟悉其中一种主流的深度学习训练或推理框架(TensorFlow / PyTorc…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


大语言模型的对齐需求及复杂环境下的多智能体协作,要求训练系统具备处理海量采样数据与高频梯度更新的能力,传统的单机或小规模集群已难以满足算力与吞吐的指数级增长。

本课题旨在研究并构建一套高扩展、低延迟的大规模RL训练框架,核心内容涵盖分布式采样引擎的优化、异构算力资源的高效调度、以及计算与通信的深度并行化策略。然而,该领域面临着严峻的技术挑战:
一是如何在保持高吞吐采样(High Throughput)的同时,解决分布式环境下数据回传的通信瓶颈(Communication Bottleneck);
二是针对RL特有的数据非平稳性,如何保障在大规模异步训练下的算法收敛稳定性与超参数鲁棒性;三是涉及CPU仿真环境与GPU神经网络训练之间的精细负载均衡,以最大化集群利用率并降低昂贵的训练成本。
包括英文材料
Linux+
Unix+
C+++
网络编程+
多线程+
编程规范+
还有更多 •••
相关职位

logo of xiaohongshu
校招策略算法

传统的AI搜索依然基于RAG框架,少有的几个Agent框架也只涉及QueryPlanning,距离真实解决搜索中的实际问题还相距很远,例如做旅游攻略、做行业研究报告等等。我们判断,虽然当下LLM已经大范围的用于搜索领域,但是下一代的搜索技术变革一定是基于Agent的。本课题旨在研究基于Agent框架的基座模型。

更新于 2026-03-24北京|杭州|上海
logo of xiaohongshu
校招策略算法

本课题的研究目标是打造行业领先的多语言能力强化的大语言模型,结合业务海量的多语言互译语料,以及平台生活化特色的笔记评论数据,利用数据合成、RL冷启训练、SFT和RLHF等技术,实现: 1、在小红书多语言大模型翻译场景取得领先效果; 2、多语言场景下,AI搜索的检索和生成技术。

更新于 2026-03-24北京|上海|杭州
logo of xiaohongshu
校招多媒体算法

本课题围绕点点、搜索等依赖自然人机交互的业务场景,打造面向AI Agent的端到端全双工自然语音交互能力,预期构建具有小红书特色的最低延迟、最具人感、最懂用户的语音Agent。 重点攻克如何打造真实自然稳定的拟人感语音交互难题。其细分研究方向大模型语音内容理解【最懂用户】、可控对话式大模型语音合成【最具人感】、全双工speechLLM【最低延迟】等。

更新于 2026-03-24北京|上海|杭州
logo of xiaohongshu
校招内容理解

本课题希望探索有效的统一大模型基座方案及提升多场景联合预训练的效果。目前公司内部不同业务场景下存在多套Embedding&标签大模型,部署成本较高,且应用在下游端到端建模任务如序列推荐时也多有不便,希望在多场景下对多套不同的Embedding&标签做整合,共用一套统一的基座模型,降低部署成本。同时通过融合的方式,对多场景数据进行综合建模,提升多场景的Embedding&标签效果。 统一基座模型需要解决的核心技术难点包括: 1、基座统一但仍可支持业务的定制微调,且训练成本和推理成本较低; 2、多体裁内容(如笔记、直播、商品、Query等)的理解可以融合在一个统一模型,且效果比独立训练更好。 研究方向会针对要解决的问题设立,包括:基于多Head或MoE的轻量化微调及融合推理、多体裁内容形式的统一建模。

更新于 2025-12-19北京|上海|杭州