logo of meituan

美团大模型强化学习系统实习生

实习兼职核心本地商业-基础研发平台地点:北京状态:招聘

任职要求


硕士及以上学历,计算机及相关专业;  
熟悉机器学习基础,对Transformer模型原理、强化学习原理有深入了解;
有强化学习框架开发经验,有训练框架如Megatron、推理框架如SGLang/vLLM开发经验;  
熟悉Ray等分布式框架;
熟悉Python/C++开发,熟悉异步编程;扎实的编程能力,熟悉算法数据结构,熟悉计算机基础理论。

具备以下条件优先
在大语言模型、基础模型、世界模型、强化学习等方向,参与过开源、大影响力项目者优先。

工作职责


参与Agentic RL系统的工程研究和落地,工作包括/不限于:Agentic RL系统部分功能的设计和实现、RL性能优化、RL算法实现、数据合成链路设计和实现等  
跟进公司内外AI Agent方向的技术演进,进行Agentic RL相关的技术调研。
包括英文材料
学历+
机器学习+
Transformer+
强化学习+
Megatron+
SGLang+
vLLM+
Ray+
Python+
C+++
算法+
数据结构+
相关职位

logo of aliyun
实习阿里云研究型实习

我们正在寻找对大模型系统优化充满热情的优秀在读学生,参与大模型后训练阶段(Post-Training)关键系统与架构的前沿研究。你将深度参与千亿级大模型在强化学习训练、推理效率、训推分离架构、智能体(Agent)系统等方面的系统级优化工作,探索高MFU、低延迟、高吞吐的下一代AI基础设施。 如果你热爱系统与AI的交叉领域,希望在真实超大规模场景中打磨技术,欢迎加入我们,与顶尖研究者和工程师共同推动大模型系统的技术边界! 研究方向与实习内容: 你将从以下四个核心方向中选择1-2个深入参与,开展系统性研究与工程实现: 1. 后训练 MFU(Model FLOPs Utilization)优化 研究SFT、RLHF、DPO等后训练任务中的计算效率瓶颈; 设计高MFU的训练策略与系统支持,优化计算密度(如序列填充、混合批次、梯度累积等); 探索算力利用率提升路径,结合通信、显存、计算进行端到端建模与优化。 2. 强化学习推理框架优化 针对RLHF中大量采样推理的需求,优化推理延迟与吞吐(如Speculative Decoding、KV Cache复用、动态批处理); 设计轻量、高效的推理引擎,支持多轮对话、长上下文、流式生成等复杂场景; 探索训练-采样协同优化,降低推理端对训练整体效率的制约。 3. 强化学习训推分离架构优化 构建解耦的“训练-采样”系统架构,支持高并发采样与异步训练更新; 研究采样集群与训练集群之间的资源调度、数据同步与负载均衡机制; 实现弹性扩缩容、故障恢复、版本管理等系统能力,提升整体稳定性与可扩展性。 4. Agent 框架优化与系统支撑 研究面向复杂任务的Agent执行框架,优化工具调用、状态管理、多步规划的系统性能; 构建低延迟、高并发的Agent运行时环境,支持大规模仿真与自动评估; 探索Agent工作流的可复现性、可观测性与调试支持,提升研发效率。

更新于 2025-09-05
logo of bytedance
实习A89253

日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:Data AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责火山引擎-方舟大模型平台的Agent技术研发,包括Multi-Agent框架、Memory机制、Agent-RL等基础能力建设; 2、开发UI-Agent、DeepResearch Agent等专业领域Agent,提升大模型在特定场景的应用能力; 3、设计并实现易用高效的Agent开发套件,降低开发者使用Agent技术的门槛; 4、探索Agent方向的创新方法与技术,提出更先进的Agent范式,引领行业技术发展; 5、探索面向Agent的评估方法,构建火山方舟Agent评估体系。

更新于 2025-04-21
logo of xiaohongshu
实习大模型

1.小红书大模型强化学习基础设施的开发,接入并维护强化学习工程环境,加快模型训练速度 2.进行大模型强化学习的相关研究,探索如何在开放领域任务(Code,web search,computer use)上高效的进行 RL Scaling,参与研究奖励模型和强化学习模型的泛化性,持续提升模型 Post-Train 能力

更新于 2025-07-25
logo of xiaohongshu
实习大模型

本课题的研究目标是研发面向复杂场景的可拓展大规模强化学习系统。 包括不限于: 1、超大规模Reward System构建; 2、面向复杂场景构建“策略与反馈一体化”的递归自我增强方法,解决“AI超越人类”时的可拓展监督问题; 3、面向长程任务探索人机合作博弈的强化学习机制,实现模型在超长程复杂任务上的需求明确、自我规划与执行校验能力;让AI从被动完成指令的工具转变为主动推动任务进展的的协作者,实现目标对齐; 4、强化学习进程中的大模型可解释性、可理解性。

更新于 2025-08-22