小红书大模型multi-turn RL实习生

实习兼职大模型2025-10-22地点：上海 | 北京状态：招聘

扫码手机上打开

任职要求

对 RLHF / RM / RLAI…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、参与 multi-turn-rm 数据建设（preference 对比、奖励维度拆解、rubric 设计）
2、研究 multi-turn RL 思路（RLAIF、GRPO、PPO、多轮奖励 credit assignment 等）
3、标注与分析对话数据：找坏例子 / 拆错误模式 / 总结好对话结构
4、评估并优化 session-level 对话体验（是否跑题、是否 self-consistent、是否达成任务目标）
5、与模型训练同学协作，把 RM/RL 想法落到实验与迭代验证

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

RLHF+

相关职位

大模型-Alignment数据实习生

实习大模型

1、面向多类任务（任务型/复杂指令/多轮对话/工具使用/推理/偏好/安全），批量构造 prompt families 2、设计 Prompt diversity、difficulty 的维度设计和系统实现 3、结合模型输出结果，基于 score / RM / heuristics 做 prompt×response 联合筛选 4、全程参与做 data → model → eval → refine 的闭环和模型合版实验 5、参与 SFT-prompt 和 RL-prompt 的差异化设计（多阶段 / multi-turn RL-friendly prompt）

更新于 2025-10-22上海|北京

高德-大模型应用算法工程师-Agent方向

社招2年以上技术类-算法

团队简介我们是高德行中智能团队，我们的使命是基于高德海量高质的数据，最前沿的AI算法，最可靠的通用工程架构，打造有温度、有惊喜、科技感十足的下一代出行体验；在这里，我们一起建设应对超大业务规模和场景，超高业务复杂度的高效、可靠、鲁棒的技术架构；一起用最前沿的机器学习、深度学习、AI算法探索智慧出行最具挑战性的行业难题；一起用最尖端的AIGC、LLM/LVM、多模态理解与生成技术；基于语音、视觉、位置等多模态信息搭建高吞吐、低时延、强智能、真人感的Agent体系，打造全新人和环境交互形态；职位描述探索下一代多模态出行体验基于全双工多模态agent，构建人和环境的全新交互形态

更新于 2025-12-01北京

蚂蚁集团-大语言模型算法工程师-杭州/上海

社招3年以上技术类-算法

1、参与构建蚂蚁百灵系列大模型，包括但不限于百灵后训练、强化学习系统的算法框架、语料合成、训推优化、模型调优等； 2、参与大语言模型后训练及专项能力优化，提升模型的数学推理、代码生成、超长上下文精细化理解、行动力（Multi-turn& Multi-step Function Calling）等核心能力； 3、参与高效大语言模型架构优化，设计新颖Sparse Attention、Linear Attention等，提升大模型训练与推理效率。

更新于 2025-12-23上海|杭州

测试开发工程师

社招研发类

图研发团队负责美图系列产品的全链路技术开发与中台体系建设。我们聚焦AI影像、多端协同与数据智能，用扎实的技术将创意转化为稳定优美的亿级用户产品体验。期待你加入，用代码赋能创意。 Our R&D Team drives full-stack development for Meitu's product suite and platform infrastructure. Specializing in AI imaging, multi-end collaboration, and data intelligence, we turn ideas into stable, elegant experiences for millions of users. Join us to code the future of creativity. 岗位名称：测试开发工程师工作地点：厦门岗位职责： ● 参与Windows / Mac / Android / iOS 平台下的自动化测试和专项测试的相关工作 ● 追踪并分析线上线下故障，推动问题的合理解决，提升项目质量 ● 根据公司产品特点和业务需求，对测试工具和方式进行优化，包括但不限于研发和维护内部工具、平台、系统和框架 ● 学习和研究新技术并落地以提高测试效率和质量

更新于 2025-08-05