logo of xiaohongshu

小红书大模型multi-turn RL实习生

实习兼职大模型地点:上海 | 北京状态:招聘

任职要求


RLHF / RM / RLAI…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、参与 multi-turn-rm 数据建设(preference 对比、奖励维度拆解、rubric 设计)
2、研究 multi-turn RL 思路(RLAIF、GRPO、PPO、多轮奖励 credit assignment 等)
3、标注与分析对话数据:找坏例子 / 拆错误模式 / 总结好对话结构
4、评估并优化 session-level 对话体验(是否跑题、是否 self-consistent、是否达成任务目标)
5、与模型训练同学协作,把 RM/RL 想法落到实验与迭代验证
包括英文材料
RLHF+
相关职位

logo of xiaohongshu
实习大模型

1、面向多类任务(任务型/复杂指令/多轮对话/工具使用/推理/偏好/安全),批量构造 prompt families 2、设计 Prompt diversity、difficulty 的维度设计和系统实现 3、结合模型输出结果,基于 score / RM / heuristics 做 prompt×response 联合筛选 4、全程参与做 data → model → eval → refine 的闭环和模型合版实验 5、参与 SFT-prompt 和 RL-prompt 的差异化设计(多阶段 / multi-turn RL-friendly prompt)

更新于 2025-10-22上海|北京
logo of amap
社招2年以上技术类-算法

团队简介 我们是高德行中智能团队,我们的使命是基于高德海量高质的数据,最前沿的AI算法,最可靠的通用工程架构,打造有温度、有惊喜、科技感十足的下一代出行体验; 在这里,我们一起建设应对超大业务规模和场景,超高业务复杂度的高效、可靠、鲁棒的技术架构;一起用最前沿的机器学习、深度学习、AI算法探索智慧出行最具挑战性的行业难题;一起用最尖端的AIGC、LLM/LVM、多模态理解与生成技术;基于语音、视觉、位置等多模态信息搭建高吞吐、低时延、强智能、真人感的Agent体系,打造全新人和环境交互形态; 职位描述 探索下一代多模态出行体验 基于全双工多模态agent,构建人和环境的全新交互形态

更新于 2025-12-01北京
logo of antgroup
社招3年以上技术类-算法

1、参与构建蚂蚁百灵系列大模型,包括但不限于百灵后训练、强化学习系统的算法框架、语料合成、训推优化、模型调优等; 2、参与大语言模型后训练及专项能力优化,提升模型的数学推理、代码生成、超长上下文精细化理解、行动力(Multi-turn& Multi-step Function Calling) 等核心能力; 3、参与高效大语言模型架构优化,设计新颖Sparse Attention、Linear Attention等,提升大模型训练与推理效率。

更新于 2025-11-07上海|杭州
logo of meitu
社招研发类

图研发团队负责美图系列产品的全链路技术开发与中台体系建设。我们聚焦AI影像、多端协同与数据智能,用扎实的技术将创意转化为稳定优美的亿级用户产品体验。期待你加入,用代码赋能创意。 Our R&D Team drives full-stack development for Meitu's product suite and platform infrastructure. Specializing in AI imaging, multi-end collaboration, and data intelligence, we turn ideas into stable, elegant experiences for millions of users. Join us to code the future of creativity. 岗位名称:测试开发工程师 工作地点:厦门 岗位职责: ● 参与Windows / Mac / Android / iOS 平台下的自动化测试和专项测试的相关工作 ● 追踪并分析线上线下故障,推动问题的合理解决,提升项目质量 ● 根据公司产品特点和业务需求,对测试工具和方式进行优化,包括但不限于研发和维护内部工具、平台、系统和框架 ● 学习和研究新技术并落地以提高测试效率和质量

更新于 2025-08-05