logo of tongyi

通义Token Foundry-大模型RL/RM算法专家-杭州/北京

社招全职1年以上技术类-算法地点:北京 | 杭州状态:招聘

任职要求


1. 计算机科学、人工智能等相关专业硕士及以上学历,1 年以上 LLM 相关工作经验。
2. 扎实的强化学习大模型算法基础,有 LLM、VLM 对齐(Alignment)或 RLHF 实际落地经验。
3. 熟练掌握 PyTorch,有大规模分布式训练经验,熟悉 DeepSpeed / Megatron…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责 RLHF 全链路建设,包括 Reward Model 的设计、训练与迭代优化,推动 PPO / DPO / GRPO 等对齐算法的工程化落地。
2. 构建 Verifier、LLM as Judge、Rule 等为一体的 Reward System,优化多维度(如安全性、准确性、有用性、逻辑性、拟人度等)的偏好数据采集策略与训练方案。
3. 与 SFT、Pretrain 团队紧密协作,分析用户的 Badcase,将 RL 信号融入模型训练全流程,持续提升对话助手的用户体验。
4. 跟踪 Agentic RL 等前沿研究进展,并推动技术创新在基座大模型研发中的落地。
包括英文材料
学历+
大模型+
强化学习+
算法+
RLHF+
PyTorch+
还有更多 •••
相关职位

logo of xiaohongshu
社招引擎

DirectLLM是小红书内部面向各业务场景建设的大模型API服务产品,通过标准化API接口提供LLM/MLLM等大模型推理服务,致力于为AI应用开发者提供品类丰富、数量众多的模型选择,并通过API接口为其提供开箱即用、能力卓越、成本经济的模型服务,各领域模型的能力均可通过统一的API和SDK来实现被不同业务系统集成。 工作职责: 1、参与/负责大模型推理服务平台(MaaS)的架构设计、系统研发、产品研发等工作; 2、深入参与面向大模型场景的请求调度、异构资源调度、引擎优化等核心工作,实现千亿级Token并行推理平台; 3、为内部产品线提供解决方案,协助公司内用户解决大模型应用过程中业务在平台上的使用问题。

北京|上海|深圳
logo of amap
社招4年以上技术类-算法

我们是谁? 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现厘米级高精地图、实时三维重建、多模态感知等核心技术的引擎,持续突破自动驾驶、AR导航、智慧交通等领域的技术边界。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 挑战世界级技术难题,追求智能上限 用AI驱动国民级APP的产品迭代和颠覆式创新 岗位职责: 团队主要聚焦多模态大模型技术在端到端自动驾驶的应用,我们期待你的工作将覆盖以下至少一个技术方向即可: 1. 在端到端自动驾驶、多模态大模型的训练及调优、BEV感知、基于深度学习/强化学习的规划控制、RLHF、驾驶场景视频生成等领域具备丰富且有独创性的研究经历。 2. 探索多模态大模型在下游任务中的技术能力,包括但不限于图文对齐/识别、跨模态理解生成、多模态检索、VLM端到端自动驾驶、世界模型等。 3. 了解大模型模型的训练/微调/推理加速方法,包括但不限于模型结构调优、训练效率提升、高效低成本微调、Muti-token推理,模型部署加速等。 4. 参与自动驾驶系统中机器学习算法的研究、开发与优化,包括但不限于深度学习算法在端到端感知大模型、规控大模型、视觉语言大模型等方面的应用。 5. 负责收集、整理和分析自动驾驶相关的数据集,进行数据预处理和标注,以提高模型的准确性和泛化能力。 6. 设计和实现端到端自动驾驶模型的训练流程,包括选择合适的优化算法、调整超参数、评估模型性能等,确保模型在不同场景下的稳定性和可靠性。

更新于 2025-12-24北京
logo of amap
社招3年以上技术类-算法

我们是谁? 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现厘米级高精地图、实时三维重建、多模态感知等核心技术的引擎,持续突破自动驾驶、AR导航、智慧交通等领域的技术边界。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 挑战世界级技术难题,追求智能上限 用AI驱动国民级APP的产品迭代和颠覆式创新 岗位职责: 团队主要聚焦多模态大模型技术在端到端自动驾驶的应用,我们期待你的工作将覆盖以下至少一个技术方向即可: 1. 在端到端自动驾驶、多模态大模型的训练及调优、BEV感知、基于深度学习/强化学习的规划控制、RLHF、驾驶场景视频生成等领域具备丰富且有独创性的研究经历。 2. 探索多模态大模型在下游任务中的技术能力,包括但不限于图文对齐/识别、跨模态理解生成、多模态检索、VLM端到端自动驾驶、世界模型等。 3. 了解大模型模型的训练/微调/推理加速方法,包括但不限于模型结构调优、训练效率提升、高效低成本微调、Muti-token推理,模型部署加速等。 4. 参与自动驾驶系统中机器学习算法的研究、开发与优化,包括但不限于深度学习算法在端到端感知大模型、规控大模型、视觉语言大模型等方面的应用。 5. 负责收集、整理和分析自动驾驶相关的数据集,进行数据预处理和标注,以提高模型的准确性和泛化能力。 6. 设计和实现端到端自动驾驶模型的训练流程,包括选择合适的优化算法、调整超参数、评估模型性能等,确保模型在不同场景下的稳定性和可靠性。

更新于 2026-03-30北京
logo of baidu
社招ACG

-负责Coding Agent场景的效果优化,深入研究LLM后训练相关技术,包括CPT/SFT/RLHF/RLVR等,提升算法效果和token效率 -构建大规模高质量数据,探索数据飞轮持续提升模型效果的可行性 -跟踪LLM领域的最新研究成果,研究方向包括但不限于中训练、RL后训练、奖励模型设计和创新 -深度参与产品研发和业务落地,和工程/研发/产品等同学密切配合,将优化算法应用于具体业务场景,推动智能体技术的产业化落地

更新于 2025-10-28北京|上海