logo of quark

夸克智能信息-大模型训练优化专家-强化学习

社招全职1年以上地点:北京 | 杭州 | 广州状态:招聘

任职要求


1. 3年及以上大模型训练工程经验,有扎实的深度学习算法基础,精通各类大模型常用训练框架,熟练掌握各种编译、调试、性能分析工具;
2. 熟悉强化学习算法PPO、DPO、GRPO、DAPO等以及相应的高效工程实现,有大模型强化学习工程支持经验和效果优化经验;
3. 精通ray分布式计算框架开发实现,掌握一种或多种分布式训练框架(…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责千卡以上规模文本及多模态大模型强化学习训练框架建设;为Quark、通义等过亿用户,提供大模型后训练能力,持续优化模型效果;
2、负责调研和实现业界先进的强化学习方法,并探索算法工程结合的训练方法创新设计,实现模型性能和训练效率的双提升;
3、负责训练效率极致优化,通过前沿技术的调研、引入,以及机制创新,实现业界领先的训练吞吐能力。
包括英文材料
大模型+
深度学习+
算法+
强化学习+
还有更多 •••
相关职位

logo of quark
社招1年以上技术类-算法

1、 主导/核心参与全模态大模型(文本、图像、视频、音频、3D等)的模型架构与核心算法设计、训练及优化,探索跨模态对齐、多模态融合和原生多模态等前沿技术创新; 2、 开发全模态大模型在具体场景中的应用落地(如实时AI视频通话等方向),将全模态大模型技术与业务需求结合,推动场景化落地; 3、 解决全模态大模型训练和推理的挑战性问题(如模态对齐、长序列建模、高效推理等),跟踪相关领域在学术界与工业界的最新进展等。

更新于 2025-08-19北京|杭州
logo of quark
社招2年以上技术类-算法

1. 负责语音合成、语音识别、端到端语音交互大模型算法的基础研究和应用落地; 2. 参与语音合成与识别技术在业务场景落地,解决落地过程中的前沿问题,持续优化语音合成与识别核心技术效果; 3. 深入调研和关注音频/NLP/多模态/全模态等方向的前沿技术,持续探索语音技术的新能力和新应用。

更新于 2025-09-19北京|杭州
logo of quark
社招3年以上技术类-算法

1. 探索研究多模态生成大模型的设计与开发,探究高效生成、生成理解统一、多模态理解、强化学习/RLHF后训练和高效数据管线设计等方向; 2. 参与研发多模态生成大模型开发等下一代人工智能核心技术,参与大规模生成基础模型预训练与后训练开发。 3. 负责跟踪和研究多模态生成大模型前沿技术调研、落地、对业务进行优化。

更新于 2025-08-22北京|杭州
logo of quark
社招3年以上技术类-算法

1. 探索研究多模态理解、计算机视觉、大语言模型,GUI agent等前沿技术; 2. 参与研发多模态、全模态大模型等下一代人工智能核心技术,探索面向真实环境的多模态智能体多轮强化学习,提升大模型能力; 3. 负责跟踪和研究多模态大模型前沿技术调研、落地、对业务进行优化。

更新于 2025-08-01北京|杭州