logo of quark

夸克智能信息-大模型训练优化专家-强化学习

社招全职1年以上地点:北京 | 杭州 | 广州状态:招聘

任职要求


1. 3年及以上大模型训练工程经验,有扎实的深度学习算法基础,精通各类大模型常用训练框架,熟练掌握各种编译、调试、性能分析工具;
2. 熟悉强化学习算法PPO、DPO、GRPO、DAPO等以及相应的高效工程实现,有大模型强化学习工程支持经验和效果优化经验;
3. 精通ray分布式计算框架开发实现,掌握一种或多种分布式训练框架(…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责千卡以上规模文本及多模态大模型强化学习训练框架建设;为Quark、通义等过亿用户,提供大模型后训练能力,持续优化模型效果;
2、负责调研和实现业界先进的强化学习方法,并探索算法工程结合的训练方法创新设计,实现模型性能和训练效率的双提升;
3、负责训练效率极致优化,通过前沿技术的调研、引入,以及机制创新,实现业界领先的训练吞吐能力。
包括英文材料
大模型+
深度学习+
算法+
强化学习+
还有更多 •••
相关职位

logo of quark
社招1年以上技术类-算法

1、 主导/核心参与全模态大模型(文本、图像、视频、音频、3D等)的模型架构与核心算法设计、训练及优化,探索跨模态对齐、多模态融合和原生多模态等前沿技术创新; 2、 开发全模态大模型在具体场景中的应用落地(如实时AI视频通话等方向),将全模态大模型技术与业务需求结合,推动场景化落地; 3、 解决全模态大模型训练和推理的挑战性问题(如模态对齐、长序列建模、高效推理等),跟踪相关领域在学术界与工业界的最新进展等。

更新于 2025-08-19北京|杭州
logo of quark
社招3年以上技术类-算法

通过强化学习提升万亿级参数大模型的决策认知能力,实现大模型在复杂环境下的多模态交互,完成多轮感知-决策闭环,在前沿实践中推动AGI落地; 研发新一代大模型强化学习算法,提升大模型在多模态、工具调用、复杂环境交互、多智能体交互等方向的基础能力; 改进大规模分布式强化学习框架,优化万卡集群下的高效分布式训练效率,支持大模型与复杂环境/工具的高效交互; 将强化学习研究成果融入夸克产品生态,打造更懂用户的智能服务产品, 让前沿技术惠及亿万用户。

更新于 2025-09-15北京|杭州
logo of quark
社招2年以上技术类-算法

1. 负责面向AI教育领域战略级内容产品建设和应用,结合大模型前沿技术解决行业核心问题。 2. 负责提升面向核心任务的大模型后训练和综合效果迭代。通过大模型、NLP、强化学习等级技术完善智能决策、内容理解等核心领域的应用技术体系。

更新于 2025-10-09北京
logo of quark
社招2年以上技术类-算法

1. 负责语音合成、语音识别、端到端语音交互大模型算法的基础研究和应用落地; 2. 参与语音合成与识别技术在业务场景落地,解决落地过程中的前沿问题,持续优化语音合成与识别核心技术效果; 3. 深入调研和关注音频/NLP/多模态/全模态等方向的前沿技术,持续探索语音技术的新能力和新应用。

更新于 2025-09-19北京|杭州