logo of quark

夸克智能信息-大模型训练优化专家-强化学习

社招全职1年以上地点:北京 | 杭州 | 广州状态:招聘

任职要求


1. 3年及以上大模型训练工程经验,有扎实的深度学习算法基础,精通各类大模型常用训练框架,熟练掌握各种编译、调试、性能分析工具;
2. 熟悉强化学习算法PPO、DPO、GRPO、DAPO等以及相应的高效工程实现,有大模型强化学习工程支持经验和效果优化经验;
3. 精通ray分布式计算框架开发实现,掌握一种或多种分布式训练框架(…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责千卡以上规模文本及多模态大模型强化学习训练框架建设;为Quark、通义等过亿用户,提供大模型后训练能力,持续优化模型效果;
2、负责调研和实现业界先进的强化学习方法,并探索算法工程结合的训练方法创新设计,实现模型性能和训练效率的双提升;
3、负责训练效率极致优化,通过前沿技术的调研、引入,以及机制创新,实现业界领先的训练吞吐能力。
包括英文材料
大模型+
深度学习+
算法+
强化学习+
还有更多 •••
相关职位

logo of quark
社招1年以上技术类-算法

1、 主导/核心参与全模态大模型(文本、图像、视频、音频、3D等)的模型架构与核心算法设计、训练及优化,探索跨模态对齐、多模态融合和原生多模态等前沿技术创新; 2、 开发全模态大模型在具体场景中的应用落地(如实时AI视频通话等方向),将全模态大模型技术与业务需求结合,推动场景化落地; 3、 解决全模态大模型训练和推理的挑战性问题(如模态对齐、长序列建模、高效推理等),跟踪相关领域在学术界与工业界的最新进展等。

更新于 2025-08-19北京|杭州
logo of quark
社招3年以上技术类-算法

1.深入探索LLM在医疗问答场景(如多轮对话、智能诊断)中的效果提升方案,推动行业前沿技术在业务中规模化应用。构建面向医疗领域的强化学习训练框架,设计合理的Reward Model,通过PPO/GRPO等算法实现模型对齐与可控生成。 2.结合消融实验和归因分析,定位影响模型效果的关键因素,制定分层优化策略 3.参与制定数据标注标准,参与构建多维度评测体系。负责从数据挖掘、RL训练策略设计、模型调优到效果评估的全流程开发,持续提升模型在医疗业务上的表现。

更新于 2025-10-20北京|杭州
logo of quark
社招3年以上技术类-算法

通过强化学习提升万亿级参数大模型的决策认知能力,实现大模型在复杂环境下的多模态交互,完成多轮感知-决策闭环,在前沿实践中推动AGI落地; 研发新一代大模型强化学习算法,提升大模型在多模态、工具调用、复杂环境交互、多智能体交互等方向的基础能力; 改进大规模分布式强化学习框架,优化万卡集群下的高效分布式训练效率,支持大模型与复杂环境/工具的高效交互; 将强化学习研究成果融入夸克产品生态,打造更懂用户的智能服务产品, 让前沿技术惠及亿万用户。

更新于 2025-09-15北京|杭州
logo of quark
社招2年以上技术类-算法

1. 负责面向AI教育领域战略级内容产品建设和应用,结合大模型前沿技术解决行业核心问题。 2. 负责提升面向核心任务的大模型后训练和综合效果迭代。通过大模型、NLP、强化学习等级技术完善智能决策、内容理解等核心领域的应用技术体系。

更新于 2025-10-09北京