logo of quark

夸克智能信息-夸克-大模型强化学习专家-前沿技术攻坚

社招全职3年以上技术类-算法地点:北京 | 杭州状态:招聘

任职要求


1. 硕士及以上学历,数学、强化学习自然语言处理等相关专业;
2. 在强化学习方面具有丰富的专业知识,熟练掌握深度强化学习算法在大语言模型中的应用及前沿知识;
3. 熟悉大模型相关深度学习框架,如Transformers、PyTorchMegatron-LM等,有扎实的编程基础和代码实现能力;
4. 具备良好的沟通、协作和解决问题的能力,能够与团队成员密切合作,共同解决问题;

符合以下条件者优先:
1. 有大语言模型RLHF、RL reasoning、Agentic RL等方向有实际项目参与经验;
2. 在强化学习大模型训练、多智能体等研究方向在顶级学术会议上发表过论文;
3. 有大规模分布式强化学习训练经验或RL框架优化经验;

工作职责


通过强化学习提升万亿级参数大模型的决策认知能力,实现大模型在复杂环境下的多模态交互,完成多轮感知-决策闭环,在前沿实践中推动AGI落地;
研发新一代大模型强化学习算法,提升大模型在多模态、工具调用、复杂环境交互、多智能体交互等方向的基础能力;
改进大规模分布式强化学习框架,优化万卡集群下的高效分布式训练效率,支持大模型与复杂环境/工具的高效交互;
将强化学习研究成果融入夸克产品生态,打造更懂用户的智能服务产品, 让前沿技术惠及亿万用户。
包括英文材料
学历+
强化学习+
NLP+
算法+
大模型+
深度学习+
PyTorch+
Megatron+
智能体+
相关职位

logo of bytedance
社招A228808

1、负责字节跳动研发效能基于LLM的代码智能方向的算法策略研发和落地工作,业务场景包括但不限于基于LLM的代码智能、数据推荐等; 2、跟踪基于LLM方向的最新研究成果,用以持续提升算法应用效果,研究方向包括但不限于LLM知识注入、LLM微调、LLM对指令和程序行为的理解等; 3、调研新技术,参与各类技术难题的攻关,沉淀技术能力和行业经验,带领团队成员攻坚技术难点,与平台一起成长和发展。

更新于 2024-09-03
logo of mi
社招3年以上A39602A

1、​技术培训需求调研与体系规划​:开展多维度的技术能力缺口诊断(如产品技术、专项问题),运用问卷、访谈、绩效数据分析等方式识别关键需求。基于业务战略(如产品迭代、投诉改善目标),制定年度/季度培训计划,明确优先级、资源配置及实施路径。 ​2、技术认证体系与月考管理​:设计分层级技术认证标准(如初级/高级工程师认证),关联职业发展通道与激励机制。主导技术月考全流程:题库开发(结合产品故障库)、考核实施、成绩分析,输出能力短板改进方案。 3、​讲师团队建设与管理​:选拔内部技术专家担任讲师,设计培养计划(含课程开发、授课技巧、课堂控场能力训练)。建立讲师激励体系(如课时津贴、荣誉评级),确保课程质量与讲师留存率。 ​4、一线工程师能力提升与认证体系化​:开发针对性课程(如3C数码产品故障排查、黑白电维修技术),通过工作坊、情景模拟强化实操能力。搭建“培训-认证-实践-复训”闭环体系,推动能力数据化(如认证通过率、故障解决效率提升率)。 ​5、技术专项攻坚组织:主导高优先级专项(如多维率降低、重大投诉改善),协调研发、服务团队开展根因分析,设计培训干预方案并跟踪落地效果。

更新于 2025-06-06
logo of mi
社招3年以上A215638A

1、技术培训需求调研与体系规划:开展多维度的技术能力缺口诊断(如产品技术、专项问题),运用问卷、访谈、绩效数据分析等方式识别关键需求。基于业务战略(如产品迭代、投诉改善目标),制定年度/季度培训计划,明确优先级、资源配置及实施路径。 2、技术认证体系与月考管理:设计分层级技术认证标准(如初级/高级工程师认证),关联职业发展通道与激励机制。主导技术月考全流程:题库开发(结合产品故障库)、考核实施、成绩分析,输出能力短板改进方案。 3、讲师团队建设与管理:选拔内部技术专家担任讲师,设计培养计划(含课程开发、授课技巧、课堂控场能力训练)。建立讲师激励体系(如课时津贴、荣誉评级),确保课程质量与讲师留存率。 4、一线工程师能力提升与认证体系化:开发针对性课程(如3C数码产品故障排查、黑白电维修技术),通过工作坊、情景模拟强化实操能力。搭建“培训-认证-实践-复训”闭环体系,推动能力数据化(如认证通过率、故障解决效率提升率)。 5、技术专项攻坚组织:主导高优先级专项(如多维率降低、重大投诉改善),协调研发、服务团队开展根因分析,设计培训干预方案并跟踪落地效果。

更新于 2025-08-08
logo of mihoyo
实习程序&技术类

负责视频生成模型在后训练/强化学习阶段的算法研发与模型训练,运用前沿强化学习算法优化模型的稳定性与视频生成质量,并实现对人类专家审美偏好的深度对齐。 核心职责 1、深入研究前沿强化学习算法,负责视频生成任务中的基于强化学习的优化方案探索及训练框架搭建; 2、结合视频生成模型的效果短板,分析强化学习算法的优化目标,设计数据收集方案; 3、设计并实现面向视频生成的多目标强化学习算法,设计并训练奖励模型(Reward Model); 4、撰写高质量技术报告与论文,与团队共同推动技术创新,保持行业领先地位。