夸克智能信息-夸克-大模型强化学习专家-前沿技术攻坚
任职要求
1. 硕士及以上学历,数学、强化学习、自然语言处理等相关专业; 2. 在强化学习方面具有丰富的专业知识,熟练掌握深度强化学习算法在大语言模型中的应用及前沿知识; 3. 熟悉大模型相关深度学习框架,如Transformers、PyTorch、Megatron-LM等,有扎实的编程基础和代码实现能力; 4. 具备良好的沟通、协作和解决问题的能力,能够与团队成员密切合作,共同解决问题; 符合以下条件者优先: 1. 有大语言模型RLHF、RL reasoning、Agentic RL等方向有实际项目参与经验; 2. 在强化学习、大模型训练、多智能体等研究方向在顶级学术会议上发表过论文; 3. 有大规模分布式强化学习训练经验或RL框架优化经验;
工作职责
通过强化学习提升万亿级参数大模型的决策认知能力,实现大模型在复杂环境下的多模态交互,完成多轮感知-决策闭环,在前沿实践中推动AGI落地; 研发新一代大模型强化学习算法,提升大模型在多模态、工具调用、复杂环境交互、多智能体交互等方向的基础能力; 改进大规模分布式强化学习框架,优化万卡集群下的高效分布式训练效率,支持大模型与复杂环境/工具的高效交互; 将强化学习研究成果融入夸克产品生态,打造更懂用户的智能服务产品, 让前沿技术惠及亿万用户。
1、负责字节跳动研发效能基于LLM的代码智能方向的算法策略研发和落地工作,业务场景包括但不限于基于LLM的代码智能、数据推荐等; 2、跟踪基于LLM方向的最新研究成果,用以持续提升算法应用效果,研究方向包括但不限于LLM知识注入、LLM微调、LLM对指令和程序行为的理解等; 3、调研新技术,参与各类技术难题的攻关,沉淀技术能力和行业经验,带领团队成员攻坚技术难点,与平台一起成长和发展。
1、技术培训需求调研与体系规划:开展多维度的技术能力缺口诊断(如产品技术、专项问题),运用问卷、访谈、绩效数据分析等方式识别关键需求。基于业务战略(如产品迭代、投诉改善目标),制定年度/季度培训计划,明确优先级、资源配置及实施路径。 2、技术认证体系与月考管理:设计分层级技术认证标准(如初级/高级工程师认证),关联职业发展通道与激励机制。主导技术月考全流程:题库开发(结合产品故障库)、考核实施、成绩分析,输出能力短板改进方案。 3、讲师团队建设与管理:选拔内部技术专家担任讲师,设计培养计划(含课程开发、授课技巧、课堂控场能力训练)。建立讲师激励体系(如课时津贴、荣誉评级),确保课程质量与讲师留存率。 4、一线工程师能力提升与认证体系化:开发针对性课程(如3C数码产品故障排查、黑白电维修技术),通过工作坊、情景模拟强化实操能力。搭建“培训-认证-实践-复训”闭环体系,推动能力数据化(如认证通过率、故障解决效率提升率)。 5、技术专项攻坚组织:主导高优先级专项(如多维率降低、重大投诉改善),协调研发、服务团队开展根因分析,设计培训干预方案并跟踪落地效果。
1、技术培训需求调研与体系规划:开展多维度的技术能力缺口诊断(如产品技术、专项问题),运用问卷、访谈、绩效数据分析等方式识别关键需求。基于业务战略(如产品迭代、投诉改善目标),制定年度/季度培训计划,明确优先级、资源配置及实施路径。 2、技术认证体系与月考管理:设计分层级技术认证标准(如初级/高级工程师认证),关联职业发展通道与激励机制。主导技术月考全流程:题库开发(结合产品故障库)、考核实施、成绩分析,输出能力短板改进方案。 3、讲师团队建设与管理:选拔内部技术专家担任讲师,设计培养计划(含课程开发、授课技巧、课堂控场能力训练)。建立讲师激励体系(如课时津贴、荣誉评级),确保课程质量与讲师留存率。 4、一线工程师能力提升与认证体系化:开发针对性课程(如3C数码产品故障排查、黑白电维修技术),通过工作坊、情景模拟强化实操能力。搭建“培训-认证-实践-复训”闭环体系,推动能力数据化(如认证通过率、故障解决效率提升率)。 5、技术专项攻坚组织:主导高优先级专项(如多维率降低、重大投诉改善),协调研发、服务团队开展根因分析,设计培训干预方案并跟踪落地效果。