夸克智能信息-大模型训练优化专家-强化学习
社招全职1年以上地点:北京 | 杭州 | 广州状态:招聘
任职要求
1. 3年及以上大模型训练工程经验,有扎实的深度学习算法基础,精通各类大模型常用训练框架,熟练掌握各种编译、调试、性能分析工具; 2. 熟悉强化学习算法PPO、DPO、GRPO、DAPO等以及相应的高效工程实现,有大模型强化学习工程支持经验和效果优化经验; 3. 精通ray分布式计算框架开发实现,掌握一种或多种分布式训练框架(…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1、负责千卡以上规模文本及多模态大模型强化学习训练框架建设;为Quark、通义等过亿用户,提供大模型后训练能力,持续优化模型效果; 2、负责调研和实现业界先进的强化学习方法,并探索算法工程结合的训练方法创新设计,实现模型性能和训练效率的双提升; 3、负责训练效率极致优化,通过前沿技术的调研、引入,以及机制创新,实现业界领先的训练吞吐能力。
包括英文材料
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
强化学习+
https://cloud.google.com/discover/what-is-reinforcement-learning?hl=en
Reinforcement learning (RL) is a type of machine learning where an "agent" learns optimal behavior through interaction with its environment.
https://huggingface.co/learn/deep-rl-course/unit0/introduction
This course will teach you about Deep Reinforcement Learning from beginner to expert. It’s completely free and open-source!
https://www.kaggle.com/learn/intro-to-game-ai-and-reinforcement-learning
Build your own video game bots, using classic and cutting-edge algorithms.
还有更多 •••
相关职位
社招1年以上技术类-算法
1、 主导/核心参与全模态大模型(文本、图像、视频、音频、3D等)的模型架构与核心算法设计、训练及优化,探索跨模态对齐、多模态融合和原生多模态等前沿技术创新; 2、 开发全模态大模型在具体场景中的应用落地(如实时AI视频通话等方向),将全模态大模型技术与业务需求结合,推动场景化落地; 3、 解决全模态大模型训练和推理的挑战性问题(如模态对齐、长序列建模、高效推理等),跟踪相关领域在学术界与工业界的最新进展等。
更新于 2025-08-19北京|杭州
社招3年以上技术类-算法
1.深入探索LLM在医疗问答场景(如多轮对话、智能诊断)中的效果提升方案,推动行业前沿技术在业务中规模化应用。构建面向医疗领域的强化学习训练框架,设计合理的Reward Model,通过PPO/GRPO等算法实现模型对齐与可控生成。 2.结合消融实验和归因分析,定位影响模型效果的关键因素,制定分层优化策略 3.参与制定数据标注标准,参与构建多维度评测体系。负责从数据挖掘、RL训练策略设计、模型调优到效果评估的全流程开发,持续提升模型在医疗业务上的表现。
更新于 2025-10-20北京|杭州
社招3年以上技术类-算法
通过强化学习提升万亿级参数大模型的决策认知能力,实现大模型在复杂环境下的多模态交互,完成多轮感知-决策闭环,在前沿实践中推动AGI落地; 研发新一代大模型强化学习算法,提升大模型在多模态、工具调用、复杂环境交互、多智能体交互等方向的基础能力; 改进大规模分布式强化学习框架,优化万卡集群下的高效分布式训练效率,支持大模型与复杂环境/工具的高效交互; 将强化学习研究成果融入夸克产品生态,打造更懂用户的智能服务产品, 让前沿技术惠及亿万用户。
更新于 2025-09-15北京|杭州