logo of kuaishou

快手语言大模型算法专家-【强化学习方向】

社招全职3-5年D13919地点:北京状态:招聘

任职要求


1、硕士及以上学历强化学习相关专业优先;
2、在大规模预训练、模型对齐、强化学习、RAG、Agent等至少一个方向有深厚的项目经验和洞察力;
3…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、深入研究强化学习在快手自研语言大模型中的创新应用,提升大模型能力上限;
2、负责大模型的基础技术研究,包括但不限于训练算法、框架及模型架构相关的基础技术探索和创新;
3、在顶级会议与开源社区塑造快手大模型团队的技术影响力。
包括英文材料
学历+
强化学习+
还有更多 •••
相关职位

logo of kuaishou
社招3-5年D13919

1、基于快手自研基础大模型,构建Agent系统,并打造Deep Research等原生大模型应用; 2、参与包括但不限于agentic数据集构造、SFT冷启动训练、RL端到端训练agentic reasoning model、prompt优化等方向。

更新于 2025-08-05北京
logo of xpeng
社招

- 研究和开发基于强化学习的自动驾驶决策规划模型,提升自动驾驶系统的安全性、舒适性和效率; - 与感知、规划、VLM/VLA 等模块紧密合作,设计和实现自动驾驶大规模强化学习训练框架; - 跟踪强化学习领域最新进展,并将先进技术应用于实际产品中,实现AI技术的商业化交付。

更新于 2025-02-12北京|上海|广州
logo of tongyi
社招3年以上技术类-算法

团队介绍: LLM research 团队是隶属于阿里巴巴通义实验室的前沿研究团队,致力于解决大语言模型发展过程中的长期性、基础性挑战。我们的使命是打造具备通用智能的下一代AI系统,让模型真正具备深度推理、规划与复杂问题求解的能力,跨越任务与领域边界,从而在各类真实任务中展现可靠而深刻的智能。 1. 有效评估模型能力:建立系统性的评估方法与指标,准确刻画模型的行为表现与能力边界。 2. 探索模型的能力缺陷:挖掘当前主流模型在关键任务中的局限,理解其失败模式与成因。 3. 理解模型训练机制与问题:深入剖析大模型训练中的核心机制与潜在问题,为新范式设计提供理论支持。 4. 定义与探索更优训练范式:在实践中推动训练方法的演进,从而训练出更强大、更可靠、更智能的模型。

更新于 2025-09-04北京|杭州
logo of antgroup
社招3年以上技术类-算法

1. 负责研发大语言模型强化学习算法,提升大模型在强化学习阶段的训练效率,以及提升大模型在数学、代码等自然科学领域的推理能力 2. 负责研发奖励和评价模型,包括细粒度的过程监督和奖励建模,覆盖复杂推理、指令遵循等各种任务 3. 参与后训练和推理阶段的Scaling Law研究,包括奖励模型训练、强化学习训练、推理阶段的Scaling Law

更新于 2025-12-23北京|上海|杭州