快手语言大模型算法专家-【强化学习方向】
社招全职3-5年D13919地点:北京状态:招聘
任职要求
1、硕士及以上学历,强化学习相关专业优先; 2、在大规模预训练、模型对齐、强化学习、RAG、Agent等至少一个方向有深厚的项目经验和洞察力; 3…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1、深入研究强化学习在快手自研语言大模型中的创新应用,提升大模型能力上限; 2、负责大模型的基础技术研究,包括但不限于训练算法、框架及模型架构相关的基础技术探索和创新; 3、在顶级会议与开源社区塑造快手大模型团队的技术影响力。
包括英文材料
学历+
强化学习+
https://cloud.google.com/discover/what-is-reinforcement-learning?hl=en
Reinforcement learning (RL) is a type of machine learning where an "agent" learns optimal behavior through interaction with its environment.
https://huggingface.co/learn/deep-rl-course/unit0/introduction
This course will teach you about Deep Reinforcement Learning from beginner to expert. It’s completely free and open-source!
https://www.kaggle.com/learn/intro-to-game-ai-and-reinforcement-learning
Build your own video game bots, using classic and cutting-edge algorithms.
还有更多 •••
相关职位
社招3-5年D13919
1、基于快手自研基础大模型,构建Agent系统,并打造Deep Research等原生大模型应用; 2、参与包括但不限于agentic数据集构造、SFT冷启动训练、RL端到端训练agentic reasoning model、prompt优化等方向。
更新于 2025-08-05北京
社招
- 研究和开发基于强化学习的自动驾驶决策规划模型,提升自动驾驶系统的安全性、舒适性和效率; - 与感知、规划、VLM/VLA 等模块紧密合作,设计和实现自动驾驶大规模强化学习训练框架; - 跟踪强化学习领域最新进展,并将先进技术应用于实际产品中,实现AI技术的商业化交付。
更新于 2025-02-12北京|上海|广州
社招3年以上技术类-算法
团队介绍: LLM research 团队是隶属于阿里巴巴通义实验室的前沿研究团队,致力于解决大语言模型发展过程中的长期性、基础性挑战。我们的使命是打造具备通用智能的下一代AI系统,让模型真正具备深度推理、规划与复杂问题求解的能力,跨越任务与领域边界,从而在各类真实任务中展现可靠而深刻的智能。 1. 有效评估模型能力:建立系统性的评估方法与指标,准确刻画模型的行为表现与能力边界。 2. 探索模型的能力缺陷:挖掘当前主流模型在关键任务中的局限,理解其失败模式与成因。 3. 理解模型训练机制与问题:深入剖析大模型训练中的核心机制与潜在问题,为新范式设计提供理论支持。 4. 定义与探索更优训练范式:在实践中推动训练方法的演进,从而训练出更强大、更可靠、更智能的模型。
更新于 2025-09-04北京|杭州