logo of kuaishou

快手大模型强化学习算法专家(Keye)

社招全职3-5年D13918地点:北京状态:招聘

任职要求


1、计算机科学、机器学习、人工智能等相关专业硕士及以上学历;
2、具备扎实的机器学习基础,熟练使用至少一种深度学习框架(如 PyTorch、TensorFlow 等);
3、有强化…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责大模型的强化学习算法研究与开发,优化模型训练效果、稳定性和效率;
2、深入研究强化学习领域的前沿技术,结合公司业务场景,探索新的算法优化方向,保持公司在该领域的技术领先性;
3、探索强化学习阶段的多目标强化学习、奖励模型设计等技术方向,提升模型在复杂任务中的表现;
4、撰写技术报告和论文,分享研究成果,推动团队技术水平提升。
包括英文材料
机器学习+
学历+
深度学习+
还有更多 •••
相关职位

logo of kuaishou
社招D13360

1、参与快手自研多模态大模型预训练算法工作,依托快手视频社区平台,构建最具影响力的多模态理解基座模型和开源生态; 2、参与多模态大模型架构探索,包括但不限于万亿级参数多模态MoE模型的训练、多模态信息编码方案设计、探索更高效的图文/视频/音频等编码方式、多模态表征学习和语义对齐策略的探索、超长上下文模型开发等; 3、参与高质量预训练数据构建,包括从但不限于大规模混合模态预训练数据构建(探索多模态Scaling)、高质量多模态语义对齐数据合成、探索模型自我迭代提升路径、感知能力专家模型研发(包括OCR、Caption、Grounding等); 4、参与生成理解统一的多模态大模型研发。

更新于 2025-12-02北京
logo of kuaishou
社招D4910

1、主导多模态大模型的后训练全流程优化,包括指令微调(SFT)、强化学习(RLHF/DPO/PPO)、模型蒸馏等技术的研发与工程实现,持续提升模型在通用领域及垂直领域(如短视频理解、电商理解)的泛化能力和安全性; 2、参与多模态合成数据生成(覆盖纯文本、图文及视频等内容理解维度)、建立数据质量评估体系,设计数据蒸馏流程,推动​​数据-模型-评测​​迭代优化; 3、面向短视频社区、电商内容理解等场景,解决后训练阶段的核心挑战,​​如​​跨模态对齐一致性、长上下文推理、多任务指令冲突优化以及多模态智能推理探索等;推动技术成果转化,主导模型在快手短视频社区的集成落地(例如RAG增强系统、多模态Agent任务规划),并通过API封装与服务化支撑业务创新; 4、跟踪前沿多模态大模型后训练技术的前沿演进,探索SFT自动化迭代、轻量化RLHF以及reward model一体化等创新技术方向,形成专利或顶会论文提升团队技术影响力。

更新于 2025-08-05北京
logo of antgroup
社招3年以上技术类-算法

1. 负责研发大语言模型强化学习算法,提升大模型在强化学习阶段的训练效率,以及提升大模型在数学、代码等自然科学领域的推理能力 2. 负责研发奖励和评价模型,包括细粒度的过程监督和奖励建模,覆盖复杂推理、指令遵循等各种任务 3. 参与后训练和推理阶段的Scaling Law研究,包括奖励模型训练、强化学习训练、推理阶段的Scaling Law

更新于 2025-12-23北京|上海|杭州
logo of tongyi
社招3年以上技术类-开发

我们正在寻找充满激情的大模型应用开发者,共同构建大模型应用新开发范式,积极推进大模型应用落地新范式,拥抱开源社区,探索前沿研究方向。 工作内容包括: 1. 探索超前沿大语言模型强化学习算法和Agentic应用范式。 2. 参与大模型应用开发平台架构设计,积极推进MCP等开源协议赋能企业级开发平台。 3. 构建大模型轻应用,推进大模型在金融/医疗/教育等核心场景落地和赋能。

更新于 2025-12-25北京|杭州|上海