快手大模型强化学习算法专家（Keye）

社招全职3-5年D139182025-07-28地点：北京状态：招聘

扫码手机上打开

任职要求

1、计算机科学、机器学习、人工智能等相关专业硕士及以上学历；
2、具备扎实的机器学习基础，熟练使用至少一种深度学习框架（如 PyTorch、TensorFlow 等）；
3、有强化…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责大模型的强化学习算法研究与开发，优化模型训练效果、稳定性和效率；
2、深入研究强化学习领域的前沿技术，结合公司业务场景，探索新的算法优化方向，保持公司在该领域的技术领先性；
3、探索强化学习阶段的多目标强化学习、奖励模型设计等技术方向，提升模型在复杂任务中的表现；
4、撰写技术报告和论文，分享研究成果，推动团队技术水平提升。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

学历+

深度学习+

还有更多 •••

登录查看完整学习资料

相关职位

多模态大模型预训练算法专家-【Keye】

社招D13360

1、参与快手自研多模态大模型预训练算法工作，依托快手视频社区平台，构建最具影响力的多模态理解基座模型和开源生态； 2、参与多模态大模型架构探索，包括但不限于万亿级参数多模态MoE模型的训练、多模态信息编码方案设计、探索更高效的图文/视频/音频等编码方式、多模态表征学习和语义对齐策略的探索、超长上下文模型开发等； 3、参与高质量预训练数据构建，包括从但不限于大规模混合模态预训练数据构建（探索多模态Scaling）、高质量多模态语义对齐数据合成、探索模型自我迭代提升路径、感知能力专家模型研发（包括OCR、Caption、Grounding等）； 4、参与生成理解统一的多模态大模型研发。

更新于 2025-12-02北京

多模态大模型后训练算法专家-【Keye】

社招D4910

1、主导多模态大模型的后训练全流程优化，包括指令微调（SFT）、强化学习（RLHF/DPO/PPO）、模型蒸馏等技术的研发与工程实现，持续提升模型在通用领域及垂直领域（如短视频理解、电商理解）的泛化能力和安全性； 2、参与多模态合成数据生成（覆盖纯文本、图文及视频等内容理解维度）、建立数据质量评估体系，设计数据蒸馏流程，推动数据-模型-评测迭代优化； 3、面向短视频社区、电商内容理解等场景，解决后训练阶段的核心挑战，如跨模态对齐一致性、长上下文推理、多任务指令冲突优化以及多模态智能推理探索等；推动技术成果转化，主导模型在快手短视频社区的集成落地（例如RAG增强系统、多模态Agent任务规划），并通过API封装与服务化支撑业务创新； 4、跟踪前沿多模态大模型后训练技术的前沿演进，探索SFT自动化迭代、轻量化RLHF以及reward model一体化等创新技术方向，形成专利或顶会论文提升团队技术影响力。

更新于 2025-08-05北京

蚂蚁集团-大语言模型强化学习算法专家-杭州/上海/北京

社招3年以上技术类-算法

1. 负责研发大语言模型强化学习算法，提升大模型在强化学习阶段的训练效率，以及提升大模型在数学、代码等自然科学领域的推理能力 2. 负责研发奖励和评价模型，包括细粒度的过程监督和奖励建模，覆盖复杂推理、指令遵循等各种任务 3. 参与后训练和推理阶段的Scaling Law研究，包括奖励模型训练、强化学习训练、推理阶段的Scaling Law

更新于 2025-12-23北京|上海|杭州

通义实验室-算法专家-大模型Agentic应用范式

社招3年以上技术类-开发

我们正在寻找充满激情的大模型应用开发者，共同构建大模型应用新开发范式，积极推进大模型应用落地新范式，拥抱开源社区，探索前沿研究方向。工作内容包括： 1. 探索超前沿大语言模型强化学习算法和Agentic应用范式。 2. 参与大模型应用开发平台架构设计，积极推进MCP等开源协议赋能企业级开发平台。 3. 构建大模型轻应用，推进大模型在金融/医疗/教育等核心场景落地和赋能。

更新于 2025-12-25北京|杭州|上海