快手大模型训练框架研发工程师-可灵

社招全职3-5年J00122026-06-01地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1、具备良好的团队协作能力，热爱钻研技术，善于分析、解决工程问题；
2、有深度学习基本知识，熟悉Transformer/Bert/GPT等模型结构更佳；
3、掌握Python/C++编程语言，熟练使用Pytorch训练框架；
4、具备分布式训练或HPC基础知识，了解集合通信和CUDA…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、参与AI大模型训练框架研发，面向内部提供混合并行、极致性能、易用好的框架；
2、调研最新技术和性能调优工具，持续提升框架的性能和易用性；
3、完成多种 AI 框架的对接工作。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

深度学习+

Transformer+

BERT+

GPT+

Python+

C+++

PyTorch+

还有更多 •••

登录查看完整学习资料

相关职位

大模型训练框架研发工程师/专家

社招5-10年引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！工作职责： RL 后训练框架研发：负责 Relax RL 后训练框架的核心研发，支持 SFT、DPO、PPO、GRPO、RLVR 等主流后训练范式，持续追踪并落地前沿算法。 RL Pipeline 优化：设计高效的 RL 训练 Pipeline，优化 Rollout、Reward Model、Actor、Reference Model 等模块间的资源调度与动态协同，提升端到端训练吞吐。分布式训练优化：基于 Megatron、DeepSpeed、veRL 等框架，针对 RL 场景调优 TP / PP / DP / ZeRO / Sequence Parallel 等并行策略，在性能、显存与稳定性之间取得最优平衡。千卡训练稳定性建设：攻克大规模训练中的显存管理、跨节点通信、弹性容错、任务调度与数据流转等核心挑战，提升训练成功率与集群资源利用率。异构芯片训练适配：负责训练框架在国产异构计算芯片（昇腾 / PPU 等）上的适配与优化，完成模型迁移、算子支持、框架适配、Profiling 与 Kernel 调优，推动国产算力在训练场景的规模化使用。后训练工具链建设：构建端到端后训练工具链，打通训练框架与 MLOps 平台，提供训练可视化、自动超参搜索、故障诊断等生产级能力，降低算法团队使用门槛。业务协同与算法探索：与算法团队紧密协作，支撑 LLM / MLLM / Agent 等业务方向在 SFT 与 RL 领域的算法探索与工程落地。

更新于 2026-07-14上海|北京|杭州

大模型训练框架研发工程师-强化学习/精调/蒸馏方向

社招3年以上腾讯云技术

1.框架开发与优化：负责强化学习、模型精调、知识蒸馏等核心模块的设计与开发，提升框架的训练效率与易用性； 2.分布式训练支持：基于Megatron-LM、DeepSpeed等工具，优化大模型分布式训练策略（数据并行/张量并行/流水并行/专家并行等），解决显存、通信与计算瓶颈； 3.工具链构建：参与开发轻量化训练框架（如LLama-Factory、swift），支持快速模型微调、部署及多硬件平台适配； 4.前沿技术探索：跟踪学术动态（如RLHF、MoE架构、FlashMLA、EPLB、DualPipe等），将最新研究成果转化为框架功能，提升产品竞争力； 5.协作与文档：与产品团队紧密配合，提供框架级解决方案；编写技术文档与案例，赋能公有云客户。

更新于 2026-06-26深圳

混元大模型训练框架研发工程师-（北京/深圳）

社招5年以上公共技术

1.参与开发优化大模型训练框架，支持单任务万卡以上规模高效稳定训练； 2.参与NLP、多模态大模型结构设计，并联合业务进行模型训练效率和效果验证； 3.参与文生图、文生视频、文生3D等业务的训练性能加速； 4.参与低精度训练性能优化和业务推广、参与大窗口训练性能优化。

更新于 2026-06-26北京

混元多模态大模型强化学习后训练框架研发工程师（北京）

社招3年以上AI技术

1.负责混元多模态大模型的RL后训练框架研发； 2.设计和开发高效的框架和算子，以支持各种硬件加速器； 3.参与强化学习算法的优化和实现，提高训练和推理性能； 4.跨团队协作，与算法、软件、硬件团队密切合作，提高框架性能和稳定性。

更新于 2026-04-03深圳