米哈游LLM Post-train 算法研究员 - 星布谷地

社招全职3年以上程序&技术类地点：上海 | 北京状态：招聘

扫码手机上打开

任职要求

1）硕士及以上学历，计算机科学、人工智能、机器学习、NLP 或相关专业
2）3年以上大模型训练或 NLP 算法相关经验，有 SFT、RLHF/DPO、Reward Model 训练的实际项目经验
3）熟悉 Transformer / MoE 架构原理，熟练使用 PyTorch 及主流大模型训练/推理框架（如 DeepSpeed、Megatron-LM、VeRL、Slime、vLLM、SGLang 等）
4）具备优秀的工程实现能力，能够独立设计和搭建训练流水线，快速复现和改进前沿算法
5）对数据质量敏感，具备高质量 SFT/偏好数据构建经验，了解数据对模型效果的影响机制
6）具备扎实的强化学习基础，理解 PPO/DPO/GR…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1）后训练算法研发：参与游戏内容、角色扮演等场景下大模型的后训练（Post-training）算法研发工作，涵盖 SFT、RLHF、DPO 等对齐方法的实现与优化，提升模型在剧情生成、角色一致性、对话连贯性、情感表达等维度的能力
2）奖励模型与对齐信号：设计和训练 Reward Model，探索多维度奖励信号的构建（如指令遵循、对话连贯性、创意性、安全性等），减少 Reward Hacking 和偏差问题，为强化学习提供高质量训练信号
3）强化学习训练与优化：基于 PPO/GRPO 等强化学习算法完成模型对齐训练，探索可规模化（Scalable）的 Verifier 信号与 RL 策略，提升训练稳定性与效率，推动模型在复杂多轮对话和开放域场景中的推理与生成能力
4）高质量数据工程：负责后训练阶段的数据治理，包括 SFT 数据构建、偏好数据采集与清洗、合成数据生成、数据混合策略设计，结合业务场景解决数据稀缺性问题
5）多类型模型训练：除对话模型外，参与其他辅助模型（如分类器、决策模型等）的训练与调优，支撑整体模型产品体系建设
前沿技术探索：跟踪 Post-training 领域最新研究进展（如 RLAIF、On-Policy Distillation、推理链压缩等），结合游戏对话业务需求进行技术预研与创新落地

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

机器学习+

NLP+

大模型+

算法+

SFT+

RLHF+

Transformer+

还有更多 •••

登录查看完整学习资料