米哈游LLM Post-train 算法研究员

实习兼职程序&技术类地点：上海状态：招聘

扫码手机上打开

任职要求

1）2027/2028 届在校硕士及以上学历，计算机科学、人工智能、机器学习、NLP 或相关专业
2）熟悉 Transformer / MoE 架构原理，熟练使用 PyTorch 及主流大模型训练/推理框架（如 DeepSpeed、Megatron-LM、VeRL、Slime、vLLM、SGLang 等）
3）具备扎实的强化学习基础，理解 PPO/DPO/GRPO 等算法原理，有将 RL 方法应用于语言模型对齐的实践经验
4）有 LLM 微调、对话系统训练或文本生成相关的研究或项目经验，了解分布式训练基础知识
5）具备较强的代码工程能力和实验设计能力，能够快速实现和验证算法思路
6）…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1）后训练算法研发：参与游戏内容、角色扮演等场景下大模型的后训练（Post-training）算法研发工作，涵盖 SFT、RLHF、DPO 等对齐方法的实现与优化，提升模型在剧情生成、角色一致性、对话连贯性、情感表达等维度的能力
2）奖励模型训练：参与 Reward Model 的设计与训练，探索面向对话质量、情感表达、角色一致性、安全性等维度的奖励信号构建，支撑强化学习训练流程
3）强化学习训练优化：参与基于 PPO/GRPO 等算法的大模型对齐训练，探索训练稳定性、采样效率和效果提升方法，支持模型在复杂多轮对话和开放域生成场景中的优化
4）数据工程：参与后训练阶段的数据构建工作，包括 SFT 数据设计、偏好数据采集与标注、数据清洗与质量评估，探索数据合成、数据增强与数据混合策略
5）多类型模型训练：参与辅助模型（如分类器、决策模型等）的训练与调优，支撑模型产品体系建设
6）实验与迭代：完成训练实验的设计与执行，分析实验结果，定位模型表现问题，提出改进方案并在时延要求内推动落地
7）前沿技术探索：跟踪 Post-training 领域最新研究进展（如 RLAIF、On-Policy Distillation、推理链压缩等），结合游戏对话业务需求进行技术预研与创新落地

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

机器学习+

NLP+

Transformer+

PyTorch+

大模型+

vLLM+

还有更多 •••

登录查看完整学习资料