logo of mihoyo

米哈游LLM Post-train 算法研究员 - 星布谷地

社招全职3年以上程序&技术类地点:上海 | 北京状态:招聘

任职要求


1)硕士及以上学历,计算机科学、人工智能、机器学习NLP 或相关专业
2)3年以上大模型训练或 NLP 算法相关经验,有 SFTRLHF/DPO、Reward Model 训练的实际项目经验
3)熟悉 Transformer / MoE 架构原理,熟练使用 PyTorch 及主流大模型训练/推理框架(如 DeepSpeed、Megatron-LM、VeRL、Slime、vLLM、SGLang 等)
4)具备优秀的工程实现能力,能够独立设计和搭建训练流水线,快速复现和改进前沿算法
5)对数据质量敏感,具备高质量 SFT/偏好数据构建经验,了解数据对模型效果的影响机制
6)具备扎实的强化学习基础,理解 PPO/DPO/GR…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1)后训练算法研发:参与游戏内容、角色扮演等场景下大模型的后训练(Post-training)算法研发工作,涵盖 SFT、RLHF、DPO 等对齐方法的实现与优化,提升模型在剧情生成、角色一致性、对话连贯性、情感表达等维度的能力
2)奖励模型与对齐信号:设计和训练 Reward Model,探索多维度奖励信号的构建(如指令遵循、对话连贯性、创意性、安全性等),减少 Reward Hacking 和偏差问题,为强化学习提供高质量训练信号
3)强化学习训练与优化:基于 PPO/GRPO 等强化学习算法完成模型对齐训练,探索可规模化(Scalable)的 Verifier 信号与 RL 策略,提升训练稳定性与效率,推动模型在复杂多轮对话和开放域场景中的推理与生成能力
4)高质量数据工程:负责后训练阶段的数据治理,包括 SFT 数据构建、偏好数据采集与清洗、合成数据生成、数据混合策略设计,结合业务场景解决数据稀缺性问题
5)多类型模型训练:除对话模型外,参与其他辅助模型(如分类器、决策模型等)的训练与调优,支撑整体模型产品体系建设
前沿技术探索:跟踪 Post-training 领域最新研究进展(如 RLAIF、On-Policy Distillation、推理链压缩等),结合游戏对话业务需求进行技术预研与创新落地
包括英文材料
学历+
机器学习+
NLP+
大模型+
算法+
SFT+
RLHF+
Transformer+
还有更多 •••