logo of mihoyo

米哈游LLM Posttrain算法研究员

校招全职程序&技术类地点:上海 | 北京状态:招聘

任职要求


1. 计算机科学、人工智能或相关领域的硕士/博士
2. 熟悉 Transformer 架构,熟练使用 PyTorch 及主流大模型训练框架(如 DeepSpeed, Megatron-LM, vLLM 等)
3. 有 SFT、RLHF 的实际操作经验,理解训练过程中的稳定性与效率问题
4. 具备优秀的工程实现能力和快速复现Paper的能力

加分项
1.…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 前沿算法探索:紧跟领域前沿技术,探索有效和高效的 RLHF 或 RLAIF 等post-training方法,提升模型在复杂逻辑任务中的推理能力
2. 对齐策略研究: 探索 PPO、DPO、GRPO 等 Post-training 算法的改进,优化模型在指令跟随、多轮对话一致性等方面的表现
3. 高质量数据工程: 负责 SFT 与 RLHF 阶段的数据治理,探索合成数据、数据演化及数据混合策略,解决数据稀缺性问题
4. 长窗口与记忆: 参与 Long Context 训练技术的优化,提升模型在长序列下的注意力保持与信息检索能力
包括英文材料
Transformer+
PyTorch+
大模型+
DeepSpeed+
Megatron+
vLLM+
SFT+
还有更多 •••