米哈游【提前批】LLM算法研究员（后训练方向）

校招全职程序&技术类地点：上海 | 北京状态：招聘

扫码手机上打开

任职要求

1、计算机科学、数学等相关领域的应届毕业生，有良好的编程能力和扎实数理基础；
2、熟悉LLM常用工具和框架，如transformers，llama-factory，verl等。熟悉适用于LLM后训练的强化学习算法，如PPO，GRPO，DAPO等；
3、有LLM项目实践经历，包括但不限于LLM模型训练，…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、研究LLM后训练算法，探索LLM Agent在游戏场景中的落地应用，包括在游戏设计、玩法以及研发管线中的应用等；
2、针对各应用场景，收集LLM后训练数据，制定数据流转pipeline，参与构建后训练数据飞轮；
3、研究LLM模型的后训练策略，使用强化学习等技术提升LLM Agent的性能，参与游戏领域LLM模型的调优、训练和迭代，推动LLM在游戏场景中的技术突破；
4、与游戏制作管线中的其他团队紧密合作，打造新的AI游戏开发流程，创造次世代游戏体验；与工程团队紧密合作，交付稳定可靠的LLM服务。‌

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

Llama+

强化学习+

算法+

还有更多 •••

登录查看完整学习资料

相关职位

【提前批】LLM研究员(pretrain modeling)

校招程序&技术类

1、专研训练框架，快速定位训练中出现的问题，分析训练过程中的模型表现，跟infra team合作来保证训练策略的正确性 2、紧跟领域前沿技术，研究新型LLM模型架构，提升训练或推理的计算效率和模型性能 3、研究不同架构、数据、目标函数和优化方法等各个算法方面的scaling law，总结出高效稳定的预训练策略 4、拓展模型在长文本理解和生成的能力

上海

【提前批】LLM研究员（agent&memory）

校招程序&技术类

1、紧跟领域前沿技术，搭建一致、拟人、高智商、高情商的AI角色 2、持续迭代 Memory、Planning、RAG、Tool use、Multi-Agent等关键技术，提升Agent的对话管理、行为决策与环境交互能力 3、研发高效的Agent系统，持续优化架构与性能，推动Agent在产品化应用中的落地 4、探索并实现复杂场景下的Agent数据闭环，构建稳健、可靠的评估流程

上海

【提前批】LLM研究员（post-train）

校招程序&技术类

1、紧跟领域前沿技术，探索有效和高效的 RLHF 或 RLAIF 等post-training方法，提升大语言模型的拟人化、趣味性, 以及角色扮演、创意写作等方向的综合能力 2、参与预研项目的研发，与产品、策划、工程等多个团队紧密协作，拆解并设计具体的算法解决方案和交付目标 3、构建高质量、多领域的数据处理及分析流程，包括但不限于数据清洗、数据合成、数据混合策略等 4、构建稳健可靠的算法评估流程，揭示大语言模型能力边界和潜在机制

上海

【提前批】AudioLLM 研究员

校招程序&技术类

专注于AudioLLM通用音频理解模型的研究与开发，参与构建下一代音频基础模型和Omni多模态框架，探索语音、音乐、环境声音等多模态音频内容的统一理解建模方法，推动 audio AI 在理解、生成和交互场景中的技术突破。核心职责： 1. 模型架构与训练：负责通用音频理解模型设计与分布式训练优化，实现语音识别、情感分析、音频问答、音乐理解、声音事件检测等多任务统一建模 2. 数据管线：设计并落地大规模多模态音频数据 pipeline，完成数据对齐、质量控制与自动标注 3. 跨模态融合：研究音频编码器与大语言模型融合技术，优化跨模态注意力与统一特征表示

上海