logo of mihoyo

米哈游LLM Evaluation算法研究员

校招全职程序&技术类地点:上海 | 北京状态:招聘

任职要求


1. 计算机、AI或相关领域硕士及以上学历,具备扎实的机器学习理论基础
2. 熟悉主流 LLM 评测框架及其局限性,有构建私有评测集的经验
3. 对 RLHF、DPO、PPO 等对齐算法有深入理解,熟悉 Reward Model 的训练与评估难点
4. 具备极强的数据敏感度,能从统计数据中发现模型能力的微弱变化

加分项
1. 在 NeurI…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 复杂能力评测: 针对逻辑推理、代码生成、长文本理解等高难度能力,设计并构建自动化评测集与评估管线
2. 主观偏好建模: 深入研究 RLHF 中的 Reward Model 表现,分析 Reward Hacking 现象;建立细粒度的评估准则,提升模型在开放式生成任务中的对齐效果
3. Model-based Evaluation: 研发并优化 LLM-as-a-Judge 技术,通过训练专用的 Critic Model 来替代人工进行大规模、高一致性的自动评估
4. 数据驱动迭代: 建立从评测结果到训练数据的反馈闭环,通过Bad Case分析指导 SFT 数据配比与 Post-training 策略调整
包括英文材料
学历+
机器学习+
大模型+
RLHF+
算法+
NeurIPS+
还有更多 •••