米哈游【实习】LLM Evaluation算法研究员

实习兼职程序&技术类地点：上海 | 北京状态：招聘

扫码手机上打开

任职要求

1. 计算机科学、人工智能或相关领域的在读硕士或博士
2. 对大语言模型评测体系有较深入的理解，并能构建评估方法以改进模型性能，掌握LLM as Judge技术
3. 对大语言模型的工作原理有较深入的理解，熟悉BT reward model训练和SFT训练，熟悉RL训练更佳
4. 有良好的中英文阅读和鉴赏能力，有良好的沟通合作能力

加…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 对大语言模型评估结果做深入数据分析，理解不同评估指标与用户体验、需求之间的关联，对模型训练迭代提供指导意见
2. 研发可靠的大语言模型评估管线，制定针对角色扮演、创意写作等能力的自动或人工评测准则与方法，构建对应的评测数据集
3. 紧扣偏好对齐目标，分析和清洗奖励模型数据，研发不易被reward hack、偏好有深度的奖励模型

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

SFT+

ICPC+

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生-LLM自动评测技术

实习通义研究型实习生

背景：大语言模型（LLM）评测是LLM开发和应用中的关键环节。基于模型的自动评测技术，面向复杂任务，例如知识推理（Knowledge Reasoning）、多轮会话（Multi-tern Dialogue）、文本生成（Text generation）等，具有独特的优势，逐渐成为学术界和工业界关注的热点。涵盖技术点包括： 1. 基于裁判员模型的自动评测技术（Model-based Automatic Evaluation for LLM），涉及LLM/RL相关模型的算法设计、训练、推理等内容 2. 基于模型的自动评测框架设计，裁判员模型在不同任务和细分领域的性能优化

更新于 2024-11-14杭州

【转正实习】智能体研发工程师

实习蚂蚁集团2027

1. 参与AI Infra 基础设施平台或者面向金融、风控、营销、Web3、企业服务等AI应用场景的智能体（Agent）系统的设计、开发与优化； 2. 参与基于大语言模型（LLM）或多模态模型的智能体核心模块研发，包括但不限于任务规划、工具调用、记忆机制、对话管理、推理引擎等，探索和实现智能体在复杂业务场景中的落地应用，如智能客服、自动化流程、决策辅助、数字员工等； 3. 参与AI Infra 平台系统架构设计和核心技术细节实现，帮助团队攻克各种技术难关，保障和提升平台稳定性; 4. 与算法、产品、数据及业务团队紧密协作，推动智能体系统的全链路端到端交付与迭代； 5. 跟踪前沿技术进展，通过AI Coding 持续提升系统智能化水平与工程效率。

北京|上海|杭州

Agentic VLM实习生

实习算法研究

1. 支持研究并实现创新算法（Agentic Vision Language Model和Image Generation）:通过agent与用户的多轮交互，识别用户意图，在低成本的前提下实现有效的、多样的image generation 2. 协助产线支持 Multi-Modality Retrieval Augmented Generation (RAG)和等相关业务,以解决智能城市场景上遇到的企业流程优化和自动化问题； 3. 跟进前沿基础研究进展，持续迭代 Agentic VLM相关算法或框架，在通用数据集和业务场景数据集上持续迭代算法的性能及精度，在顶级学术会议上发表研发产出 4. 与软件工程师紧密协作，支撑创新算法在产品上可扩展的实时的实现

更新于 2026-01-09杭州|深圳

Agentic VLM实习生

社招算法研究

更新于 2026-01-09杭州|深圳