米哈游【实习】LLM Evaluation算法研究员
任职要求
1. 计算机科学、人工智能或相关领域的在读硕士或博士 2. 对大语言模型评测体系有较深入的理解,并能构建评估方法以改进模型性能,掌握LLM as Judge技术 3. 对大语言模型的工作原理有较深入的理解,熟悉BT reward model训练和SFT训练,熟悉RL训练更佳 4. 有良好的中英文阅读和鉴赏能力,有良好的沟通合作能力 加…
工作职责
1. 对大语言模型评估结果做深入数据分析,理解不同评估指标与用户体验、需求之间的关联,对模型训练迭代提供指导意见 2. 研发可靠的大语言模型评估管线,制定针对角色扮演、创意写作等能力的自动或人工评测准则与方法,构建对应的评测数据集 3. 紧扣偏好对齐目标,分析和清洗奖励模型数据,研发不易被reward hack、偏好有深度的奖励模型
背景:大语言模型(LLM)评测是LLM开发和应用中的关键环节。基于模型的自动评测技术,面向复杂任务,例如知识推理(Knowledge Reasoning)、多轮会话(Multi-tern Dialogue)、文本生成(Text generation)等,具有独特的优势,逐渐成为学术界和工业界关注的热点。 涵盖技术点包括: 1. 基于裁判员模型的自动评测技术(Model-based Automatic Evaluation for LLM),涉及LLM/RL相关模型的算法设计、训练、推理等内容 2. 基于模型的自动评测框架设计,裁判员模型在不同任务和细分领域的性能优化
1. 参与AI Infra 基础设施平台或者面向金融、风控、营销、Web3、企业服务等AI应用场景的智能体(Agent)系统的设计、开发与优化; 2. 参与基于大语言模型(LLM)或多模态模型的智能体核心模块研发,包括但不限于任务规划、工具调用、记忆机制、对话管理、推理引擎等, 探索和实现智能体在复杂业务场景中的落地应用,如智能客服、自动化流程、决策辅助、数字员工等; 3. 参与AI Infra 平台系统架构设计和核心技术细节实现,帮助团队攻克各种技术难关,保障和提升平台稳定性; 4. 与算法、产品、数据及业务团队紧密协作,推动智能体系统的全链路端到端交付与迭代; 5. 跟踪前沿技术进展,通过AI Coding 持续提升系统智能化水平与工程效率。

1. 支持研究并实现创新算法(Agentic Vision Language Model和Image Generation):通过agent与用户的多轮交互,识别用户意图,在低成本的前提下实现有效的、多样的image generation 2. 协助产线支持 Multi-Modality Retrieval Augmented Generation (RAG)和等相关业务,以解决智能城市场景上遇到的企业流程优化和自动化问题; 3. 跟进前沿基础研究进展,持续迭代 Agentic VLM相关算法或框架,在通用数据集和业务场景数据集上持续迭代算法的性能及精度,在顶级学术会议上发表研发产出 4. 与软件工程师紧密协作,支撑创新算法在产品上可扩展的实时的实现

1. 支持研究并实现创新算法(Agentic Vision Language Model和Image Generation):通过agent与用户的多轮交互,识别用户意图,在低成本的前提下实现有效的、多样的image generation 2. 协助产线支持 Multi-Modality Retrieval Augmented Generation (RAG)和等相关业务,以解决智能城市场景上遇到的企业流程优化和自动化问题; 3. 跟进前沿基础研究进展,持续迭代 Agentic VLM相关算法或框架,在通用数据集和业务场景数据集上持续迭代算法的性能及精度,在顶级学术会议上发表研发产出 4. 与软件工程师紧密协作,支撑创新算法在产品上可扩展的实时的实现