logo of mihoyo

米哈游【实习】LLM Evaluation算法研究员

实习兼职程序&技术类地点:上海 | 北京状态:招聘

任职要求


1. 计算机科学、人工智能或相关领域的在读硕士或博士
2. 对大语言模型评测体系有较深入的理解,并能构建评估方法以改进模型性能,掌握LLM as Judge技术
3. 对大语言模型的工作原理有较深入的理解,熟悉BT reward model训练和SFT训练,熟悉RL训练更佳
4. 有良好的中英文阅读和鉴赏能力,有良好的沟通合作能力

加…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 对大语言模型评估结果做深入数据分析,理解不同评估指标与用户体验、需求之间的关联,对模型训练迭代提供指导意见
2. 研发可靠的大语言模型评估管线,制定针对角色扮演、创意写作等能力的自动或人工评测准则与方法,构建对应的评测数据集
3. 紧扣偏好对齐目标,分析和清洗奖励模型数据,研发不易被reward hack、偏好有深度的奖励模型
包括英文材料
大模型+
SFT+
ICPC+
还有更多 •••
相关职位

logo of tongyi
实习通义研究型实习生

背景:大语言模型(LLM)评测是LLM开发和应用中的关键环节。基于模型的自动评测技术,面向复杂任务,例如知识推理(Knowledge Reasoning)、多轮会话(Multi-tern Dialogue)、文本生成(Text generation)等,具有独特的优势,逐渐成为学术界和工业界关注的热点。 涵盖技术点包括: 1. 基于裁判员模型的自动评测技术(Model-based Automatic Evaluation for LLM),涉及LLM/RL相关模型的算法设计、训练、推理等内容 2. 基于模型的自动评测框架设计,裁判员模型在不同任务和细分领域的性能优化

更新于 2024-11-14杭州
logo of antgroup
实习蚂蚁集团2027

1. 参与AI Infra 基础设施平台或者面向金融、风控、营销、Web3、企业服务等AI应用场景的智能体(Agent)系统的设计、开发与优化; 2. 参与基于大语言模型(LLM)或多模态模型的智能体核心模块研发,包括但不限于任务规划、工具调用、记忆机制、对话管理、推理引擎等, 探索和实现智能体在复杂业务场景中的落地应用,如智能客服、自动化流程、决策辅助、数字员工等; 3. 参与AI Infra 平台系统架构设计和核心技术细节实现,帮助团队攻克各种技术难关,保障和提升平台稳定性; 4. 与算法、产品、数据及业务团队紧密协作,推动智能体系统的全链路端到端交付与迭代; 5. 跟踪前沿技术进展,通过AI Coding 持续提升系统智能化水平与工程效率。

北京|上海|杭州
logo of sensetime
实习算法研究

1. 支持研究并实现创新算法(Agentic Vision Language Model和Image Generation):通过agent与用户的多轮交互,识别用户意图,在低成本的前提下实现有效的、多样的image generation 2. 协助产线支持 Multi-Modality Retrieval Augmented Generation (RAG)和等相关业务,以解决智能城市场景上遇到的企业流程优化和自动化问题; 3. 跟进前沿基础研究进展,持续迭代 Agentic VLM相关算法或框架,在通用数据集和业务场景数据集上持续迭代算法的性能及精度,在顶级学术会议上发表研发产出 4. 与软件工程师紧密协作,支撑创新算法在产品上可扩展的实时的实现

更新于 2026-01-09杭州|深圳
logo of sensetime
社招算法研究

1. 支持研究并实现创新算法(Agentic Vision Language Model和Image Generation):通过agent与用户的多轮交互,识别用户意图,在低成本的前提下实现有效的、多样的image generation 2. 协助产线支持 Multi-Modality Retrieval Augmented Generation (RAG)和等相关业务,以解决智能城市场景上遇到的企业流程优化和自动化问题; 3. 跟进前沿基础研究进展,持续迭代 Agentic VLM相关算法或框架,在通用数据集和业务场景数据集上持续迭代算法的性能及精度,在顶级学术会议上发表研发产出 4. 与软件工程师紧密协作,支撑创新算法在产品上可扩展的实时的实现

更新于 2026-01-09杭州|深圳