logo of antgroup

蚂蚁金服大模型评测研究实习生

实习兼职蚂蚁技术研究院长期研究型实习生项目地点:杭州状态:招聘

任职要求


1. 教育背景: 计算机科学、人工智能、机器学习、数学或相关专业的本科及以上学历。
2. 编程能力: 熟练掌握 PythonPyTorch。
3. 技术理解: 对大语言模型(LLM)有基本的认识,了解其工作原理和主要应用场景。
4. 逻辑分析: 具备优…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 设计与开发评测方案: 围绕大语言模型和多模态大模型的各项能力,设计科学、公正、全面的评测(Benchmark)方案和对应的数据集。
2. 搭建评测平台: 参与或负责自动化评测系统的开发、部署和维护,提升模型迭代和评测效率。
3. 执行与分析: 对主流的开源及闭源大模型进行系统性评测,并对自研模型进行深度分析,撰写评测报告,为模型的优化方向提供数据支持。
4. 追踪前沿动态: 持续关注业界最新的大模型评测方法、基准和技术,并将其应用到实际工作中。
包括英文材料
机器学习+
学历+
Python+
PyTorch+
还有更多 •••
相关职位

logo of meituan
实习核心本地商业-基

1.参与面向AGI的大模型评测研究,包括模型性能评估、数据处理等工作; 2.参与面向AGI的模型训练范式研究,包括算法策略设计、模型调优等工作; 3.协助团队完成相关项目,按时保质保量完成工作任务。

更新于 2025-10-17上海|北京
logo of meituan
实习核心本地商业-基

负责LLM大模型评测算法的研究以及评测模型的训练、优化,具体工作内容包括但不限于: 1. 深入理解大规模语言模型的模型结构、训练过程以及评测方案,根据模型的训练过程以及评测结果,对大语言模型存在的问题和评测存在的问题进行研究,根据研究结果进行优化落地。 2. 深入分析模型评测结果中不符合认知的异常,根据具体的异常制定完善的研究策略,通过对比、归纳等方法,产出研究分析结论,指导模型训练优化。 3. 构建Data-Centric的数据-训练-评测闭环,探索研究大模型的数据、模型结构、评测策略、评测数据等对模型评测效果的影响,得出有效认知,指导模型训练和评测方案的建设。 4. 追踪大模型方向的前沿进展,积极主动地学习和探索新数据分析、模型训练以及模型评测方法。 5. 与各相关部门保持良好沟通,深度参与大模型预训练、SFT、RLHF和评测等阶段,共同推动大模型持续优化。

更新于 2026-02-02上海|北京
logo of bytedance
实习A241565

ByteIntern:面向2027届毕业生(2026年9月-2027年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动内部创新业务团队,专注研究新技术赛道相关领域产品,落地AI智能化创新。 1、从用户视角定义产品体验,并细化到对模型效果的理想态定义和评测标准制定; 2、负责构建大模型在真实应用场景下的效果评估体系,产出稳定可信的评测结论;能够从用户反馈、模型行为观察、研究侧目标中提炼评估方向,并提出可落地的模型能力提升与应用体验优化策略,推动模型和产品迭代; 3、与研发、数据科学、用户研究等团队紧密协作,基于线上观测、实验结果和用户访谈,识别模型缺陷与改进机会,并给出可执行的优化方向与评估策略; 4、负责推动跨团队协作闭环,统筹评估目标、资源优先级与落地节奏,确保关键模型行为、风险点、用户体验问题能够被快速验证、追踪与优化; 5、持续跟进业界评测研究与方法论,结合真实业务场景迭代方案,探索更反映真实用户体验和价值的评测方法。

更新于 2026-03-26北京
logo of tongyi
实习通义研究型实习生

随着大模型技术迅猛发展,模型迭代速度远超传统评测体系更新。当前行业面临核心痛点:复杂任务与长尾场景缺乏有效评估标准,主观指标难以量化,人工评测成本高、效率低。现有系统难以支撑大规模模型集成与快速实验,制约了模型在真实业务中的落地。本项目旨在构建下一代评测体系,解决评估滞后与对齐难题,确保模型能力可测、可控、可用,为业务场景提供坚实技术底座,推动 AI 从“可用”向“好用”跨越,满足产业界对高质量模型的迫切需求。 1. 深度挖掘大模型在复杂任务、长尾场景中的弱点,设计并构建具有可扩展性的自动化评测方案及高质量数据集; 2. 参与 LLM-as-a-Judge 方案的设计与实现,训练高精度的 Reward Model(奖励模型),建模人类偏好,提升模型在指令遵循、创造性等主观评价上的表现; 3. 设计高效的 Reward Signal(奖励信号)并合成对应数据,通过强化学习(RL)算法持续提升模型的能力上限与泛化性; 4. 参与开发 Evaluation 与 Reward System 所需的工程框架,简化多任务测试流程,提升大规模模型集成与实验的效率; 5. 跟踪全球大模型最新进展(如 Agent 评测、多模态对齐、自动化数据合成等),推动研究成果在真实业务场景中的落地。

更新于 2026-03-30北京|杭州|上海