蚂蚁金服大模型评测研究实习生

实习兼职蚂蚁技术研究院长期研究型实习生项目地点：杭州状态：招聘

扫码手机上打开

任职要求

1. 教育背景： 计算机科学、人工智能、机器学习、数学或相关专业的本科及以上学历。
2. 编程能力： 熟练掌握 Python、PyTorch。
3. 技术理解： 对大语言模型（LLM）有基本的认识，了解其工作原理和主要应用场景。
4. 逻辑分析： 具备优…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 设计与开发评测方案： 围绕大语言模型和多模态大模型的各项能力，设计科学、公正、全面的评测（Benchmark）方案和对应的数据集。
2. 搭建评测平台： 参与或负责自动化评测系统的开发、部署和维护，提升模型迭代和评测效率。
3. 执行与分析： 对主流的开源及闭源大模型进行系统性评测，并对自研模型进行深度分析，撰写评测报告，为模型的优化方向提供数据支持。
4. 追踪前沿动态： 持续关注业界最新的大模型评测方法、基准和技术，并将其应用到实际工作中。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

学历+

Python+

PyTorch+

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生 - 下一代大模型评测方法与系统

实习阿里巴巴研究型实

随着大模型技术迅猛发展，模型迭代速度远超传统评测体系更新。当前行业面临核心痛点：复杂任务与长尾场景缺乏有效评估标准，主观指标难以量化，人工评测成本高、效率低。现有系统难以支撑大规模模型集成与快速实验，制约了模型在真实业务中的落地。本项目旨在构建下一代评测体系，解决评估滞后与对齐难题，确保模型能力可测、可控、可用，为业务场景提供坚实技术底座，推动 AI 从“可用”向“好用”跨越，满足产业界对高质量模型的迫切需求。 1. 深度挖掘大模型在复杂任务、长尾场景中的弱点，设计并构建具有可扩展性的自动化评测方案及高质量数据集； 2. 参与 LLM-as-a-Judge 方案的设计与实现，训练高精度的 Reward Model（奖励模型），建模人类偏好，提升模型在指令遵循、创造性等主观评价上的表现； 3. 设计高效的 Reward Signal（奖励信号）并合成对应数据，通过强化学习（RL）算法持续提升模型的能力上限与泛化性； 4. 参与开发 Evaluation 与 Reward System 所需的工程框架，简化多任务测试流程，提升大规模模型集成与实验的效率； 5. 跟踪全球大模型最新进展（如 Agent 评测、多模态对齐、自动化数据合成等），推动研究成果在真实业务场景中的落地。

更新于 2026-07-22北京|杭州|上海

研究型实习生 - 下一代大模型评测方法与系统

实习通义研究型实习生

更新于 2026-03-30北京|杭州|上海

阿里巴巴研究型实习生-多模态大模型安全评测及原生安全增强

实习阿里巴巴研究型实

1. 参与多模态大模型（MLLM）及其应用场景的安全风险研究，探索文本、图像、视频、音频等跨模态交互中的新型攻击面（如跨模态语义鸿沟利用、隐写攻击），进行威胁建模与风险定级。 2. 协助开展多模态安全攻防实验，包括视觉/语音越狱（Visual/Audio Jailbreak）、对抗样本生成（Adversarial Perturbation）、跨模态提示注入等，评测主流多模态模型在复杂输入下的鲁棒性与防御边界。 3. 研究多模态大模型的原生安全增强技术，探索基于潜在空间防御（Latent Space Defense）的改进算法，从模型底层提升安全性。 4. 跟踪前沿研究进展，调研多模态学习、对抗机器学习、模型对齐与可信AI领域的顶级会议论文（如CVPR, NeurIPS, ICLR等）及技术方案，为团队提供前沿技术洞察。 5. 协助构建多模态安全评测基准与自动化工具链，沉淀高质量的跨模态攻击数据集，形成可复现的评测流程，支持团队在多维感知场景下的风险分析与能力验证。

更新于 2026-03-09杭州

日常实习生-大模型安全评测与原生安全机制研究

实习阿里巴巴日常实习

1、参与大模型端到端安全评测体系建设，围绕内容安全、对抗鲁棒性、越狱攻击、防御有效性等方向设计并执行系统化评测方案，推动模型安全能力量化与评估标准完善。 2、参与大模型隐层表征风险感知能力研究，构建面向风险识别/安全判别的内部表征分析框架，探索模型在不同语义空间下的风险感知与决策机制。 3、参与大模型可解释性与模型探针（Model Probing）研究与落地，基于探针技术分析模型内部知识编码、风险表征分布及安全行为形成机制，提升模型安全决策透明度与可解释能力。 4、参与面向语言理解及多模态理解场景的低侵入式插件化原生安全围栏算法研发，探索轻量、高效、可插拔的安全防护机制，提升大模型原生安全能力与部署灵活性。 5、参与大模型原生安全增强技术的探索与落地，研究以低侵入、最小打扰方式提升目标模型解码阶段安全性的关键技术路径，在保障模型安全性的同时平衡生成质量与用户体验。 6、跟踪国内外大模型安全、模型可解释性及 Runtime Safety Alignment等前沿研究进展，复现相关论文与开源方案，推动研究成果在实际业务场景中的落地应用。

更新于 2026-06-30杭州