蚂蚁金服【转正实习】模型基准和评估

实习兼职蚂蚁集团2027届转正实习地点：北京 | 上海 | 杭州 | 重庆 | 成都状态：招聘

扫码手机上打开

任职要求

1. 计算机、数学、统计学等相关专业背景，不设硬性学历门槛；
2. 具备扎实的 Python 编程能力，有独立完成工程项目的经验；
3. 有大模型评测、Agent、数据合成、自动化评估相关项目或实习经历者优先；
4. 评测工程能力：
● 熟悉评测集、指标体系、Rubric 设计及自动化评测流程，有评测平台、数据流水线或实验系统建设经验；
● 熟悉 LLM-as-a-Judge、规则评测、人工评审、离线评测与在线指标联动等常见评估方法，能够独立完成评测方案设计、实验执行与结论输出；
● 理解可复现、可对比、标准化评估体系的建设方法，有 benchmark 建设或维护经验者优先。
5. 模型与任务理解能力：
● 理解 Transformer 与主流 LLM 的基本原理，了解后训练、RAG、Memory、Tool Use、Agent 等典型能力形态；
● 能够围绕复杂任务设计合理评测方法，将评测结果转化为训练、系统或应用优化建议，推动效果闭环落地…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

这是一个面向 AI 推理、优化与效果闭环的核心岗位，适合希望从事模型评测、自动化评估、数据闭环与复杂任务分析的候选人投递。围绕大模型、智能体和复杂任务场景，你将负责建立科学、前沿、可信、可复现的评测体系，并通过评测结果驱动模型、系统和应用的持续优化。

具体的职责包括以下相关方向的一项或多项：
1. 评测体系设计与环境构建。面向大模型、Agent、多模态和复杂业务场景，设计评测基准、任务集合与能力分层体系，明确评测目标、边界、指标与验收标准；在此基础上，构建可复现的任务环境、工具链路与自动化评测框架，支持离线评测、回归测试、批量实验和版本对比，覆盖代码、工具使用、多步任务、检索增强、多模态理解等场景；
2. 自动化评测方法研发与结果分析。研发 LLM-as-a-Judge、VLM-as-a-Judge、Agent-as-a-Judge、规则评测、模型打分与混合评审等方法，建立兼顾效率、稳定性与可信度的自动化评估体系；基于评测结果开展数据分析、误差归因、能力拆解与边界分析，识别模型、系统、提示、数据与工具链路中的关键瓶颈；
3. 效果闭环与数据飞轮建设。将评测结果转化为可执行的优化建议，推动训练数据构建、后训练优化、RAG / Memory / Tool Use 策略、Agent 规划与系统架构的持续改进；同时建设高质量评测集、难例集、对抗样本与反馈回流机制，持续完善「评测 → 分析 → 优化 → 再评测」的闭环，提高模型与应用的稳定性与泛化能力。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Python+

大模型+

AI agent+

Transformer+

RAG+

还有更多 •••

登录查看完整学习资料

相关职位

【转正实习】大模型智能体优化算法

实习蚂蚁集团2027

将大模型能力做成可上线、可迭代、可控成本的产品能力。通过打造数据飞轮、模型适配与后训练、评测与实验等关键手段，实现端到端的闭环交付，持续提升产品的效果与稳定性。具体职责包括以下相关方向的一项或多项：包括语言大模型（LLM）应用后训练与智能体优化、多模态大模型（VLM/MLLM）应用后训练与智能体优化，以及图像、视频、语音、文档等场景下的 AIGC 能力构建与生成效果优化。需求与问题定义深入业务与产品共创需求，深入业务与产品共创需求，将文本、图像、视频、语音、文档等场景诉求转化为可执行的 AI 任务定义，明确目标、边界、优先级与验收口径。方案与应用架构在Prompt、RAG、微调、Agent等路线间做技术选型与权衡，设计端到端应用架构（含上下文、工具调用、记忆、权限与安全），并完成RAG、Multimodal RAGMemory、Tool Use、多Agent等能力的工程化落地与生产级集成。数据飞轮与治理搭建高效的数据采集、清洗与标注工程流水线。前瞻性地探索合成数据与模型自标注等自循环策略，同时建立完善的数据版本追踪与质量评估体系，真正打通“模型训练-业务应用-用户反馈-数据迭代”的增强回路。模型适配与后训练主导基座大模型向顶尖垂直行业专家的后训练的全链路技术演进，包括高质量的SFT、RL阶段PPO、GRPO等前沿强化学习与偏好优化算法攻坚，全面突破模型在复杂业务场景下的指令遵循精度、极致可控性与长链路逻辑推理天花板，显著提升大模型在复杂业务场景下应用能力。评测体系与实验面向业务目标设计评测指标与Rubric，搭建自动化评测框架（含人工评审），建立离线基准与线上实验体系（A/B、Bandit），持续监控指标漂移与策略投机以防止效果退化。生产交付与运营负责系统集成与上线发布，对线上质量、稳定性与成本负责，建立监控、告警、兜底与人工接管机制，推动持续迭代。

北京|上海|杭州

多模态世界模型评测算法实习生-Seed

实习A27697

ByteIntern：面向2026届毕业生（2025年9月-2026年8月期间毕业），为符合岗位要求的同学提供转正机会。团队介绍：字节跳动 Seed 团队成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、建立下一代多模态模型评测体系，引导模型向AGI的方向发展：创建针对推理与交互的下一代多模态模型评测Leaderboard，包括而不限于长视频高帧率评估、视频流式交互评估、视觉COT评估、世界模型评估方法，GUI/游戏等虚拟世界的通用多模态Agent评估方法； 2、探索多模态大模型能力边界：追踪业界对于模型能力的边界拓展进程，持续迭代复杂度更高的评测集合，防止基准测试饱和模型过拟合； 3、优化评测工程链路与评测手段：探索自动化评测任务构造和自动化评估方法，提升模型评测效率。

更新于 2025-03-06北京

（实习转正）AI开发工程师

实习技术

团队介绍：作为搜狐媒体内容中心产品技术团队，我们聚焦AI与媒体融合创新，持续探索AI技术在内容生产、传播、商业化全链路的创新性实践。目前团队主要业务方向： 1、主攻品牌营销领域AI互动产品研发（线上H5/小程序+线下智能装置），通过创新交互模式助力客户品牌价值提升； 2、打造媒体内容AI智能化生产体系，研发媒体采编工具链与多模态内容引擎，持续提升内容生产效能； 3、建立新闻垂直领域AI能力评价标准，通过构建行业评测基准、专业数据集及领域适配模型，夯实AI技术在传媒场景的深度应用。 1、作为核⼼成员参与AI项目的设计与开发，构建⾯向媒体业务的AI应⽤和⼯具链； 2、负责全栈开发⼯作，涵盖AI服务的前端研发、后端研发、API设计及交互体验优化等； 3、参与AI模型的集成、部署和质量评测，提升媒体内容生产、运营、营销等环节的智能化⽔平； 4、团队项目⽬前处于快速演进阶段，⿎励创新和⼤胆尝试。

北京

算法实习生-抖音电商

实习A217515

ByteIntern：面向2026届毕业生（2025年9月-2026年8月期间毕业），为符合岗位要求的同学提供转正机会。团队介绍：抖音电商团队是以抖音、抖音火山版、西瓜视频、今日头条等产品作为载体的全域兴趣电商平台。抖音电商致力于成为用户发现获得优价好物的首选平台，让美好生活触手可得。 1、参与抖音电商的增长业务，围绕用户生命周期设计业务策略，拉动电商整体的业务规模； 2、参与各种电商活动和商家营销的策略设计，优化各出资方的资金效率； 3、建设抖音电商营销统一的数据流和样本，建设统一的基准模型赋能各个新场景。

更新于 2023-04-11北京