蚂蚁金服【转正实习】模型基准和评估
任职要求
1. 计算机、数学、统计学等相关专业背景,不设硬性学历门槛; 2. 具备扎实的 Python 编程能力,有独立完成工程项目的经验; 3. 有大模型评测、Agent、数据合成、自动化评估相关项目或实习经历者优先; 4. 评测工程能力: ● 熟悉评测集、指标体系、Rubric 设计及自动化评测流程,有评测平台、数据流水线或实验系统建设经验; ● 熟悉 LLM-as-a-Judge、规则评测、人工评审、离线评测与在线指标联动等常见评估方法,能够独立完成评测方案设计、实验执行与结论输出; ● 理解可复现、可对比、标准化评估体系的建设方法,有 benchmark 建设或维护经验者优先。 5. 模型与任务理解能力: ● 理解 Transformer 与主流 LLM 的基本原理,了解后训练、RAG、Memory、Tool Use、Agent 等典型能力形态; ● 能够围绕复杂任务设计合理评测方法,将评测结果转化为训练、系统或应用优化建议,推动效果闭环落地…
工作职责
这是一个面向 AI 推理、优化与效果闭环的核心岗位,适合希望从事模型评测、自动化评估、数据闭环与复杂任务分析的候选人投递。围绕大模型、智能体和复杂任务场景,你将负责建立科学、前沿、可信、可复现的评测体系,并通过评测结果驱动模型、系统和应用的持续优化。 具体的职责包括以下相关方向的一项或多项: 1. 评测体系设计与环境构建。面向大模型、Agent、多模态和复杂业务场景,设计评测基准、任务集合与能力分层体系,明确评测目标、边界、指标与验收标准;在此基础上,构建可复现的任务环境、工具链路与自动化评测框架,支持离线评测、回归测试、批量实验和版本对比,覆盖代码、工具使用、多步任务、检索增强、多模态理解等场景; 2. 自动化评测方法研发与结果分析。研发 LLM-as-a-Judge、VLM-as-a-Judge、Agent-as-a-Judge、规则评测、模型打分与混合评审等方法,建立兼顾效率、稳定性与可信度的自动化评估体系;基于评测结果开展数据分析、误差归因、能力拆解与边界分析,识别模型、系统、提示、数据与工具链路中的关键瓶颈; 3. 效果闭环与数据飞轮建设。将评测结果转化为可执行的优化建议,推动训练数据构建、后训练优化、RAG / Memory / Tool Use 策略、Agent 规划与系统架构的持续改进;同时建设高质量评测集、难例集、对抗样本与反馈回流机制,持续完善「评测 → 分析 → 优化 → 再评测」的闭环,提高模型与应用的稳定性与泛化能力。
将大模型能力做成可上线、可迭代、可控成本的产品能力。通过打造数据飞轮、模型适配与后训练、评测与实验等关键手段,实现端到端的闭环交付,持续提升产品的效果与稳定性。 具体职责包括以下相关方向的一项或多项:包括语言大模型(LLM)应用后训练与智能体优化、多模态大模型(VLM/MLLM)应用后训练与智能体优化,以及图像、视频、语音、文档等场景下的 AIGC 能力构建与生成效果优化。 需求与问题定义 深入业务与产品共创需求,深入业务与产品共创需求,将文本、图像、视频、语音、文档等场景诉求转化为可执行的 AI 任务定义,明确目标、边界、优先级与验收口径。 方案与应用架构 在Prompt、RAG、微调、Agent等路线间做技术选型与权衡,设计端到端应用架构(含上下文、工具调用、记忆、权限与安全),并完成RAG、Multimodal RAGMemory、Tool Use、多Agent等能力的工程化落地与生产级集成。 数据飞轮与治理 搭建高效的数据采集、清洗与标注工程流水线。前瞻性地探索合成数据与模型自标注等自循环策略,同时建立完善的数据版本追踪与质量评估体系,真正打通“模型训练-业务应用-用户反馈-数据迭代”的增强回路。 模型适配与后训练 主导基座大模型向顶尖垂直行业专家的后训练的全链路技术演进,包括高质量的SFT、RL阶段PPO、GRPO等前沿强化学习与偏好优化算法攻坚,全面突破模型在复杂业务场景下的指令遵循精度、极致可控性与长链路逻辑推理天花板,显著提升大模型在复杂业务场景下应用能力。 评测体系与实验 面向业务目标设计评测指标与Rubric,搭建自动化评测框架(含人工评审),建立离线基准与线上实验体系(A/B、Bandit),持续监控指标漂移与策略投机以防止效果退化。 生产交付与运营 负责系统集成与上线发布,对线上质量、稳定性与成本负责,建立监控、告警、兜底与人工接管机制,推动持续迭代。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、建立下一代多模态模型评测体系,引导模型向AGI的方向发展:创建针对推理与交互的下一代多模态模型评测Leaderboard,包括而不限于长视频高帧率评估、视频流式交互评估、视觉COT评估、世界模型评估方法,GUI/游戏等虚拟世界的通用多模态Agent评估方法; 2、探索多模态大模型能力边界:追踪业界对于模型能力的边界拓展进程,持续迭代复杂度更高的评测集合,防止基准测试饱和模型过拟合; 3、优化评测工程链路与评测手段:探索自动化评测任务构造和自动化评估方法,提升模型评测效率。

团队介绍: 作为搜狐媒体内容中心产品技术团队,我们聚焦AI与媒体融合创新,持续探索AI技术在内容生产、传播、商业化全链路的创新性实践。目前团队主要业务方向: 1、主攻品牌营销领域AI互动产品研发(线上H5/小程序+线下智能装置),通过创新交互模式助力客户品牌价值提升; 2、打造媒体内容AI智能化生产体系,研发媒体采编工具链与多模态内容引擎,持续提升内容生产效能; 3、建立新闻垂直领域AI能力评价标准,通过构建行业评测基准、专业数据集及领域适配模型,夯实AI技术在传媒场景的深度应用。 1、作为核⼼成员参与AI项目的设计与开发,构建⾯向媒体业务的AI应⽤和⼯具链; 2、负责全栈开发⼯作,涵盖AI服务的前端研发、后端研发、API设计及交互体验优化等; 3、参与AI模型的集成、部署和质量评测,提升媒体内容生产、运营、营销等环节的智能化⽔平; 4、团队项目⽬前处于快速演进阶段,⿎励创新和⼤胆尝试。