通义通义实验室-大模型评测与对齐算法专家-Qwen

社招全职1年以上技术类-算法2026-04-06地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 计算机科学、人工智能等相关专业硕士及以上学历，1 年以上大模型研发相关工作经验。
2. 了解 LLM 常见的能力维度（推理、知识、指令遵循、安全、多轮对话等）及对应的评测策略。
3. 具备大模型评测体系设计与落地经验，熟悉主流 Benchmark 与评测框架，有 Rubrics 评测、Arena 对战评测等评测方法实践经验者优先…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责建设面向集团各业务线的大模型评测体系，涵盖通用能力评测与业务场景定制评测，优化基于 LLM-as-Judge、自动化评测模型训练、人工评估和用户行为数据的多维度评测框架，保障评测结果的全面性和可靠性。
2. 构建多维度评测指标体系（准确性、安全性、流畅度、一致性、业务指标等），覆盖 APP 对话助手及各业务线智能体场景。
3. 深度参与模型迭代过程中的评测驱动优化，建设完整的“数据→训练→评测→反馈”的高效数据飞轮。
4. 跟踪业界主流评测方法与 Benchmark 动态，持续优化内部评测体系。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大模型+

Arena+

数据分析+

还有更多 •••

登录查看完整学习资料

相关职位

业务技术-Agent应用算法工程师-供给智能

社招2年以上

关于我们我们致力于把大模型 Agent 打造成“能解决业务问题的生产力系统”：不仅会对话，更能规划、推理、调用工具、洞察数据，在多个业务场景形成端到端闭环。团队长期坚持“学术先进性 + 工程可落地 + 指标可验证”三位一体，推动多项技术在真实业务中规模化应用，并持续输出可复用的训练与评测体系。你将获得什么 ● 覆盖多模型、多尺寸的系统化训练能力：团队训练资源充足，能在不同架构/不同规模模型上完成微调、对齐与能力专项提升，并形成可复用的训练范式。 ● 论文级问题 + 业务级验证：我们鼓励你做可发表的创新，同时确保每个方向都能进入线上评测与业务闭环，真正做到有创新、有落地、有收益。 ● 完整的 Agent RL 研发舞台：从环境构建、Reward 设计、策略优化到自动评估工具链，你将能主导一条完整的 RL-Driven Agent 能力演进路径。 ● 个人影响力与成长：支持对外分享、论文/专利沉淀与跨团队共建岗位职责 1、主导基于大模型的 AI Agent 全生命周期研发，包括通用型及垂直领域 AI Agent 的应用架构设计、数据构建、模型训练与评测； 2、运用 SFT、RL 等 Post-training 训练方法，提升大模型在自主规划（Planning）、多步推理、RAG 增强生成、工具调用、数据问答等方面的能力； 3、构建 Agent RL 所需的环境与训练方法，设计合理的 Reward Function 和优化函数，激发模型在垂直领域内的泛化性，探索无/少人类专家样本依赖的 Agent 优化方案； 4、跟踪 LLM 与 Agent 领域的国际前沿技术动态，推动技术创新在业务场景中的落地应用，重点突破工具集成复杂推理、数据洞察、AI 搜索等方向的应用创新； 5、持续优化 Agent 算法与系统架构，构建端到端智能体评测体系，开发自动化评估工具与多维评价指标，提升系统性能与效率。

更新于 2026-01-28杭州

蚂蚁集团-大模型 Benchmark 与评测体系工程师 / 专家-【垂类大模型】

社招3年以上技术-开发

1. 评测体系设计与平台化落地：主导设计数据驱动的LLM/多模态/Agent评测体系，建设自动化评测分析能力，支持在平台上完成评测任务的适配、调度与规模化分析。 2. 评测洞察与缺陷定位：基于对抗性分析、错误归因、能力边界挖掘等方法，系统定位模型在金融、医疗、小程序/APP等场景的核心短板，推动形成“评测-反馈-优化”的技术闭环。 3. Benchmark与数据资产建设：负责评测数据采集、清洗、标注、版本管理与标准制定，构建高质量、多样化的Benchmark资产： ○ 金融领域：构建并落地多个覆盖金融知识、推理、合规性的专业评测基准，并完成在平台上的自动化适配与调度。 ○ 医疗领域：针对个性化、专业人设、共情能力、长程记忆等高阶交互能力，产出多个创新评测基准，定义下一代智能健康助手的评估标准。 ○ 小程序/APP生态领域：针对海量小程序、APP等复杂交互场景，构建衡量智能体（Agent）端到端任务完成能力的评测基准，覆盖多模态UI理解、任务规划与工具调用等核心维度。 4. 前沿评测范式探索：追踪全球前沿Benchmark与评估技术，研究RLHF/DPO等对齐数据驱动的新评估范式，探索仿真环境、Agent链路评测等新方法，保持技术领先。 5. 快速迭代与工程协同：面向模型快速迭代节奏，提升评测链路自动化与迭代效率，支撑多团队、多模型、多版本的高频评测与回归。

更新于 2026-01-30北京|杭州

算法工程师

社招3年以上研发类

1设计与实施多模态数据构建方案：包含数据采集、清洗、标注、弱监督/自监督数据生成、数据质量评估与反馈闭环 2构建和维护训练/评测基准（benchmarks）：覆盖视觉推理、视频理解等 3负责多模态大模型（VLM，Vision-Language Model）的优化，包括模型架构对接、训练策略、推理加速与效果评估。 4关注前沿技术并进行可行性验证（PoC），推动新算法或新数据策略到生产级落地 5撰写技术文档，沉淀最佳实践，指导初级工程师与标注团队

更新于 2025-10-10上海

AI Business-大模型评测高级算法工程师/专家-杭州

社招2年以上技术类-数据

作为大模型评测研发工程师，将负责“大模型通用Benchmark评测体系”与“业务领域Benchmark构建”的全链路研发：从评测数据集设计、智能化自动化评估方法探索研究、指标实现，到平台化落地，精准衡量模型能力边界，持续驱动模型语料优化与模型迭代通用 Benchmark 研发 • 持续迭代覆盖语言理解、推理、知识、幻觉、对齐、代码、多模态、Agent 等各个维度的自动化评测框架； • 研究并实现更贴合业务发展的评测方法与指标，构建高效、可扩展、可复现、可解释的评测引擎业务领域 Benchmark 构建与评测 • 深入跨境电商各个业务领域，构建领域Benchmark，真实反馈模型业务表现 • 设计场景化评估方案，如RAG、Agent、COT、 In-Context Learning等，并形成端到端评测能力；评测方法研究 • 探索基于 LLM-as-a-Judge、人类偏好对齐、模型解释性等前沿评测技术 • 跟踪 ACL / EMNLP / NeurIPS / ICML / ICLR 等会议，高效复现SOTA方法，形成可比对可参考的评估系统

更新于 2026-01-27杭州