通义通义实验室-大模型评测与对齐算法专家-Qwen
任职要求
1. 计算机科学、人工智能等相关专业硕士及以上学历,1 年以上大模型研发相关工作经验。 2. 了解 LLM 常见的能力维度(推理、知识、指令遵循、安全、多轮对话等)及对应的评测策略。 3. 具备大模型评测体系设计与落地经验,熟悉主流 Benchmark 与评测框架,有 Rubrics 评测、Arena 对战评测等评测方法实践经验者优先…
工作职责
1. 负责建设面向集团各业务线的大模型评测体系,涵盖通用能力评测与业务场景定制评测,优化基于 LLM-as-Judge、自动化评测模型训练、人工评估和用户行为数据的多维度评测框架,保障评测结果的全面性和可靠性。 2. 构建多维度评测指标体系(准确性、安全性、流畅度、一致性、业务指标等),覆盖 APP 对话助手及各业务线智能体场景。 3. 深度参与模型迭代过程中的评测驱动优化,建设完整的“数据→训练→评测→反馈”的高效数据飞轮。 4. 跟踪业界主流评测方法与 Benchmark 动态,持续优化内部评测体系。
关于我们 我们致力于把大模型 Agent 打造成“能解决业务问题的生产力系统”:不仅会对话,更能规划、推理、调用工具、洞察数据,在多个业务场景形成端到端闭环。团队长期坚持“学术先进性 + 工程可落地 + 指标可验证”三位一体,推动多项技术在真实业务中规模化应用,并持续输出可复用的训练与评测体系。 你将获得什么 ● 覆盖多模型、多尺寸的系统化训练能力:团队训练资源充足,能在不同架构/不同规模模型上完成微调、对齐与能力专项提升,并形成可复用的训练范式。 ● 论文级问题 + 业务级验证:我们鼓励你做可发表的创新,同时确保每个方向都能进入线上评测与业务闭环,真正做到 有创新、有落地、有收益。 ● 完整的 Agent RL 研发舞台:从环境构建、Reward 设计、策略优化到自动评估工具链,你将能主导一条完整的 RL-Driven Agent 能力演进路径。 ● 个人影响力与成长:支持对外分享、论文/专利沉淀与跨团队共建 岗位职责 1、主导基于大模型的 AI Agent 全生命周期研发,包括通用型及垂直领域 AI Agent 的应用架构设计、数据构建、模型训练与评测; 2、运用 SFT、RL 等 Post-training 训练方法,提升大模型在自主规划(Planning)、多步推理、RAG 增强生成、工具调用、数据问答等方面的能力; 3、构建 Agent RL 所需的环境与训练方法,设计合理的 Reward Function 和优化函数,激发模型在垂直领域内的泛化性,探索无/少人类专家样本依赖的 Agent 优化方案; 4、跟踪 LLM 与 Agent 领域的国际前沿技术动态,推动技术创新在业务场景中的落地应用,重点突破工具集成复杂推理、数据洞察、AI 搜索等方向的应用创新; 5、持续优化 Agent 算法与系统架构,构建端到端智能体评测体系,开发自动化评估工具与多维评价指标,提升系统性能与效率。
1. 评测体系设计与平台化落地:主导设计数据驱动的LLM/多模态/Agent评测体系,建设自动化评测分析能力,支持在平台上完成评测任务的适配、调度与规模化分析。 2. 评测洞察与缺陷定位:基于对抗性分析、错误归因、能力边界挖掘等方法,系统定位模型在金融、医疗、小程序/APP等场景的核心短板,推动形成“评测-反馈-优化”的技术闭环。 3. Benchmark与数据资产建设:负责评测数据采集、清洗、标注、版本管理与标准制定,构建高质量、多样化的Benchmark资产: ○ 金融领域:构建并落地多个覆盖金融知识、推理、合规性的专业评测基准,并完成在平台上的自动化适配与调度。 ○ 医疗领域:针对个性化、专业人设、共情能力、长程记忆等高阶交互能力,产出多个创新评测基准,定义下一代智能健康助手的评估标准。 ○ 小程序/APP生态领域:针对海量小程序、APP等复杂交互场景,构建衡量智能体(Agent)端到端任务完成能力的评测基准,覆盖多模态UI理解、任务规划与工具调用等核心维度。 4. 前沿评测范式探索:追踪全球前沿Benchmark与评估技术,研究RLHF/DPO等对齐数据驱动的新评估范式,探索仿真环境、Agent链路评测等新方法,保持技术领先。 5. 快速迭代与工程协同:面向模型快速迭代节奏,提升评测链路自动化与迭代效率,支撑多团队、多模型、多版本的高频评测与回归。
1设计与实施多模态数据构建方案:包含数据采集、清洗、标注、弱监督/自监督数据生成、数据质量评估与反馈闭环 2构建和维护训练/评测基准(benchmarks):覆盖视觉推理、视频理解等 3负责多模态大模型(VLM,Vision-Language Model)的优化,包括模型架构对接、训练策略、推理加速与效果评估。 4关注前沿技术并进行可行性验证(PoC),推动新算法或新数据策略到生产级落地 5撰写技术文档,沉淀最佳实践,指导初级工程师与标注团队
作为大模型评测研发工程师,将负责“大模型通用Benchmark评测体系”与“业务领域Benchmark构建”的全链路研发:从评测数据集设计、智能化自动化评估方法探索研究、指标实现,到平台化落地,精准衡量模型能力边界,持续驱动模型语料优化与模型迭代 通用 Benchmark 研发 • 持续迭代覆盖语言理解、推理、知识、幻觉、对齐、代码、多模态、Agent 等各个维度的自动化评测框架; • 研究并实现更贴合业务发展的评测方法与指标,构建高效、可扩展、可复现、可解释的评测引擎 业务领域 Benchmark 构建与评测 • 深入跨境电商各个业务领域,构建领域Benchmark,真实反馈模型业务表现 • 设计场景化评估方案,如RAG、Agent、COT、 In-Context Learning等,并形成端到端评测能力; 评测方法研究 • 探索基于 LLM-as-a-Judge、人类偏好对齐、模型解释性等前沿评测技术 • 跟踪 ACL / EMNLP / NeurIPS / ICML / ICLR 等会议,高效复现SOTA方法,形成可比对可参考的评估系统