蚂蚁金服蚂蚁集团-大模型应用工程师(自动化评测与benchmark)-健康事业群
任职要求
1. 扎实的技术基础:深入理解大模型训练与推理机制(如 SFT/RLHF、MoE、上下文学习),具备 Agent 系统开发或评测经验,并能运用统计方法设计严谨的对比实验; 2. 工程与数据敏感度:追求高效、可复现的评测 pipeline,熟练使用自动化工具(如 LLM-as-a-Jud…
工作职责
探索行业前沿的大模型技术,建立科学、全面的评测体系,支持模型演进、产品落地、竞对分析评估。
利用GPT、Claude、Gemini等顶级模型能力,深入产品/研发/测试场景,通过构建高质量 Agent 和代码智能工具,以数据驱动的方式实质性提升产研效能 1、深入挖掘研发全生命周期痛点,设计并实现基于 LLM 的自动化工作流,覆盖需求分析、代码辅助、自动化测试等核心环节; 2、负责复杂 Agent 的逻辑设计与工程落地,通过高级 Prompt Engineering(CoT, Few-Shot, ReAct)优化智能体的规划与执行能力; 3、构建针对产研场景的 Benchmark(评测集) 和 Golden Datasets(黄金数据集); 4、建立自动化评估流水线(Eval Pipeline),以量化指标(如代码通过率、推理准确率、任务完成耗时)对比不同模型与 Prompt 的效果,用数据指导技术选型; 5、基于 Claude Code 和 Codex 技术,开发高度定制化的 IDE 插件或 CLI 工具,将 AI 代码生成能力无缝融入现有开发环境,提升代码编写质量与交付速度。
1、负责LLM大语言模型日常评测工作和评测体系建设,包括但不限于设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行,并输出专业评测报告,深度参与算法效果分析、挖掘问题归因; 2、以算法手段,对基座大模型、应用大模型以及AI产品进行分阶段、端到端效果评测,持续跟踪行业前沿发展,并进行竞品对比; 3、从可解释性角度探索提出更多更深入的基于模型内在机理的评测基准,包括通用能力、智能应用,如Agent; 4、探索智能、高效的模型自动化评估方案,参与自动化评测工具设计、开发及维护; 5、提出更好的Benchmark,定义模型能力,定义AGI,并在相关会议或期刊发表; 6、站在用户角度,对产品、算法提出建设性的意见,在评测参与的各个流程中以用户视角保证产品体验。
1、负责MLLM多模态大模型日常评测工作和评测体系建设,包括设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行,并输出专业评测报告,深度参与算法效果分析、挖掘问题归因; 2、对MLLM基座大模型和应用大模型进行效果评测,支持大量的自研模型迭代与研发,持续跟踪前沿发展,并进行竞品对比; 3、构建短视频、直播等业务域场景的评测体系,支持各业务域的评测能力; 4、探索智能、高效的模型自动化评估方案,参与自动化评测工具设计、开发及维护; 5、提出更好的Benchmark,定义模型能力,定义AGI,并在相关会议或期刊发表; 6、站在用户角度,对产品、算法提出建设性的意见,在评测参与的各个流程中以用户视角保证产品体验。