通义通义实验室-大模型评测工程师-语音实验室

社招全职3年以上技术类-算法2025-10-18地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 硕士及以上学历，计算机、机器学习等方向相关专业最佳。
2. 熟悉大模型Evaluation（评测方案与评测数据构建），有大模型训练或数据合成经验优先。
3. 熟练掌握至少一种编程语言（如…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 针对语音通用大模型，设计和建设规划科学、全面的评估体系，涵盖评估指标与具体方法。
2. 基于大模型评测，评估不同算法/数据对于模型在不同能力上的效果，指导模型和数据选型。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

机器学习+

大模型+

Python+

还有更多 •••

登录查看完整学习资料

相关职位

大模型评测工程师

实习阿里巴巴2027

1.开展大模型模型指令遵循、推理、智能体等方向能力评测建设，基于评测的错误类型、分布，能针对性构建高质量数据，提高模型特定表现，并能够通过对数据有效性的评测，验证数据有效性； 2.建设基模及应用在指令遵循、推理、智能体等方向评测维度、指标体系、业务评测集并开展深入的评测分析工作。产出评测报告，学术benchmark等有影响力的创新工作。

更新于 2026-05-19杭州

大模型评测工程师

社招3-5年J0012

1、负责LLM、VLM、搜索推荐等大模型日常评测工作和评测体系建设，包括但不限于设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行，并输出专业评测报告，深度参与算法效果分析、挖掘问题归因； 2、以算法手段，对基座大模型、应用大模型以及AI产品进行分阶段、端到端效果评测，持续跟踪行业前沿发展，并进行竞品对比； 3、从可解释性角度探索提出更多更深入的基于模型内在机理的评测基准以及评测框架，包括通用能力、智能应用，如Agent、OpenClaw、CoWork等； 4、探索智能、高效的模型自动化评估方案，参与自动化评测工具设计、开发及维护； 5、提出更好的Benchmark，定义模型能力，定义AGI，并在相关会议或期刊发表； 6、站在用户角度，对产品、算法提出建设性的意见，在评测参与的各个流程中以用户视角保证产品体验。

更新于 2026-03-16北京

大模型评测工程师-【可灵AI专项】

社招3-5年J0012

1、负责大模型（包括不限于T2V、I2V、MLLM模型）评测工作和评测体系建设，包括设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行，并输出专业评测报告； 2、参与评测相关自动化评测工具开发及维护，最大化提高评测效率； 3、以算法手段，对基座大模型和AI Native应用进行分阶段、端到端评测； 4、参与构建评测Agent工具链、对战平台、模型竞技场、模型效果判别模型、应用数据飞轮等工具链建设； 5、站在用户角度，对产品、算法发提出建设性的意见，在评测参与的各个流程中以用户视角保证产品体验。

更新于 2026-01-22北京

算法/大模型评测工程师

社招1-3年J0012

1、负责快手安全相关大模型、小模型评测工作和评测体系建设，包括设计制定和完善评测方案、评测指标、评测数据集建设和更新、评测执行，并输出专业评测报告； 2、负责模型以及相关管理平台、近线引擎的功能测试、性能测试等质量保障工作和质量保障体系搭建，保障模型本身以及相关平台、引擎的质量和稳定性； 3、参与模型评测相关、质量保障相关自动化工具开发、维护，最大化提高评测、测试效率； 4、与算法模型团队合作，不断改进模型效果、性能、稳定性； 5、跟踪最新的AI评测工具、质量保障手段相关行业趋势，引入行业最佳实践和创新思路。

更新于 2026-01-16北京