字节跳动大模型自动化评测专家（大语言模型方向）-DMC

社招全职A1523642025-02-05地点：北京状态：招聘

扫码手机上打开

任职要求

1、大学本科及以上学历，计算机科学与技术、软件工程、大数据技术、人工智能、智能科学与技术等专业；
2、精通Python程序开发，有良好的编码风格及创新优化意识，具备较强的程序开发能力；
3、有大模型训练或模型评估经验，熟悉大模型评测方…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、制定AI模型评估在代码方向的评估标准，主导评估体系构建，主导AI模型评估工作；
2、探索智能、高效的模型自动化评估方案，主导开发评估工具；
3、调研公开评测方法，并将公开评测集集成至内部平台。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大数据+

还有更多 •••

登录查看完整学习资料

相关职位

千问C端事业群-大模型智能化评测专家-杭州

社招3年以上技术类-质量保证

1. 负责智能互联多模态算法测试，熟悉算法工程全链路评测，可以独立设计如图像处理算法（如目标检测、图像识别、OCR等）的评测方案，数据集，评测工程等，确保算法精度与性能符合需求； 2. 建设通用的基于大模型场景下的模型评估体系、评测框架及基础评测能力的建设，包括评测集完备性，合理性建设，评测结果智能化判定，能够基于业务需求设计评测方案，开展多维度模型评估，输出专业评测报告； 3. 追踪大模型方向前沿进展，积极主动地学习和探索新的评测及分析的方法和技术。主导项目全链路质量保障和风险识别工作，搭建质量技术保障体系、制定质量保障规范、推进测试工作执行； 4. 协同项目中多角色、多合作团队形成积极有效的沟通和互动，驱动问题解决，保障交付质量。主动创新，通过技术手段解决质量保障工作中的复杂技术问题，提升测试效能、加深质量工作技术积累。

更新于 2026-01-23杭州

蚂蚁集团-大模型评测技术专家-北京/杭州Z

社招3年以上技术类-开发

1. 建设一站式的大模型自动化评测平台，负责大模型评测基准建设和评测算法研究应用。 2. 为蚂蚁AI业务建设科学的评测体系，参与AI业务评测基准建设，对数据、模型和业务进行全面评估验证。系统化业务问题识别与优化机制，帮助指引算法和技术迭代方向，推动业务落地并取得效果。

更新于 2025-06-18北京|杭州

自动化评测专家-大模型数据服务中心

社招A66397B

1、调研公开评测方法，并将公开评测集集成至内部平台； 2、深度配合垂类业务探索智能高效的大模型应用效能自动化评估方案，主导开发评估体系/工具； 3、制定大模型评估在应用方向的评估标准，主导评估体系构建，主导大模型评估工作。

更新于 2025-10-14北京

AI测试专家

社招测试开发岗

部门介绍：我们是市场与平台运营中心，作为京东科技的核心力量之一，在金融业务的市场拓展、平台运营与生态建设中发挥关键作用。我们以“体验与效率的价值共生”为核心理念，聚焦C端用户，推动产品体验与技术能力的深度融合，实现商业价值与用户体验的共赢。我们通过数据驱动决策、营销创新实践与平台精细化运营，持续优化关键金融场景（如现金贷、财富管理、大支付、保险等）的用户体验；依托京东金融APP、白条频道页、我的钱包页等核心入口，我们构建起连接用户与金融服务的高效桥梁。我们汇聚产品、运营、量化、研发等多职能人才，以协同创新为引擎，推动业务的可持续增长与长期价值创造。我们不仅追求短期目标的达成，更致力于构建一个用户信赖、商业健康、技术领先的金融科技生态。欢迎加入我们，一起构建可持续的商业未来！ 1. 建设一站式的大模型自动化评测平台，负责大模型评测基准建设和评测算法研究应用； 2. 为京东AI业务建设科学的评测体系，参与AI业务评测基准建设，对数据、模型和业务进行全面评估验证。系统化业务问题识别与优化机制，帮助指引算法和技术迭代方向，推动业务落地并取得效果。

更新于 2026-01-21北京