字节跳动大模型自动化评测实习生-AI数据与安全

实习兼职A971442026-04-15地点：北京状态：招聘

扫码手机上打开

任职要求

1、2027届本科及以上学历在读，计算机科学与技术、软件工程、大数据技术、人工智能、智能科学与技术、数据科学等相关专业优先；
2、精通Python程序设计，有良好的编码风格及创新优化意识，熟悉机器学习/人工智能/模型调优/提示工程，熟悉各种基本算法；
3、具有计算机及人工…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

ByteIntern：面向2027届毕业生（2026年9月-2027年8月期间毕业），为符合岗位要求的同学提供转正机会。
团队介绍：AI数据与安全团队为Seed基座模型及AI原生应用提供跨模态数据服务，覆盖数据生产全流程，包含模型评估标准的制定、数据规模化生产、数据飞轮搭建，不断提升数据质量，支持模型快速迭代。
团队由产品经理、数据工程、数据运营等跨职能人才组成，并通过与Seed研究员、行业专家、全球顶尖数据供应商紧密合作，从真实场景中收集反馈并分析模型表现数据，解决AI前沿突破过程中的复杂数据问题，推动模型性能与用户体验的双重提升。我们既是帮助模型技术迭代的一线贡献者，也是模型和AI产品的一手用户。

1、负责大模型自动化评测研发工作，将各类评测集在内部平台集成开发，助力模型在各垂类方向的能力提升；
2、负责训练数据的有效性验证工作，通过模型训练、构建Agent等方式，判别有效训练数据，助力模型能力提升；
3、调研公开文献、公开评测集、训练方法，参与自建评测集等探索类工作，优秀成果可以支持学术论文发表；
4、探索智能、高效的模型评估和训练方案，主导开发相关工具。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大数据+

数据科学+

Python+

还有更多 •••

登录查看完整学习资料

相关职位

【基座大模型北斗实习】开放域智能体交互与自动化评测演进机制研究

实习核心本地商业-基

简介：随着 OpenClaw、Claude Code 等 Agent 进入实战领域，传统的静态评测已无法衡量 Agent 的长程规划、自主纠错与真实环境交互能力。我们寻找对 Agent 评测范式有独特见解的同学，共同定义下一代 Agent 的考卷。你将参与的工作有： 1、评测范式研究与落地： ①针对 OpenClaw 及 Claude Code 等主流 Agent，构建基于真实生产力场景，如自动化办公、复杂代码重构、多工具协同等的动态评测沙盒环境。 ②探索从“单轮对话”转向“长程任务”的评测机制，研究如何量化 Agent 的记忆一致性与环境感知力。 2、高价值方案产出： ①设计并构建能反映用户体感的评测集，不仅关注通过率，更深入拆解用户在交互过程中的使用体验。 ②建立 Agent 错误归因体系，针对 Agent 陷入死循环、幻觉指令、工具调用失败等典型场景进行深度诊断。 3、未来形态探索： ①跟踪前沿 Agent 发展，研究在多智能体协同、自主进化等未来形态下的 Agent 形态和相应的评测基准。 ②利用 LLM/Agent-as-a-Judge 的方式，提升自动化评测的准确性与效率。

更新于 2026-04-03北京|上海

千问事业部-大模型自动化评测集建设运营-京/杭

社招3年以上运营-产品运营

核心职责：自动化评测集建设能力 1. 建设面向产品Agentic场景（Search Agent、Office Agent、对话Agent、生活服务Agent等）的端到端评测集，量化模型在真实产品链路中的表现，并拆解到模型原子能力，确保评测粒度可拆解至独立能力维度； 2. 基于评测数据产出结构化的模型能力诊断报告，明确优势与短板，形成可执行的优化建议，辅助算法团队确定模型迭代方向； 3. 持续追踪业界前沿Benchmark与评测方法论，保持评测集的先进性和行业对标能力；

更新于 2026-07-06北京|杭州

自动化评测专家-大模型数据服务中心

社招A66397B

1、调研公开评测方法，并将公开评测集集成至内部平台； 2、深度配合垂类业务探索智能高效的大模型应用效能自动化评估方案，主导开发评估体系/工具； 3、制定大模型评估在应用方向的评估标准，主导评估体系构建，主导大模型评估工作。

更新于 2025-10-14北京

蚂蚁集团-大模型应用工程师（自动化评测与benchmark）-健康事业群

社招3年以上技术类-算法

探索行业前沿的大模型技术，建立科学、全面的评测体系，支持模型演进、产品落地、竞对分析评估。

更新于 2026-01-07上海|杭州