快手大模型评测实习生

实习兼职D139172025-10-24地点：北京状态：招聘

扫码手机上打开

任职要求

1、本科及以上学历，计算机、人工智能、大数据、统计等相关专业优先；
2、算法基础扎实，熟悉 Transformer、Bert、DiT、CLIP、CNN、GAN、VAE、Diffusion Models等AI模型基本原理；
3、具备良好的数据化思维，能够基于数据分析结果给出分析结论，熟悉ACC、AUC、F1、recall等基本的模型评估指标计算方式；
4、熟悉常见的模型架构，能够训练或微调常见CV、NLP、LLM、MLLM模型；
5、良好的沟通能力和团队协作精神，严谨的工作态度与高质量意识，对大模型技术有热情和探索精神；
6、具备良好…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、以算法视角，参与快手大模型（包括不限于LLM、T2I、T2V、I2V、MLLM模型）评测工作和评测体系建设；
2、参与评测相关自动化评测工具开发及维护，最大化提高评测效率；
3、以算法手段，对基座大模型和AI Native应用进行分阶段、端到端评测；
4、参与构建评测Agent工具链、对战平台、模型竞技场、模型效果判别模型、应用数据飞轮等工具链建设。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大数据+

算法+

Transformer+

BERT+

CNN+

数据分析+

还有更多 •••

登录查看完整学习资料

相关职位

大模型评测实习生

实习核心本地商业-基

1. 参与大模型评测体系的设计与优化，协助制定评测指标和测试方案。 2. 执行大模型在多个任务场景下的评测，并收集并分析评测数据，输出结构化报告，为模型优化提供数据支持。 3. 协助搭建和维护评测工具链，提升评测效率与自动化水平。

更新于 2026-02-06北京

大模型评测实习生-AI数据与安全

实习A247254

ByteIntern：面向2027届毕业生（2026年9月-2027年8月期间毕业），为符合岗位要求的同学提供转正机会。团队介绍：AI数据与安全团队为Seed基座模型及AI原生应用提供跨模态数据服务，覆盖数据生产全流程，包含模型评估标准的制定、数据规模化生产、数据飞轮搭建，不断提升数据质量，支持模型快速迭代。团队由产品经理、数据工程、数据运营等跨职能人才组成，并通过与Seed研究员、行业专家、全球顶尖数据供应商紧密合作，从真实场景中收集反馈并分析模型表现数据，解决AI前沿突破过程中的复杂数据问题，推动模型性能与用户体验的双重提升。我们既是帮助模型技术迭代的一线贡献者，也是模型和AI产品的一手用户。 1、评测体系建设：参与大模型评测的工程基础设施的开发工作，包括评测集的接入、生产、管理，评测对象的链路采样，人评/机评能力建设，评估结果的分析等评测核心能力的开发工作； 2、评测Agent搭建：探索自动评测、高质量评测集构建等前沿评测方法，在评测场景搭建AI Agent，为评测业务提供端到端的高效、自动化的交付能力。

更新于 2026-04-16北京

大模型自动化评测实习生-AI数据与安全

实习A97144

ByteIntern：面向2027届毕业生（2026年9月-2027年8月期间毕业），为符合岗位要求的同学提供转正机会。团队介绍：AI数据与安全团队为Seed基座模型及AI原生应用提供跨模态数据服务，覆盖数据生产全流程，包含模型评估标准的制定、数据规模化生产、数据飞轮搭建，不断提升数据质量，支持模型快速迭代。团队由产品经理、数据工程、数据运营等跨职能人才组成，并通过与Seed研究员、行业专家、全球顶尖数据供应商紧密合作，从真实场景中收集反馈并分析模型表现数据，解决AI前沿突破过程中的复杂数据问题，推动模型性能与用户体验的双重提升。我们既是帮助模型技术迭代的一线贡献者，也是模型和AI产品的一手用户。 1、负责大模型自动化评测研发工作，将各类评测集在内部平台集成开发，助力模型在各垂类方向的能力提升； 2、负责训练数据的有效性验证工作，通过模型训练、构建Agent等方式，判别有效训练数据，助力模型能力提升； 3、调研公开文献、公开评测集、训练方法，参与自建评测集等探索类工作，优秀成果可以支持学术论文发表； 4、探索智能、高效的模型评估和训练方案，主导开发相关工具。

更新于 2026-04-15北京

大模型评测研究实习生

实习蚂蚁技术研究院长

1. 设计与开发评测方案：围绕大语言模型和多模态大模型的各项能力，设计科学、公正、全面的评测（Benchmark）方案和对应的数据集。 2. 搭建评测平台：参与或负责自动化评测系统的开发、部署和维护，提升模型迭代和评测效率。 3. 执行与分析：对主流的开源及闭源大模型进行系统性评测，并对自研模型进行深度分析，撰写评测报告，为模型的优化方向提供数据支持。 4. 追踪前沿动态：持续关注业界最新的大模型评测方法、基准和技术，并将其应用到实际工作中。

杭州