快手大模型评测实习生
实习兼职D13923地点:北京状态:招聘
任职要求
1、本科及以上学历在读,计算机、人工智能、数学、统计、设计学等相关专业优先; 2、对大模型及前沿 AI 技术有浓厚兴趣,愿意深入理解模型能力和评测方法; 3、具备良好的编程基础,熟悉至少一种主流编程语言(如 Python、C++ 等),具备一定数据分析处理能力; 4、具备一定的审美理解能力,对图像、视频的质量和风格有较敏锐的感知,能够辅助评价生成内容的美观度与表现力; 5、细心严谨,注重质量与细节,具备良好的沟通协作能力和团队合作精神; 6、学习能力强,能够快速理解新知识并在实践中应用。 加分项 1、有图像、视频或多模态处理相关课程或项目经历; 2、对艺术设计、美学或视觉传达有学习或实践经验; 3、有开源项目贡献或实习经验。
工作职责
1、协助参与快手大模型(包括但不限于 LLM、T2I、I2I、MLLM 等)的评测工作,支持评测体系的建设与优化; 2、协助开发和维护评测相关的自动化工具,提升评测效率和稳定性; 3、在导师指导下完成数据收集、分析与可视化,输出阶段性评测结论; 4、参与图像等生成结果质量评估,结合主观感受与客观指标,提出改进建议。
包括英文材料
学历+
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
数据分析+
[英文] Data Analyst Roadmap
https://roadmap.sh/data-analyst
Step by step guide to becoming an Data Analyst in 2025
相关职位
实习模型标注
岗位职责: 1、梳理和解读大模型相关的评测业务,辅助进行定制化的评测框架体系构建,完善内部评测机制; 2、针对交付评测数据进行数据验收,反馈指标以及数据问题,引导评测同学进行质量提升; 3、针对市场上大模型相关应用进行摸底调研,结合内部模型方向给到模型优化改进意见;
更新于 2025-02-27
实习车辆控制
1. 参与多模态(文本、语音、图像)模型评测; 2. 针对大模型在实际业务中的落地场景(如代码生成、知识问答、长文本摘要),设计测试用例,定位模型幻觉、偏见、安全性等问题; 3. 研究并扩展评测数据集,构建多样化业务场景; 4. 前沿技术研究与创新,跟踪大模型评测领域最新进展。

社招技术族-实习
1、产品评测与数据管理:负责大模型产品的全面评测工作,包括数据集的设计、构建和管理,以及 prompt 的深入挖掘和分析。 2、测试结果分析与报告撰写:负责测试结果的详细记录、数据的整理和分析,并根据分析结果撰写清晰、准确和具有洞察力的测试报告。 3、跨部门协作:与算法和研发团队保持紧密联系,共同解决模型运行过程中遇到的挑战。提供模型badcase的跟踪、修复与验证。
更新于 2025-05-09