logo of meituan

美团大模型应用评测算法工程师

社招全职1年以上核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1. 计算机、数学、统计学或相关专业的硕士、博士,有一年以上大模型应用、训练、评测经验。
2. 熟悉Python等编程语言,具有良好的编码习惯和工程能力,熟悉PyTorch等主流框架,如果能熟练使用HiveSpark等大数据处理工具更佳。
3. 具有广阔的技术视野、良好的逻辑分析和表达能力,紧跟领域前沿,对解决具有挑战性问题能够充满热情,善于通过创造性的方法解决高模糊度、高复杂的实际问题。 
4. 具有快速学习能力,有责任感,能较好的跨团队协作并推进项目。

具备以下条件优先
1. 有Kaggle等平台机器学习比赛获奖经验者。
2. 在计算机领域顶会(如ACL、EMNLP、NeurIPS、AAAI、CVPR等)上以一作发表过多篇大模型相关论文者。
3. 参与过有影响力的大模型开源项目者。
4. 有大模型应用落地经验者。
5. 对各类大模型产品有深入了解或有丰富使用经验者。

工作职责


参与语言大模型、视觉大模型、语音大模型、多模态大模型的应用评测与研究工作,具体工作内容包括但不限于:

- 从大模型应用视角出发,建设科学、全面的大模型评测体系,制定并实施评测标准与评测方案。
- 对数据进行处理、理解,建设高质量数据pipeline,并基于科学、全面的评估体系构建数据集,系统评估模型能力,产出评测报告,指引大模型相应能力的提升。
- 利用大模型辅助、替代人工标注,准确、高效的进行半自动化、自动化的模型评测,降低评测成本、提升评测效率。
- 利用大模型进行自动化的Red Team,系统的发现9.11和9.8谁大答错等典型模型能力短板,以及模型发生涉政涉黄涉及未成年人等不当回复的风险。
- 对模型评测中发现的模型能力短板、模型能力变化、不符合认知的异常进行研究分析,产出研究分析结论,指引大模型相应能力的提升。具体研究项包括不限于数据、模型结构、训练方式对各类模型能力的影响,以数据相关研究为例,包括不限于研究不同数据类型、不同数据配比、不同数据加入时机、不同数据规模等变量对各类模型能力的影响。
- 紧密关注大模型方向的前沿技术进展,积极主动地学习和探索新数据分析、模型训练以及模型评测方法。 
- 紧密关注大模型应用落地的行业最新进展,结合行业进展思考大模型评测、训练的发展趋势,对模型评测体系、机制进行迭代。
包括英文材料
大模型+
Python+
编程规范+
PyTorch+
Hive+
Spark+
Kaggle+
机器学习+
NeurIPS+
CVPR+
相关职位

logo of bytedance
校招A110771

团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、建立下一代多模态模型评测体系,引导模型向AGI的方向发展:创建针对推理与交互的下一代多模态模型评测Leaderboard,包括而不限于图像理解,视频理解评估、视频流式、多模态交互评估、视觉CoT评估、世界模型评估方法,GUI/游戏等虚拟世界的通用多模态Agent评估方法; 2、对数据敏感,能对构造评测集数据有一些自己的深入的见解;根据数据的需求和用途,为数据集标准环节制定详实、全面、可执行的标准;参与构造可自动化的数据Pipeline,对数据集阶段性质检,迭代标注标准; 3、探索多模态大模型能力边界:追踪业界对于模型能力的边界拓展进程,持续迭代复杂度更高的评测集合,防止基准测试饱和模型过拟合; 4、优化评测工程链路与评测手段:探索自动化评测任务构造和自动化评估方法,提升模型评测效率。

更新于 2025-07-15
logo of mihoyo
社招1年以上质量管理类

1、与产品及模型团队紧密协作,设计完善大模型与 AI 应用评测标准; 2、分析模型表现,定位性能瓶颈或安全风险,向团队输出优化建议; 3、开发维护自动评测工具、可视化面板等监控机制; 4、协助数据收集与标注,确保评测数据的质量和可信度; 5、规范众包标注、人员管理及质量控制流程。

logo of meituan
社招3年以上核心本地商业-业

负责评估和分析大模型在各种应用场景下的表现,与业务团队配合不断优化提升大模型应用效果。具体工作内容包括但不限于: 1. 负责大模型范式下的数据生产标注和应用场景评测平台建设。 2. 深入理解大模型在搜索、推荐、营销等场景的应用落地,参与业务评测方案的制定与评测数据集的建设。 3. 与各相关部门保持良好沟通,深度参与大模型业务应用落地,为各业务方提供评测及相关的模型分析支持。 4. 追踪大模型方向前沿进展,积极主动地学习和探索新的评测及分析的方法和技术。

更新于 2025-06-03
logo of antgroup
社招3年以上技术类-开发

1. 按照产品架构和业务要求,设计覆盖功能及非功能需求的质量保障策略,主要负责AI/算法类产品质量(如智能引擎、大模型应用); 2. 参与产品系统架构建设和规划,针对AI系统特性进行专项测试方案设计,保障系统稳定性; 3. 解决测试复杂技术问题,开发适配算法服务的测试工具(评测数据集构造、模型效果评估等),提升效能与品质; 4. 研究测试新技术方法,重点推进AI算法评测、AI原生应用测试能力升级等创新方向,攻克算法领域特有质量难题; 5. 能结合AI行业发展趋势,制定合适的质量技术发展规划,提升团队技术视野和技术影响力。

更新于 2025-05-27