logo of meituan

美团大模型应用评测算法工程师

社招全职1年以上核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1. 计算机、数学、统计学或相关专业的硕士、博士,有一年以上大模型应用、训练、评测经验。
2. 熟悉Python等编程语言,具有良好的编码习惯和工程能力,熟悉PyTorch等主流框架,如果能熟练使用Hive、Spark等大数据处理工具更佳。
3. 具有广阔的技术视野、良好的逻辑分析和表达能力,紧跟领域前沿,对解决具有挑战性问题能够充满热情,善于通过创造性的方法解决高模糊度、高复杂的实际问题…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


参与语言大模型、视觉大模型、语音大模型、多模态大模型的应用评测与研究工作,具体工作内容包括但不限于:

- 从大模型应用视角出发,建设科学、全面的大模型评测体系,制定并实施评测标准与评测方案。
- 对数据进行处理、理解,建设高质量数据pipeline,并基于科学、全面的评估体系构建数据集,系统评估模型能力,产出评测报告,指引大模型相应能力的提升。
- 利用大模型辅助、替代人工标注,准确、高效的进行半自动化、自动化的模型评测,降低评测成本、提升评测效率。
- 利用大模型进行自动化的Red Team,系统的发现9.11和9.8谁大答错等典型模型能力短板,以及模型发生涉政涉黄涉及未成年人等不当回复的风险。
- 对模型评测中发现的模型能力短板、模型能力变化、不符合认知的异常进行研究分析,产出研究分析结论,指引大模型相应能力的提升。具体研究项包括不限于数据、模型结构、训练方式对各类模型能力的影响,以数据相关研究为例,包括不限于研究不同数据类型、不同数据配比、不同数据加入时机、不同数据规模等变量对各类模型能力的影响。
- 紧密关注大模型方向的前沿技术进展,积极主动地学习和探索新数据分析、模型训练以及模型评测方法。 
- 紧密关注大模型应用落地的行业最新进展,结合行业进展思考大模型评测、训练的发展趋势,对模型评测体系、机制进行迭代。
包括英文材料
大模型+
Python+
编程规范+
PyTorch+
Hive+
还有更多 •••
相关职位

logo of ke
社招3年以上质量架构部

1.参与基于多模态大模型的GUI智能化能力的设计开发,实现多端(web/安卓/ios/鸿蒙/小程序)大模型手眼配套能力全覆盖; 2.跟踪业界前沿技术发展,参与大模型应用评测、企业内部场景化落地、GUI智能体建设等;

更新于 2025-03-27北京
logo of baidu
社招MEG

-负责百度产品的测试工作和参与自动化测试服务平台开发 -根据产品需求对服务端系统进行测试,包括测试设计、执行、BUG提交和追踪,测试报告等 -开发测试工具和自动测试框架、自动测试脚本,进行自动化测试 -对项目开发流程和工具进行优化,提高RD和整个项目的交付效率 -为开发组开发和维护高效的持续集成、测试框架和工具,提高开发工作效率和提测代码质量,并参与代码评审 -协助开发定位问题 -根据项目过程中的体验对产品提出改进建议以提升用户感受,并进行竞品对比评测 -学习和研究新技术以提高测试的效率和质量,满足质量保证的需求

更新于 2025-04-10北京
logo of ke
社招3年以上图像技术组

1.负责贝壳多模态数据下的多模态大模型增量预训练、指令微调,以及面向下游垂直领域任务的效果优化; 2.结合自有产品和业务需求,负责跨模态检索、多模态分类、多模态表征等模型研发与应用,解决面向业务场景的应用和落地时的算法卡点问题; 3.负责搭建多模态大模型dataset和benchmark的收集、清洗和评测体系; 4.与工程、产品团队配合,推动团队成果的应用落地。

更新于 2025-02-24北京
logo of kuaishou
社招3-5年D13923

1、负责大模型(包括不限于T2V、I2V、MLLM模型)评测工作和评测体系建设,包括设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行,并输出专业评测报告; 2、参与评测相关自动化评测工具开发及维护,最大化提高评测效率; 3、以算法手段,对基座大模型和AI Native应用进行分阶段、端到端评测; 4、参与构建评测Agent工具链、对战平台、模型竞技场、模型效果判别模型、应用数据飞轮等工具链建设; 5、站在用户角度,对产品、算法发提出建设性的意见,在评测参与的各个流程中以用户视角保证产品体验。

更新于 2025-08-11北京