蚂蚁金服研究型实习生-大语言模型benchmark构建及自动化评测

实习兼职研究型实习生地点：杭州状态：招聘

扫码手机上打开

任职要求

研究领域：
-目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位
-具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScript或Go
-具有上述研究领域的…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

研究领域：
  人工智能
项目简介：
  目前，大模型应用已经非常普遍，比如对话系统、AI搜索、智慧医疗、金融理财等场景。伴随着业务场景越来越丰富，大模型的迭代周期也越来越短。如何能在较短的周期内，进行快速迭代，成了各大厂的迫切诉求。在迭代过程中，如何快速评估大模型的效果，是一个非常关键的环节。

为了更好的对大模型开展评测，指导大模型进行快速、正确的迭代，我们需要聚焦以下关键的问题：1）评测对象；2）评测数据集；3）评测方法；4）评测结论反馈。

因此，本项目旨在用大模型算法，通过数据挖掘和自动化评测的技术手段，解决大模型迭代过程中的评测问题。研究方向涵盖语言大模型评测、多模态大模型评测、结构化问答评测等。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Java+

C+

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生 - 面向生产级别的多模态RAG实现的效果优化

实习阿里云研究型实习

RAG（检索增强生成）是一种将信息检索技术与大语言模型相结合的技术架构。它通过从海量文档中检索出与查询相关的信息，并将这些信息输入到大语言模型中，从而生成更准确且全面的回答或文本。然而，要实现生产级的RAG性能和可靠性，还需要面临诸多挑战。阿里云人工智能平台（PAI）团队专注于RAG平台的开发与持续优化，致力于推动企业级RAG在实际业务中的落地与应用。我们目前的研究和开发方向包括但不限于： 1. 查询理解与优化：提升对大语言模型的查询理解能力，优化召回机制及查询重排序算法。 2. 多模态的文档理解和问答生成：提升多模态文档（包括文本和图像等）的理解及问答生成能力。 3. 大模型Agent技术：提升基于大语言模型的Agent的任务规划和工具调用能力。 4. Text2SQL生成：优化从自然语言自动生成SQL查询的准确性。 5. RAG效果评估：构建benchmark和效果评估。

更新于 2024-11-19杭州|上海

研究型实习生-多语言大模型低资源问题的探索与研究

实习通义研究型实习生

多语言技术是AI平权，助力企业出海的关键技术，也是Qwen系列的特色能力，在学术社区和工业界均获得了不错的反响和认可。然而，相较于高资源语言，大模型在低资源语言覆盖度和能力方面仍有显著差距。主要挑战在于低资源问题。本项目将致力于探索解决大模型第资源问题，主要包括以下方向： 1）探索数据合成、知识迁移等技术，优化基模型第资源语种能力； 2）通过Benchmark构建、质量估计等方法建设小语种自动评价体系； 3）研究post-training阶段小样本迁移、文化特色对齐等技术，实现小语种人类偏好对齐。

更新于 2025-07-07北京|杭州

研究型实习生-多模态通用和推理大模型后训练研究

实习通义研究型实习生

1. 模型多模态能力的提升，包括但不限于：物理世界细粒度视觉感知、空间感知、视频时序行为预测和推理、基于视觉的决策和规划； 2. 多模态数据的制作，包括：训练数据的收集、清理和标注，测试Benchmark的构建； 3. 多模态RL相关研究，包括通过RL提升模型常规感知能力和推理能力； 4. 多模态任务评测，包括：客观的Benchmark接入、OOD评测、以及主观评测。

更新于 2025-11-24北京|杭州|上海

AI平台开发工程师-数据方向-机器学习平台

社招3年以上机器学习平台

【业务介绍】作为公司统一的机器学习平台团队，负责调度公司所有模型训练与推理资源；基于自建的训推引擎，构建公司统一的机器学习平台，为公司所有算法同学（稀疏 & 稠密，含 LLM）模型迭代提供端到端的一站式服务；包括数据生产，模型训练，模型上线，特征管理，模型测试，资源管控等一系列能力。【岗位职责】 1、负责机器学习链路，离在线数据相关的开发工作，包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作；包括样本平台，特征平台，训练平台，推理平台等AI应用后台建设等； 3、研究分析业内AI平台产品，优化技术方案，改进产品功能，完善产品体验。

上海

蚂蚁金服研究型实习生-大语言模型benchmark构建 及 自动化评测

任职要求

工作职责

蚂蚁金服研究型实习生-大语言模型benchmark构建及自动化评测