logo of antgroup

蚂蚁金服研究型实习生-大语言模型benchmark构建 及 自动化评测

实习兼职研究型实习生地点:杭州状态:招聘

任职要求


研究领域:
-目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位
-具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、PythonJavaScriptGo
-具有上述研究领域的相关经验,包括行业经验或作为参与实验室研究
优先录用:
-对技术研究充满热情,具有产生新思想和创新的能力; 在自学,问题分析和解决方面表现出色
-在国际会议上或核心期刊发表一份或多份出版物或论文
-至少3个月的全职工作

工作职责


研究领域:
  人工智能
项目简介:
  目前,大模型应用已经非常普遍,比如对话系统、AI搜索、智慧医疗、金融理财等场景。伴随着业务场景越来越丰富,大模型的迭代周期也越来越短。如何能在较短的周期内,进行快速迭代,成了各大厂的迫切诉求。在迭代过程中,如何快速评估大模型的效果,是一个非常关键的环节。

为了更好的对大模型开展评测,指导大模型进行快速、正确的迭代,我们需要聚焦以下关键的问题:1)评测对象;2)评测数据集;3)评测方法;4)评测结论反馈。

因此,本项目旨在用大模型算法,通过数据挖掘和自动化评测的技术手段,解决大模型迭代过程中的评测问题。研究方向涵盖语言大模型评测、多模态大模型评测、结构化问答评测等。
包括英文材料
学历+
Java+
C+
Python+
JavaScript+
Go+
相关职位

logo of tongyi
实习通义研究型实习生

多语言技术是AI平权,助力企业出海的关键技术,也是Qwen系列的特色能力,在学术社区和工业界均获得了不错的反响和认可。然而,相较于高资源语言,大模型在低资源语言覆盖度和能力方面仍有显著差距。主要挑战在于低资源问题。本项目将致力于探索解决大模型第资源问题,主要包括以下方向: 1)探索数据合成、知识迁移等技术,优化基模型第资源语种能力; 2)通过Benchmark构建、质量估计等方法建设小语种自动评价体系; 3)研究post-training阶段小样本迁移、文化特色对齐等技术,实现小语种人类偏好对齐。

更新于 2025-07-07
logo of aliyun
实习阿里云研究型实习

RAG(检索增强生成)是一种将信息检索技术与大语言模型相结合的技术架构。它通过从海量文档中检索出与查询相关的信息,并将这些信息输入到大语言模型中,从而生成更准确且全面的回答或文本。然而,要实现生产级的RAG性能和可靠性,还需要面临诸多挑战。阿里云人工智能平台(PAI)团队专注于RAG平台的开发与持续优化,致力于推动企业级RAG在实际业务中的落地与应用。我们目前的研究和开发方向包括但不限于: 1. 查询理解与优化:提升对大语言模型的查询理解能力,优化召回机制及查询重排序算法。 2. 多模态的文档理解和问答生成:提升多模态文档(包括文本和图像等)的理解及问答生成能力。 3. 大模型Agent技术:提升基于大语言模型的Agent的任务规划和工具调用能力。 4. Text2SQL生成:优化从自然语言自动生成SQL查询的准确性。 5. RAG效果评估:构建benchmark和效果评估。

更新于 2024-11-19
logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 多模态长序列理解: 对多模态长序列理解能力的提升可以广泛应用在小时级长视频理解、多页长文档报告解读等场景,本项目主要探索提升多模态大模型对长序列的建模能力,构建多模态"大海捞针"benchmark, 并在多模态长序列理解任务如长视频理解、多页文档解析等任务上实现SOTA效果; 复杂视觉任务推理: 思维链在大语言模型已经取得了显著进展,但在多模态大模型中进展有限,制约了多模态模型在复杂推理任务中的表现,主要存在以下痛点:多模态复杂推理数据缺乏、视觉模块的感知局限性、缺乏成熟的多模态的推理scaling law方法。本研究重点推进基于RL的多模态推理Scaling law, 以提升百灵多模态大模型在复杂多模态推理任务上的业界的领先性。

logo of aliyun
实习阿里云研究型实习

专注于LLM post-training和agent相关算法研究,具体职责包括: 1、探索LLM可解释性 + 模型增量CPT/RL算法,提升语言模型在专业领域上的能力; 2、探索LLM可解释性 + 低比特量化算法,降低模型training/inference阶段计算成本; 3、探索agent 增强微调算法,提升模型在专业领域上端到端解决复杂任务的能力; 4、将相关算法研究成果发表在国际顶级会议上(ICLR/NeurIPS/ICML/ACL); 5、将相关算法研究成果应用于模型低比特量化、海外大模型业务中,显著提升阿里云通义千问模型服务效率和沙特等国家主权大模型线上效果。

更新于 2025-04-23