蚂蚁金服研究型实习生-大语言模型高效微调与偏好对齐技术研究
任职要求
研究领域: -目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位 -具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScript或Go -具有上述研究领域的相关经验,包括行业经验或作为参与实验室研究 优先录用: -对技术研究充满热情,具有产生新思想和创新的能力; 在自学,问题分析和解决方面表现出色 -在国际会议上或核心期刊发表一份或多份出版物或论文 -至少3个月的全职工作
工作职责
研究领域: 自然语言处理 项目简介: 随着大语言模型在各行业中的广泛应用,如何通过高效微调技术使模型快速适配不同业务场景,并通过偏好对齐技术满足用户个性化需求,成为了研究的热点。传统的微调方法通常资源消耗大且对小样本任务的适应能力有限,而偏好对齐在处理复杂用户行为或决策任务时也存在优化空间。本课题聚焦高效微调和偏好对齐技术的创新研究,旨在降低模型微调成本,提高用户需求的满足能力,推动大语言模型在实际业务中的应用价值最大化。
在人工智能领域,大语言模型(LLMs)已成为实现通用人工智能(AGI)的一大驱动力。随着计算力的提升、数据资源的丰富和算法的革新,LLMs在机器翻译、文本生成、语义理解、通用问答等诸多任务上达到了令人瞩目的成就。它们不仅在一般性任务上展现出精准的语言理解和生成能力,也在特定行业领域展现了深度定制化的应用前景。 经历过去一年的发展,业界达成共识:在国内市场,具备商业化潜力的基础模型数量将限于十个以内。在此基础上,模型的应用迁移微调成为新的主流趋势。尽管如此,LLMs在迁移学习与新任务适应中的效果波动、泛化能力不足以及对特定数据敏感性等问题凸显出挑战。这些问题突出了大模型高效应用迁移及迁移后自动评测技术的重要性,成为PAI等人工智能开发平台在大模型时代的核心竞争力所在。因此,本项目意在深入开发大模型的高效迁移方法和自动评测技术,顺应行业趋势,推进模型应用生态的健康发展。
【职位描述】 我们是小红书安全风控平台部/算法策略组/内容安全组,目前专注于多模态大模型在多模态理解和内容安全场景的技术落地和产品预研,目前在相关数据&技术方向有一定的积累,并将长期持续投入。我们希望寻求优秀在读硕士生/博士生共同突破大模型在安全审核行业落地的技术挑战,作为实习生,你将有机会与产品、工程紧密合作,将研究算法应用到实际问题中,并解决有难度有价值的问题,促进领域前沿技术的发展。欢迎投递简历。该岗位的核心研究方向包括但不限于: 1. 基础多模态表征:主要研究小红书多模态数据(笔记)下的基础多模态表征工作,包括层次化表征、特征融合、自监督探索等,作为基础模型,支持多样化检索场景。 2. 通用多模态大模型:通用多模态大模型在安全领域理解相关研究,包括高效微调、多模态理解等。建立安全多模态基础模型。
职位描述: 1.设计和实现面向大模型推理的多层级存储系统,综合利用多种硬件进行数据的存储和迁移管理,优化大模型缓存利用率,提升推理性能; 2.设计负载感知的推理框架自调优能力,设计高效的指标采集模块,能够根据对不同负载自动调优推理框架的参数; 3.优化模型量化以及模型卸载技术,进一步提升单机场景下支持的模型规模; 4.设计高效微调框架,集成并优化微调算法,实现动态策略调度模块,基于任务特征挑选最合适的微调方案。
1、研究与算法实现: (1)参与图数据库代码知识图谱的构建与优化,借鉴最新的 RepoAudit 等研究成果。 (2)设计并实现基于强化学习(RL)的探索与反馈循环,包括智能体、动作空间、奖励机制。 (3)实验和优化多种RL策略(如PPO、DPO、GRPO、DAPO、GSPO)在真实图数据库测试场景的应用。 2、系统开发与实验: (1)构建可编译运行的图数据库测试平台,负责自动化测试流程(提出预言机→生成用例→执行验证→反馈奖励)的实现。 (2)针对开源图数据库(NeuG、Neo4j、RedisGraph、NebulaGraph等),验证并提交新型逻辑错误。 3、论文与成果输出: (1)参与撰写技术报告和学术论文,总结测试预言机生成的新方法与实验结果。 (2)协助开源端到端研究原型及技术文档的完善与维护。