logo of antgroup

蚂蚁金服研究型实习生-基于训练动态反馈信息的大模型智能标注优化算法研究

实习兼职研究型实习生地点:杭州状态:招聘

任职要求


研究领域:
-目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位
-具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、PythonJavaScriptGo
-具有上述研究领域的相关经验,包括行业经验或作为参与实验室研究
优先录用:
-对技术研究充满热情,具有产生新思想和创新的能力; 在自学,问题分析和解决方面表现出色
-在国际会议上或核心期刊发表一份或多份出版物或论文
-至少3个月的全职工作

工作职责


研究领域:
  人工智能
项目简介:
  一句话描述:研究大模型训练中不同样本对模型训练质量的影响,利用大模型智能标注能力结合并将动态权重反馈信息提升样本质量及训练效果	
随着大语言模型的发展,其多种能力不断涌现。而在大模型的实际研发中,越来越多研究人员发现训练数据的质量至关重要,进而开始转向研究以数据为中心的AI研究,其主要目的就是想办法加强数据的质量和数量,而不过多的考虑模型或者说固定模型结构。由此催生出了一系列的数据标注公司,而蚂蚁内部也有专门的标注团队给大模型训练提供标注数据,尤其是领域数据以及人类对齐数据。那么什么样的标注数据对大模型能力有帮助,能提升大模型在各个任务上的效果?目前在学术界和产业界在以数据为中心的模型研究仍处于初期阶段,各种方法都在探索中。
在当前数据标注场景下,目前我们需要攻坚的技术有:1. 训练样本质量评价问题。即如何提升具体模型对于数据自身的感知,快速识别低质样本或增强高质量样本,从而加强模型迭代的性能。目前我们的方案是将生成模型生成概率分布中的“犹豫”特征映射为模型对样本高价值的体现,同时结合评估损失来拟合前序的样本训练过程,最后引入BERTSCORE去对抗可能的模型幻觉;2.训练样本质量增强问题。如何将样本价值注入专家标注流程,从主动学习角度增强样本质量。目前我们的方案是在少量融合专家经验的标注样本上,基于大模型完成快速增量训练,进而将这种标注能力泛化到更多数据场景上;3. 样本价值训练中消费问题。如何在训练过程中,设计合适的训练框架使得模型感知样本价值的变化,使得样本质量指标增益模型训练的效果。目前我们的方案是在训练过程中引入无监督的样本权重传播机制,通过捕捉训练过程中样本的语义表征变化来检验模型的学习过程,同时通过引入样本平滑策略,使得训练过程中模型可以不断感知后续样本的重要性并对其做出反馈;
基于以上的技术攻坚,我们可以获得:1.建立带感知的标注数据质量评估的体系;2. 智能标注的能力;3.大模型训练框架对标注样本的动态反馈体系; 4. 标注数据质量评估的体系;5.大模型训练框架对标注样本的动态评估
包括英文材料
学历+
Java+
C+
Python+
JavaScript+
Go+
相关职位

logo of antgroup
实习研究型实习生

研究领域: 推荐系统 项目简介: 当前医疗信息搜索推荐服务面临三大核心挑战:1)搜索结果与用户真实需求匹配度低(准确性不足);2)推荐内容缺乏个性化适配(未考虑用户病史、症状特征等个体差异);3)医疗信息可信度验证机制缺失(存在误导风险)。本项目将融合大规模预训练语言模型、动态知识图谱和医学循证规则,重点突破以下方向: 研究医疗领域大模型精准语义理解与意图识别技术 构建多维度用户画像与个性化推荐算法体系 开发基于医学循证的可信度验证与风险预警机制

logo of tongyi
实习通义研究型实习生

1.探索基于数据驱动的高效后训练优化策略,以更高效地提升模型性能,降低计算资源的消耗。 2.探索推理路径优化方法,提高大语言模型在多步推理、逻辑推理及跨领域知识融合任务中的准确性,稳定性和可控性。 3.探索推理能力自适应提升技术,开发能够根据具体任务需求动态调整推理策略的自适应学习机制,使模型在不同场景下都能达到较高的推理效率和准确率。

更新于 2025-04-11
logo of alibaba
实习淘天集团研究型实

1. 研究并探索大规模语言模型及多模态大模型在推荐系统可解释性生成中的应用,包括基于大模型的解释生成、用户意图理解与个性化解释优化; 2. 跟进并研发大模型的关键技术链路,包括SFT、RLHF等,提升解释内容的准确性、自然性与用户可接受度; 3. 构建推荐-解释联合建模框架,融合RAG、COT、Agent 推理等技术,实现动态、透明、可信的推荐决策过程; 4. 探索多模态大模型在推荐场景下的可解释性表达能力,支持跨模态解释生成与用户交互;结合工业级推荐场景(如电商),推动研究成果落地,并持续优化线上效果与用户体验; 5. 撰写高水平学术论文,和业界、学术界保持良好的交流。

更新于 2025-08-11
logo of tongyi
实习通义研究型实习生

专注于音频生成大模型的研究、探索和开发,具体职责包括: 1、研发更加通用、适用于多种音频信号生成的 Audio Tokenizer,包括但不限于声学事件、音效、背景音乐、歌唱等。 2、探索更加高效的自回归音频生成技术,从根本上解决现有自回归模型的效率问题。 3、探索基于连续声学特征的音频生成大模型,生成能力从语音扩展到包括音乐、声学事件、音效等更广泛的音频信号。 4、探索在音频生成时对 Life-term 上下文有效的建模方式,提高训练、推理效率以及合成音频的表现力。 5、研究适用于音频生成模型的 post-training 策略,例如强化学习、多任务微调等。

更新于 2025-04-17