蚂蚁金服研究型实习生-基于训练动态反馈信息的大模型智能标注优化算法研究
任职要求
研究领域: -目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位 -具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScript或Go -具有上述研究领域的…
工作职责
研究领域: 人工智能 项目简介: 一句话描述:研究大模型训练中不同样本对模型训练质量的影响,利用大模型智能标注能力结合并将动态权重反馈信息提升样本质量及训练效果 随着大语言模型的发展,其多种能力不断涌现。而在大模型的实际研发中,越来越多研究人员发现训练数据的质量至关重要,进而开始转向研究以数据为中心的AI研究,其主要目的就是想办法加强数据的质量和数量,而不过多的考虑模型或者说固定模型结构。由此催生出了一系列的数据标注公司,而蚂蚁内部也有专门的标注团队给大模型训练提供标注数据,尤其是领域数据以及人类对齐数据。那么什么样的标注数据对大模型能力有帮助,能提升大模型在各个任务上的效果?目前在学术界和产业界在以数据为中心的模型研究仍处于初期阶段,各种方法都在探索中。 在当前数据标注场景下,目前我们需要攻坚的技术有:1. 训练样本质量评价问题。即如何提升具体模型对于数据自身的感知,快速识别低质样本或增强高质量样本,从而加强模型迭代的性能。目前我们的方案是将生成模型生成概率分布中的“犹豫”特征映射为模型对样本高价值的体现,同时结合评估损失来拟合前序的样本训练过程,最后引入BERTSCORE去对抗可能的模型幻觉;2.训练样本质量增强问题。如何将样本价值注入专家标注流程,从主动学习角度增强样本质量。目前我们的方案是在少量融合专家经验的标注样本上,基于大模型完成快速增量训练,进而将这种标注能力泛化到更多数据场景上;3. 样本价值训练中消费问题。如何在训练过程中,设计合适的训练框架使得模型感知样本价值的变化,使得样本质量指标增益模型训练的效果。目前我们的方案是在训练过程中引入无监督的样本权重传播机制,通过捕捉训练过程中样本的语义表征变化来检验模型的学习过程,同时通过引入样本平滑策略,使得训练过程中模型可以不断感知后续样本的重要性并对其做出反馈; 基于以上的技术攻坚,我们可以获得:1.建立带感知的标注数据质量评估的体系;2. 智能标注的能力;3.大模型训练框架对标注样本的动态反馈体系; 4. 标注数据质量评估的体系;5.大模型训练框架对标注样本的动态评估
研究领域: 推荐系统 项目简介: 当前医疗信息搜索推荐服务面临三大核心挑战:1)搜索结果与用户真实需求匹配度低(准确性不足);2)推荐内容缺乏个性化适配(未考虑用户病史、症状特征等个体差异);3)医疗信息可信度验证机制缺失(存在误导风险)。本项目将融合大规模预训练语言模型、动态知识图谱和医学循证规则,重点突破以下方向: 研究医疗领域大模型精准语义理解与意图识别技术 构建多维度用户画像与个性化推荐算法体系 开发基于医学循证的可信度验证与风险预警机制
1.探索基于数据驱动的高效后训练优化策略,以更高效地提升模型性能,降低计算资源的消耗。 2.探索推理路径优化方法,提高大语言模型在多步推理、逻辑推理及跨领域知识融合任务中的准确性,稳定性和可控性。 3.探索推理能力自适应提升技术,开发能够根据具体任务需求动态调整推理策略的自适应学习机制,使模型在不同场景下都能达到较高的推理效率和准确率。
1. 探索基于强化学习的智能运维(SRE)Agent技术,通过模拟复杂故障场景训练决策策略,构建具备根因诊断、自主决策的智能系统,结合推理规划、多轮工具调用、因果推断与反事实推理等前沿技术,推动运维智能化的突破性进展。 2. 参与核心算法设计与系统开发,探索结合因果建模与反事实推理方法,解决动态环境下的根因诊断与决策优化问题。 3. 基于真实生产数据或开源数据集,搭建故障模拟环境并定义多维度奖励函数,实现多轮工具调用能力(如日志分析、指标监控、配置管理API),构建端到端的智能运维原型系统,设计对比实验评估Agent性能,撰写技术报告并参与论文或专利撰写。
1. 探索基于大模型的语音双工交互系统关键技术,包括流式语音理解、增量文本生成、打断检测与恢复等; 2. 参与端侧轻量化语音大模型的研发,开展模型压缩(剪枝/量化/蒸馏)、硬件感知优化与高效推理引擎实现; 3. 参与设计并实现端云任务动态协同调度机制,基于网络状态、用户意图、隐私敏感度等多维上下文,智能分配计算负载,实现性能与隐私的最优平衡; 4. 参与构建支持跨端云一致性的多轮对话状态管理框架,确保长上下文语义连贯性与用户记忆的无缝衔接; 5. 参与建立面向真实场景的端云融合语音系统综合评估体系,从延迟、功耗、准确率、鲁棒性到隐私合规性等维度开展系统级测试与优化。