logo of tongyi

通义研究型实习生-复杂场景下的大模型推理强化学习

实习兼职通义研究型实习生地点:北京 | 杭州状态:招聘

任职要求


1、计算机科学、人工智能或相关专业背景,具备扎实的机器学习理论基础;
2、熟悉GRPO、PPO等强化学习核心算法原理,对大模型微调有深入理解;
3、具备优秀的编程能力,熟练使用主流LLM训练框架(VeRL/OpenRLHF);
4、具有较强的算法设计与实现能力,能够独立解决复杂技术问题;
5、良好的研究能力与创新精神,能够产出高质量的学术论文和技术方案。

加分项:
1、在CCF-A类会议/期刊发表过相关领域论文;
2、有大模型训练或强化学习实践经验;
3、有工具调用智能体算法设计经验。

工作职责


专注于复杂场景下大模型推理与强化学习的前沿研究,探索智能体的深度思考与自主决策能力,主要职责包括:
1、研究面向复杂任务的LLM Post-training算法和创新范式,提升模型的探索和学习效率;
2、探索多步骤推理与工具调用学习机制,增强智能体的通用问题解决能力;
3、探索持续进化的智能体学习框架,实现模型的自适应优化与长期演进;
4、参与算法原型开发与效果评估,推动创新技术的实验验证。
包括英文材料
机器学习+
强化学习+
算法+
大模型+
智能体+
相关职位

logo of antgroup
实习研究型实习生

研究领域: 计算机视觉 项目简介: 研究背景与目标: 金融科技领域中,企业客户尽职调查(Due Diligence)的准确性和效率至关重要。蚂蚁集团为企业客户提供的自助视频尽调服务是一个典型应用场景。然而,多模态信息的整合和一致性验证仍面临诸多挑战。本研究旨在探索基于多模态理解的创新方法,以提高尽调过程的准确性和可靠性。 研究重点: 1. 开集跨帧物体识别与跟踪: 目标:开发基于预训练多模态大模型的算法,实现视频中的开集物体识别和跨帧跟踪。 创新点:处理复杂场景下的遮挡和外观变化问题,提高识别的鲁棒性。 方法:探索结合注意力机制和时序建模的算法架构。 2. 跨模态一致性检验: 目标:构建基于Chain-of-Thought (CoT)推理的多模态信息冲突检测系统。 创新点:整合文本、视频和表格数据,实现跨模态的语义一致性验证。 方法:研究多模态表示学习和语义对齐技术,设计新型的基于CoT的冲突检测算法。

logo of aliyun
实习阿里云研究型实习

随着近些年机器学习与表征学习的发展,非结构化数据的查询和分析变得更加普遍。通过表征学习,我们可以把图片或文本嵌入到高维空间从而用高维向量来代表这些图片或文本。进一步的,通过在高维空间中查找最近邻,我们可以对非结构化数据进行语义搜索。例如,通过检索增强生成技术(RAG),我们可以将外部知识或领域知识进行向量化,利用向量空间中的近邻搜索得到对应的原始知识,对大语言模型的生成结果进行增强,来减少大模型出现幻觉或知识过时的现象。 为了提升数据库产品对AI应用的支持,阿里云瑶池数据库也全面提升了向量检索能力,在PolarDB、RDS、AnalyticDB、Lindorm、Tair等产品中集成了向量功能,实现结构化数据、半结构化数据、多模数据、向量数据的一体化处理。 然而,目前向量索引主要关注查询速度和准确率,对于实际复杂场景下的搜索问题还没有足够的研究。例如,分布式架构下的向量查询索引、结构化与非结构化数据的联合查询,以及数据动态增删场景下的索引优化等问题,都需要进一步探索和研究。

更新于 2024-07-15
logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 课题1:音视频细粒度理解与token压缩,负责人:默宸,HC数:1个 随着大模型时代的到来,图文领域的视觉Token压缩技术为复杂场景下的视觉理解提供了全新的解决思路。这种技术不仅能够有效减少冗余信息,还能保留关键语义特征,从而显著提升图像的细粒度理解能力,同时满足高时效性任务的需求。基于此,我们希望能够开展基于query牵引与信息密度的Token压缩算法研究,针对视频内容的特点,设计高效的压缩与理解方案,以推动视频审核算法的性能优化与实际落地。 课题2:基于规则动态化Token交互的高效视频理解与推理模型研究,负责人:夜兰,HC数:1个 本研究方向旨在探索一种基于多规则联合推理的高效视频理解模型,以解决视频理解任务中效率与精度的平衡问题。通过规则先验引导的视觉Token联合抽取,结合视觉Token压缩技术,显著减少冗余信息并优化计算效率。模型引入动态规则-Token对应机制,实现规则与视觉信息的高效联合提取,同时结合多任务学习框架,支持多种规则的统一推断与协同处理。该方案能够在保持高精度的同时显著提升推理速度,适用于视频内容多规则审核、视频账号行为识别和场景分类等高时效性任务,为实际应用场景提供高效、细粒度的视频理解解决方案。 课题3:视频开集信息检测和定位,负责人:默宸,HC数:1个 随着视频内容生态的爆发式增长,传统闭集检测方法在面对业务快速迭代需求时面临显著挑战,难以泛化至开放场景下的新概念检测,且时空定位精度与效率难以平衡。本研究致力于构建视频开集信息检测框架,通过多模态语义对齐与时空注意力机制,实现对任意指定内容的视频检索(包含时空定位)。该技术将推动视频审核从定制化开发向通用化检测转型。 课题4:隐式深度推理与动态步骤压缩的协同优化架构研究,负责人:侯猫/亘郁,HC数:2个 现有大语言模型在复杂推理任务中面临根本性效率瓶颈:基于Transformer的注意力机制导致计算复杂度随上下文长度呈二次增长,KV缓存存储开销线性增加。传统显式推理方法(如Chain-of-Thought)通过生成冗长中间步骤提升精度,却加剧了计算资源消耗;而隐式推理虽能压缩计算步骤,但存在推理路径不可控、状态迭代深度不足等缺陷。因此希望从融合动态步骤压缩与隐式深度推理的角度出发,不仅实现动态剪枝冗余中间思考步骤,同时通过隐状态迭代实现深度计算扩展,从而达到在保持/提升推理精度的同时,将复杂任务的计算负载降低5,突破现有模型在长文本生成与多跳推理中的效率天花板。

logo of tongyi
实习通义研究型实习生

专注于多模态大模型与人机交互技术的创新研究及实践,具体职责包括: 1、探索多模态大模型(文本/图像/语音/视频等)的交互式应用场景,研发新型人机交互范式; 2、针对多模态交互复杂任务推理进行探索及研究,提升多模态、多跳推理场景下的复杂任务完成率; 3、优化多模态数据的融合算法,提升模型对复杂交互场景的理解与响应能力; 4、构建高效的多模态交互系统模型架构,研究低延迟、高并发的实时交互技术方案。

更新于 2025-04-21