logo of tongyi

通义研究型实习生-复杂场景下的大模型推理强化学习

实习兼职通义研究型实习生地点:北京 | 杭州状态:招聘

任职要求


1、计算机科学、人工智能或相关专业背景,具备扎实的机器学习理论基础;
2、熟悉GRPO、PPO等强化学习核心算法原理,对大模型微调有深入理解;
3、具备优秀的编程能力,熟练使用主流LLM训练框架(VeRL/OpenRLHF);
4、具有较强的算法…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


专注于复杂场景下大模型推理与强化学习的前沿研究,探索智能体的深度思考与自主决策能力,主要职责包括:
1、研究面向复杂任务的LLM Post-training算法和创新范式,提升模型的探索和学习效率;
2、探索多步骤推理与工具调用学习机制,增强智能体的通用问题解决能力;
3、探索持续进化的智能体学习框架,实现模型的自适应优化与长期演进;
4、参与算法原型开发与效果评估,推动创新技术的实验验证。
包括英文材料
机器学习+
强化学习+
还有更多 •••
相关职位

logo of alibaba
实习淘天集团研究型实

1.多模态大模型应用研发:基于多模态大模型(MLLM)强大的世界知识与推理能力,研发复杂场景下的主体识别算法,精准定位视频/图文中的核心主体(如开箱商品、主推款),解决遮挡、多实例干扰等难题。 2.细粒度语义对齐与表征学习: 构建统一的多模态表征空间,负责封面、视频、商品图文之间的细粒度语义对齐,提升跨模态检索与粗筛的召回率。 3.判别模型设计: 设计具备“Thinking with Images”能力的判别式大模型,实现对“挂错品”、“封面党”等高阶语义偏差的精细化验证,并探索模型的可解释性(输出决策依据)。 4.模型蒸馏与落地: 参与大模型到轻量化小模型的知识蒸馏(Model Distillation)工作,设计表征-判别联合蒸馏框架,在保障算法精度的同时满足线上业务的高吞吐与低延时需求。 5.前沿技术探索: 跟踪CV、NLP及多模态领域的SOTA技术,结合业务场景进行创新,有机会将成果发表在CVPR、ICCV、ECCV等顶级会议上。

更新于 2026-01-27北京|杭州
logo of alibaba
实习淘天集团研究型实

依托淘宝、天猫超大规模商业场景,我们致力于通过最前沿的多模态大模型技术驱动万亿级交易额的增长。在这里你将面对业界最复杂的电商图文、视频语境,与顶尖团队一起探索 AIGC 与多模态技术在搜索广告全链路(召回、排序、创意生成)的深度融合与变现。包括并不限于: 1. 负责电商多模态统一表征: 构建面向海量商品、直播、短视频的超大规模预训练模型(VLM),解决多模态语义对齐、细粒度特征提取及跨模态检索难题。 2. 负责生成式广告物料(AIGC): 探索 Diffusion Model、LLM 在广告创意自动生成(文案、头图、视频步进)中的应用,提升物料投放质量与点击转化率。 3. 负责多模态驱动的商业决策: 将多模态感知能力深度注入广告全链路(从搜索词理解到广告 CTR/CVR 预估),实现从“看懂图片”到“理解意图”的决策升级。 4. 负责全链路多物料优化: 针对商品、直播间、短视频等多类型物料,设计统一的跨模态排序算法,优化搜索场景下的多元流量分配效率。 5. 负责视觉底层技术创新: 针对电商复杂场景,优化 OCR、商品检测、度量学习及视觉搜索等经典任务,建立行业领先的视觉基座。

更新于 2026-01-27北京|杭州
logo of antgroup
实习研究型实习生

研究领域: 计算机视觉 项目简介: 研究背景与目标: 金融科技领域中,企业客户尽职调查(Due Diligence)的准确性和效率至关重要。蚂蚁集团为企业客户提供的自助视频尽调服务是一个典型应用场景。然而,多模态信息的整合和一致性验证仍面临诸多挑战。本研究旨在探索基于多模态理解的创新方法,以提高尽调过程的准确性和可靠性。 研究重点: 1. 开集跨帧物体识别与跟踪: 目标:开发基于预训练多模态大模型的算法,实现视频中的开集物体识别和跨帧跟踪。 创新点:处理复杂场景下的遮挡和外观变化问题,提高识别的鲁棒性。 方法:探索结合注意力机制和时序建模的算法架构。 2. 跨模态一致性检验: 目标:构建基于Chain-of-Thought (CoT)推理的多模态信息冲突检测系统。 创新点:整合文本、视频和表格数据,实现跨模态的语义一致性验证。 方法:研究多模态表示学习和语义对齐技术,设计新型的基于CoT的冲突检测算法。

上海|杭州
logo of aliyun
实习阿里云研究型实习

随着近些年机器学习与表征学习的发展,非结构化数据的查询和分析变得更加普遍。通过表征学习,我们可以把图片或文本嵌入到高维空间从而用高维向量来代表这些图片或文本。进一步的,通过在高维空间中查找最近邻,我们可以对非结构化数据进行语义搜索。例如,通过检索增强生成技术(RAG),我们可以将外部知识或领域知识进行向量化,利用向量空间中的近邻搜索得到对应的原始知识,对大语言模型的生成结果进行增强,来减少大模型出现幻觉或知识过时的现象。 为了提升数据库产品对AI应用的支持,阿里云瑶池数据库也全面提升了向量检索能力,在PolarDB、RDS、AnalyticDB、Lindorm、Tair等产品中集成了向量功能,实现结构化数据、半结构化数据、多模数据、向量数据的一体化处理。 然而,目前向量索引主要关注查询速度和准确率,对于实际复杂场景下的搜索问题还没有足够的研究。例如,分布式架构下的向量查询索引、结构化与非结构化数据的联合查询,以及数据动态增删场景下的索引优化等问题,都需要进一步探索和研究。

更新于 2024-07-15杭州