阿里云研究型实习生 - 基于大模型预训练的推荐场景多模态建模技术研究
任职要求
• 计算机科学、人工智能、数据科学等相关专业博士或硕士,有在国际顶级会议或期刊上发表相关领域论文的经历者优先。
• 深入了解多模态微调和训练,以及自监督训练相关的模型,如CLIP, DINO, InternVL, QWen-VL等,有实际项…工作职责
多模态大模型与推荐系统的结合应用是当前业界前沿的研究方向,旨在通过结合多模态大模型和用户行为数据来提升推荐系统的性能。阿里云人工智能平台(PAI)团队正致力于这一领域的探索与实践,以解决跨场景推荐、冷启动等问题,提高推荐模型在行为数据稀疏场景下的表现。我们的研究和开发方向包括但不限于: 1. 多模态大模型与行为数据的融合:研究多模态大模型(如图像、文本等)与用户行为数据结合的微调训练方法,探索最佳的数据融合策略。 2. 特征对齐:探索新的建模方式,实现多模态特征与用户行为特征之间的对齐,确保模型能够充分利用多种类型的数据提升推荐效果。 3. 推荐模型的优化:在现有推荐模型的基础上,引入多模态特征,优化推荐算法,特别是在冷启动和跨场景推荐等挑战性场景下,提升推荐效果。
基于意图的网络(Intent-Based Networking)管控和验证系统研发,具体职责包括: 1. 开发大模型驱动的自然语言转意图语言工具,降低网络策略学习与迭代成本; 2. 设计基于LLM的自动化网络变更方案生成系统,替代人工操作,减少错误风险; 3. 构建变更方案智能理解与风险预检工具,辅助运营团队提前规避故障;
研究领域: 人工智能 项目简介: 蚂蚁国际当前处于全球化和AI规模化应用的战略关键节点中,为支持多条业务线的业务规模化增长,蚂蚁国际风控致力于AI的创新及其在风控场景的应用。应用场景包括但不限于基于多智能体的风控决策系统, Deepfake识别,风控深度推理大模型等解决实际业务痛点。团队鼓励创新,勇于探索及突破前沿AI能力边界。 1.负责foundation model和生成式AI智能体构建,追踪业界文本生成、思维学习、内容理解等方向的最新技术,极致优化预训练、微调、领域知识注入、RLHF、RM、AI可解释能力。 2.负责AI技术前沿技术跟踪、创新和落地,例如,利用意图理解、图文理解等构建新一代的生成式审核机器人与辅助系统,运用反馈标注、知识体系建设、知识图谱构建等任务;利用多模态技术对图像、文本、结构化数据进行融合学习,致力于挖掘风控场景问题并全面提升风险运营效率,并帮助实现对合规、欺诈、洗钱等风险的高效管控。 3.深入跟踪调研前沿技术方向 ,包括但不限于 NLP/CV/多模态/智能体等,并适时进行技术分享。推动相关领域技术创新,进行专利申请和学术文章发表,产出至少一篇CCF-A以上论文。
研究领域: 推荐系统 项目简介: 当前医疗信息搜索推荐服务面临三大核心挑战:1)搜索结果与用户真实需求匹配度低(准确性不足);2)推荐内容缺乏个性化适配(未考虑用户病史、症状特征等个体差异);3)医疗信息可信度验证机制缺失(存在误导风险)。本项目将融合大规模预训练语言模型、动态知识图谱和医学循证规则,重点突破以下方向: 研究医疗领域大模型精准语义理解与意图识别技术 构建多维度用户画像与个性化推荐算法体系 开发基于医学循证的可信度验证与风险预警机制
研究领域: 计算机视觉 项目简介: 研究背景与目标: 金融科技领域中,企业客户尽职调查(Due Diligence)的准确性和效率至关重要。蚂蚁集团为企业客户提供的自助视频尽调服务是一个典型应用场景。然而,多模态信息的整合和一致性验证仍面临诸多挑战。本研究旨在探索基于多模态理解的创新方法,以提高尽调过程的准确性和可靠性。 研究重点: 1. 开集跨帧物体识别与跟踪: 目标:开发基于预训练多模态大模型的算法,实现视频中的开集物体识别和跨帧跟踪。 创新点:处理复杂场景下的遮挡和外观变化问题,提高识别的鲁棒性。 方法:探索结合注意力机制和时序建模的算法架构。 2. 跨模态一致性检验: 目标:构建基于Chain-of-Thought (CoT)推理的多模态信息冲突检测系统。 创新点:整合文本、视频和表格数据,实现跨模态的语义一致性验证。 方法:研究多模态表示学习和语义对齐技术,设计新型的基于CoT的冲突检测算法。