蚂蚁金服研究型实习生-像素级细粒度理解关键技术研究
任职要求
研究领域: -目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位 -具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScript或Go -具有上述研究领域的…
工作职责
研究领域: 人工智能 项目简介: 随着人工智能技术的快速发展,多模态大模型(Multimodal Large Language Models, MLLMs)在跨模态理解与生成领域取得了突破性进展。然而,在图像分割、目标识别及定位、视觉关系理解、目标计数等基础视觉任务中,现有MLLMs与传统视觉模型仍存在显著性能差距。这种短板严重制约了多模态技术在视频分析、图像识别等高精度视觉场景中的应用落地。 本项目期望探索更有效的多模态视觉表征,及视觉与LLM融合机制,提升多模态能力上限。
研究领域: 隐私计算 项目简介: 1.项目背景 在人工智能技术快速发展的今天,UIAgent(用户界面智能代理)正成为下一代人机交互的核心入口。然而,如何获得或构建海量多模态数据(如行为轨迹、界面标注信息、系统动线日志等)是研究的关键。但如何在保障数据隐私合规的前提下,完成高质量的场景重建与语料建模,已成为制约技术落地的关键瓶颈。本课题聚焦这一核心矛盾,探索隐私保护与数据效用之间的最优平衡,为UIAgent提供安全、合规、可用的基础数据支撑。 2.研究目标 本项目旨在构建一套全流程隐私保护框架,解决以下核心问题: 多源异构数据脱敏:针对文本、图像、时序行为等多模态数据,设计可组合的隐私擦除策略; 场景语义保真重建:在去除个人身份信息(PII)的同时,保留用户行为模式与系统交互逻辑的语义完整性; 隐私-效用博弈建模:通过理论分析与实验验证,量化隐私预算与模型性能间的权衡关系。 3.核心亮点 生成式隐私增强技术:基于扩散模型/VAE生成合成数据,既还原真实场景分布又规避隐私泄露风险; 行为轨迹知识蒸馏:将原始轨迹中的高敏感操作(如输入内容)抽象为低维符号序列,保留系统动线拓扑结构; 极致数据压缩技术:UIAgent的核心目标是理解和预测用户的界面交互行为,而非复现像素级视觉细节,将探索最小必要数据的边缘。
1. 参与设计和实现融合音频理解与生成能力的统一架构,打破传统模型在“理解”与“生成”之间的壁垒; 2. 研究并开发针对长时序音频的高效建模方法,解决上下文保持难题,提升长程语义一致性和事件定位精度; 3. 提升模型在高噪声、低资源、多说话人等复杂环境下的鲁棒性,同时保证生成内容的自然度; 4. 实现跨音频类型的通用表征学习,支持零样本或少样本迁移至新任务或领域; 5. 优化模型推理效率,支持端侧部署与实时交互,满足边缘设备及移动端应用需求。
【职位描述】 我们是小红书安全风控平台部/算法策略组/内容安全组,目前专注于多模态大模型在多模态理解和内容安全场景的技术落地和产品预研,目前在相关数据&技术方向有一定的积累,并将长期持续投入。我们希望寻求优秀在读硕士生/博士生共同突破大模型在安全审核行业落地的技术挑战,作为实习生,你将有机会与产品、工程紧密合作,将研究算法应用到实际问题中,并解决有难度有价值的问题,促进领域前沿技术的发展。欢迎投递简历。该岗位的核心研究方向包括但不限于: 1. 基础多模态表征:主要研究小红书多模态数据(笔记)下的基础多模态表征工作,包括层次化表征、特征融合、自监督探索等,作为基础模型,支持多样化检索场景。 2. 通用多模态大模型:通用多模态大模型在安全领域理解相关研究,包括高效微调、多模态理解等。建立安全多模态基础模型。
关于我们: 我们是阿里国际数字商业集团-跨境贸易事业部 (ICBU)-Accio算法团队!ICBU是全球最大的跨境B2B数字化贸易平台。我们正在运用前沿的大语言模型(LLM)技术打造新一代AI搜索引擎-Accio,重塑企业跨境B2B采购流程。 核心职责: 1. 全流程AI解决方案开发: 主导从数据结构设计、算法框架搭建到效果评估指标制定的完整AI系统开发,支撑智能搜索与采购自动化场景 2. 大语言模型研发部署: 实现LLM模型(如GPT、BERT等架构)的预训练、微调及落地应用,持续提升搜索相关性、语义理解能力和智能对话代理性能 3. 前沿技术探索: 通过跨团队协作与行业趋势分析,挖掘AI技术在B2B电商场景的创新应用方向 4. 技术攻坚: 诊断现有系统瓶颈,设计改进方案并向决策层推动技术升级落地