logo of antgroup

蚂蚁金服研究型实习生-像素级细粒度理解关键技术研究

实习兼职研究型实习生地点:北京 | 杭州状态:招聘

任职要求


研究领域:
-目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位
-具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、PythonJavaScriptGo
-具有上述研究领域的相关经验,包括行业经验或作为参与实验室研究
优先录用:
-对技术研究充满热情,具有产生新思想和创新的能力; 在自学,问题分析和解决方面表现出色
-在国际会议上或核心期刊发表一份或多份出版物或论文
-至少3个月的全职工作

工作职责


研究领域:
  人工智能
项目简介:
  随着人工智能技术的快速发展,多模态大模型(Multimodal Large Language Models, MLLMs)在跨模态理解与生成领域取得了突破性进展。然而,在图像分割、目标识别及定位、视觉关系理解、目标计数等基础视觉任务中,现有MLLMs与传统视觉模型仍存在显著性能差距。这种短板严重制约了多模态技术在视频分析、图像识别等高精度视觉场景中的应用落地。 本项目期望探索更有效的多模态视觉表征,及视觉与LLM融合机制,提升多模态能力上限。
包括英文材料
学历+
Java+
C+
Python+
JavaScript+
相关职位

logo of antgroup
实习研究型实习生

研究领域: 隐私计算 项目简介: 1.项目背景 在人工智能技术快速发展的今天,UIAgent(用户界面智能代理)正成为下一代人机交互的核心入口。然而,如何获得或构建海量多模态数据(如行为轨迹、界面标注信息、系统动线日志等)是研究的关键。但如何在保障数据隐私合规的前提下,完成高质量的场景重建与语料建模,已成为制约技术落地的关键瓶颈。本课题聚焦这一核心矛盾,探索隐私保护与数据效用之间的最优平衡,为UIAgent提供安全、合规、可用的基础数据支撑。 2.研究目标 本项目旨在构建一套全流程隐私保护框架,解决以下核心问题: 多源异构数据脱敏:针对文本、图像、时序行为等多模态数据,设计可组合的隐私擦除策略; 场景语义保真重建:在去除个人身份信息(PII)的同时,保留用户行为模式与系统交互逻辑的语义完整性; 隐私-效用博弈建模:通过理论分析与实验验证,量化隐私预算与模型性能间的权衡关系。 3.核心亮点 生成式隐私增强技术:基于扩散模型/VAE生成合成数据,既还原真实场景分布又规避隐私泄露风险; 行为轨迹知识蒸馏:将原始轨迹中的高敏感操作(如输入内容)抽象为低维符号序列,保留系统动线拓扑结构; 极致数据压缩技术:UIAgent的核心目标是理解和预测用户的界面交互行为,而非复现像素级视觉细节,将探索最小必要数据的边缘。

logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 实时语音交互在大模型应用落地中对于提升用户对话体验,提升用户留存(豆包app加入语音对话后留存率提升明显)具有重要作用;在AI硬件领域(AI眼镜、戒指等),实时语音交互是直接的、天然的交互方式,且对语音理解的准确率、语音生成的自然度、对话准确率、交互响应速度都有较高的要求

logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 在大模型的国际化应用落地过程中,要解决几个核心的问题: 1. 大模型对于小语种的支持:在蚂蚁国际化场景中,既有中英文这样的大规模使用的语言,也有东南亚,欧洲,非洲等各的确相对较小语种的实际需求,这些小语种的语料相对而言获取难度高,也导致了大模型在应用落地过程中会遇到许多困难,探索一条高效可行的道路来扩充大模型对于小语种的支持是在业务和技术上都有着突破意义的工作 2. 大模型对于体验的支持:在模型的使用过程中,探索更好的用户体验需要进行相当的投入来保持对于体验的关注和不断尝试,既包括通过推理模型来提升模型回复能力,也包括通过长思考能力来提升问题解决的思路完备性,也可以借助于大模型的代码生成等推理能力来生成交互式界面,或者通过多模态模型来进行包括视频在内的AIGC等,在应用过程中有很多细节需要结合大模型基座进行优化 3. 模型可信:在金融场景中,模型回复的准确性和安全性至关重要,结合业务场景进行探索模型的grounding,知识注入和幻觉消除等工作

logo of antgroup
实习研究型实习生

研究领域: 隐私计算 项目简介: 在蚂蚁国际的各种在线业及离线务中,由于各国之间的法律法规差异、监管合规要求以及合作机构的意愿,国际业务数据常常面临区域间、机构间隔离的挑战,形成数据孤岛。外部合作机构/商户的数据不能出境、不愿出域。合作商户对数据保护意识强,撬动难度大。 为解决这些问题,我们希望在保证数据隐私的前提下,利用隐私计算MPC(Secure Multi-Party Computation)技术,进行联合计算和分析,确保数据在计算过程中不被泄露,实现跨区域、跨机构的数据协同。 1.负责密码学前沿技术跟踪和创新预研,进行隐私计算高性能、高精度、通用化方面的的基础研究; 2.负责将隐私计算技术应用于现实问题,面向场景优化的密码算法和系统; 3.跟踪、探索隐私计算方向前沿技术,并适时进行技术分享、专利申请和学术文章发表。 4.通过行业深度洞察以及前膽性思考,探索前沿技术、预研新场景,引导行业标准制定以及打造全球领先的行业品牌心智。