蚂蚁金服蚂蚁集团-多模态&大模型方向-图音视

社招全职技术类-算法2025-05-13地点：北京 | 上海 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 计算机科学、人工智能、自然语言处理、数据科学、机器学习等相关专业。
2. 在多模态领域具备相关研发经验，在多模态大模型(OCR/信息抽取/caption/分割/生成/篡改伪造等方向)、多模态推理(MLLM-R1、Video-R1等)等方向有丰富经验，有顶会(NeurIPS、CVPR等)论文发表或国际比赛获奖者优先。
3. 在语音算法领域具备相关的研发经验，包括但不限于语音大模型、…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 通过多模态算法进行用户的可信认知，支持十亿级支付宝用户，业务覆盖支付宝、蚂蚁国际、消金、财富、保险、生态等蚂蚁全域场景。
2. 方向一：多模态理解与推理方向，负责全面、高精、高效的多模态垂域模型研发，深耕视觉图像&视频reasoning，提升理解和推理能力，攻坚reward设计、多模态推理框架设计等核心问题。
3. 方向二：负责声纹识别、声音防伪算法以及意图理解等算法，探索声纹表征、声纹防伪、ASR、语音合成等All-In-One模型方案，研发金融级识别和防伪算法，落地与实际支付场景；
4. 方向三：声学算法部分，负责波束成形、声源定位、阵列增强、音频编解码等软硬件一体语音信号处理算法原型开发、性能优化
5. 关注多模态以及语音大模型算法前沿技术和发展动态，持续探索新一代AI驱动的、高效的、有效的、业务及产品新范式，推动业务发展、引领行业变革；

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

NLP+

数据科学+

机器学习+

大模型+

OCR+

NeurIPS+

CVPR+

还有更多 •••

登录查看完整学习资料

相关职位

多模态算法工程师（J82286）

社招ACG

-负责落地LLM在内容理解场景中的应用，负责文本内容理解与审核场景端到端效果优化与提升 -重点研究以小尺寸大语言模型相关的技术，包括但不限于数据建设、指令微调、模型优化、模型蒸馏等 -提升数据构建合成、模型推理等能力；构建大小模型融合的推理系统，提升模型在理解与审核场景中的效果 -持续探索跟进学术与业界前沿进展，探索包括但不限于CoT、RAG、强化学习微调等能力并落地

更新于 2025-10-11北京

多模态算法工程师-语音方向

社招大模型

在算力驱动的 AGI 和人文精神的烟火气交汇之处，我们真诚邀请对大模型 Omni Model 有热情的同学加入，共同打造更具影响力的智能系统。你会成为团队的一员，并和其他同事协作，共同研发 SOTA 的 Omni Model。期待你以务实和客观的科学态度来推进技术的进展，不被过往经验裹挟、不被主观偏好影响。期待你除了算法外仍然是为出色的工程师。期待你对技术有强烈的好奇心和开放心态。区别于传统 ASR / TTS 级联技术，我们希望打造端到端的 Omni Model 在实时交互中释放大模型的智力水平，彻底改变以 Chatbot 文字为主的人机交互界面岗位说明：你会负责围绕大模型 Omni Model 构建语音模态的相关研究工作，包括但不限于如下事项海量的语音数据处理和构建：定性分析、定量评估数据质量，并给出 scalable 的改进方案；探索跨模态（文字/视觉/语音）混合训练的最佳实践；探索更加高效且合理的模型架构，让模型更加理解音频，同时让模型具备更好的语音合成能力研究并探索基于 Omni Model 的 Post Train，包含但不限于 SFT 和 RL

北京|上海

多模态算法工程师(J66268)

社招3年以上图像技术组

1.负责贝壳多模态数据下的多模态大模型增量预训练、指令微调，以及面向下游垂直领域任务的效果优化； 2.结合自有产品和业务需求，负责跨模态检索、多模态分类、多模态表征等模型研发与应用，解决面向业务场景的应用和落地时的算法卡点问题； 3.负责搭建多模态大模型dataset和benchmark的收集、清洗和评测体系； 4.与工程、产品团队配合，推动团队成果的应用落地。

更新于 2025-02-24北京

多模态算法工程师-【主站安全】

社招5年以上D7244

1、参与多模态算法的研究和开发； 2、探索基于多模态的内容理解，并应用于风控，视频质量等核心业务中。

更新于 2025-04-10北京