蚂蚁金服【转正实习】多模态理解和生成算法

实习兼职蚂蚁集团2027届转正实习地点：北京 | 上海 | 杭州 | 重庆 | 成都状态：招聘

扫码手机上打开

任职要求

岗位要求：
1.计算机、人工智能、数学、电子信息等相关专业优先；
2.熟悉计算机视觉、多模态学习及深度学习基础，理解图像/视频理解、跨模态建模、内容生成与表征学习等核心方法；
3.了解 Transformer、VLM、Diffusion 等主流架构，有多模态训练、生成模型或相关项目经验者优先；
4.具备较强的数据处理、实验设计、效果分析与问题定位能力，能够独立…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

岗位描述面向真实业务场景，围绕图像、视频、语音、文档等多模态内容的理解与生成，开展算法研发与能力落地。你将参与多模态理解、跨模态推理、内容生成与 AIGC 应用优化，推动相关能力在搜索推荐、内容创作、交互体验、智能体等场景中的持续迭代，提升模型效果、用户体验和业务价值。
具体职责：
1.围绕图像、视频、语音、文档等多模态内容，开展理解、生成、编辑与交互相关算法研发，提升模型在真实场景中的效果与可用性；
2.探索并优化多模态理解、跨模态对齐、视觉问答、文档理解、视频理解、图文检索、内容生成与编辑等关键能力；
3.结合大模型、AIGC、多模态学习与 Agent 技术，推动多模态能力在业务场景中的落地，包括内容生产、智能审核、交互式生成、创意优化等方向；
4.建设多模态数据与评测体系，覆盖数据采集、清洗、对齐、标注、增强、难例挖掘与效果分析，持续优化模型训练与迭代效率；
5.参与线上实验与效果分析，结合业务目标持续优化模型表现、生成质量、稳定性与成本效率。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

OpenCV+

深度学习+

Transformer+

算法+

还有更多 •••

登录查看完整学习资料

相关职位

【转正实习】搜索推荐广告算法

实习蚂蚁集团2027

面向核心业务场景，包括智能搜索、推荐、广告等，处理海量海量规模大数据，结合检索、排序、多模态理解和大模型能力，持续优化内容匹配效率、用户体验和业务价值。将参与召回、粗排、精排、重排到结果生成优化的完整链路建设，推动 AI 搜索、推荐、生成式AI、广告等能力在真实业务中的落地与迭代。具体职责包括以下相关方向的一项或多项： 1. 参与核心业务场景，包括搜索、推荐、广告等场景的算法建设，优化召回、排序、重排及结果生成链路，提升业务效率、用户规模等核心指标； 2. 研究生成式推荐、Scaling up、Semantic id、AI Agent等前沿技术方向，解决核心场景业务增长问题； 3. 探索并应用大模型（LLM）、多模态学习、AIGC技术，进行智能创意生成、素材理解、创意元素优选及个性化创意组合优化，显著提升搜索、推荐、广告创意吸引力与点击效果； 4. 参与或负责基于大模型（LLM）的搜索、推荐、广告智能体（Agent）的研发，用于自动化策略调优、实时效果归因、智能异常监控、仿真模拟等场景，提升系统自动化决策与运营效率。

北京|上海|杭州

【转正实习】算法工程师-多模态

实习蚂蚁集团2027

1. 研发和探索多模态内容理解或生成算法（文本/图像/声音/视频等），并应用于搜索推荐、内容生成、智能交互等核心业务中； 2. 提出和实现业界领先的多模态算法创新，包括但不限于多模态预训练、多模态大模型、多模态表征学习等等，并应用到核心业务中。

北京|上海|杭州

NLP多模态预训练方向实习生-集团信息系统

实习A110849

ByteIntern：面向2026届毕业生（2025年9月-2026年8月期间毕业），为符合岗位要求的同学提供转正机会。团队介绍：集团信息系统部（Corporate Information System）负责字节跳动信息系统建设。通过构建领先的信息系统，助力公司业务和组织的长期高效经营与发展。与此同时，在安全、隐私、合规层面持续治理，为公司的稳健发展保驾护航。字节跳动的员工分布在全球超过120个城市，业务模式复杂，用户规模大。到现在，集团信息系统部已经覆盖人事、财务、法务、采购、审批、职场等多个领域，隐私安全工作同步开展，AIGC创新孵化也在逐步落地实现。 1、负责AI Native应用的算法研发和LLM效果优化工作，推动最前沿技术的探索和应用； 2、探索大语言模型等先进AI技术在字节跳动国际化公司运营的落地，包括领域预训练、指令微调、训练和推理加速、模型评测等技术； 3、提升自然语言理解的能力，比如实体识别、意图识别、NL2SQL，向量召回，结构化/非结构化，短文本/长文本的表征学习等；应用于对话系统、文本生成、文本分类、知识图谱，检索问答等领域； 4、提升多模态识别和理解能力，比如图片、音频、视频等多模态分类、内容挖掘、理解和生成等。

更新于 2024-12-27深圳

多模态大模型算法实习生-电商业务

实习A162344

ByteIntern：面向2026届毕业生（2025年9月-2026年8月期间毕业），为符合岗位要求的同学提供转正机会。团队介绍：Data-电商-知识图谱团队，通过实体挖掘、关系抽取、知识融合等技术手段，将海量的非结构化文本进行结构化建模，构建起了大规模的电商知识图谱，支持电商业务的发展；同时，结构化的电商知识也能融入大规模的预训练模型，进一步提升在各个下游任务上的性能。我们利用这些前沿的NLP技术落地到图谱构建和下游的多个业务场景：商品/短视频分类和属性识别、评价情感分析、短标题生成等。此外，为支持国际化电商业务发展，在多语言、低资源等诸多新挑战下，我们积极探索利用跨语言迁移提升目标语言的模型、利用知识迁移去缓解低资源场景下的标注数据稀缺难点等课题，助力国际化电商知识图谱的快速建设，为业务的蓬勃发展提供助力。 1、构建和维护高质量的电商行业文本和多模态数据集，不断优化数据质量和丰富度，沉淀电商行业的高价值信息； 2、针对业务需求进行电商行业LLM和多模态LLM的继续训练（CT）、有监督微调（SFT），提升模型在电商场景下的表现； 3、制定和实施LLM的评估方案，结合人工评估和自动化评估手段，确保模型性能的可靠性和稳定性； 4、通过LLM不断优化针对电商场景人货场的理解和生成能力，包括：商品信息识别、视频内容理解、用户兴趣挖掘、商品文案生成、导购素材生成等等； 5、通过LLM和上述能力，支持电商各种业务场景，包括：搜索、推荐、导购、评价、商品发布等等，提升各场景的业务效果。

更新于 2025-02-07珠海