蚂蚁金服【转正实习】多模态理解和生成算法
任职要求
岗位要求: 1.计算机、人工智能、数学、电子信息等相关专业优先; 2.熟悉计算机视觉、多模态学习及深度学习基础,理解图像/视频理解、跨模态建模、内容生成与表征学习等核心方法; 3.了解 Transformer、VLM、Diffusion 等主流架构,有多模态训练、生成模型或相关项目经验者优先; 4.具备较强的数据处理、实验设计、效果分析与问题定位能力,能够独立…
工作职责
岗位描述面向真实业务场景,围绕图像、视频、语音、文档等多模态内容的理解与生成,开展算法研发与能力落地。你将参与多模态理解、跨模态推理、内容生成与 AIGC 应用优化,推动相关能力在搜索推荐、内容创作、交互体验、智能体等场景中的持续迭代,提升模型效果、用户体验和业务价值。 具体职责: 1.围绕图像、视频、语音、文档等多模态内容,开展理解、生成、编辑与交互相关算法研发,提升模型在真实场景中的效果与可用性; 2.探索并优化多模态理解、跨模态对齐、视觉问答、文档理解、视频理解、图文检索、内容生成与编辑等关键能力; 3.结合大模型、AIGC、多模态学习与 Agent 技术,推动多模态能力在业务场景中的落地,包括内容生产、智能审核、交互式生成、创意优化等方向; 4.建设多模态数据与评测体系,覆盖数据采集、清洗、对齐、标注、增强、难例挖掘与效果分析,持续优化模型训练与迭代效率; 5.参与线上实验与效果分析,结合业务目标持续优化模型表现、生成质量、稳定性与成本效率。
面向核心业务场景,包括智能搜索、推荐、广告等,处理海量海量规模大数据,结合检索、排序、多模态理解和大模型能力,持续优化内容匹配效率、用户体验和业务价值。将参与召回、粗排、精排、重排到结果生成优化的完整链路建设,推动 AI 搜索、推荐、生成式AI、广告等能力在真实业务中的落地与迭代。 具体职责包括以下相关方向的一项或多项: 1. 参与核心业务场景,包括搜索、推荐、广告等场景的算法建设,优化召回、排序、重排及结果生成链路,提升业务效率、用户规模等核心指标; 2. 研究生成式推荐、Scaling up、Semantic id、AI Agent等前沿技术方向,解决核心场景业务增长问题; 3. 探索并应用大模型(LLM)、多模态学习、AIGC技术,进行智能创意生成、素材理解、创意元素优选及个性化创意组合优化,显著提升搜索、推荐、广告创意吸引力与点击效果; 4. 参与或负责基于大模型(LLM)的搜索、推荐、广告智能体(Agent)的研发,用于自动化策略调优、实时效果归因、智能异常监控、仿真模拟等场景,提升系统自动化决策与运营效率。
1. 研发和探索多模态内容理解或生成算法(文本/图像/声音/视频等),并应用于搜索推荐、内容生成、智能交互等核心业务中; 2. 提出和实现业界领先的多模态算法创新,包括但不限于多模态预训练、多模态大模型、多模态表征学习等等,并应用到核心业务中。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:集团信息系统部(Corporate Information System)负责字节跳动信息系统建设。通过构建领先的信息系统,助力公司业务和组织的长期高效经营与发展。与此同时,在安全、隐私、合规层面持续治理,为公司的稳健发展保驾护航。字节跳动的员工分布在全球超过120个城市,业务模式复杂,用户规模大。到现在,集团信息系统部已经覆盖人事、财务、法务、采购、审批、职场等多个领域,隐私安全工作同步开展,AIGC创新孵化也在逐步落地实现。 1、负责AI Native应用的算法研发和LLM效果优化工作,推动最前沿技术的探索和应用; 2、探索大语言模型等先进AI技术在字节跳动国际化公司运营的落地,包括领域预训练、指令微调、训练和推理加速、模型评测等技术; 3、提升自然语言理解的能力,比如实体识别、意图识别、NL2SQL,向量召回,结构化/非结构化,短文本/长文本的表征学习等;应用于对话系统、文本生成、文本分类、知识图谱,检索问答等领域; 4、提升多模态识别和理解能力,比如图片、音频、视频等多模态分类、内容挖掘、理解和生成等。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data-电商-知识图谱团队,通过实体挖掘、关系抽取、知识融合等技术手段,将海量的非结构化文本进行结构化建模,构建起了大规模的电商知识图谱,支持电商业务的发展;同时,结构化的电商知识也能融入大规模的预训练模型,进一步提升在各个下游任务上的性能。我们利用这些前沿的NLP技术落地到图谱构建和下游的多个业务场景:商品/短视频分类和属性识别、评价情感分析、短标题生成等。此外,为支持国际化电商业务发展,在多语言、低资源等诸多新挑战下,我们积极探索利用跨语言迁移提升目标语言的模型、利用知识迁移去缓解低资源场景下的标注数据稀缺难点等课题,助力国际化电商知识图谱的快速建设,为业务的蓬勃发展提供助力。 1、构建和维护高质量的电商行业文本和多模态数据集,不断优化数据质量和丰富度,沉淀电商行业的高价值信息; 2、针对业务需求进行电商行业LLM和多模态LLM的继续训练(CT)、有监督微调(SFT),提升模型在电商场景下的表现; 3、制定和实施LLM的评估方案,结合人工评估和自动化评估手段,确保模型性能的可靠性和稳定性; 4、通过LLM不断优化针对电商场景人货场的理解和生成能力,包括:商品信息识别、视频内容理解、用户兴趣挖掘、商品文案生成、导购素材生成等等; 5、通过LLM和上述能力,支持电商各种业务场景,包括:搜索、推荐、导购、评价、商品发布等等,提升各场景的业务效果。