通义研究型实习生 - 超长视频内容理解算法研究

实习兼职通义研究型实习生2025-12-18地点：北京 | 杭州 | 上海状态：招聘

扫码手机上打开

任职要求

必备条件：
1. 硕士及以上学历，计算机、人工智能、电子、机器人等相关专业。
2. 在计算机视觉、多模态、机器学习等一个或多个领域有深入的研究者。
3. 深入理解深度学习、计算机视觉和自然语言处理基础知识，对VLM/MLLM模型原理有清晰认识。
4. 具备良好的团队合作精神和沟通能力，对解决富有…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责超长视频内容的前沿算法研究、实现与优化，重点攻克高效的长视频处理机制，如关键帧选择、特征压缩和记忆机制。
2. 参与构建和清洗大规模多模态数据集，优化长视频理解在视频问答、内容摘要等任务上的准确率，优化视频场景下模型的推理能力。
3. 具备技术前瞻性与创新能力，跟踪国际最新技术动态，探索如多模态理解创新架构、音视频理解等新方向，并提出创新算法或方案，推动学术前沿发展。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

OpenCV+

机器学习+

深度学习+

NLP+

ICLR+

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生-超长视频内容理解算法研究

实习阿里巴巴研究型实

1. 负责超长视频内容的前沿算法研究、实现与优化，重点攻克高效的长视频处理机制，如关键帧选择、特征压缩和记忆机制。 2. 参与构建和清洗大规模多模态数据集，优化长视频理解在视频问答、内容摘要等任务上的准确率，优化视频场景下模型的推理能力。 3. 具备技术前瞻性与创新能力，跟踪国际最新技术动态，探索如多模态理解创新架构、音视频理解等新方向，并提出创新算法或方案，推动学术前沿发展。

更新于 2026-06-09北京|杭州|上海

研究型实习生-超长序列下数据负载感知的MoE模型并行训练加速

实习阿里巴巴研究型实

针对超长序列输入，异构样本数据，设计和实现超大规模分布式大模型训练框架。结合多种上下文长度、多种模态的样本数据，适配稀疏混合专家模型、稀疏注意力机制等新型大模型结构。对算子优化、通信优化进行深入的挖掘，消除模型并行、流水并行等实现的瓶颈。设计数据感知的训练方案，消除异构数据对效率影响。联合多种新硬件，达到极致的训练推理成本，推进大模型在国内最大的电商场景的业务落地。职位职责包括但不限于： 1. 设计和实现机器学习系统所需要的大规模分布式计算系统，参与机器学习全生命周期（训练、推理、MLOps、CI/CD、AB testing）组件的开发与优化。 2. 构建业界领先的超大规模稀疏训练引擎，通过软硬件协同以及工程算法联合优化，持续榨取高性能异构硬件的性能潜力，不断推高分布式训练的性能天花板。 3. 构建业界先进的多模态、大语言训练引擎，通过持续的分布式训练优化，不断提升算法的训练规模，提升硬件的使用效率。 4. 构建超大规模全流程机器学习平台，覆盖从特征工程、样本构建到模型量化交付，并通过构建SQL计算引擎、分布式特征服务、样本湖等，提升特征样本计算存储效率。 5. 图学习、联邦学习、强化学习等多个AI方向算法工程解决方案的探索和落地。 6. 在机器学习系统的前沿领域（如分布式训练、软硬协同设计等）参与应用驱动的研

更新于 2026-06-11北京|杭州

研究型实习生 - 大模型训推场景超长序列并行的通信计算重叠

实习阿里巴巴研究型实

专注于大规模分布式文生视频/文生图推理系统的研究、探索和开发，具体职责包括：探索高性能、可扩展的分布式 DiT 推理引擎，支持大规模文生视频/文生图场景的高效部署；深入优化高性能算子、运行时、分布式策略等，打造业界领先的DiT推理引擎；分析现有引擎和典型负载的性能瓶颈，提出并实现创新的优化技术；针对文生视频/文生图等重点场景，构建业界领先的优化解决方案。

更新于 2026-03-17杭州

研究型实习生-跨模型生成能力融合技术研究

实习通义研究型实习生

基于开源的 Diffusion 图像和视频生成模型，构建基础推理和训练引擎，探索前沿的 AIGC 技术，具体职责包括： 1、加入魔搭社区 DiffSynth-Studio 等开源项目的开发，接入先进的图像和视频生成模型，为业界提供领先的推理和训练引擎基建。 2、基于丰富的开源模型生态，探索 AIGC 技术的全新能力，开展多元化的科研项目，包括但不限于图像生成的思维链、跨模态模型的能力集成、理解-生成统一架构模型等，发表高水平学术论文。 3、参与魔搭社区的运营活动，为新模型的开源提供技术支持，推动 AI 技术的普及推广。

更新于 2026-06-17北京|杭州