logo of tongyi

通义研究型实习生-智能视频编辑中的可控性研究

实习兼职通义研究型实习生地点:北京 | 杭州状态:招聘

任职要求


1. 候选人应为计算机科学、人工智能、机器学习计算机视觉等相关专业,硕士及以上学历。
2. 具备扎实的编程能力,熟练掌握 PythonC++,熟悉常见的深度学习框架(如 PyTorchTensorFlow)。
3. 对计算机视觉自然语言处理、生成对抗网络(GAN)、扩散生成技术、变分自编码器(VAE)等有深入的理解和实践经验。
4. 具备良好的数学基础,熟悉线性代数、概率论、优化理论等基础知识。
5. 有智能视频编辑、视频生成、图像处理等相关项目的实践经验者优先。
6. 熟悉多模态数据处理技术者优先,如具备将文本、图像、音频等不同模态信息融合到同一系统中的经验。
7. 有参与过开源项目或在国际顶级会议上发表过论文的经历优先。

工作职责


随着人工智能技术的飞速发展,智能视频编辑逐渐成为多媒体处理领域的重要研究方向。传统的视频编辑工具依赖于手动操作,耗时且复杂,而基于深度学习和大模型的智能视频编辑技术则能够自动完成许多任务,如角色生成、场景生成、运动生成、风格转换等。然而,当前的智能视频编辑系统在实际应用中往往面临一个关键挑战:“可控性不足”。
因此,本课题旨在探索如何提高智能视频编辑系统的可控性,使用户能够在保持高效自动化的同时,对视频编辑过程和结果进行更加精细的控制。通过研究和开发新的算法和技术,我们希望能够为未来的智能视频编辑系统提供更强的交互性和灵活性,从而更好地服务于内容创作者和普通用户。
包括英文材料
机器学习+
OpenCV+
学历+
Python+
C+++
深度学习+
PyTorch+
TensorFlow+
NLP+
图像处理+
相关职位

logo of tongyi
实习通义研究型实习生

本项目旨在深入探索原生多模态视频生成的前沿技术,构建从内容生成到智能应用的完整技术闭环。具体研究课题包括但不限于: 1. 长视频生成: 重点研究能够生成分钟级长视频的算法,攻克生成过程中的稳定性与时序一致性难题,实现流畅、高质量的视频流输出。 2. 可控视频编辑与下游应用 : 开发基于自然语言、图像示例等指令的精细化视频编辑技术,实现对视频中对象、场景、风格的精准、一致性操控。 3. 人类反馈与强化学习: 包括但不限于基于规则的强化学习策略、高效 DPO 与 PPO 算法设计、基于用户反馈的RLHF 视频生成质量提升。

更新于 2025-09-12
logo of amap
实习高德研究型实习生

1.跟踪和探索前沿生成式技术,包括但不限于多模态技术、大语言模型、可控图像生成、图像编辑、视频生成等。 2.研究和应用相关技术,帮助技术在实际业务(内容、广告、智能创作等)的落地。 3.具备一定的论文撰写能力和科研能力。

更新于 2025-03-27
logo of alibaba
实习淘天集团研究型实

1. 负责大模型(MLLMs/LLMs)核心技术研发,包括预训练、垂域SFT、RLHF等,持续追踪和应用领域最新技术进展; 2. 负责大模型性能优化:研发模型加速技术,如量化、剪枝与知识蒸馏;优化数据特征与调度策略;构建高效推理链路、提升运行速度及降低成本; 3. 负责多模态AIGC的创意玩法探索,以及细粒度可控的多模态内容生成和编辑、不同输入条件下的高质量视频生成技术研究等; 4. 基于研究成果撰写高质量学术论文,积极参与业界交流活动,建立和维护学术界与产业界的合作关系。

更新于 2025-05-06
logo of alibaba
实习淘天集团研究型实

1. 探索多模态大模型的高效训练,包括预训练、SFT、及RLHF等技术; 2. 探索高效的视觉编码器结构、对齐范式、训练策略、数据清洗、质量分级、数据合成等; 3. 探索原生多模态大模型的架构与训练范式; 4. 探索图像、视频、音频的全模态大模型; 5. 结合淘天业务,推动多模态大模型在搜索、推荐、广告等业务中的应用。

更新于 2025-08-14