阿里云研究型实习生-视频生成模型优化研究
任职要求
1、计算机科学、人工智能、电子工程或相关专业硕士及以上学历,博士优先; 2、扎实的深度学习与计算机视觉基础,熟悉扩散模型、Transformer、生成式AI等核心技术; 3、在文生图或文生视频领域有实际研究或项目经验,了解主流模型架构(如 Wa…
工作职责
岗位概述: 聚焦文生视频模型的推理与训练加速技术,探索、设计并实现全新的算法与系统级解决方案。解决当前文生视频模型面临的最大瓶颈:高昂的计算成本与漫长的生成时间。 岗位职责: 1、前沿算法研究与创新: (1)深入研究当前主流文生视频模型(如Wanx、CogVideo等)的架构,定位其在计算、内存及I/O上的核心瓶颈; (2)探索并设计全新的高效模型架构,将MoE、Sparse Attention等先进思想引入Diffusion Transformer,研究少步/单步生成技术; (3)针对视频生成中的时序建模,研发更轻量级但同样有效的时空注意力机制。 2、系统级优化与实现: (1)设计并实现高性能的自定义CUDA/Triton核函数,以支持不规则稀疏计算模式或新型算子; (2)利用量化、剪枝、蒸馏等模型压缩技术,在保持生成质量的同时,大幅缩减模型尺寸和计算量; (3)研究适用于高分辨率、长时序视频生成的计算与内存优化技术。 3、学术与技术影响力: (1)将研究成果发表在顶级AI会议,构建团队的行业影响力; (2)跟踪并分析业界最新的技术动态,确保我们的研究方向始终保持领先。
我们正在寻找对人工智能、多模态数据处理、系统性能优化感兴趣的实习生,参与一个面向多模态数据获取、解析、压缩与高效传输的研究课题。该课题聚焦于提升多模态系统在复杂环境下的实时性表现与资源利用率,具有广泛的应用前景(如智能运维、RAG检索增强生成、边缘计算等)。你将参与的工作包括但不限于: 1. 多模态数据采集与预处理:从网页、API、数据库、摄像头、麦克风等来源获取文本、图像、音频和视频数据; 2. 多模态数据解析与特征提取:使用OCR、ASR、NLP、CV等技术解析不同模态内容; 3. 模型轻量化与加速:探索基于Transformer、CNN、LSTM等模型的压缩、蒸馏、量化方法; 4. 系统级优化与部署:设计低延迟、低资源占用的数据处理流程,支持在边缘设备上运行; 5. 性能评估与实验分析:构建测试集,评估系统的吞吐量、响应时间、准确率等关键指标; 6. 撰写技术文档与研究报告:整理实验过程、结果与改进建议。 技术要求(优先但不强制): 1. 熟悉Python编程语言,有良好的代码规范; 2. 了解基本的NLP、CV或语音识别技术; 3. 掌握至少一种深度学习框架(PyTorch/TensorFlow); 4. 熟悉Linux系统及常用命令行工具。 有以下经验者优先考虑: 1. 多模态任务处理经验(如CLIP、Flamingo等); 2. 模型压缩与部署经验(如TensorRT、ONNX、OpenVINO、TVM等); 3. 使用过音视频处理工具(如FFmpeg、OpenCV、Whisper、YOLO等); 4. 有一定系统编程能力(C/C++、CUDA、FPGA基础)。
1.跟踪和探索前沿生成式技术,包括但不限于多模态技术、大语言模型、可控图像生成、图像编辑、视频生成等。 2.研究和应用相关技术,帮助技术在实际业务(内容、广告、智能创作等)的落地。 3.具备一定的论文撰写能力和科研能力。
近年来,"指定目标编辑"(Target Editing in Text-to-Image Generation)作为文图生成领域的一项前沿挑战,日益成为学术界与技术开发者关注的焦点。该挑战的核心在于探索如何精准依据文本指令,对图像的特定组成部分进行创造或修改操作,例如在既定场景中增添或移除元素,这不仅要求算法深刻理解复杂的自然语言指令,还必须具备在图像空间中进行精准定位与操作的能力。尽管当前的先进文图生成模型(诸如StableDiffusion、Midjourney、Dalle-3)在整体图像合成上展现了卓越性能,但在面对目标导向的精细编辑任务时,仍面临显著的技术局限性。如何有效生成并编辑出既逼真又能精确符合复杂文本描述特征的图像内容,构成了一个充满挑战且蕴藏广阔研究价值的课题。这里的“特定目标”概念广泛,涵盖了从特定个体的人脸复原到具有详细规格的商品设计,乃至含有特定情境特征的场景构造。该领域的探索不仅推动了算法在理解与执行高级语义指令上的能力边界,也为解决一系列基础科学问题提供了舞台,比如如何实现更广泛的编辑对象覆盖、优化控制参数以达到细腻的编辑效果、以及实现高效的目标定位与特征匹配等。这些技术瓶颈的突破,将为图像处理、人机交互、乃至创意设计行业带来颠覆性的进步。
研究领域: 人工智能 项目简介: 在大模型的国际化应用落地过程中,要解决几个核心的问题: 1. 大模型对于小语种的支持:在蚂蚁国际化场景中,既有中英文这样的大规模使用的语言,也有东南亚,欧洲,非洲等各的确相对较小语种的实际需求,这些小语种的语料相对而言获取难度高,也导致了大模型在应用落地过程中会遇到许多困难,探索一条高效可行的道路来扩充大模型对于小语种的支持是在业务和技术上都有着突破意义的工作 2. 大模型对于体验的支持:在模型的使用过程中,探索更好的用户体验需要进行相当的投入来保持对于体验的关注和不断尝试,既包括通过推理模型来提升模型回复能力,也包括通过长思考能力来提升问题解决的思路完备性,也可以借助于大模型的代码生成等推理能力来生成交互式界面,或者通过多模态模型来进行包括视频在内的AIGC等,在应用过程中有很多细节需要结合大模型基座进行优化 3. 模型可信:在金融场景中,模型回复的准确性和安全性至关重要,结合业务场景进行探索模型的grounding,知识注入和幻觉消除等工作