阿里云研究型实习生 - 基于多模态的核心数据链路研究
任职要求
1.计算机或相关方向博士、硕士在读; 2.在数据库、人工智能、系统、安全等领域有顶会论文发表经验; 3.有系统研发能力,并善于与团队交流合作; 4.富有创造力,有面向落地场景解决实际问题的意愿。
工作职责
我们正在寻找对人工智能、多模态数据处理、系统性能优化感兴趣的实习生,参与一个面向多模态数据获取、解析、压缩与高效传输的研究课题。该课题聚焦于提升多模态系统在复杂环境下的实时性表现与资源利用率,具有广泛的应用前景(如智能运维、RAG检索增强生成、边缘计算等)。你将参与的工作包括但不限于: 1. 多模态数据采集与预处理:从网页、API、数据库、摄像头、麦克风等来源获取文本、图像、音频和视频数据; 2. 多模态数据解析与特征提取:使用OCR、ASR、NLP、CV等技术解析不同模态内容; 3. 模型轻量化与加速:探索基于Transformer、CNN、LSTM等模型的压缩、蒸馏、量化方法; 4. 系统级优化与部署:设计低延迟、低资源占用的数据处理流程,支持在边缘设备上运行; 5. 性能评估与实验分析:构建测试集,评估系统的吞吐量、响应时间、准确率等关键指标; 6. 撰写技术文档与研究报告:整理实验过程、结果与改进建议。 技术要求(优先但不强制): 1. 熟悉Python编程语言,有良好的代码规范; 2. 了解基本的NLP、CV或语音识别技术; 3. 掌握至少一种深度学习框架(PyTorch/TensorFlow); 4. 熟悉Linux系统及常用命令行工具。 有以下经验者优先考虑: 1. 多模态任务处理经验(如CLIP、Flamingo等); 2. 模型压缩与部署经验(如TensorRT、ONNX、OpenVINO、TVM等); 3. 使用过音视频处理工具(如FFmpeg、OpenCV、Whisper、YOLO等); 4. 有一定系统编程能力(C/C++、CUDA、FPGA基础)。
希望解决如下技术问题。 1、适用于商品视频生成的文本-视频数据集:构建一个能够支持基于多模态大模型的商品视频生成算法训练和优化的文本-视频数据集 2. 基于多模态大模型的商品视频生成系统:通过探索基于多模态大模型的文本到视频生成技术,以“视频关键帧-高帧率视频-高分辨率视频”为基本路径,完成文本到视频关键帧生成模型、视频插帧模型、视频超分辨率生成模型等核心算法模型,构建视频生成系统,实现输入商品描述文本+商品图片,自动生成原生化的商品微视频和商品短视频。
专注于多模态智能体(Agent)及强化学习(RL)的研究与开发,如 browser use 等,推动下一代智能决策系统的创新。主要职责包括: 1. 设计和构建基于 Qwen 系列模型的多模态 Agent,使其能够高效处理文本、图像、视频等多种信息,执行复杂任务; 2. 实现和训练强化学习算法,探索如何在多模态环境下优化智能体的决策策略; 3. 开发数据采集和环境建模工具,构建逼真的多模态交互环境; 4. 参与系统评估与优化,设计高效的验证机制,确保智能体的稳定性与泛化能力; 5. 撰写研究论文、技术文档,与团队共同推动技术突破,并提升行业影响力。
研究领域: 深度学习 项目简介: 专病/慢性病(慢病)的管理是一个长期、复杂且费用高昂的过程,涉及到疾病的筛查、诊断和治疗管理。2024年9月央视网数据,我国慢性病发病率呈上升趋势,中国慢性病确诊人数为4亿。每年各种因素导致的近1030万死亡中,慢性病占比超80%。慢病管理的核心在于实现全生命周期、全病程的规范化、主动式管理。这通常包括患者入组、疾病评估、治疗方案制定、长期跟踪和随访等环节。例如,上海交通大学团队研发的全球首个面向糖尿病基层诊疗的视觉-大语言模型多模态集成智能系统DeepDR-LLM,能够基于患者个体的临床信息生成精准糖尿病管理意见。
研究领域: 多媒体 项目简介: 在支付宝平台上,存在着海量的帖子、文章、评论、商品信息、社群内容、以及其他各种形式的数字化内容,如何有效地对这些内容进行压缩和表示,是提升信息处理效率和赋能下游应用的关键。现有内容表征方法面临以下挑战: 1. 表征效率低下: 传统方法往往难以有效处理海量内容数据,表征效率较低,计算成本高昂。 2. 表征能力不足: 难以有效捕捉内容中的关键语义信息和上下文关联,表征能力有限,难以满足复杂应用的需求。 3. 通用性差: 现有方法往往针对特定类型或特定模态的内容,通用性较差,难以适应多样化的应用场景。 计划研发研发一种通用和灵活的基于大模型架构的内容表征引擎,能够对海量、多模态内容进行高效压缩和精准表征,为下游应用提供统一、高效的信息处理基础。 - 助力内容认知和理解场景获取更为准确的表征输出 - 支持需要长上下文场景的表征应用 - 提升表征的泛化性、跨领域表征适配能力增强 - 可灵活用于支持各类跨模态、跨domain的表征匹配任务