通义研究型实习生-跨模型生成能力融合技术研究
任职要求
1、扎实的工程能力,优良的编程风格,熟悉Python语言和PyTorch框架,具备复杂系统的设计开发调试能力。 2、优良的沟通表达能力、团队合作意识和经验;具备快速学习的能力,以及深入钻研技术问题的耐心。 3、熟悉主流扩散模型的原理,包括 Stable Diffusion、FLUX、LoRA、ControlNet、IP-Adapter 等。 4. 硕士及以上学历。 加分项 1、热爱开源技术,在 GitHub 上有具有影响力的代码仓库。 2、有突出的学术背景和创新研究能力,发表过 CCF-A/B 会议论文。 3、具备扎实的代码能力,有程序设计竞赛获奖经历。
工作职责
基于开源的 Diffusion 图像和视频生成模型,构建基础推理和训练引擎,探索前沿的 AIGC 技术,具体职责包括: 1、加入魔搭社区 DiffSynth-Studio 等开源项目的开发,接入先进的图像和视频生成模型,为业界提供领先的推理和训练引擎基建。 2、基于丰富的开源模型生态,探索 AIGC 技术的全新能力,开展多元化的科研项目,包括但不限于图像生成的思维链、跨模态模型的能力集成、理解-生成统一架构模型等,发表高水平学术论文。 3、参与魔搭社区的运营活动,为新模型的开源提供技术支持,推动 AI 技术的普及推广。
随着多模态音频大模型(如GPT-4o)的突破性发展,语音交互与音视频生成技术已成为AI领域的前沿阵地。当前技术面临实时性-生成质量权衡(如思维链机制引入导致推理时延显著增加)及可控性-鲁棒性不足(如时序同步性差、跨模态数据依赖性强)的双重挑战。本项目聚焦音频对话生成效率优化与多模态可控合成技术,重点攻克Test-Time-Scaling曲线建模(动态CoT启动、关键词压缩、隐状态连续表征)、扩散-语言模型融合架构设计、音视频统一生成等核心问题,旨在突破长序列推理效率瓶颈并增强跨模态对齐能力,推动智能语音助手、沉浸式媒体交互等场景的高效可控生成。
1. 研究并探索大规模语言模型及多模态大模型在推荐系统可解释性生成中的应用,包括基于大模型的解释生成、用户意图理解与个性化解释优化; 2. 跟进并研发大模型的关键技术链路,包括SFT、RLHF等,提升解释内容的准确性、自然性与用户可接受度; 3. 构建推荐-解释联合建模框架,融合RAG、COT、Agent 推理等技术,实现动态、透明、可信的推荐决策过程; 4. 探索多模态大模型在推荐场景下的可解释性表达能力,支持跨模态解释生成与用户交互;结合工业级推荐场景(如电商),推动研究成果落地,并持续优化线上效果与用户体验; 5. 撰写高水平学术论文,和业界、学术界保持良好的交流。
项目关注多模态大模型的前沿技术问题,特别是领域应用中的泛化能力不足,模型信息融合效率低,推理能力弱等关键问题,探索具备推理能力的、多模态高效融合的领域多模态大模型,沉淀可复制的技术方法,推动其在行业和领域的落地应用。 项目包含但不限于如下关键课题: 1、多模态推理技术研究:探索多模态推理数据构建与强化学习算法,关注多模态领域模型的协同推理机制,提升领域泛化能力; 2、模型原生架构探索:探索多模态数据协同处理的通用模型结构,实现跨模态数据的高效表征学习,探索理解与生成一体化的多模态大模型技术框架,进一步提升模型对领域泛化能力。